Modeling and prediction of El Niño in Piura using Artificial Neuronal Networks

Jiménez-Carrión, Miguel; Gutiérrez-Segura, Flabio; Celi-Pinzón, Jorge; Jiménez-Carrión, Miguel; Gutiérrez-Segura, Flabio; Celi-Pinzón, Jorge

doi:10.4067/S0718-07642018000400303

Services on Demand

Journal

Article

Automatic translation

Indicators

Cited by SciELO
Access statistics

Información tecnológica

On-line version ISSN 0718-0764

Inf. tecnol. vol.29 no.4 La Serena Aug. 2018

http://dx.doi.org/10.4067/S0718-07642018000400303

Artículos

Modelado y Predicción del Fenómeno El Niño en Piura, Perú mediante Redes Neuronales Artificiales usando Matlab

Modeling and prediction of El Niño in Piura using Artificial Neuronal Networks

Miguel Jiménez-Carrión¹

Flabio Gutiérrez-Segura²

Jorge Celi-Pinzón³

^¹ Facultad de Ingeniería Industrial, Dpto. Académico de Investigación de Operaciones, Universidad Nacional de Piura, Campus Universitario Miraflores, Castilla-Piura, Perú

^²Facultad de Ciencias, Dpto. Académico de Matemática, Universidad Nacional de Piura, Campus Universitario Miraflores, Castilla-Piura, Perú

^³Facultad de Ingeniería Industrial de la Universidad Nacional de Piura, Campus Universitario Miraflores, Castilla-Piura, Perú (e-mail: mjimenezc@unp.edu.pe; flabio@unp.edu.pe; jceli414@gmail.com)

Resumen

Se ha aplicado redes neuronales artificiales a los datos climáticos de precipitación, temperaturas superficiales de mar en diferentes zonas calificadas como Niño y la velocidad de los vientos alisios con el fin de modelar y predecir el fenómeno El Niño, con seis meses de anticipación a la presencia del mismo. El estudio se realiza en Piura, Perú. Se realiza un análisis preliminar de la información para determinar el grado de correlación entre las variables, luego se ha diseñado el modelado en dos fases, la primera usa las redes neuronales para modelar las variables como series temporales y en la segunda fase se diseña una red neuronal usando MatLab para que simule el comportamiento de las precipitaciones en Piura. Los resultados del estudio muestran que las redes neuronales son una técnica altamente confiable para encontrar un patrón de comportamiento de las precipitaciones y luego para predecir el fenómeno alcanzando una tasa de acierto del 98.4% en la etapa de entrenamiento y de 100% en la predicción del primer semestre del año 2016.

Palabras clave: modelación; predicción; el Niño; clima; redes neuronales; inteligencia artificial

Abstract

Artificial neural networks have been applied to climatic precipitation data, including surface sea temperatures in different areas classified as El Niño, and speed of trade winds with the purpose of modeling and predicting the climate phenomenon six months in advance to its appearance. The study was done in Piura, Peru. A preliminary analysis of the information is performed to determine the degree of correlation between variables. A model in two phases was later designed. In the first phase, neural networks using MatLab were used to model variables as time series and, in the second phase, a neural network was designed to simulate the nature of rainfall in Piura. The study shows that neural networks represents a highly reliable technique to find a pattern of precipitation and then for predicting the phenomenon with probability of 98.4% in the training step and 100% in the predicting step for the first semester of 2016.

Keywords: modeling; prediction; El Niño; neuronal networks; artificial intelligence

INTRODUCCIÓN

Las redes neuronales artificiales (RNA), sus diversas variantes o trabajando en forma hibrida con otros modelos han demostrado ser apropiadas para analizar diversos problemas relacionados con el reconocimiento de patrones y el análisis de datos cuya formulación mediante técnicas clásicas resulta difícil o inapropiada, más aún cuando se dispone de gran cantidad de información y problemas de alta no linealidad en los modelos, en particular, estas técnicas se han utilizado para predecir el clima. Modelos de RNA para predicción del tiempo meteorológico a escala local se pueden encontrar en (^{Cannon, 2007}; ^{Dibike y Coulibaly, 2006}). Las RNA muestran un mejor desempeño que otros cinco algoritmos de inteligencia artificial para modelar la temperatura del aire en el noroeste de México (^{Contreras-Navarro et al., 2016}). También se utilizan RNA para predecir la precipitación; una RNA perceptrón multicapa, optimizada con un algoritmo inspirado en el funcionamiento del riñón, es utilizada para predecir la precipitación (^{Jaddi y Abdullah, 2018}); RNA temporales se utilizan para predecir la precipitación y temperatura diaria en una región del norte de Quebec - Canadá (^{Nourani et al., 2009}); una RNA con retroalimentación, para mejorar las estimaciones del radar meteorológico de la precipitación se puede encontrar en (^{Teschl et al., 2007}). También se utilizan RNA para modelar otras variables relacionadas con el clima; RNA y Wavelets se aplican a datos históricos imprecisos (difusos) para predecir la radiación solar (^{Cao y Lin, 2008}); Una RNA con algoritmo de aprendizaje de propagación hacia atrás, se usa para la predicción de tormentas en el puerto de Taichung - Taiwan (^{Lee, 2008}); un sistema de predicción de la temperatura superficial del mar en el pacífico tropical del Perú basado en RNA multicapa se muestra en (^{Wu et al., 2006}).

Este trabajo se enfoca en El fenómeno El Niño (FEN), una de las más impactantes anomalías registradas sobre el planeta producida por un cambio en el sistema océano - atmósfera que ocurre en el océano pacífico y concluye abarcando a la totalidad del planeta, su poder de destrucción abarca inundaciones, deslizamientos de tierra que destruyen cosechas, favorece la formación de tormentas, de igual manera, aumenta la probabilidad de proliferación de vectores, así como la destrucción de viviendas, hospitales, centros de salud, escuelas, sistemas de redes eléctricas y de agua potable, además de dejar grandes pérdidas humanas y económicas. El Perú, y en especial la zona norte como Piura, es uno de los lugares que constantemente ha sufrido las consecuencias devastadoras de este fenómeno. El FEN se define científicamente como la respuesta dinámica del océano pacífico, al forzamiento prolongado de los vientos ecuatoriales, anomalías de la temperatura superficial del mar, la variación de la temperatura ambiental y el régimen de lluvias, la intensidad y duración del FEN depende de la magnitud de las anomalías y del área de influencia. La predicción meteorológica en el Perú se realiza con modelos numéricos basados en ecuaciones diferenciales parciales, estos modelos presentan problemas (no linealidad alta, son adaptados a la realidad regional, no contemplan incertidumbre) que no permiten una predicción confiable del FEN. A nivel descriptivo, el FEN en Piura ha sido estudiado en (^{Cabrera et al., 2016}; ^{Quispe et al., 2008}). En el periodo 2000 - 2010, se ejecutó el proyecto "Mejoramiento de la capacidad de pronóstico y evaluación del FEN para la Prevención y Mitigación de Desastres en el Perú" financiado por el Banco Mundial, en el que participaron IMARPE, IGP, SENAMHI, DHN (IGP, 2017), este proyecto dio inicio al modelado numérico en las diversas instituciones estatales dedicadas a temas climáticos, así mismo ha permitido fortalecer parcialmente las actividades de pronóstico a escala regional y mundial, sin embargo, la realidad muestra que es necesario mejorar y reforzar las actividades de predicción meteorológica.

Respecto al uso de las RNA en el FEN, en (^{Salini, 2010}) predicen el índice de oscilación sur, utilizando RNA con retroalimentación y entrenada mediante la técnica de propagación hacia atrás. Hasta donde se conoce, no se ha encontrado artículos con predicciones del fenómeno El Niño en la ciudad de Piura; sin embargo, se hicieron estudios similares a raíz de las inundaciones de diciembre del 2010 y enero del 2011 en Queensland obligando a la oficina australiana de meteorología a cambiar sus métodos de pronóstico de un método estadístico empírico a la aplicación de un modelo de circulación general (GCM), el Modelo Predictivo de Océanos y Atmósfera para Australia (POAMA). Sobre el particular (^{Abbot y Marohasy, 2017}) mencionan que sus estudios previos demostraron que se pueden lograr pronósticos de precipitaciones mensuales más hábiles usando redes neuronales artificiales (ANN). Este estudio amplía las investigaciones previas que se centran en la capacidad de la metodología de pronóstico para diferenciar entre eventos extremos de lluvia y más condiciones promedio, hasta con un año de anticipación. Se examinaron los sitios dentro de dos regiones geográficas de Queensland: (i) la costa de Queensland utilizando observaciones de lluvia de Bingera, Plane Creek y Victoria Mill; (ii) una región del sudeste de Queensland, que utiliza observaciones de precipitaciones de 54 estaciones meteorológicas, que se extienden aproximadamente 300 km hacia el norte a lo largo de la costa de Queensland, desde Gold Coast hasta Bundaberg, y aproximadamente 200 km hacia el interior. En ambas regiones el enfoque de redes neuronales artificiales permite una clara diferenciación entre los eventos extremos de lluvia y más condiciones promedio. Esto se ilustra con referencia a eventos extremos de lluvia como los ocurridos en diciembre de 2010, y más lluvias promedio como ocurrieron en diciembre de 2005 en el sureste de Queensland. La habilidad de pronóstico utilizando la metodología ANN es significativamente mejor que la informada para los pronósticos mensuales de lluvia a largo plazo utilizando un modelo de circulación general.

En el mismo sentido (^{He et al., 2015}), desarrollaron un modelo de red neuronal wavelet híbrida (HWNN) para pronosticar de manera efectiva las precipitaciones mensuales a partir de precipitaciones mensuales previas e índices climáticos incorporando el análisis de multi resolución (MRA), información mutua (MI) y optimización de enjambre de partículas (PSO) en modelos de red neuronal artificial (ANN). El método HWNN propuesto se examina con 255 estaciones de pluviómetros en Australia, y se compara con los métodos de referencia basados en series de tiempo no descompuestas. Los resultados muestran que el modelo HWNN mejora la precisión mensual de pronósticos de lluvia en Australia en comparación con los modelos de referencia, y la mejora es más significativa para las estaciones continentales en el sureste de Australia y las estaciones en el oeste de Australia.

En este trabajo se presenta una red neuronal artificial para predecir el fenómeno El Niño en la ciudad de Piura, con seis meses de anticipación, las variables de entrada son las temperaturas superficiales del mar en diferentes zonas calificadas como Niño y la velocidad de los vientos alisios.

METODOLOGIA

La metodología propuesta consta de 5 pasos: 1) recolección de la data; 2) tratamiento preliminar de la data; 3) modelado de las redes neuronales; 4) desarrollo del código; 5) análisis de estabilidad de las redes neuronales artificiales (RNA’s).

Paso 1: Recolección de la data

La data para el modelamiento y predicción del FEN, proviene de dos fuentes, se encuentra en forma mensual y cubre el período 1979 a 2015; la misma consta de las temperaturas superficiales del mar (ºC) de las zonas Niño 1+2, Niño 3, Niño 4 y Niño 3.4 ver Figura 1; y la velocidad de los vientos alisios (m/s) en la zona 165 ºW - 110 ºW, estos datos fueron obtenidos de los registros de la página web del Climate Prediction Center de la NOAA (NOAA, 2015) y la información correspondiente a las precipitaciones (mm), fue proporcionada de los registros del Proyecto Especial Chira Piura (PECHP, 2015), para el mismo período y corresponden a la estación meteorológica Miraflores ubicada en el campus universitario de la Universidad Nacional de Piura, cuyas coordenadas geográficas son, Latitud: 5º10’00.0” S, Longitud: 80º36’51.0” W y Altitud: 30 MSNM.

Fig. 1 Regiones El Niño en el Océano Pacífico Adaptada de SMN (2017)

Paso 2: Tratamiento preliminar de la data

Se realizó un análisis preliminar de los datos para determinar su comportamiento referido al grado de correlación entre ellas, utilizándose correlaciones de Pearson, verificándose que existe correlación entre la variable dependiente (Precipitación) y las variables independientes, con excepción de la relación, precipitación - temperatura Niño 4; de igual forma se verifica que existe correlación interna entre las temperaturas, con excepción de Niño 1+2 - Niño 4, en cuanto a las otras correlaciones se entiende que la conexión de una y otra temperatura es en cuanto al incremento o decremento que se da al mismo tiempo, y las no correlacionadas, tienen covarianza negativa lo que se entiende que tienen una posible relación inversa sin embargo no es significativa, ver Tabla 1. Se presume que las excepciones que se presentan entre las precipitaciones y la zona Niño 4 se deben a la lejanía de la zona hacia el lugar de influencia, Piura.

Tabla 1 Matriz de Correlaciones de Pearson (CP), para las variables del modelo, ** la correlación es significativa en el nivel 0,01 (bilateral); * la correlación es significativa en el nivel 0,05 (bilateral).

Así mismo se determinó para la serie precipitación una media de 15.33 mm, mediana 0.2 mm y moda igual a cero (0), con una desviación estándar de 71.93 mm, un coeficiente de asimetría de 7.7, con intervalos de variación como mínimo cero (0) mm y como máximo 778.4 mm; por otra parte, se graficaron los datos de la precipitación de los 444 meses que comprende el período, se observó que no seguían ningún patrón teórico de comportamiento, por el contrario, se mostró comportamiento errático y a veces atípico en los períodos diciembre 1982 a junio 1983 y diciembre 1997 a abril 1998 circunstancias que se les conoce como niño extraordinario, ver figura 2.

Fig. 2 Precipitaciones en Piura (mm) período 1979 - 2015

Cuando se distribuyen los datos de precipitación mensualmente se observa que tienen una distribución asimétrica hacia la derecha ver figura 3, y que en la estación de verano de enero hasta abril se concentra el periodo lluvioso siendo el mes de abril el que tiene una media superior al resto de meses en la precipitación llegando hasta 52.5 mm, y con frecuencia en los meses de julio a noviembre prácticamente no hay precipitaciones. La media anual se mantiene en 15.33 mm y una desviación estándar del orden de 71.93 mm.

Del mismo modo, se analizaron la distribución de las temperaturas superficiales del mar mensualmente en las zonas Niño 1+2, Niño 3, Niño 4 y Niño 3.4; con medias de 23.42 ºC, 26.10 ºC, 28.66 ºC y 27.10 ºC y las desviaciones estándar correspondientes fueron, 2.2 ºC, 1.21 ºC, 0.63 ºC y 0.92 ºC; observándose en todos los casos una distribución simétrica y frecuencia aproximadamente uniforme.

Fig. 3 Diagrama de precipitaciones promedio mensuales

Con relación a los vientos su comportamiento tiene una distribución asimétrica a la derecha con una marcada disminución de su frecuencia conforme avanza los meses de enero hasta junio haciéndose negativa en razón a que el movimiento del viento es en sentido contrario en los meses de julio a septiembre, para comenzar a aumentar de octubre a diciembre ver figura 4, su media es de 6.12 m/s y su desviación estándar de 8.07 m/s.

Fig. 4 Diagrama de la velocidad de los vientos alisios promedio mensuales

Paso 3: Modelado de las redes neuronales artificiales

El análisis de la información nos condujo a diseñar y programar tres modelos de redes neuronales artificiales en dos fases, la primera fase utiliza los modelos 1 y 2 como series temporales la segunda fase utiliza el modelo 3 como una relación causa y efecto; el primer modelo ecuación 1, se diseñó para las series temporales de las variables de temperatura superficial del mar (tsm), en las zonas calificadas como Niño, diseñándose cuatro redes una para cada zona Niño; el segundo modelo ecuación 2, se diseñó la red neuronal para la variable serie temporal velocidad de los vientos alisios, en este caso solo hay una red; el modelo 3, ecuación 3, se diseñó para la variable precipitación en la ciudad de Piura, igualmente solo hay una red; en esta red neuronal las variables de entrada son “tsm Niño 1+2”, “tsm Niño 3”, “tsm Niño 4”, “tsm Niño 3.4” y “velocidad de los vientos alisios”, que constituyen las variables explicativas, es decir explican la variable de salida o dependiente “precipitación en Piura”; éstos modelos utilizan el perceptrón multicapa, previa adecuación de los datos para cada red neuronal. En todos estos modelos de redes neuronales se utilizó el algoritmo de aprendizaje de Levenberg-Marquardt y la función tangente hiperbólica como función de activación.

Los dos primeros modelos de redes neuronales se trabajaron como series temporales lo que significa que el número de variables en la capa de entrada de estas redes está en función del retardo a considerar en el diseño de la red, los mismos que variaron entre 4, 8 y 12, es decir considerar 4 meses, 8 meses o 12 meses para predecir el 5^to mes, el 9^no mes o 13^avo mes respectivamente; esto implica que para cada valor de retardo cada serie temporal tiene que adecuarse para entregarle a la red los patrones correspondientes de entrada y de salida. Con respecto al tercer modelo y de conformidad al análisis correlacional no se debe incluir la serie temporal relacionada con la “tsm Niño 4”, en razón a que no existe relación entre la precipitación y la tsm de la zona Niño 4; no obstante, se le incluye porque la RNA lo detectará y actuará en consecuencia.

Paso 4: Desarrollo del código

Se utilizó Matlab para la implementación de las redes neuronales de los modelos anteriores, el código se inicia con la lectura de la data que consta de 444 registros o patrones y cada registro contiene 6 campos (precipitación, tsm Niño 1+2, tsm Niño 3, tsm Niño 3.4, tsm Niño 4 y velocidad de los vientos); en todos los modelos se hace una transformación de los datos entre -1 y 1, para evitar enmascaramiento y pasar todos los diferentes rangos de datos a un solo rango definido; luego en el código se consideró la adecuación de los patrones para cada red neuronal, por tanto para los dos primeros modelos se extrae la serie correspondiente y adapta esta para conseguir los patrones respectivos para cada retardo, esto obliga a tener los siguientes patrones de entrada: para el retardo de 4 se obtiene 440 registros con 5 campos, los primeros 4 son las variables de entrada y el último campo la variable de salida; para el retardo de 8, se obtiene 436 registros con 9 campos, de los cuales los 8 primeros campos son las variables de entrada y el campo 9, es la variable de salida; de igual modo se procedió con el retardo de 12, obteniéndose 432 registros con 13 campos de los cuales los 12 primeros corresponden a las variables de entrada y el campo número 13, corresponde a la variable de salida de la red; en todos estos conjuntos de patrones se diseñó el código para distribuir la data utilizando 70% para entrenamiento, 15% para prueba y 15% para validación. Luego de hacer todas las pruebas indicadas en los dos primeros modelos y determinados los parámetros de la mejor red para cada serie, en función del menor error cuadrático medio; se procedió ejecutar la red de cada serie para hacer pronósticos seis meses a futuro esto es para el primer semestre del 2016. Con los datos pronosticados, se procedió a determinar la mejor red para el tercer modelo usando la misma proporción es decir de los 444 patrones el 70% se usó en el entrenamiento, 15% en prueba y 15% en validación, sin embargo, una vez seleccionada la mejor red de este modelo, para la predicción se volvió a entrenar la red seleccionada, pero con el 100% de los patrones para posteriormente hacer la predicción del primer semestre del año 2016.

Paso 5: Análisis de estabilidad de las RNA

La estabilidad del sistema en los resultados entregados se determina con un análisis de varianza usando la ecuación (4), para el modelo 1, con el fin de establecer si existen diferencias significativas en los resultados. En esta ecuación el parámetro y ijk representa la respuesta de la RNA expresada en el error cuadrático medio de los datos de validación luego del aprendizaje (ecm); 𝜏 𝑖 , es el efecto causado por el i-esimo factor A (Retardos 4, 8 y 12) y 𝛽 𝑗 es el efecto causado por el j-esimo factor B (número de neuronas en capa oculta 5, 15 y 25); (𝜏𝛽) 𝑖𝑗 representa el efecto de la interacción AxB; 𝑒 𝑖𝑗𝑘 representa el error causado por el i-esimo factor A, j-esimo factor B en la réplica k. Para el modelo 2, se utiliza la misma ecuación 4, y lo que cambia son los valores de los niveles del factor B (8,16 y 24). La ecuación (5), se utiliza para la RNA del modelo 3 en razón a que ésta tiene tres factores, número de neuronas en capa oculta 1, factor A (4, 7 y 10), número de neuronas en capa oculta 2, factor B (7, 14, 21); y número de épocas, factor C (150, 200 y 250). Para todas las redes neuronales la información recolectada debe cumplir los requerimientos de independencia y normalidad requeridos. El análisis de varianza es realizado bajo un intervalo de confianza del 95% y 99%.

Adicionalmente se realizó en análisis de Duncan para determinar que factor y a qué nivel proporciona mejores respuestas el modelo predictivo.

RESULTADOS Y DISCUSIÓN

El análisis de varianza con disposición factorial del primer modelo mostró en todos los casos diferencias altamente significativas a un nivel del 99%, entre los factores retardo y número de neuronas en la capa oculta, con excepción de la zona Niño 1+2, que solo mostró significación a un nivel de 95 % en el factor número de neuronas en la capa oculta; y alta significación a un nivel del 99% en el factor número de retardos, con relación al análisis de Duncan (^{Johnson et al.,1997}), las redes neuronales artificiales del primer modelo que mostraron estadística y numéricamente menores errores cuadráticos medios en todos los casos estudiados, fueron aquellas que tienen como retardo 12 meses y 25 neuronas en la capa oculta, estos mismos factores muestran influencia en la interacción, registrándose los menores errores promedio como: 0.005175, 0.005423, 0.009528 y 0.007895, respectivamente en las zonas de estudio y cuyos coeficientes de variabilidad respectivos son, 0.1234 %, 0.0581 %, 0.0041 % y 0.0215 % los resultados se pueden observar en la Tabla 2.

Tabla 2 Análisis de Duncan del error cuadrático medio (ecm) de las RNA’s modelo 1, de la temperatura superficial del mar en las zonas Niño 1+2, Niño 3, Niño 4 y Niño 3.4; con nivel de significación de 0.05 y 27 grados de libertad del error

Es necesario precisar que las redes neuronales seleccionadas de este primer modelo son cuatro, una para cada zona, están compuestas por 12 neuronas en la capa de entrada (retardos), 25 neuronas en la capa oculta y una neurona en la capa de salida, lo que permitirá predecir el mes de enero del año 2016 en cada zona y para conseguir la predicción del mes de febrero del 2016, se ingresa a la red esta predicción de enero y así sucesivamente hasta conseguir todos los datos del primer semestre del año 2016. Hasta aquí solo tenemos las predicciones de las temperaturas superficiales del mar del primer semestre del año 2016, en las zonas calificadas como Niño. En el segundo modelo el análisis de varianza de la red neuronal referida a la serie temporal velocidad de los vientos alisios muestra que existe diferencias altamente significativas entre los factores retardos y el número de neuronas en la capa oculta, así mismo se aprecia significación en las interacciones con un coeficiente de variabilidad de 0.0372%. El análisis de Duncan muestra que el factor retardo en su nivel 12, mostró estadísticamente el mejor resultado en el error cuadrático medio con un valor de 0.04134 y en el factor número de neuronas en la capa oculta los niveles de 16 y 24 meses alcanzaron los menores errores cuadráticos medios comportándose estadísticamente iguales, sin embargo numéricamente el nivel de 24 meses tiene el menor error con un valor de 0.05270; asimismo las interacciones 12x16 y 12x24 son estadísticamente iguales y fueron las que superaron al resto, sin embargo numéricamente la interacción que obtuvo el menor error medio cuadrático fue 12x24 con 0.032660. Los datos se muestran en la Tabla 3.

Tabla 3 Análisis de Duncan del error cuadrático medio de la RNA modelo 2, de la velocidad de los vientos alisios; con nivel de significación de 0.05 y 27 grados de libertad del error.

En el segundo modelo la red seleccionada está compuesta por 12 neuronas en la capa de entrada (retardos), 24 neuronas en la capa oculta y una neurona en la capa de salida; las predicciones del primer semestre del año 2016, se realiza del modo ya comentado en el primer modelo.

Fig. 5 Comportamiento del error en el aprendizaje del Modelo 1, Línea color azul datos de entrenamiento, línea de color verde, datos de validación, línea de color rojo, datos de prueba.

Las gráficas de la Figura 5, muestran el comportamiento del error medio cuadrático durante el aprendizaje de las cuatro redes neuronales seleccionadas anteriormente los datos del aprendizaje usan, 302 datos de entrenamiento, 65 datos de test y 65 datos de validación total 432 patrones que son los que se obtienen después de adecuar la data de los 444 meses. El error cuadrático medio con el cual se valida la red es el indicado en con el circulo verde en cada gráfica, además en la parte inferior se registra el menor error cuadrático medio y en que época se presenta referido a los datos de validación. En forma general se observa que todas las redes neuronales construidas en este modelo logran alcanzar valores de error muy pequeños, y el análisis de las respectivas regresiones son superiores en todos los casos a 0.99 indicando que existe una alta correlación entre los datos de la salida de la red neuronal y los targets o deseados.

Analizando el comportamiento del error medio cuadrático durante el aprendizaje de la red en el segundo modelo referido a la velocidad de los vientos alisios, se observa que el error cuadrático medio con el cual se valida la red es 0.00032564 y se encuentra en la época número 243, conforme se aprecia en la parte inferior de la gráfica para los datos de validación. Así mismo se observa un alto grado de correlación entre las variables de salida de la red neuronal y los valores deseados o targets, pues así lo demuestra el factor de regresión superior a 0.99, correspondiente a los datos de entrenamiento, test y validación y todos ellos juntos; ver Figura 6.

Fig. 6 Comportamiento del error en el aprendizaje del Modelo 2, Línea color azul datos de entrenamiento, línea de color verde, datos de validación, línea de color rojo, datos de prueba. ecm=32.564e-05, época 243.

En este estado termina la primera fase para la predicción del FEN en Piura, reportando los datos de salida de las redes neuronales referidos a las temperaturas superficiales del mar y a la velocidad de los vientos con la predicción del primer semestre del 2016, en la Tabla 4 se muestra tanto los datos que predicen las redes neuronales de los modelos 1 y 2 y los datos reales ocurridos durante el primer semestre del 2016 y se observa claramente que los errores son mínimos.

Tabla 4 Predicción de las RNA y Datos reales del primer semestre del 2016 (tsm y velocidad de los vientos)

La segunda fase se inicia recolectando los datos del error cuadrático medio de todas las instancias con cuatro repeticiones del modelo 3; esta recogida de información tomó aproximadamente 90 minutos en concluirse y el análisis de varianza con disposición factorial muestra que los factores número de neuronas en la capa oculta 1 y número de neuronas en la capa oculta 2, tienen influencia altamente significativa en el error cuadrático, sin embargo, el factor número de épocas resulta ser indiferente en el error cuadrático medio y esto se debe a que se consigue un error muy pequeño del orden de los centésimos o menos a partir de 150 épocas.

En el análisis de la interacciones se observa que únicamente hay alta significación cuando interactúan solo dos factores estos son: número de neuronas en la capa oculta 1 y número de neuronas en la capa oculta 2; sin embargo cuando interactúan separadamente los factores 1 y 2 con el factor número de épocas no se observa influencia significativa en el error cuadrático medio; finalmente la interacción de los tres factores tampoco muestran influencia en el error cuadrático medio lo que significa que el factor número de épocas no influye en los resultados debido a que se consigue errores muy pequeños con pocas épocas de manera que aun cuando siga iterando el algoritmo de aprendizaje, las mejoras logradas no son de gran magnitud que provoquen un cambio en los resultados del error cuadrático medio. El coeficiente de variabilidad fue de 1.2022%, ver Tabla 5.

Tabla 5 Análisis de varianza del modelo 3, en disposición factorial de 3x3

Con respecto al análisis de Duncan en la Tabla 6, se observa que el primer factor, número de neuronas en la capa oculta 1, con 4 y 7 neuronas tienen mejores resultados y se comportan estadísticamente iguales; en el segundo factor, número de neuronas en la capa oculta 2, con 14 y 21 se lograron mejores resultados comportándose estadísticamente iguales y en relación al factor número de épocas pues se puede decir que todos los niveles de épocas son estadísticamente iguales, lo cual confirma lo que el análisis de varianza advierte; con respecto a las interacciones todas se comportan estadísticamente iguales con excepción de 10x7x150, 10x7x200 y 10x7x250, que tienen un error mayor al resto, sin embargo la interacción que numéricamente alcanzó el menor error cuadrático medio con 0.000003 es 10x14x250 y es la red que se selecciona para modelar las precipitaciones y en consecuencia predecir el FEN.

Tabla 6 Análisis de Duncan del cuadrado medio del error de la precipitación; con nivel de significación de 0.05 y 81 grados de libertad del error. CV = 1.2022 %

La red del tercer modelo se caracteriza por tener 5 neuronas en la capa de entrada, que corresponden a las variables de los modelos 1 y 2, esto es: tsm Niño 1+2, tsm Niño 3, tsm Niño 4, tsm Niño 3.4 y velocidad de los vientos alisios de la primera fase; 10 neuronas en la primera capa oculta, 14 neuronas en la segunda capa oculta y una neurona en la capa de salida que es la precipitación; se utilizó los 444 patrones de los cuales 312 se utilizaron para el entrenamiento de la red, 66 patrones para prueba y 66 patrones para la validación; el algoritmo de entrenamiento fue Levenberg-Marquardt. Asimismo, se realizó escalamiento de todos los datos entre -1 y 1 y el comportamiento de la red neuronal durante el aprendizaje, se puede apreciar en la figura 7, donde el menor error con los datos de validación se alcanza en la época 246 con un ecm de 0.000012787; debe entenderse que los datos de prueba y validación no se utilizan durante el entrenamiento, sin embargo se muestran en la gráfica para ver cómo es su evolución conforme la red va aprendiendo, además los datos de validación evitan un sobre entrenamiento.

Fig. 7 Comportamiento del error en el aprendizaje del Modelo 3, Línea color azul datos de entrenamiento, línea de color verde, datos de validación, línea de color rojo, datos de prueba. ecm=1.2787e-05, época 246.

Una vez entrenada la red, se usan los pesos aprendidos para simular las precipitaciones de todo el periodo 1979 - 2015, pero volviendo los datos a su estado original sin trasformación para luego compararlos con la precipitaciones reales del mismo período observándose que la red neuronal sigue muy de cerca los datos históricos reales de las precipitaciones conforme se puede apreciar en la gráfica de la Figura 7, sobre esta gráfica se puede comentar que la red acierta correctamente los Niños calificados como extraordinarios, sin embargo, ampliando la gráfica se pueden observar que existen algunos errores de precisión en precipitaciones inferiores a 40mm. En este caso el error cuadrático medio de los datos transformados entre los datos reales y los proporcionados por la red de todos los 444 patrones es de 0.000037909 y un error porcentual medio absoluto (mape) de 0.2492; con lo cual queda validada la red del modelo 3, 10x14x250, para hacer la predicción.

Predicción de la precipitación (FEN) para el primer semestre del 2016, en piura

Se realiza la predicción del fenómeno El Niño en Piura, de dos maneras diferentes, primero utilizando la RNA seleccionada en la fase 2 y luego diseñando una nueva red como reconocimiento de patrones; en el primer caso además de predecir el primer semestre con la RNA, se hace un análisis predictivo utilizando el método de Winter y se comparan; en el segundo caso primero se entrena la red con 312 meses, validación 66 meses y prueba de 66 meses, se simulan todos los patrones de las precipitaciones con la red y se comparan con los 444 patrones deseados de las precipitaciones y posteriormente se hace la predicción del primer semestre.

Utilizando la RNA 10x14x250 y el Modelo matemático de Winter

Utilizando las predicciones de las redes neuronales de los modelos 1 y 2 de la primera fase, como se muestra en el lado izquierdo de la tabla 4, y utilizando el modelo de RNA seleccionado en la segunda fase modelo 3, luego del aprendizaje, el cual queda registrado en los pesos sinápticos y los bias de la RNA, tales como los pesos W_10x5 entre la entrada y la primera capa oculta, bias de la capa oculta1de orden 10x1; pesos sinápticos W_14x10 entre la capa oculta 1 y la capa oculta 2, bias de la capa oculta 2 de orden 14x1; pesos sinápticos W_1x14 entre la capa oculta 2 y la salida de la RNA con su respectiva bia de la capa de salida de orden 1x1; se realiza la predicción de las precipitaciones para el primer semestre del año 2016 (predicción del FEN en Piura), los resultados se muestran en la Tabla 7, en donde se puede observar que usando los datos transformados entre los datos de precipitaciones reales con los datos de la RNA también transformados, el error medio cuadrático de la predicción es de 0.00110 y el error porcentual medio absoluto de 2.21 %; demostrando una alta precisión en la predicción. Observando los datos reales y la predicción sin transformarlos, en enero lo real es 0.8 y la predicción del RNA 0.00058, el impacto que provoca ambas es el mismo en términos de daño, en febrero los datos reales indicaron precipitación media de 52 mm y comparado con lo de la RNA 23.3899 mm indica que la predicción se quedó a la mitad; en marzo la predicción de la red es ligeramente superior 95.6169 contra 82 mm de precipitación real, en este caso se puede considerar en términos de impacto de daño como iguales; lo mismo ocurre para los meses de abril mayo y junio decir que llovió 0.37308 mm según la RNA y lo que ocurrió fue cero (0) es lo mismo; 0.0086 predicción de la red comparado con 0 lo real, también es lo mismo y finalmente en junio la predicción de la RNA fue de 0.09757 comparado con 0 dato real, también se considera lo mismo. Estos resultados indican de manera integral que la predicción de la RNA funciona perfectamente cuando existen precipitaciones superiores a los 80 mm y con menor precisión los que están por debajo de este rango lo cual es coincidente con lo que manifiesta (^{Abbot y Morohasy, 2017}), cundo afirma que las RNA tienen la capacidad de diferenciar entre las condiciones promedio y los eventos inminentes de precipitación extrema.

Los resultados obtenidos por el método de Winter son de menor calidad que las redes neuronales artificiales, conforme se puede apreciar en la misma tabla 7.

Tabla 7 Predicción de la RNA con los datos reales y contrastación con el modelo de Winter año 2016

Haciendo un análisis extensivo mediante una clasificación de las precipitaciones del período 1979 - 2015, en clases de diferente rango podemos observar en la Tabla 8, que las salidas de la red en el mismo período son muy precisas con respecto a las salidas deseadas (targets) tanto en la media de cada clase como en la desviación estándar, sin embargo, en las fronteras de las clases 1 y 2 hay solo un error en la clasificación por parte de la RNA, al clasificar un dato en la primera clase siendo este de la segunda clase; por otro lado las medias y las desviaciones estándar tanto de la salida de la RNA como la salida deseada hay coincidencias, con pequeñas diferencias. Sobre estos resultados podemos afirmar que en el análisis existen ciertas coincidencias con el enfoque planteado por (^{He et al., 2015}), en su investigación cuando aplica un modelo de red neuronal artificial wavelet hibrida (HWNN), aplicando análisis multi resolución que le permite la segmentación de las precipitaciones mensuales e índices climáticos para identificar subconjuntos de subseries que constituyen la entradas para las RNA’s los que unidos a los retardos se generan soluciones que serían los pronósticos de la subserie de anomalía de lluvia en la escala o rango correspondiente; durante la optimización de la RNA’s utiliza el algoritmo de enjambre de partículas, que luego utiliza el mejor predictor para la predicción de las anomalías de lluvia, el uso de varios algoritmos en su investigación se justifica por haber trabajado con 255 pluviómetros en Australia.

Tabla 8 comportamiento agrupando las precipitaciones en 5 clases entre RNA vs datos Reales

Utilizando una RNA como reconocimiento de Patrones

Utilizando una nueva RNA para clasificar las precipitaciones de acuerdo con la clasificación propuesta en la tabla 8, la nueva RNA se caracteriza por tener cinco neuronas en la capa de entrada, 7 neuronas en la capa oculta y 5 neuronas en la capa de salida, correspondientes a cada una de las clases siguientes; clase 1, sin Niño: precipitación entre 00 - 30; clase 2, Niño débil: precipitación entre 30.001 - 83; clase 3, Niño moderado: precipitación entre 83.001 - 200; clase 4, Niño fuerte: precipitación entre 200.001 - 425; clase 5, Niño extraordinario: precipitación entre 425.001 a más. Se usó los 444 patrones para el entrenamiento previa transformación de los datos de tsm y vientos entre -1 y 1 los resultados muestran una precisión promedio en el reconocimiento de las precipitaciones de 98.38% de acierto basado en 10 repeticiones de ejecución del algoritmo de aprendizaje de la red, con 1500 épocas, (97.97, 98.42, 98.20, 98.20, 98.42, 98.42, 98.20, 98.42, 98.65, 98.87) y con una esperanza del error cuadrático medio de estas 10 repeticiones de 0.10521; es decir de los 444 patrones la red ha logrado reconocer en promedio 436.8 patrones. Cómo ejemplo se muestra en la tabla 9, la matriz de confusión de una de las corridas de la red neuronal cuando reconoce 438 patrones después del aprendizaje de un total de 444; lo que nos indica un porcentaje de acierto global de 98.65%, la precisión en clasificar cada una de las clases es respectivamente 99.27%, 83.33%, 90%, 100% y 100%; y cuando la clasificación es la correcta logra clasificar el 99.76%, 76.92%, 81.82%, 100% y 100% para cada una de las clases, indicador se conoce como Sensibilidad; finalmente cuando la clase no lo corresponde la RNA logra clasificar el 84.85%, 99.54%, 99.77%, 100% y 100% adecuadamente en cada una de las clases respectivamente, indicador conocido como especificidad. Nótese que la RNA replica los datos históricos con un 100% de acierto en las clases altas es decir la clase Niño fuerte y Niño extraordinario, y la clase que menos precisión muestra es la clase 3.

Tabla 9 Matriz de confusión sobre el modelado de los datos históricos

Finalmente, cuando se aplicó la RNA como clasificador a los datos del primer semestre del 2016, acertó el 100% de las clases en las se agrupan las precipitaciones. Estos resultados contribuyen a afirmar que las redes neuronales artificiales son muy buenas en el modelamiento de las precipitaciones medias mensuales y en la predicción con 6 meses de anticipación a partir de las temperaturas superficiales del mar de las zonas denominadasla Niño y los vientos alisios.

CONCLUSIONES

De los resultados mostrados, el análisis y discusión de resultados se afirma las siguientes conclusiones sobre el uso de herramientas inteligentes en la predicción del FEN, en Piura: 1) Las redes neuronales artificiales utilizadas en dos fases modelan y predicen las precipitaciones en Piura, con 6 meses de anticipación, con un mínimo error cuadrático medio de 0.00110 y un error porcentual medio absoluto (mape) de 2.21%, garantizándose su uso; 2) Los resultados indican de manera integral que la RNA modela y predice con alta precisión cuando existen precipitaciones superiores a los 80 mm y con menor precisión los que están por debajo de este nivel; 3) Cuando se utilizó la rede neuronal como un clasificador ésta reconoció en promedio global 98.38% de un total de 444, y cuando se aplicó a la predicción del primer semestre del año 2016, el acierto fue de 100%; 4) Las temperaturas superficiales del mar en las zonas llamadas Niño y los vientos alisios tienen una alta correlación con la precipitación en Piura, excepto la tsm de la zona Niño 4; 5) Se puede ampliar la investigación para incluir todas las estaciones meteorológicas del departamento de Piura.

REFERENCIAS

Abbot, J. y Marohasy, J. Forecasting extreme monthly rainfall events in regions of Queensland, Australia using artificial neural networks, doi: 10.2495/SDP-V12-N7-1117-1131, International Journal of Sustainable Development and Planning, 12(07), 1117-1131 (2017) [ Links ]

Cabrera, J., Yupanqui, R.T. y Rau, P. Validation of TRMM Daily Precipitation Data for Extreme Events Analysis. The Case of Piura Watershed in Peru, doi: 10.1016/j.proeng.2016.07.436, Procedia Engineering, 154, 154-157 (2016) [ Links ]

Cannon, A. J., Nonlinear Analog Predictor Analysis: A Coupled Neural Network/Analog Model for Climate Sownscaling, doi: 10.1016/j.neunet.2007.04.002, Neural Networks, 20(4), 444-453 (2007) [ Links ]

Cao, J. y Lin, X. Application of the Diagonal Recurrent Wavelet Neural Network to Solar Irradiation Forecast Assisted with Fuzzy Technique, doi: 10.1016/j.engappai.2008.02.003, Engineering Applications of Artificial Intelligence, 21(8), 1255-1263 (2008) [ Links ]

Contreras-Navarro, E., García-Cueto, O.R., González-Navarro, F.F. y Valenzuela-Palacios, E.A. Modelado de las Temperaturas del Aire a 850 milibares: un Potencial Indicador de las Ondas Cálidas en el Noroeste de México, doi: 10.4067/S0718-07642016000200017, Información Tecnológica, 27(2), 141-152 (2016) [ Links ]

Dibike, Y.B. y Coulibaly, P. Temporal Neural Networks for Downscaling Climate Variability and Extremes, Neural Networks , 19(2), 135-144 (2006) [ Links ]

He, X., Guan, H. y Qin, J. A hybrid wavelet neural network model with mutual information and particle swarm optimization for forecasting monthly rainfall, doi: 10.1016/j.jhydrol.2015.04.047, Journal of Hidrology, 527, 88-100 (2015) [ Links ]

Jaddi, N. S. y Abdullah, S. Optimization of neural network using kidney-inspired algorithm with control of filtration rate and chaotic map for real-world rainfall forecasting, doi: 10.1016/j.engappai.2017.09.012, Engineering Applications of Artificial Intelligence , 67, 246-259 (2018) [ Links ]

Johnson, R.A., Miller, I. y Pozo, J.E. Probabilidad y estadística para ingenieros de Miller y Freund. 5ta edición, 416, Prentice-Hall Hispanoamericana, México (1997) [ Links ]

Lee, T. L., Back-Propagation Neural Network for the Prediction of the Short-Term Storm Surge in Taichung Harbor, Taiwan, doi: 10.1016/j.engappai.2007.03.002, Engineering Applications of Artificial Intelligence , 21(1), 63-72 (2008) [ Links ]

Nourani, V., Alami, M.T. y Aminfar, M.H. A Combined Neural-Wavelet model for prediction of Ligvanchai Watershed Precipitation, doi: 10.1016/j.engappai.2008.09.003, Engineering Applications of Artificial Intelligence , 22(3), 466-472 (2009) [ Links ]

Quispe, C., Tam, J., Saavedra, M. e Gonzáles, I. Índice Basado en Presiones Atmosféricas para la Detección de Efectos de El Niño y la Oscilación del Sur frente a la Costa Peruana, Revista Peruana de Biología, 15(2), 137-140 (2008) [ Links ]

Salini, G., Pronosticando el Índice Enso Varios Pasos en Adelante mediante Técnicas de Modelamiento no Lineal, doi: 10.4067/S0718-33052010000300006, Ingeniare: Revista Chilena de Ingeniería, 18(3), 326 -334 (2010) [ Links ]

Teschl, R., Randeu, W.L. y Teschl, F. Improving Weather Radar Estimates of Rainfall using Feed-Forward Neural Networks, doi: 10.1016/j.neunet.2007.04.005, Neural networks, 20(4), 519-527 (2007) [ Links ]

Wu, A., Hsieh, W.W. y Tang, B. Neural Network Forecasts of the Tropical Pacific Sea Surface Temperatures, doi: 10.1016/j.neunet.2006.01.004, Neural Networks , 19(2), 145-154 (2006) [ Links ]

Received: February 15, 2018; Accepted: April 09, 2018

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons