calnum.files.wordpress.com · web viewcomo se puede apreciar del diagrama de dispersión no se...
TRANSCRIPT
MODELOS PREDICTIVOS PARA LA ESTIMACIÓN DE
LA RADIACIÓN SOLAR
Msc. Jesús Suniaga1. Ing. José Barrios2. Ing. Luis Chirinos3
Universidad Nacional Experimental Politécnica de la Fuerza Armada. Núcleo Nueva
Esparta. Dirección de Extensión. Unidad de Extensión Académica. Juan Griego.
Venezuela.
1Email: [email protected]
2Email: [email protected]
3Email: [email protected]
RESUMEN
El objetivo de la presente investigación consistió en obtener modelos predictivos
para la estimación de la radiación solar en cuatro estaciones meteorológicas de Colombia
“El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas de las Zonas:
Norte. Cordillera Oriental. Sur y Zona central Andina tomando como datos la información
meteorológica presentada por Orlando Guzmán Martínez. José Vicente Baldión Rincón y
otros (2013).
En este trabajo se usó la metodología de Aprendizaje automático (Machine learning)
para ajustar cinco modelos de Regresión a la data. Los modelos considerados fueron: lineal
simple, exponencial, potencial, cuadrático y cúbico tomando como variable independiente
el brillo solar y como variable dependiente la radiación solar.
Los principales resultados fueron la obtención de cuatro modelos de regresión
diferentes, uno para cada estación meteorológica lo que permitirá predecir la Radiación
Solar (y) para nuevos valores del Brillo Solar (x). Para la estación de El Rosario, se obtuvo
el modelo cúbico y=76.43−49.67 x+12.74 x2−1.04 x3 (R2=82.67 %). Para la Estación de
Santa- Bárbara el modelo obtenido fue el modelo cúbico:
y=76.43−49.67 x+12.74 x2−1.04 x3 con un coeficiente R2=94.7 %. Para la Estación La-
Trinidad. se obtuvo el modelo exponencial: y=e2.306∗e0.094 x con un R2=97.30 % y para la
Estación de Maracay el modelo fue cúbico dado por la ecuación
y=−28.88+25.88 x±5.17 x2+0.35 x3. ( R2=96.64 % ) .
Palabras claves: Radiación Solar. Brillo Solar. modelos de Regresión. Aprendizaje
automático
ABSTRACT
The objective of the present investigation was to obtain predictive models for the
estimation of solar radiation in four meteorological stations of Colombia: "El-Rosario",
"Santa Bárbara", "La Trinidad", and "Maracay" representative of the Zones: North.
Cordillera Oriental, Sur and Central Andean Zone respectively, taking as data the
meteorological information presented by Orlando Guzmán Martínez, José Vicente Baldión
Rincón and others (2013).
In this work we used the methodology of Machine Learning to adjust five models of
Regression to data. The models considered were: simple linear, exponential, potential.
quadratic and cubic, taking the solar brightness as an independent variable and the solar
radiation as a dependent variable.
The main results were the obtaining of four different regression models, one for
each meteorological station, which will allow predicting Solar Radiation (y) for new values
of solar brightness (x). For the El-Rosario station was obtained the cubic model
y=76.43−49.67 x+12.74 x2−1.04 x3 (R2=82.67 %¿. For Santa Barbara Station the model
obtained was the cubic model: y=76.43−49.67 x+12.74 x2−1.04 x3 withR2=94.7%. For
the La Trinidad Station, the model obtained was the exponential: y=e2.306∗e0.094 x (
R2=97.30 % ) and for the Maracay Station the model was cubic given by the equation
y=−28.88+25.88 x±5.17 x2+0.35 x3. ( R2=96.64 % )
Keywords: Solar Radiation. Solar Brightness. Regression models. Machine
Learning
1. INTRODUCCIÓN
La gran demanda energética en todo el mundo ha suscitado un gran interés por el
uso de energías no convencionales tales como fuente de energías renovables que es la que
se aprovecha directamente de los recursos considerados inagotables tales como la energía
solar. Esta fuente no es contaminante ni generan residuos, como las de origen de generación
eléctrica convencional.
La energía solar es un recurso viable en las óptimas condiciones meteorológicas que
predominan en la región, sin embargo las diferentes mediciones respecto a los parámetros
de radiación en algunos casos no se pueden obtener directamente por carecer del debido
equipo instrumental que es costoso y muchas veces no están disponibles en la región. Una
alternativa poco costosa es la de usar un modelo predictivo adecuado para calcular la
radiación solar en función de alguna variable relacionada más fácil de medir como el brillo
solar. Una vez validado el modelo podríamos usar la ecuación correspondiente para
predecir la Radiación solar para cualquier valor nuevo de la variable independiente en este
caso el brillo solar
La metodología de Aprendizaje automático que ha sido usada exitosamente en
muchas áreas ofrece una guía para generar modelos que tengan la capacidad de hacer
predicciones confiables sobre datos nuevos. El aprendizaje Automático utiliza datos para
crear un modelo y luego usa ese modelo para hacer predicciones.
El objetivo de la presente investigación consistió en obtener modelos predictivos
para la estimación de la radiación solar en cuatro estaciones meteorológicas de Colombia
“El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas de las Zonas:
Norte. Cordillera Oriental. Sur y Zona central Andina tomando como datos la información
meteorológica presentada por Orlando Guzmán Martínez. José Vicente Baldión Rincón y
otros (2013).
2. OBJETIVOS
Objetivo General
Obtener modelos predictivos de la radiación solar en función del brillo solar
Objetivos Específicos
1. Calcular los modelos de regresión simple, cuadrática, cubica exponencial y potencial para estimar la radiación solar en función del brillo solar
2. Medir la precisión de cada modelo en las zonas seleccionadas
3. Comparar los modelos en base al estadístico R2 (porcentaje de variabilidad explicado por el modelo)
4. Seleccionar el mejor modelo para cada región
3. EL PROBLEMA
El problema consistió en determinar la radiación solar en función del brillo solar a
través de métodos indirectos como lo son los modelos de regresión. Estos métodos
indirectos son apropiados cuando no se disponga de los equipos de medición requeridos,
los que muchas veces no están disponibles en la región. En el caso específico que trata este
artículo se utilizaron los datos de cuatro regiones meteorológicas de Colombia, y se
obtuvieron modelos estadísticos confiables, evaluados con datos nuevos obteniéndose un
alto grado de precisión. La metodología empleada se puede usar para cualquier base de
datos similar, como por ejemplo los producidos en las estaciones meteorológicas del estado
Nueva Esparta
4. METODOLOGÍA
4.1 Población
La radiación solar y el número de horas de sol obtenidas en diecisiete estaciones
meteorológicas localizadas a lo largo y ancho de la zona cafetera colombiana, para el
período 1988- 2002
4.2 Muestra
La radiación solar y el número de horas de sol obtenidas en las estaciones
meteorológicas “El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas
de las Zonas: Norte. Cordillera Oriental. Sur y Zona central Andina de Colombia, para el
período 1988- 2002
4.3 Propuesta de acción sugerida o desarrollada
La data para desarrollar este trabajo fue la Información cronológica presentada por
Orlando Guzmán Martínez, José Vicente Baldión Rincón y otros en su trabajo:
“COEFICIENTES PARA ESTIMAR LA RADIACIÓN SOLAR GLOBAL A
PARTIR DEL BRILLO SOLAR EN LA ZONA CAFETERA COLOMBIANA” (2013).
El procesamiento de los datos se realizó usando la metodología de aprendizaje
automático, el cual es un campo de la matemática que se encarga de la creación de modelos
confiables, adaptados a un problema específico que son derivados de los datos obtenidos
sobre el problema.
La metodología de Aprendizaje automático toma datos para crear un modelo y
luego los utiliza para hacer predicciones. Esta metodología está en boga actualmente para
generar modelos que tengan la capacidad de hacer predicciones confiables
4.4 Definición de Aprendizaje automático (Machine Learning)
El Aprendizaje automático es un campo de la matemática que se encarga de la
creación de modelos confiables, adaptados a un problema específico que son derivados de
los datos obtenidos sobre el problema.
La metodología de Aprendizaje automático toma datos para crear un modelo y
luego los utiliza para hacer predicciones. Esta metodología está en boga actualmente para
generar modelos que tengan la capacidad de hacer predicciones confiables.
Una definición más completa es la dada por Mitchel (1997) “Se dice que un
programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas
T y la medida de rendimiento P. si su desempeño en tareas en T. medido por P. mejora con
la experiencia”
En nuestro caso la experiencia son los datos, la tarea es determinar la radiación solar
basado en el brillo solar y la medida del rendimiento es la discrepancia entre los datos
observados y calculados con el modelo, el cual puede expresarse en varias métricas
El Aprendizaje automático, según Jason (2018) consta, fundamentalmente de cinco etapas:
1. Definir el problema
2. Preparar los datos (en esta etapa consta de la recolección de los datos. el análisis
exploratorio. selección de variables y la división de los datos aleatoriamente en
dos conjuntos: datos entrenamiento y datos de prueba (en este caso tomamos
66% y 33%) respectivamente.
3. Desarrollar modelos predictivos con los datos de entrenamiento. para producir
varios modelos predictivos.
4. Evaluación de los modelos predictivos encontrados usando los datos de prueba y
selección del modelo final.
5. Presentación de los resultados
4.5 Modelos de Regresión
La regresión es un método estadístico para estimar las relaciones entre variables. En
el análisis de regresión hay dos tipos de variables: variables independientes que se denotan
generalmente por x y las variables dependientes que se denotan por y. Las variables
independientes se les llaman también predictoras o explicativas y las dependientes variables
respuestas o criterio. El objetivo del análisis de regresión es analizar la influencia de la(s)
variable(s) predictora(s) sobre la variable respuesta y predecir valores futuros de y en base a
valores de x.
Existen muchos modelos de regresión, en esta investigación trabajaremos con cinco
modelos:
1. Lineal Simple: y=a+bx+e
2. Cuadrático: y=a+bx+c x2+e
3. Cubica: y=a+bx+cx 2+dx3+e
4. Exponencial: y=a ebx+e
5. Potencial: y=a xb+e
Todos los modelos tienen un error (e) que representa la diferencia entre los datos
observados y los calculados por el modelo
4.6 Evaluación de los modelos
Entre los métodos para evaluar los modelos tenemos: la media - suma de cuadrados
del error (MSE), la raíz cuadrada de la media -suma de cuadrados del error (RMSE). Y el
porcentaje de variabilidad de los datos explicados por el modelo (R2).
4.6.1 Media de la suma de cuadrados del error (MSE)
El error cuadrado para una observación se define como la diferencia entre el valor
observado y el valor predicho por el modelo, la media - suma de cuadrados del error MSE
es el promedio de esos errores mide el error de predicción del modelo, se calcula así:
MSE=mean(observado−predicho)2
4.6.2 Raíz cuadrada del error cuadrado medio (RMSE)
Como el MSE viene expresado en unidades cuadradas, es lógico tomarle la raíz
cuadrada para expresarlo en las mismas unidades que las observaciones, de allí surge el
RMSE el cual es: RMSE=√mean(observado−predicho)2, se denota por RMSE por sus
siglas en inglés (Root Mean Squared Error). Cuanto menor sea el RMSE, mejor será el
modelo
4.6.3 R-Cuadrado (R2)
Es el cuadrado de la correlación existente entre los valores observados y predichos:
R2=cor ( yobs . ypred)2
Tiene la propiedad que se expresa entre 0 y 1 y se interpreta como el porcentaje de
variabilidad explicado por el modelo. Cuanto mayor sea el R2, mejor será el modelo.
4.7 Lenguaje R
Este es uno de los lenguajes de computación más usados en Aprendizaje
automático. A continuación se presentan los scripts en lenguaje R usados para el
procesamiento de los datos en este trabajo.
4.7.1 Scripts para extraer los datos de una estación y crear la
partición
Tomando como ej. La Estación Santa Bárbara:
pb=subset(colombia. subset=Estación == 'Santa-Bárbara')
Estadísticos Básicos
summary(x); summary(y)
Partición de los datos
set.seed(1); n = nrow(pb)
trainIndex = sample (1:n. size = round(0.7*n). replace=FALSE)
train = pb[trainIndex .]
test = pb[-trainIndex .]
4.7.2 Scripts para el cálculo de los modelos
reg1=lm(y~x); summary(reg1) # Modelo de regresión lineal:
reg2=lm(log(y)~x); summary(reg2) # Modelo de regresión exponencial
reg3=lm(log(y)~log(x)); summary(reg3) # Modelo de regresión potencial
reg4=lm(y~I(x)+I(x^2)); summary(reg4)# Modelo de regresión cuadrático:
reg5=lm(y~I(x)+I(x^2)+I(x^3)); summary(reg5) # Modelo regresión cúbica:
4.7.3 Script para la el Diagrama de dispersión
Tomando como ej. La Estación Santa Bárbara
plot(x.y.pch=4.col="orangered".xlab="brillo solar (hrs)".ylab="radiacion
solar (Mj/m2)".main="Grafica #1"
5. RESULTADOS
2.1.
5.1 Resultados para la Estación “El Rosario”
5.1.1. Análisis exploratorio para la Estación “El Rosario”
Estadísticos Básicos:
Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 2.600 3.600 4.200 4.406 5.100 8.500
Radiación Solar (y) 11.1 14.0 14.9 15.3 16.53 22.5
Los estadísticos Básicos para el Brillo Solar de la Estación “El Rosario” son: media:
4.2 horas, el valor máximo: 8.5 horas, el valor min: 2.6 horas. Mientras que para la
Radiación Solar, tenemos un valor medio de 15.3 MJ ¿ m2, siendo un valor mínimo de 11.1
MJ ¿ m2y un valor máximo 22.5 MJ ¿ m2
El diagrama de dispersión entre las variables Brillo solar (x) y la Radiación Solar (y) se
muestra en la gráfica #1
Como se puede apreciar del diagrama de dispersión no se observa una tendencia
clara en cuanto a que modelo se puede ajustar a los datos, por ello usaremos cinco posibles
modelos, los que calcularemos con la función lm del lenguaje R.
5.1.2. División de los datos para la Estación “El Rosario”
La base de datos usada para esta Estación comprendía 12 valores para el brillo solar
(x) y los 12 valores respectivos para la radiación solar (y). Esta base de datos se dividió
aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3)
N. Datos Mes Estación x (horas) y(MJ ¿ m2
)
Datos de entrenamiento
1 4 El Rosario 4,50 14.82 5 El Rosario 4,90 15.63 6 El Rosario 5,80 16.54 9 El Rosario 4,60 15.15 2 El Rosario 5,00 15.16 7 El Rosario 6,60 17.87 10 El Rosario 4,40 14.38 12 El Rosario 4,20 13.7
Datos de prueba
1 1 El Rosario 6,40 16.92 3 El Rosario 5,10 15.93 8 El Rosario 6,50 17.34 11 El Rosario 4,50 14.2
5.1.3 Modelos de Regresión para la Estación “El Rosario”
Modelos Modelo de regresión R2
Modelo Lineal y=7.635+1.545 x 0.939Modelo Exponencial y=e2.24 [e0.098 x ] 0.923
Modelo Potencial y=e1.89 . x0.523 0.923Modelo Cuadrático y=2.43+3.52 x−0.18 x2 0.935
Modelo Cúbico y=−71.53+45.97 x−8.20 x2+0.50 x3 0.950
Todos los modelos propuestos resultaron adecuados ya que tuvieron un valor
predictivo superior al 92%, destacándose el modelo cúbico con un valor predictivo
( R2=0.95 ).
5.1.4 Evaluación de los modelos para la Estación “El Rosario”
Para evaluar los modelos, se calculan los valores predichos por cada modelo en los
datos de prueba y los comparamos con los valores observados. La siguiente tabla muestra
esta comparación.
Datos Modelos X y-observado Lineal Cuadrático Cúbico Exponencial Potencial
6.4 16.9 17.523 17.5852 17.878 17.587704 22.156350855.1 15.9 15.5145 15.7002 15.9605 15.483888 17.655842084.9 16.5 15.2055 15.3562 15.6655 15.183359 16.963456126.6 17.8 17.832 17.8212 18.428 17.935823 22.84873681
R2 0.83970571 0.826091573 0.866577033 0.84494002 0.83970571
En la tabla podemos apreciar que la función cúbica tiene la más alta correlación
entre los valores de y calculados vs observados. El coeficiente R2 para los datos de prueba
del modelo cúbico es: 86.67%, por lo tanto tenemos una alta confianza que el modelo
y=−71.53+45.97 x−8.20 x2+0.50 x3 es el mejor para predecir y para futuros valores de x.
5.2 Resultados para la Estación de “Santa Bárbara”
5.2.1 Análisis exploratorio para la Estación de “Santa Bárbara”
Estadísticos Básicos:
Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo solar (x) 2.900 3.300 3.650 3.733 4.175 4.600
Radiación Solar (y) 13.30 13.88 14.00 14.27 14.53 16.00
Los estadísticos Básicos para el Brillo solar de la Estación “Santa Bárbara” son:
media: 3.65 horas, el valor máximo: 4.6 horas, el valor min: 2.9 horas, Se puede apreciar
que la magnitud de los datos de brillo Solar son inferiores a la de la Estación de “El
Rosario” Mientras que para la Radiación Solar, tenemos un valor medio de 14.27 Mj/m2, un
valor mínimo de 13.3 Mj/m2 y un valor máximo 16 Mj/m2, asimismo, se aprecia que la
magnitud de los datos de Radiación Solar de esta Estación son inferiores a la de la Estación
de “El Rosario”
El diagrama de dispersión entre las variables Brillo solar (x) y la Radiación Solar
(y) de la Estación “Santa Bárbara” se muestra en la gráfica #2
Se puede apreciar que los datos de la Estación “Santa Bárbara” están muy dispersos
en el plano y no se aprecia una tendencia clara
5.2.2 División de los datos para la Estación de “Santa Bárbara”
La base de datos usada para esta Estación comprendía 12 valores para el brillo Solar
(x) y los 12 valores respectivos para la radiación Solar (y). Esta base de datos se dividió
aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3).
N. Datos Mes Estación x (horas) y(Mj /m2)
Datos de entrenamiento
1 4 Santa Bárbara 3.10 13.82 5 Santa Bárbara 3.40 14.53 6 Santa Bárbara 3.70 14.04 9 Santa Bárbara 3.60 13.95 2 Santa Bárbara 3.30 13.96 7 Santa Bárbara 4.60 16.07 10 Santa Bárbara 4.10 15.28 12 Santa Bárbara 3.30 13.3
Datos de prueba
1 1 Santa Bárbara 4.40 14.52 3 Santa Bárbara 2.90 13.53 8 Santa Bárbara 4.60 14.64 11 Santa Bárbara 2.80 14.0
5.2.3 Modelos para la Estación de “Santa Bárbara”
A continuación presentamos los modelos encontrados para la Estación de Santa Bárbara
Modelos Modelo de regresión R2
Modelo Lineal y=8.5209+1.5956 x 0.7796Modelo Exponencial y=9.649055 . e0.10819 x 0.7679
Modelo Potencial y=8.483983 x0.40683 0.7440Modelo Cuadrático y=19.3670−4.1334 x+0.7432 x2 0.7821
Modelo Cúbico y=76.43−49.67 x+12.74 x2−1.04 x3 0.7444
Como puede apreciarse de la tabla anterior. los modelos presentan un R2 muy
similares. siendo el modelo cuadrático ligeramente mejor que los otros. La evaluación de
los modelos con los datos de prueba nos indicará cual es el mejor modelo
5.2.4 Evaluación de los modelos para la Estación de “Santa
Bárbara”
A continuación se presentan los valores de y estimados por cada uno de los modelos
con los datos de prueba y el R2 para cada modelo:
Datos Modelos
X y-observado Lineal Cuadrático CúbicoExponencia
l Potencial4.4 14.5 15.54064 15.568392 15.93704 15.5319 15.186770742.9 13.5 13.14724 13.630452 14.16584 13.205204 10.009462534.6 14.6 15.85976 16.079472 16.29696 15.871642 15.87707852.8 14 12.98768 13.620168 14.40552 13.063107 9.664308651
R-cuadrado 0.897214531 0.911363043 0.947060484 0.89884644 0.897214531
La evaluación del modelo con los datos de prueba indica que el modelo cúbico
Y=76.43−49.67 x+12.74 x2−1.04 x3 obtuvo el coeficiente R2=94.7% más alto, por lo tanto
podemos usar con confianza este modelo para estimar la radiación Solar en la estación
Santa-Bárbara.
5.3 Resultados para la Estación de “La Trinidad”
5.3.1 Estadísticos Básicos:
Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 3.200 3.375 3.700 4.067 4.325 6.300
Radiación Solar (y) 13.30 13.88 14.00 14.27 14.53 16.00
Los estadísticos Básicos para el Brillo Solar de la Estación “La Trinidad” son:
media: 4.067 horas, el valor máximo: 6.3 horas, el valor min: 3.2 horas, Se puede apreciar
que el brillo Solar se manifiesta con mayor frecuencia que en la Estación de Santa Bárbara
y similares a los de la estación de “El Rosario”, mientras que para la Radiación Solar, el
valor medio es de 14.27 Mj/m2, el mínimo es 13.3 Mj /m2 y el valor máximo 16 Mj/m2,
asimismo, se aprecia que la magnitud de los datos de Radiación Solar de esta Estación son
superiores a la de la Estación de “Santa Bárbara” y similares a los de la estación de “El
Rosario”.
El diagrama de dispersión entre las variables Brillo Solar (x) y la Radiación
Solar (y) de la Estación “La Trinidad” se muestra en la gráfica #3
Se puede apreciar una tendencia creciente con los datos concentrados en la parte
izquierda
5.3.2 División de los datos para la Estación de “La Trinidad”
La base de datos usada para esta Estación comprendía 12 valores para el brillo Solar
(x) y los 12 valores respectivos para la radiación Solar (y). Esta base de datos se dividió
aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3)
N. Datos Mes Estación x (horas) y(Mj/m2)Datos de
entrenamiento 1 4 La Trinidad 3.30 14.02 5 La Trinidad 3.70 14.13 6 La Trinidad 4.30 14.94 9 La Trinidad 4.30 15.85 2 La Trinidad 3.40 13.76 7 La Trinidad 5.50 16.67 10 La Trinidad 4.40 15.5
8 12 La Trinidad 3.20 12.6
Datos de prueba
1 1 La Trinidad 3.70 13.52 3 La Trinidad 3.40 14.33 8 La Trinidad 6.30 18.14 11 La Trinidad 3.30 13.2
5.3.3 Modelos obtenidos para la Estación de “La Trinidad”
En la siguiente tabla se presentan los resultados obtenidos:
Modelos Modelo de regresión R2
Modelo Lineal y=8.881+1.463 x 0.7796Modelo Exponencial y=e2.306 . e0.094 x 0.7679
Modelo Potencial y=e2.096 . x0.431 0.7440Modelo Cuadrático y=6.223+2.663 x−0.128 x2 0.7821
Modelo Cúbico y=−29.71+27.20 x−5.54 x2+0.386 x3 0.7444
5.3.4 Evaluación de los modelos para la Estación de “La
Trinidad”
La evaluación de los modelos se llevó a cabo calculando los valores de y por cada
uno de los modelos usando los datos de prueba y luego calculando el R-cuadrado para cada
modelo. arrojando los siguientes resultados:
Datos Modelosx y-observado Lineal Cuadrático Cúbico Exponencial Potencial
3.7 13.5 14.29259 14.321294 14.6217305 14.255631 14.165501773.4 14.3 13.85378 13.795676 13.888028 13.856078 13.635684826.3 18.1 18.09561 17.908514 18.1514775 18.238377 18.006597493.3 13.2 13.70751 13.615334 13.5821925 13.725398 13.45340489
R2 0,97144867 0,967707465 0,958966626 0,97301923 0,968823677
La evaluación de los modelos con los datos de prueba indican que el modelo
exponencial y=e2.306 . e0.094 x obtuvo un R2=97.30 %, siendo el coeficiente R-cuadrado más
alto, por lo tanto concluimos que el mejor modelo la radiación Solar en la estación La
Trinidad es el modelo exponencial.
5.4 Resultados para la Estación de “Maracay”
5.4.1 Análisis exploratorio
Estadísticos Básicos:
Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 3.600 3.675 3.950 4.242 4.575 5.900
Radiación Solar (y) 13.20 13.93 14.50 14.57 15.07 16.40
Los estadísticos Básicos para el Brillo Solar de la Estación “Maracay” son: media:
3.675 horas, el valor máximo: 5.9 horas, el valor min: 3.6hrs. Se puede apreciar que la
magnitud de los datos de brillo Solar son similares a la de las otras estaciones consideradas
en este trabajo, para la Radiación Solar se tiene un valor medio de 14.57 Mj /m2, un valor
mínimo de 13.2 Mj /m2 y un valor máximo 16.4 Mj/m2, asimismo, se aprecia que la
magnitud de los datos de Radiación Solar de esta estación son similares a la de las otras
estaciones
El diagrama de dispersión de la data de la Estación “Maracay” se presenta en la
gráfica #4
Se observa una tendencia creciente similares a las otras estaciones
5.4.2 División de los Datos para la Estación de “Maracay”
Siguiendo con la metodología se dividen los datos en dos partes: Entrenamiento y
Prueba en la relación 2:1, resultando lo siguiente
Datos de Entrenamiento: Los datos de entrenamiento tomados al azar (8 datos)
fueron los siguientes:
N. Datos Mes Estación x (horas) y(Mj /m2)
Datos de entrenamiento
1 4 Maracay 3.60 14.32 5 Maracay 3.60 13.73 6 Maracay 4.90 14.04 9 Maracay 4.80 14.35 2 Maracay 4.10 14.76 7 Maracay 5.20 15.57 10 Maracay 4.40 15.08 12 Maracay 3.70 13.2
Datos de prueba
1 1 Maracay 5.10 15.32 3 Maracay 4.00 15.03 8 Maracay 5.90 16.44 11 Maracay 3.60 13.4
5.4.3 Modelos obtenidos de la Estación Maracay
Usando el comando lm del lenguaje R apropiadamente, se obtuvieron los modelos siguientes:
Modelos Modelo de regresión R2
Modelo Lineal y=10.12+1.07 x 0.7796Modelo Exponencial y=e2.38 . e0.071 x 0.7679
Modelo Potencial y=e2.03 . x0.331 0.7440Modelo Cuadrático y=6.83+2.501 x−0.153 x2 0.7821
Modelo Cúbico y=−28.88+25.88 x−5.17 x2+0.35 x3 0.7444
5.4.4 Evaluación de los Modelos de la Estación Maracay
La siguiente tabla presenta los valores predichos para cada uno de los modelos en
los datos de prueba y la última fila el estadístico R2 que nos permite decidir cuál es el mejor
modelo
Datos Modelosx y-observado Lineal Cuadrático Cúbico Exponencial Potencial
5.1 15.3 15.577 15.60557 15.06415 15.519542 13.05640244.0 15.0 14.4 14.386 14.32 14.353589 12.047575475.9 16.4 16.433 16.25997 15.72695 16.426568 13.70155363.6 13.4 13.972 13.85072 13.6144 13.951681 11.63466615
R-cuadrado 0.915648763 0.922284866 0.966445981 0.91318319 0.920810051
Se puede apreciar que el valor mayor de R2 se obtiene con el modelo cúbico
y=−28.88+25.88 x−5.17 x2+0.35 x3 teniendo un R2=96.64 %. Por lo tanto este es el
mejor modelo para la Estación Maracay.
6. Conclusiones
El aprendizaje automático ofrece una metodología muy útil para construir modelos
predictivos. Uno de los aspectos fundamentales de esta metodología es la división de los
datos en dos conjuntos disjuntos: entrenamiento y prueba. El modelo se construye con los
datos de entrenamiento y se evalúa con los datos de prueba. Si el modelo presenta un buen
rendimiento con los datos de prueba, entonces podemos tener confianza en usarlo para
datos nuevos. Esto sucedió en la presente investigación donde los modelos seleccionados
presentaron altos niveles de rendimiento con los datos de prueba. Así tenemos que:
6.1 Para la Estación de El-Rosario resultó que el modelo cúbico posee un
coeficiente de R2=84.2% mayor al resto de los modelos para los datos de prueba. Por lo
que podemos usar el modelo cúbico: Y=−71.53+45.97 x−8.20 x2+0.50 x3 para predecir la
Radiación Solar para nuevos valores del brillo Solar (x)
6.2 Para la estación de Santa Bárbara se obtuvo también que el mejor modelo fue el
modelo cúbico con un valor de R2=94%, para los datos de prueba. Por lo que podemos
predecir la Radiación Solar (y) para nuevos valores del brillo Solar (x) usando el modelo:
Y=76.43−49.67 x+12.74 x2−1.04 x3
6.3 Para la estación de La Trinidad se obtuvo que el modelo exponencial:
Y=e2.306∗e0.094 x fue el mejor con un R2=97.3 % en los datos de prueba.
6.4 Para la Estación “Maracay” resulto mejor el modelo cúbico
Y=−28.88+25.88 x±5.17 x2+0.35 x3para predecir la Radiación Solar (y) para nuevos
valores del brillo Solar (x) con un R2=96.64 % para los datos de prueba
Bibliografía
Guzmán M.O ; Baldión R. J. et-al (2013) “Coeficientes para estimar la radiación solar
global a parir del brillo solar en la zona cafetera colombiana”. Revista Cenicafé
64(1):60-76. 2013
Jason, Brownlee (2018) “How to guarantee great machine learning results”
https://mail.google.com/mail/u/1/#search/jason/FMfcgxvxBFmbFwddWmRXGGCnf
LkZKlbb. (Revisado el 20 de Julio, de 2018)
Mitchel Tom. “Machine Learning “, McGraw Hill. 1997. Software