proyecto conicyt/bid 51/94 desarrollo de … … · orientadas al control de calidad e ......

112
Proyecto CONICYT/BID 51/94 Desarrollo de metodologías orientadas al control de calidad e imputación de datos faltantes en parámetros meteorológicos Informe final Julio 1999

Upload: lydien

Post on 05-Oct-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Proyecto CONICYT/BID 51/94

Desarrollo de metodologías orientadas al control de calidad e imputación de datos faltantes en

parámetros meteorológicos

Informe final Julio 1999

i

INDICE

1 - RESUMEN.......................................................................................................................................................................... 1

1.2- RESUMEN TÉCNICO.............................................................................................................................................................. 2 1.3- RECONOCIMIENTOS Y AGRADECIMIENTOS ........................................................................................................................... 3

2 - INTRODUCCIÓN.............................................................................................................................................................. 4

2.1- PLANTEO DEL PROBLEMA.................................................................................................................................................... 4 2.2- ANTECEDENTES DEL PROBLEMA ......................................................................................................................................... 6

3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES........................................................................................................ 10

3.1 - CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA............................................................................................ 10 3.1.1- Características de la Cuenca estudiada ................................................................................................................... 10

3.1.1.1 - Introducción .........................................................................................................................................................................10 3.1.1.2 - Descripción Climática ..........................................................................................................................................................10 3.1.1.3 - Información Meteorológica.................................................................................................................................................10 3.1.1.4 - Factores climáticos...............................................................................................................................................................11 3.1.1.5 - Formación de Precipitaciones ..............................................................................................................................................12

3.1.2 - La lluvia en la Cuenca: estructura y estacionalidad............................................................................................... 13 3.1.2.1 - Aproximaciones metodológicas para determinar estructuras. ..............................................................................................13 3.1.2.2 - Estacionalidad ......................................................................................................................................................................18

3.2 CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO...................................................... ............. 20 3.2.1- Características de la región estudiada....................................................................................................... ............. 20

3.2.1.1 - Introducción ......................................................................................................................................................... ...............20 3.2.1.2 - Descripción Climática .......................................................................................................................................... ...............20 3.2.1.3 - Información Meteorológica................................................................................................................................. ...............20 3.2.1.4 - Régimen Eólico.................................................................................................................................................... ...............21

3.3 CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES .......................................................................................... ............. 23 3.3.1 Características de la región estudiada ........................................................................................................ ............. 23

3.3.1.1 Introducción ........................................................................................................................................................... ...............23 3.3.1.2 Descripción Climática ............................................................................................................................................ ...............23 3.3.1.3 Información Hidrológica. ...................................................................................................................................... ...............23 3.3.1.4 Régimen hidrológico. ............................................................................................................................................. ...............24

3.4 CARACTERÍSTICAS DEL BANCO DE DATOS DE EVAPORACIÓN DIARIA..................................................................... ............. 25 3.4.1 Características de la región estudiada ........................................................................................................ ............. 25

3.4.1.1 - Introducción ......................................................................................................................................................... ...............25 3.4.1.2 - Descripción Climática .......................................................................................................................................... ...............26 3.4.1.3 - Información Meteorológica................................................................................................................................. ...............26

4. IMPUTACIÓN DE AUSENCIAS .................................................................................................................................... 28

4.1 - MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN HISTÓRICA.................................................. 28 4.1.1 - Por interpolación temporal entre registros ............................................................................................................. 28 4.1.2 - Promedio juliano..................................................................................................................................................... 28 4.1.3 - Promedio global de la estación............................................................................................................................... 29 4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la estación......................................... 29 4.1.5 - Valor modal de la serie ........................................................................................................................................... 29 4.1.6 – Imputación con el último valor disponible en la serie............................................................................................ 30 4.1.7 – Promedio y moda horario-mensuales de la estación (sólo viento)......................................................................... 30 4.1.8 – Promedio juliano (sólo viento) ............................................................................................................................... 31

4.2- MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN REGIONAL ................................................... 31 4.2.1 - Imputación dinámica (“Hot - Deck”)...................................................................................................................... 31 4.2.2 - Vecino geográficamente más cercano..................................................................................................................... 32 4.2.3- Vecino más cercano por Criterio de Expertos.......................................................................................................... 32 4.2.4 - Promedio espacial correspondiente al día de la ausencia ...................................................................................... 32 4.2.5 – Promedio/mediana espacial correspondiente al día de la ausencia (sólo viento).................................................. 34 4.2.6 - Promedio espacial ponderado correspondiente al día de la ausencia.................................................................... 34

ii

4.2.7 - Métodos basados en la pseudo-distancia de Kulback-Leibler ................................................................................ 35 4.2.8 - Mínimos Cuadrados ................................................................................................................................................ 37 4.2.9 - Mínimo Error Promedio.......................................................................................................................................... 37 4.2.10 - Mínimo Error Promedio Robusto.......................................................................................................................... 38 4.2.11 - Mínimo Percentil 95 .............................................................................................................................................. 38 4.2.12 - Métodos robustos de ajuste: Least Median of Squares (LMS) .............................................................................. 38 4.2.13 - Métodos robustos de ajuste: Least Trimmed Squares (LTS) ................................................................................. 39 4.2.14 - Métodos de imputación basados en redes neuronales: ......................................................................................... 39 4.2.15 - Funciones Climatológicas de Interpolación.......................................................................................................... 43 4.2.16 – Penalización de coeficientes principales .............................................................................................................. 47

4.3- MÉTODOS EN LOS QUE SE TIENE EN CUENTA LA INFORMACIÓN REGIONAL E HISTÓRICA..................................................... 48 4.3.1 - Promedio ponderado arbitrariamente (sólo lluvia) ................................................................................................ 48 4.3.2 - Promedio ponderado arbitrariamente (sólo viento)................................................................................................ 48 4.3.3 - Condicionamiento según el estado del día anterior (sólo lluvia)........................................................................... 49 4.3.4 - Interpolación temporal de coeficientes principales................................................................................................. 50

5. CONTROL DE CALIDAD. .............................................................................................................................................. 52

5.1- CONSIDERACIONES GENERALES ........................................................................................................................................ 52 5.1.1 - Necesidad de una depuración progresiva. .............................................................................................................. 52 5.1.2 - Metodología y criterios para la comparación de los distintos métodos aplicados. ................................................ 52

5.2- MÉTODOS UTILIZADOS PARA LA DETECCIÓN DE ERRORES.................................................................................................. 56 5.2.1 - Breve síntesis del Análisis de Componentes Principales (ACP).............................................................................. 56 5.2.2 - Datos marginales en la distribución univariada ..................................................................................................... 59 5.1.3 - Datos marginales en la distribución multivariada .................................................................................................. 59 5.2.4 - Método de Hawkins ................................................................................................................................................. 60 5.2.5 - Otros métodos basados en la distancia de Mahalanobis ........................................................................................ 61

5.2.5.1 - Covarianza de Determinante Mínimo (MCD) y Elipsoide de Volumen Mínimo (MVE) ....................................................63 5.2.5.2 - Estimador-S y Estimador-M de T(X) y C(X) .......................................................................................................................63 5.2.5.3 - Método de Hadi (1994) ........................................................................................................................................................64

5.2.6 - Método de las redes neuronales .............................................................................................................................. 66 5.2.7 - Método de la verosimilitud de la validación cruzada ............................................................................................. 67 5.2.8 - Método del gradiente admisible .............................................................................................................................. 68 5.2.9 - Método de la curvatura admisible........................................................................................................................... 69 5.2.10 - Método del producto de gradientes admisibles ..................................................................................................... 69 5.2.11 – Modelado de la distribución (sólo lluvia)............................................................................................................. 70

6 - RESULTADOS OBTENIDOS .......................................................................................................................... ............. 73

6.1 LLUVIA DIARIA...................................................................................................................................................... ............. 73 6.1.1 Generación de ausencias ............................................................................................................................. ............. 73 6.1.2 Imputación de valores ausentes ................................................................................................................... ............. 74 6.1.3 Generación de errores aleatorios ................................................................................................................ ............. 78 6.1.4 Detección de valores erróneos..................................................................................................................... ............. 78

6.2 VIENTO DE SUPERFICIE HORARIO .......................................................................................................................... ............. 84 6.2.1 Generación de ausencias ............................................................................................................................. ............. 85 6.2.2 Imputación de valores ausentes: caso de las componentes ......................................................................... ............. 85 6.2.3 Imputación de valores ausentes: comparación datos originales vs. componentes...................................... ............. 86

6.2.3.1 Resultados operando sobre los datos originales ..................................................................................................... ...............88 6.2.2 Resultados operando sobre los datos transformados ................................................................................................. ...............89

6.2.4 Generación de errores: caso de las componentes ....................................................................................... ............. 90 6.2.5 Detección de valores erróneos: caso de las componentes........................................................................... ............. 90

6.3- NIVELES DIARIOS............................................................................................................................................................... 94 6.3.1 - Imputación de valores ausentes............................................................................................................................... 96 6.3.2 - Generación de errores aleatorios............................................................................................................................ 96 6.3.3 - Detección de valores erróneos ................................................................................................................................ 98

6.4- EVAPOTRANSPIRACIÓN...................................................................................................................................................... 99

iii

6.4.1 - Imputación de valores ausentes............................................................................................................................... 99 6.4.2 - Generación de errores aleatorios.......................................................................................................................... 101 6.4.3 - Detección de valores erróneos .............................................................................................................................. 102

6.5- TRATAMIENTO DE DATOS DE NIVEL MEDIANTE MODELOS DE SERIES TEMPORALES.......................................................... 103 6.5.1 -Transformación estacionaria ................................................................................................................................. 103 6.5.2 - Modelo ARIMA estimado ...................................................................................................................................... 104 6.5.3 - Modelo ARCH estimado ........................................................................................................................................ 104

7- REFERENCIAS. ............................................................................................................................................................. 106

8 – DOCUMENTOS Y PUBLICACIONES ANEXAS ..................................................................................................... 110

9 – OTROS ANEXOS.......................................................................................................................................................... 111

9.1- DATOS DEL PROYECTO.................................................................................................................................................... 111 9.2- METAS PREVISTAS Y LOGRADAS: CUMPLIMIENTO DEL PLAN DE TRABAJO ...................................................................... 111 9.3- ACTIVIDADES DESARROLLADAS SEGÚN LAS ENUMERADAS EN EL PROYECTO)................................................................. 112 9.4- FUNDAMENTACIÓN DE CUALQUIER DESVIACIÓN DE OBJETIVOS ....................................................................................... 116 9.5- RECURSOS MATERIALES .................................................................................................................................................. 116 9.6 - RECURSOS HUMANOS..................................................................................................................................................... 117

9.6.1 Integración original del equipo de trabajo.............................................................................................................. 117 9.6.2 Capacidad generada................................................................................................................................................ 117 9.6.3 Clasificar el equipo de investigación en alguna de las siguientes categorías, y fundamentarlo............................. 118 9.6.4 Si corresponde, indicar interrelacionamiento o convenios institucionales ............................................................. 118

9.7- IMPACTO DE LOS RESULTADOS OBTENIDOS A NIVEL DE: .................................................................................................. 118 9.7.1 Publicaciones........................................................................................................................................................... 118 9.7.2 Convenios, asesoramientos, etc. .............................................................................................................................. 119 9.7.3 Definir los resultados obtenidos según su alcance a nivel local, regional o internacional .................................... 119 9.7.4 Clasificarlos como importantes en: ......................................................................................................................... 119 9.7.5 Otras consideraciones de importancia .................................................................................................................... 120

1

1 - RESUMEN

Se presentan a continuación los resultados obtenidos en el marco del proyecto BID/CONICYT 51/94. Los mismos se pueden sintetizar en: 1. la construcción de las bases de datos conteniendo todos los datos pluviométricos de UTE y

de la DNM correspondientes respectivamente a la cuenca del Río Negro y a la cuenca del Santa Lucía, para un período de 30 años; los datos de viento de superficie para el período 1979-1991, así como los registros de escalas en tres puntos de la cuenca del Río Negro, para el período 1975-1991.

2. la realización de una depuración primaria de dichos datos, cotejándolos manualmente con los de las planillas de la DNM y de la UTE.

3. diversos análisis estadísticos de los datos disponibles, que se detallarán. 4. la implementación de más de una treintena de alternativas metodológicas para imputar

valores ausentes, algunas tomadas de la literatura y otras producto de los trabajos realizados.

5. la realización de simulaciones comparativas, calificando a los métodos por diferentes criterios de éxito (error medio cuadrático, error promedio, etc.)

6. la implementación de numerosos métodos conocidos, y desarrollo de otros nuevos, para la detección de errores (de digitación) en los datos.

7. la realización de estudios comparativos por la vía de métodos de Monte Carlo para la comparación del desempeño de todos los métodos relativos. Se diseñaron estadísticos originales que permiten clasificar un método como mejor que otro para los bancos de datos estudiados.

8. se realizó el estudio de la “estructura” general de la lluvia en la cuenca y por estación en el período de 30 años. Para ello se utilizan por un lado técnicas de análisis multiway y por otro criterios de relaciones entre la distribución de lluvia de las distintas estaciones. Se buscan relaciones de tipo lineal y no lineal. Basada en la unidad mes, debido a las condicionantes de la Base de Datos considerada se llega a una “estacionalidad” por estación y para la cuenca. Se analiza además la evolución, cuando es posible, en el período considerado.

9. la construcción de un modelo probabilístico basado en la información de distribución de lluvia del día anterior y la de otras estaciones el mismo día, para las diferentes estructuras estacionales detectadas en el punto anterior. Con él se obtendrán distribuciones condicionadas de lluvia para cada estación pluviométrica y para la cuenca en su conjunto para la estructura estacional detectada en el punto anterior. El modelo así obtenido brindará información en términos probabilísticos que permitirá mejorar la eficiencia de los indicadores y además responderá en modo adecuado a demandas de información histórica sobre la probabilidad de que haya llovido y cuánto en una zona determinada, fuera de las estaciones pluviométricas o meteorológicas. También el modelo cumple claras funciones de control de calidad.

10.como indicadores de éxito, se deben mencionar los varios artículos presentados y aceptados en congresos internacionales, así como una tesis de doctorado.

2

1.2- Resumen técnico El proyecto tenía varios objetivos que se han cumplido apropiadamente. En lo que

respecta a la imputación de valores ausentes, se ensayaron un cúmulo de alternativas tomadas de la literatura, o desarrolladas específicamente para este trabajo. Ello hace de este documento una referencia muy importante en términos del estado del arte en el tema, y para las variables consideradas. Los métodos fueron aplicados simultáneamente a un mismo banco de datos, en el que se le eliminaron temporalmente una fracción de la población, y los valores imputados fueron comparados contra ellos. La bondad de la imputación fue evaluada con al menos cinco estadísticos: error cuadrático medio, error promedio y tres percentiles de la distribución del error absoluto tomados al 75, 85 y 95%. Ello permitió manejar apropiadamente el hecho que ningún banco de datos puede asumirse libre de errores, y los últimos tres estadísticos son inmunes a ellos.

En el experimento fueron analizados métodos tradicionales en los que típicamente el

valor ausente es sustituido por una combinación lineal de los datos presentes. También fueron considerados métodos no lineales de varios tipos, poco tratados en la literatura meteorológica, que permitieron ilustrar el buen desempeño de las redes neuronales artificiales. Se estima que esto es un aporte significativo del proyecto.

Para cada parámetro hidrometeorológico considerado el orden de precedencia entre los

métodos dependió del estadístico seleccionado para la medida de bondad de la imputación. Los resultados fueron claros: entre los mejores métodos siempre hubo una red neuronal, que tiende a producir resultados más robustos (i.e. con mejores percentiles) que los otros métodos, a expensas de un mayor error cuadrático medio. Dependiendo del problema, otros métodos también costosos funcionaron bien, como ser los métodos lineales que minimizan los percentiles o la suma parcial de errores al cuadrado. Considerando únicamente los métodos más simples, se debe mencionar el buen desempeño de aquellos derivados de la Interpolación Objetiva, y los vinculados al Análisis de Componentes Principales.

Un aspecto metodológico que no fue suficientemente tratado es que, en la práctica, el

usuario debe imputar un único banco de datos. Por ello, hay que tomar con cuidado el orden de precedencia que se establece, ya que el mismo se deriva de una simulación de Monte Carlo. Que los resultados que se presentan indiquen que el método A es mejor que el método B, debe interpretarse como que, en valor esperado, A se comportará mejor que B. Ello no obsta a que, en un caso concreto el orden no sea el mostrado por la mayoría de las simulaciones. Si este comentario se analiza a la escala de datos individuales, no puede concluirse que para imputar una ausencia en concreto, el método A sea mejor que B. Ello puede estar afectado en gran medida por los datos disponibles, etc. por lo que debería ser considerada la posibilidad de asociar al valor imputado algún indicador de confiabilidad. En este aspecto, las redes neuronales vuelven a mostrarse mejor posicionadas, ya que como se presentará luego, las mismas pueden servir simultáneamente como fórmulas de regresión y como detectores de casos sospechosos, propiedad que no es compartida con otros métodos, que eventualmente (Rousseeuw, 1991) deben combinarse con métodos específicos de detección de errores.

El otro objetivo del proyecto era la comparación de métodos de detección de errores

(también denominados outliers en la literatura estadística). A esos efectos no sólo se relevó la literatura existente y se implementaron la mayor parte de los métodos allí descritos, sino que fue necesario proponer métricas para calificar un método como mejor que otro. Esto fue otro aporte original del proyecto. Nuevamente los métodos (ahora originales) asociados a las redes

3

neuronales tuvieron un excelente desempeño. Entre los métodos más económicos, se señala el propuesto por Hawkins, 1974, y el propuesto por López 1994a, que fueron además los aplicados en etapas tempranas del proyecto para depurar el banco de datos de lluvia y de viento de superficie, con buenos resultados.

Los resultados señalados permiten concluir que las redes neuronales son una

herramienta válida para encarar tanto la imputación como la detección de errores, con la ventaja de ser aplicables simultáneamente a ambos problemas sin más cálculos. En contrapartida, con las técnicas disponibles las redes deben ser diseñadas en forma arbitraria variando tentativamente el número de capas ocultas y el número de neuronas en cada una de ellas. Además, pudo comprobarse que los algoritmos de optimización disponibles quedan fácilmente atrapados en óptimos locales, lo que agrega otro elemento más de discrecionalidad para decidir cuándo el proceso de entrenamiento se da por concluido.

1.3- Reconocimientos y agradecimientos Han colaborado directamente en este proyecto los siguientes investigadores (orden

alfabético) Bidegain, Mario Biurrun, Jorge Blanco, Jorge Camaño, Gabriel De los Santos, Hugo Fontana, Héctor Grosskoff, Rosa Gutiérrez Celina López, Carlos Sabiguero, Ariel

Los coordinadores han sido: por la Dirección Nacional de Meteorología, M.Sc. Mario Bidegain, y por el Instituto de Estadística de la Faculta de Ciencias Económicas el Dr. Jorge Blanco. El responsable científico del proyecto fue el Dr. Ing. Carlos López.

Se agradece la colaboración de UTE y del resto del personal de la DNM para el acceso

en diversas etapas del proyecto a los registros originales en papel. Además de los equipos adquiridos por el proyecto se hizo uso extensivo de las facilidades disponibles en nuestros respectivos departamentos y otras originadas en el marco de los proyectos CONICYT/BID 180/92 e INCO-DC 87/96, así como de equipos del departamento de Geoinformática del Royal Institute of Technology, Estocolmo, Suecia.

4

2 - INTRODUCCIÓN

2.1- Planteo del Problema El proyecto tiene como objetivo el estudio de diferentes técnicas aplicables fundamentalmente (pero no en forma excluyente) a datos meteorológicos, para resolver los problemas principales que se detallan a continuación: a) detectar errores aleatorios en un banco de datos existente b) señalar valores sospechosos en el momento de su ingreso al banco de datos c) imputar o asignar valores para los datos ausentes, tanto en tiempo real como en el

propio banco (entendiéndose como tiempo real, la ejecución de las tareas mencionadas en lapsos comparables con el insumido en el ingreso de la información).

En la mayoría de los bancos de datos existentes en nuestro país no hay implementados mecanismos de control de la calidad de los datos o bien sólo existen controles de validación por rango: los datos son aceptados si están dentro de un intervalo prefijado. A nivel internacional, únicamente en los grandes centros de asimilación de datos se aplican controles más sofisticados. La corrección de los errores de la base en momento de procederse a su utilización, o bien ocasiona costos adicionales de depuración de los mismos cada vez que se van a procesar los datos (estimación de estadísticas descriptivas, elaboración de modelos, proyecciones, predicciones, etc.), o bien incorporan errores quizá importantes en los resultados del procesamiento. En efecto, en toda operación de medida existen inevitablemente errores, tanto sistemáticos como aleatorios. Asimismo, los registros tomados usualmente son posteriormente transcritos a un banco de datos antes de su uso, por lo que se agregan nuevas formas de error, generadas en tiempo de ingreso o proceso de la información. El orden de magnitud de los errores depende de muchos parámetros, y de la propia variable. Por ejemplo, como caso extremo, Slanina et. al., 1990, da cuenta que en la medida de trazadores de contaminantes los instrumentos suelen equivocarse por exceso, y los errores pueden llegar a ser del 100 al 500%, para las trazas de cadmio, zinc, arsénico, etc. Otro aspecto del problema es el efecto secundario que pueden tener esos errores, cuando por ejemplo son usados en la toma de decisiones. Según Husain, 1989, "...el fracaso de muchos proyectos de abultado presupuesto puede ser atribuido en parte, a la imprecisión de la información hidrológica manejada...". Sin necesidad de hablar de fracaso, el diseño de los diques de una presa, de los muelles de un puerto o de la operación diaria del sistema eléctrico nacional, descansa en mayor o menor medida, en datos recogidos en forma rutinaria por organismos especializados. El efecto por errores en los datos sobre los costos iniciales, o sobre los costos operativos, puede ser muy significativo, según los casos.

5

Como ejemplos, la decisión de verter agua en una represa, o el sobredimensionado de una boya petrolera (Reolón, 1992), le pueden costar a la empresa o al país cantidades que no son fácilmente estimables. También, al intentar modelar algún fenómeno, tanto matemática como físicamente, es corriente que, en la etapa de calibración o ajuste de parámetros empíricos del mismo, sea en la práctica imposible analizar una secuencia de miles de n-uplas de datos. Por ello, es usual que en estos casos se definan y calculen a partir de los mismos, variables resumen como la media, valor máximo, valores extremos con período de retorno dado, desviación estándar, sesgo, etc. para realizar un manejo más simple de los mismos. El trabajar con valores promedio oculta en el conjunto, tanto aquellos eventos nítidamente erróneos como otros más sutiles, sesgando el valor de los estimadores en forma descontrolada. En el caso de los fenómenos que responden a leyes lineales, tales estadísticos pueden no ser afectados significativamente por errores pequeños. Sin embargo, muchos fenómenos interesantes e importantes no caen dentro de esa categoría, y modelar o calcular las n-uplas de datos con errores puede implicar sensibles diferencias en los resultados. Otra categoría importante es la de aquellos estudios que analizan la evolución temporal de los parámetros. En estos casos, el efecto de un error aislado persiste durante cierto tiempo, perturbando quizá significativamente los resultados en tal intervalo. Por ejemplo al estudiar la dispersión de contaminantes en la atmósfera un error aislado en la dirección del viento, traslada el campo de contaminantes afectando de forma irreversible cualquier cálculo al menos durante algún tiempo hasta que se renueve la masa de aire. Otro caso más grave es el de un error en el cálculo del caudal de un río que aporta a una represa; esta última que oficia de acumulador no puede eliminar de forma alguna un volumen de aporte ficticio, por lo que sesga definitivamente el nivel del embalse en lo sucesivo. En general, el tratamiento de ausencias en los bancos de datos es un problema recurrente en todo estudio vinculado tanto a fenómenos naturales como a otras áreas, puesto que típicamente todo estudio asume como hipótesis que las series en que se basa están completas, imputándose caso a caso (con técnicas no siempre demasiado depuradas), alterando quizás resultados o generando errores adicionales. Si bien muchos problemas no requieren de la imputación de todos los datos faltantes, los cálculos suelen ser muy sensibles a los errores si existen pocos registros (Kennedy, 1989). Cualquier método para asignar valores faltantes debe preservar las características principales del banco y ofrecer garantías de no disminuir los niveles de calidad del mismo. Debe considerarse asimismo la posibilidad de trabajar con distintos niveles de precisión a los efectos de la imputación de valores faltantes. Habrá estudios que sean más sensibles que otros a los datos ausentes y para los cuales se deba asignar valores confiables a registros incompletos.

6

Debido a ello, la posibilidad de asignar valores, dando una estimación del error cometido (objetivo c) ) es de gran interés en la aplicación. Corresponde señalar que ninguna de las aseveraciones realizadas es específica de los parámetros meteorológicos. El mismo problema puede observarse en bancos de datos socioeconómicos u de otra índole, y similares inconvenientes se presentan en ellos. Para los problemas enumerados, se han ensayado y puesto a punto diferentes algoritmos ya existentes e implementado nuevos, que tienen en cuenta la correlación en el espacio y/o en el tiempo de los registros. En este informe se presenta el caso de la lluvia diaria, un campo con apreciable correlación espacial y débil correlación temporal. Se solicitó a las instituciones interesadas (UTE, DNM) que suministraran bancos de datos, recibiéndose de la primera el banco de datos del Río Negro, y de la segunda, la parte correspondiente a la cuenca del Río Santa Lucía.

2.2- Antecedentes del Problema

Para la detección rutinaria de datos anómalos en el área meteorológica, el único antecedente nacional conocido consiste en las recomendaciones realizadas por la Dirección de Climatología y Documentación de la Dirección Nacional de Meteorología (DNM, 1988). En general se basan en un control por rango admisible para cada parámetro. A nivel regional la situación es similar (Núñez, S., 1994) A nivel internacional, existen trabajos (Sevruk, 1982) que proponen procedimientos para corregir errores sistemáticos en cada estación. Se requiere conocer, entre otros, la velocidad del viento, la intensidad de la lluvia, la temperatura y humedad del aire, etc. Con respecto a los errores aleatorios, la tendencia es comparar las medidas con un modelo del fenómeno (p. ej.: Francis, 1986; Hollingsworth et al., 1986). Este último asevera que para el caso del viento, las diferencias entre observaciones y predicciones tienen aproximadamente una distribución normal. En ese caso, es relativamente fácil detectar los datos anómalos y separarlos para un análisis a posteriori. Como desventaja debe señalarse el importante volumen de información requerido, así como los altos costos computacionales involucrados, dado que es necesario modelar (eventualmente por separado) los diferentes parámetros, utilizando métodos específicos para cada uno. En los grandes centros mundiales de asimilación de datos se utilizan sistemáticamente métodos más complejos de control de calidad. Ellos requieren de un volumen de información sólo disponible allí mismo (Gandin, 1988; Di Mego, 1988, Parrish, 1992). Por tanto, si bien son métodos conocidos, resultan inaplicables en general para otro tipo de parámetros, e incluso en las presentes condiciones no podrían ser usados por los organismos nacionales competentes. Los recursos humanos e informáticos constituyen una limitante insalvable en este sentido. Gandin, 1988 reconoce que parte significativa de los errores detectados pertenecen a países en desarrollo, donde los recursos afectados a la toma de datos son significativamente menores que en otros países.

7

Si se prescinde o se desconoce la relación física que debería ligar a las variables, los métodos puramente estadísticos son una alternativa a evaluar. Barnett et al., 1984 efectúa una síntesis de distintas técnicas aplicables para el abordaje de este problema. Para el caso univariado, los controles por rango si bien necesarios se han revelado como insuficientes. Existen extensiones aplicables a este tipo de series como los métodos de detección basados en estimadores robustos (Goyeneche et. al., 1989). Para el caso multivariado, Barnett et al., 1984 distingue dos grandes líneas metodológicas, según que la función de distribución de la muestra se suponga conocida, o no. La primera de ellas corresponde a los llamados Tests de discordancia, que agrupa una serie de técnicas aplicables según la forma en que se distribuyen los datos muestreados, y requieren conocer -o poder estimar- los parámetros de la distribución. Existen también antecedentes vinculados al caso en que la distribución teórica responda a un tipo de ley y los datos muestreados a otra, como es el caso del planteo de O'Hagan, 1990. Allí el hecho que una de las distribuciones sea normal y la otra de tipo t habilita al uso de cierta metodología para poner en evidencia los datos anómalos. El problema aquí tratado no es abordable a partir de este tipo de métodos, puesto que las hipótesis no son lo suficientemente generales para aplicarlas a una variedad de parámetros importante. La segunda línea identificada por Barnett corresponde a lo que se ha dado en llamar Métodos informales. Estos prescinden de los aspectos formales de la distribución de los datos, y apuntan a explotar ciertas propiedades de los mismos. En este grupo se encuentran los métodos de detección de marginales, fijando un rango de probabilidad; los métodos gráficos, basados en la búsqueda de puntos alejados de la nube de datos; la aplicación de métodos de correlación (Gnanadesikan et al., 1972); la búsqueda de distancias generalizadas representativas, técnicas asociadas con el análisis de conglomerados (cluster analysis) (ver por ejemplo, Fernau et al., 1990) y análisis de componentes principales (ACP), entre otros. Un antecedente muy específico respecto al ACP lo presenta el trabajo de Hawkins, 1974. En él se comparan cuatro indicadores o estadísticos, diseñados para resaltar datos anómalos. Hawkins asume que cada observación tiene distribución normal, por lo que su hipótesis no es aplicable en general (no la cumple, por ejemplo, la lluvia diaria); sin embargo, los conceptos por él vertidos son similares a los manejados en López et. al., 1994a, 1993a y 1996. Bajo hipótesis muy generales, existen también una variedad de métodos que se basan en la distancia de Mahalanobis como indicador de fiabilidad, y que difieren en la forma de estimar la matriz de covarianza y el valor esperado. Entre ellos, se encuentran los descritos en Rousseeuw, 1991; Rousseeuw et al., 1987, 1990; Roche, 1996; Rocke et al., 1987; Hadi, 1992 1994, etc. A modo de conclusión, la opinión de un experto reconocido como el Dr. Gandin (Gandin, 1988) debe ser citada. El autor asevera que tradicionalmente, el problema de control de calidad de la información ha sido relegado en las prioridades de investigación, por ser (erróneamente) considerado un problema puramente técnico, que se agota en la detección de los mismos.

8

Con respecto a los datos ausentes, en el campo de la Meteorología son práctica corriente métodos de análisis objetivo (ver Haagenson, 1982, Johnson, 1982, etc.), que permiten generar un campo interpolado a partir de datos irregularmente distribuidos. Ello permitiría calcular los valores faltantes, a partir de los existentes. Otras veces se utilizan magnitudes derivadas, y no el dato en bruto. Por ejemplo, para el cálculo de lluvia media sobre una región, existen métodos como el de los polígonos de Thiessen (Jácome Sarmento et al., 1990) que no requieren en principio, de un banco de datos completo. Ambas situaciones han llevado a que el tema del tratamiento o eliminación de ausencias haya sido también relegado, lo que se refleja en lo escaso de los trabajos específicos en la literatura especializada consultada. En la mayoría de los casos prácticos, el dato ausente es simplemente ignorado, (bajo la hipótesis implícita que estas ausencias son al azar) o se aplican técnicas ad-hoc (interpolación lineal, sustitución por el más próximo) que luego no son documentadas en el trabajo final. En cualquier caso, se afecta a la población en forma arbitraria, en base a hipótesis que rara vez son evaluadas. El tema en cambio, es de gran interés en el área de la Estadística y las Ciencias Sociales en general, pudiéndose encontrar en libros específicos (Rubin, 1987) citas a volúmenes producidos por grupos de trabajo dedicados al tópico. Existen métodos de imputación más o menos sofisticados. Entre éstos últimos, se puede citar el utilizado por la Oficina del Censo de los EEUU (Rubin, 1987). El mismo consiste en asignar al dato ausente un valor tomado al azar de entre los restantes eventos que tienen idéntica respuesta en el resto del cuestionario. Si eventualmente no existiese otro igual, o bien se relativiza esa exigencia, admitiendo que alguna o algunas respuestas no lo sean, o bien, se introduce una "distancia" entre cuestionarios, y se busca aquel que diste menos. Otro método también simple, es el de hacer una regresión sobre el conjunto de datos, ajustando un modelo sencillo. Típicamente, se utilizan mínimos cuadrados (total o parcialmente) o componentes principales, métodos que Stone et al., 1990 presenta desde una perspectiva integrada. Los propuestos en Rousseeuw et al., 1987; Rousseeuw, 1984; Hawkins, 1993, 1994ª 1994b tienen la particularidad de producir una regresión lineal diseñada para ser apropiada aún en la presencia de un grupo considerable de errores arbitrariamente grandes, propiedad muy importante en la práctica ya que los bancos de datos no pueden asumirse libre de errores en ninguna instancia. Todos los métodos considerados producen una única alternativa: para cada ausencia se propone una única imputación. Según Rubin, 1987, "..en general, es intuitivamente claro que imputar la predicción 'óptima' para cada ausencia subestimará la variabilidad...". Existe, sin embargo, la posibilidad de imputar más de un valor para una misma ausencia. Así Rubin presenta una variedad de técnicas, algunas excesivamente especializadas, para su aplicación en encuestas. Como idea general, se propone crear para cada ausencia, un número m (pequeño) de alternativas, y considerar que se dispone de m conjuntos completos diferentes. Para el caso en que la tasa de ausencias es baja, el método funciona razonablemente bien, requiriéndose sin embargo más espacio (para guardar las múltiples imputaciones) y más tiempo de cálculo (para procesar los diferentes conjuntos completos generados).

9

Como caso particular, tanto para la detección de errores, como para la imputación de ausencias en un banco de datos hidrológicos, se pueden encontrar a nivel nacional los trabajos de Silveira et al., 1991, y los de López et al., 1994a y 1994b. En ellos se describen resultados exitosos para el parámetro lluvia diaria, utilizando métodos que podrían ser aplicables a otros casos. Los mismos métodos han sido ensayados sobre un banco de datos de viento y presión atmosférica a nivel del mar (López et. al., 1993a) y fueron comparados en ese caso, con los resultados derivados de la aplicación del método de Interpolación Optima (Gandin, 1963, 1988) entre otros. Los resultados obtenidos con los métodos no tradicionales propuestos fueron sensiblemente mejores, en los experimentos presentados. El método de detección de errores basado en el ACP también ha sido ensayado sobre modelos digitales de terreno, en experimentos controlados (López, 1997).

10

3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES

3.1 - Características del banco de datos de lluvia diaria

3.1.1- Características de la Cuenca estudiada

3.1.1.1 - Introducción La Cuenca hidrográfica del Rio Santa Lucía, con una superficie de 13600 km 2 , está situada en la región sur del Uruguay, aproximadamente entre los 55° y 57° de longitud oeste y 33°40’ y 34°50’ latitud sur. Las cuchillas o sucesión de cerros que sirven de límite a la Cuenca no superan los 300 metros. La vegetación predominante es la pradera y los pocos árboles y arbustos se encuentran a lo largo de los ríos y arroyos. El Río Santa Lucía, de 225 km de largo es el más importante del sur del país, sus dos principales contribuyentes son el Río San José, de 111 km y el Santa Lucía chico, de 122 km.

3.1.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 43°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales estan situadas en los 1000 mm. Se observa un máximo de unos 1100 mm. sobre las nacientes del Río San José y un mínimo de 900 en el sureste de la cuenca junto al Río de la Plata. Las precipitaciones presentan sin embargo una gran variabilidad interanual, con años muy lluviosos, por ejemplo 1959 con 1600 mm. y muy secos, por ejemplo 1916 con 500 mm. El mes más lluvioso es marzo, con 100 mm. y el menos lluvioso es julio con 75 mm., la diferencia entre ambos (25 mm.) indica la regularidad de las precipitaciones a lo largo del año. La humedad relativa de la cuenca presenta un valor medio anual de 70%, y oscila entre 60% en diciembre y enero y 78% en junio.

3.1.1.3 - Información Meteorológica. Las medidas de la precipitación en la cuenca se realizan por medio de una red pluviométrica que consta de unas 50 estaciones, en general atendidas por personal del Ministerio del Interior y de A.F.E. (Ferrocarriles del Estado). La distribución espacial no homogénea de los pluviómetros en la cuenca obedece a que fueron establecidos a lo largo de las líneas férreas (estaciones del ferrocarril) y en poblados

11

(comisarías). A este hecho hay que sumar a mediados de la década del ochenta el cierre de la mayoría de las estaciones del ferrocarril y por lo tanto la ausencia de observaciones pluviométricas a partir de esas fechas. En este Proyecto se han seleccionado 10 estaciones pluviométricas, con información en el período 1960 - 1990. En la Tabla 1 y en la Figura 1 se indican algunas de sus características y su localización geográfica.

N° Nombre Latitud Longitud Elevación 2436 Puntas de Sauce 33°50'S 57°01'W 120 mts 2486 Pintos 33°54'S 56°50'W 100 mts 2549 Barriga Negra 33°56'S 55°07'W 95 mts 2588 Casupá 34°06'S 55°39'W 124 mts 2662 Cufré 34°13'S 57°07'W 92 mts 2707 Raigón 34°21'S 56°39'W 37 mts 2714 San Ramón 34°18'S 55°58'W 70 mts 2719 Ortiz 34°17'S 55°23'W 115 mts 2816 Joanicó 34°36'S 56°11'W 35 mts 2846 Olmos 34°44'S 55°54'W 40 mts

Tabla 1 Listado de las estaciones pluviométricas con información en el período 1960 - 1990 La información de las otras variables atmosféricas (temperatura, humedad, presión atmosférica, evaporación, viento, horas de sol, etc.) es obtenida en las Estaciones Meteorológicas de la Cuenca, pertenecientes a la Dirección Nacional de Meteorología, que son:

N° Nombre Latitud Longitud Elevación Período 86580 Carrasco 34°50'S 56°00'W 33 mts 1947 - Presente 86585 Prado 34°51'S 56°12'W 16 mts 1901 - Presente 86575 Melilla 34°47'S 56° 15'W 49 mts 1951 - Presente 86568 Libertad 34°41'S 56°32'W 21 mts 1977- Presente 86545 Florida 34°04'S 56° 14'W 92 mts 1987 - Presente

Tabla 2 Estaciones meteorológicas próximas a la zona de estudio La información en estas Estaciones Meteorológicas es relevada en forma horaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos.

3.1.1.4 - Factores climáticos Diversos factores tanto geográficos, oceanográficos y meteorológicos influyen en el clima de la Cuenca. La Cuenca se sitúa integramente en la zona templada del hemisferio sur. La poca extension y la ausencia de sistemas orográficos importantes, determinan que las temperaturas medias mensuales sean homogéneas y suaves (entre 10°C y 25°C todo el año).

12

La corriente oceánica de Brasil, transporta aguas de origen tropical, y su transporte calórico produce una aumento de la temperatura del aire, y un aporte importante de vapor de agua a la atmósfera. La corriente de las Malvinas transporta aguas frías desde el sur produciendo una estabilidad en las capas bajas de la atmósfera. El anticiclón semipermanente del Atlántico Sur ejerce una gran influencia en el tiempo atmosférico que se desarrolla sobre el Uruguay. La circulación generada por este anticiclón produce vientos del sector noreste al este, aportando masas de aire de caracter tropical y húmedas.

100 km

2436 2486 2549

2588 2662

2707 2714 2719

2816 2846

2436 2486 2549

2588 2662

2707 2714 2719

2816 2846

Figura 1 Localización de las estaciones pluviométricas utilizadas

También el anticiclón semipermanente del Pacifico Sur, con su circulación del sur al suroeste sobre el país, aporta principalmente durante el invierno, masas de aire frías y en general secas. La depresión térmico-orográfica del noroeste argentino, produce en determinadas situaciones aporte de aire muy húmedo y cálido desde el Chaco, principalmente en el verano.

3.1.1.5 - Formación de Precipitaciones Las masas de aire portadoras de humedad necesitan ciertos mecanismos dinámicos para producir precipitaciones. El principal mecanismo de producción de lluvias sobre la cuenca son los pasajes de sistemas frontales o frentes. Las principales masas de aire presentes sobre el país son la masas de aire tropical con un gran contenido de vapor de agua, y las masas de aire polar de carácter frío y seco. La zona de transición entre dos masas de aire de diferentes características define una zona frontal, que está asociada en general a precipitaciones.

13

Se estima el pasaje de unos 70 a 80 frentes fríos en el año que provocan precipitaciones en zonas y cantidades variables. El volumen de las precipitaciones depende del contenido de agua precipitable en la masa de aire húmedo. Otro mecanismo de precipitación es el ascenso de aire producido por una depresión o ciclón dinámico y su pasaje sobre la cuenca, este tipo de perturbación produce en general precipitaciones muy importantes en volumen, afecta un área limitada, y está asociada a vientos fuertes y tormentas severas.

3.1.2 - La lluvia en la Cuenca: estructura y estacionalidad El objetivo perseguido en esta etapa es el de determinar, si existe, una estructura de la lluvia en la cuenca durante los treinta años considerados. De lo contrario caracterizar las variaciones que se han producido en dicha estructura en el período. Este aspecto tiene indirecta relación con el objetivo primordial del proyecto, pero asume gran importancia a la hora del conocimiento del fenómeno y permitirá aceptar o rechazar diferentes hipótesis realizadas en uno y otro sentido, al mismo tiempo que mejorar la eficiencia de cualquier modelo que se pretenda utilizar para analizar el fenómeno.. En cuanto a la estacionalidad, aquí entendida como comportamiento diferenciado de algunos meses del año respecto a otros, en relación a la distribución de la lluvia, será de utilidad inmediata para la construcción del modelo que se plantea en el punto 8. del Resumen, y para mejorar la eficiencia de los diferentes estimadores que ha desarrollado el proyecto.

3.1.2.1 - Aproximaciones metodológicas para determinar estructuras. En este sentido se han desarrollado dos líneas de trabajo diferenciadas. Por una parte se utilizan algunas de las técnicas para el análisis de datos multivariados multiway y en otras se buscan relaciones lineales y no lineales en el tiempo y en el espacio. Métodos Multivariados Multiway Con el objetivo de ubicar al lector en el significado de la primera aproximación metodológica se realiza una presentación resumida y elemental de algunos métodos multiway en particular, precedida, por una breve presentación general de los métodos a más de dos vías. El análisis multivariado clásico extrae generalmente información de una tradicional matriz 2- way (2 vías) de datos.

{ }X x

x x x

x x x

x x x

ij

n

n

n n nn

= =

11 12 1

21 22 2

1 2

L

L

L L L L

L

14

donde xij es el valor que toma la variable j en la unidad i. Las dos vías están aquí

representadas por las “unidades” y las “variables”.

Un ejemplo de 3-way de datos esta dado por: { }X xijk= donde xijk es el valor que

toma la variable j (j=1,...J) en la unidad i (i=1,...I) en la ocasión k (k=1,...K), considerando que son las mismas variables y unidades en cada ocasión.

En general p-way data pueden ser representados por: { }X xi ip=

1 L donde cada dato

elemental xi i p1 ... se clasifica de acuerdo a p ways como por ejemplo, unidades, variables,

tiempos, áreas, categorías de variables, etc... En modo general se puede distinguir entre: i) Arrays de p-way datos si todas las combinaciones de diferentes índices se

encuentran presentes. Un ejemplo de array a 3-way es del tipo “unidades × variables × ocasiones” donde se consideran las mismas unidades y las mismas variables en cada ocasión.

ii) Sets de p-way datos. No todas las combinaciones de los valores de diferentes índices se encuentran presentes. En el caso de 3-way “unidades × variables × ocasiones” cambian o las variables o las unidades en cada ocasión.

En el caso que nos ocupa se pueden conformar arrays o sets de múltiples formas. Uno particularmente interesante para medir el comportamiento estructural de la lluvia en el período de los últimos treinta años es la matriz “estaciones pluviométricas × unidades de tiempo (ej. meses) × distribución de lluvia”. Para constituir arrays en este caso se debe considerar solamente las unidades de tiempo con información completa, estando en las demás situaciones frente a sets. Del enfoque general a p-way nos interesa en este momento solamente el de 3-way en la situación “unidades × variables × ocasiones” que es el que concretamente se aplica en la presente investigación. Veamos una síntesis de algunos enfoques metodológicos aquí aplicados lo que no significa para nada un desarrollo exhaustivo de las aproximaciones multiway. Modelos multilineales Los modelos multilineales fueron considerados por Kruskal (1984) . Se incluyen dentro de los llamados modelos estructurales descriptivos. Dentro de los más utilizados para el análisis de datos a 3-way se destacan los siguientes: a) Modelo Cuadrilineal Modelo Tucker 3 (Tucker, 1963, 1964, 1966; Kroonenberg, 1983):

x m a b c gijk ijk ip jq k r pqrr

R

q

Q

p

P

≈ ====∑∑∑

111

donde el significado de los parámetros es el siguiente::

15

aip= puntaje de la unidad i en relación a la dimensión latente (“componente ideal”) p,

bjq = puntaje de la variable j en relación a la dimensión latente q,

ckr = puntaje de la ocasión k relativa a la dimensión latente r; gpqr = puntaje conjunto de la genérica terna (p,q,r) de las componentes ideales de los tres

modos (p-ésima para las unidades, q-ésima para las variables y r-ésima para las ocasiones). Este parámetro es una medida de la interacción triple entre las tres genéricas dimensiones latentes. El conjunto de las gpqr forman la llamada CORE MATRIX. b) Modelo Trilineal: Modelo Tucker 2.

x m a b gijk ijk ip jq pqkq

Q

p

P

≈ ===∑∑

11

Aquí el componente ideal de las ocasiones se omite y gpqk conforma la CORE MATRIX extendida. c) PARAFAC (Harshman, 1970)

x m a b cijk ijk ip jp kpp

P

≈ ==∑

1

Este puede ser considerado como el Modelo Tucker 3 con una CORE MATRIX superidéntica. d) Componentes Principales Simultáneas. Kiers y Ten Berge ( 1989) Esta es una generalización del Análisis de Componentes Principales para la situación donde las mismas variables se observan en dos o más poblaciones. La generalización se obtiene considerando ACP para cada población bajo la condición de que las matrices de pesos de componentes deben ser iguales para cada análisis. Estrategias de análisis multifase. Estos métodos se aplican generalmente a arrays o sets 3-way. { }X X X Xk K= 1 ,L L

Primera Fase: Interestructura A cada matriz X k se asocia un elemento Ek el cual caracteriza sus estructuras, en el caso de un método típico de esta familia llamado STATIS (Escoufier, 1973, 1977, Lavit, 1988, 1994) Ek es un operador lineal (matriz) Ak Se realiza un análisis simultáneo de los Ek . En STATIS se realiza un análisis de componentes principales en relación a las matrices Ak organizadas de la siguiente manera:

( )A vecA vecA vecAK= 1 2 L

donde vecAk es la vectorización de Ak .

16

Los puntajes Ok se obtienen a partir del análisis de los Ek . En STATIS los puntajes se obtienen a través de los componentes principales de las columnas de A (llamadas ocasiones). Segunda Fase: Compromiso Se calcula un elemento “medio” de los Ek que representa el conjunto de las X k . En STATIS un “operador medio” A* (media ponderada de los Ak con pesos dados por el primer autovector obtenido del ACP de A). Se realiza un análisis de E* obteniendo puntajes Ui,Vj . En STATIS el ACP de A y el subsiguiente cálculo de puntajes para unidades y variables. Tercera Fase: Intraestructura Basándose en el análisis de compromiso E*, se obtienen los puntajes para unidades y variables en las diferentes ocasiones ( )U Vi

kjk, . En STATIS unidades y variables están

geométricamente representadas por los distintos ejes principales calculados con el ACP de A*. Analisi Fattoriale Dinamica (AFD) Un método que está fuera de las clasificaciones anteriores es el “Analisi Fattoriale Dinamica” (Coppi-Zanella 1978, Coppi-Corazziari 1995) . Esta metodología permite analizar array 3-way del tipo unidades × variables × tiempos, donde estos últimos están ordenados y juegan el rol de ocasiones. Es un método aplicable a variables cuantitativas. Se analizan tres tipos de variabilidades, estructural, dinámica, y la interacción entre ellas. Los tres aspectos son analizados en AFD mediante la conjunción de una modelización basada en técnicas factoriales y regresivas. Relaciones mediante discrepancia logarítmica Otro modo de construir matrices de proximidades, se basó en la discrepancia logarítmica de Kulback- Leibler. Para poder aplicar esta discrepancia fue necesario en primer lugar construir las distribuciones de lluvia diarias para cada estación. Se consideró una distribución común para todas las estaciones que reúne la doble condición de ser adecuada a los datos disponibles y brindar información mejorada respecto a la simple dicotomía llueve- no llueve, aunque no sea la óptima por estación. Los intervalos elegidos fueron [0], (0, 7], (7, 17], >17mm.

17

Luego de codificada la información diaria por estación en esos cuatro intervalos, se agrupó por mes, obteniendo de hecho la distribución de la lluvia, por estación, para todos los eneros, todos los febreros, etc del período de años considerado. A continuación se calculó la discrepancia de Kulback- Leibler de las distribuciones de las demás estaciones a la considerada en cada caso para los diferentes meses. Se obtiene así para cada mes las estaciones más cercanas en distribución según la discrepancia logarítmica. En el caso concreto, la expresión general de Kulback se transforma en:

δ p p pp

pi

i

ii

∧=

= ∑/ ln

1

8

donde: pi = probabilidad del intervalo i en la estación considerada, para el mes dado.

pi

∧= probabilidad del intervalo i para cada una de las otras 8 estaciones para el mes

dado. Se construyen con estas discrepancias nueve matrices, una para cada estación, del tipo (12 × 8 ) conformadas con las distancias de las otras ocho a la estación considerada, en cada uno de los meses del año. También aquí, como en el caso de las relaciones lineales, se construyeron además matrices de (12 × 3) donde en lugar de considerar las distancias de la totalidad de las estaciones se consideran solamente las tres más cercanas. Menor distancia mensual de una estación a otra. Conjuntamente con el proceso anterior se realizó, siempre mediante la discrepancia de Kulback- Leibler y las correlaciones, la búsqueda de la estaciones más cercanas a cada estación en los diferentes meses del año. También se dividió el período de treinta años en tres y se analizaron meses y trimestres para saber si hubo cambios en la distancia a la media general del período lo que sería otro indicativo de cambio de estructura. En cuanto a las estación por mes más cercana se procedió de la siguiente manera. Se realizó la distribución por mes, con los intervalos antes considerados, de la lluvia para cada estación. Luego se tomó la distribución de cada estación como la verdadera, es decir la pi de la expresión de la discrepancia y se halló la discrepancia de cada una de las otras a la considerada. Se obtiene así una medida de cual es el orden de distancia de las diferentes estaciones a la considerada para cada mes lo que será luego de gran utilidad en la construcción del modelo que se plantea en el numeral 8 del Indice. Distancia a nivel de Estación Finalmente se consideró un último procedimiento para el análisis de estructuras. Este fue construir las discrepancias de Kulback- Leibler por estación y para cada mes respecto a la distribución media o marginal de la estación en todo el período. La diferencia esencial de este método respecto a los anteriores es que no se tiene en cuenta la relación de una estación con las demás sino cada una consigo misma. Con el vector de distancias se agruparon luego los meses.

18

3.1.2.2 - Estacionalidad Conjuntamente con los métodos multiway descriptos se utilizaron otra serie de técnicas para agrupar meses de similar comportamiento de la lluvia en cada una de las estaciones y en la cuenca en su conjunto. Métodos de relación entre las estaciones pluviométricas En este sentido se consideraron dos tipos de relaciones. En primer lugar las correlaciones lineales de tipo Pearson entre las lluvias en los diferentes meses en el período, y por otro mediante el análisis de la discrepancia logarítmica de Kulback-Leibler entre las distribuciones de lluvia en las diferentes estaciones. Relaciones Lineales entre pluviómetros. Se parte en primer lugar de la matriz original de datos,

{ }X x

x x x

x x x

x x x

ij

j

n

I I Ij

= =

11 12 1

21 22 2

1 2

L

L

L L L L

L

donde el término genérico { }xij representa el volumen en mm de lluvia caída el día i en la

estación j. Es decir que la matriz tiene tantas filas como días de información de lluvia se tienen (treinta años) y tantas columnas como estaciones pluviométricas consideradas (nueve). Se considera como unidad mínima el mes. A esto se llega luego de varias pruebas buscando la mínima unidad posible, La decisión de considerar el mes se alcanza en razón de la calidad de información disponible y teniendo en cuenta la particular distribución de la lluvia por día donde en aproximadamente un 80 % de ellos , el valor es cero. Se construye una matriz de correlación de Pearson para cada mes del año. Esta matriz es:

{ }R r

r r r

r r r

r r r

ij

j

n

I I Ij

= =

11 12 1

21 22 2

1 2

L

L

L L L L

L

donde { }rij es el coeficiente de correlación de Pearson entre las precipitaciones de las

estaciones i y j en el mes considerado. Con estas correlaciones se construyen nueve matrices, una por cada estación pluviométrica, de 12 × 8, donde cada fila indica las correlaciones para un mes dado de la estación considerada con las demás.

19

El objetivo del procedimiento es analizar las alteraciones que se producen en el año en las correlaciones lineales entre la lluvia medida en una cierta estación y en las demás. Se está buscaron las estaciones más correlacionadas linealmente y como varían en el transcurso de los meses. Este procedimiento se realizó también agrupando en los siguientes trimestres: Diciembre, Enero, Febrero Marzo, Abril, Mayo. Junio, Julio, Agosto. Setiembre, Octubre, Noviembre. Además de considerar matrices de 12 × 8, se consideraron matrices 12 × 3 , donde se tenían en cuenta aquellas tres estaciones que durante el año estaban más correlacionadas a la considerada. Esto se buscó construyendo un ranking de estaciones. Una vez construídas las matrices de interés se aplicaron diversos métodos de cluster analysis (análisis de conglomerados) buscando encontrar agrupamientos de meses según similares comportamientos de las correlaciones de una estación con las demás. Los algoritmos de clasificación considerados se basaron en la distancia de Mahalanobis y fueron los de Ward, Centroide y Complete. De acuerdo a los resultados obtenidos con los diferentes métodos se buscó determinar una agrupación para cada estación. Los resultados se resumen en la tabla 3.

Estación Número de grupos Agrupación de meses

2436 4 (5,6,8,9,11) (10,12,1) (3,4) (2,7) 2486 4 (2,5,8,9,10) (3,7,12) (4,6) (1,11) 2549 3 (4,6,9) (2,5,7,12) (1,2,4,10,11) 2588 4 (10,12,4) (11,3,9) (7,1) (8,6,2,5) 2662 3 (1,6,7,10,11) (4,5,8,9) (2,3,12) 2707 3 (4,6,8) (2,7,3,10,5) (11,12,9,1) 2714 3 (2,3,5,7,10) (1,4,6,12) (8,9,11) 2719 4 (8,9,10,12) (1,6,7) (2,4,5) (3,11) 2816 3 (2,5,8,9) (3,6,7,10) (1,4,11,12)

Tabla 3 Agrupación de meses por estación Discrepancias logarítmicas estacionales globales Para hacer posible la agrupación de meses no ya por pluviómetro, sino en general para toda la cuenca, se busca la distribución por mes de la lluvia, en los cuatro intervalos considerados para toda la cuenca de Santa Lucía. Luego se construye una matriz de 13 × 4 donde las primeras doce filas son la distribución por meses de la lluvia y la última la distribución media. Se calcula Kulback - Leibler de cada mes a la media y luego se agrupa por cercanías. La estacionalidad obtenida para toda la cuenca fue la siguiente: a) Abril, Setiembre, Octubre. b) Mayo, Junio. c) Agosto, Noviembre. d) Febrero, Julio. e) Diciembre, Enero, Marzo.

20

3.2 CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO

3.2.1- Características de la región estudiada

3.2.1.1 - Introducción La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km 2 , que representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el suroeste y sur por el Río de la Plata, al sureste por el Oceano Atlántico, y al este por el Río Yaguarón y la Laguna Merin. Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azucar en Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se encuentran a lo largo de los ríos y arroyos.

3.2.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río de la Plata. La humedad relativa de la región presenta un valor medio anual de 75%, y oscila entre 66% en diciembre y enero y 82% en junio y julio.

3.2.1.3 - Información Meteorológica. La disponibilidad de registros de viento en formato magnético restringió el período a manipular. En la zona norte del país la densidad de estaciones meteorológicas es comparable a la zona sur, pero en muchos casos las series son más cortas, o contienen únicamente registros cada 8 horas, aspectos ambos que implica una restricción a los fines de este proyecto. La información en estas Estaciones Meteorológicas es relevada en forma horaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos. A los efectos de este trabajo se utilizaron registros tomados cada tres horas, por lo que para cada día se cuenta con ocho medidas: a las horas 0, 3 6, 9 12, 15, 18 y 21. el período cubierto va desde el 01/01/1979 hasta el 01/05/1991 en las ocho estaciones disponibles. Los datos de partida se organizan por lo tanto en dos matrices de dimensiones 36025x8. Todas las medidas de la viento de superficie horario fueron tomadas por la Dirección Nacional de Meteorología. Se seleccionaron cinco estaciones localizadas en el sur del Uruguay.

21

Su identificación y localización se esquematizan en la Tabla 4 y Figura 2, respectivamente

N° Nombre Latitud Longitud 86595 Punta del Este 34°58'S 54°57'W 86580 Carrasco 34°50'S 56°00'W 86500 Treinta y Tres 33°13'S 54°23'W 86460 Paso de los Toros 32°48'S 56°31'W 86440 Melo 32°22'S 54°11'W

Tabla 4 Listado de las estaciones meteorológicas con registros de viento de superficie en el período 1979-1991

+

+

+ +Punta del EsteCarrasco

+Treinta y Tres

Melo

Paso de los Toros

BRAZIL

AR

GE

NTI

NA

ATLANTIC OCEAN100 km

Figura 2 Localización de las estaciones meteorológicas con registros de viento de superficie

seleccionadas para este trabajo

3.2.1.4 - Régimen Eólico. La circulación atmosférica es el resultado de desequilibrios energéticos ocurridos en el seno de la misma. La circulación atmosférica en su más amplio sentido incluye todas las escalas de movimiento (macroescala, mesoescala y microescala). La circulación está dada por la presencia de los llamados sistemas de tiempo atmosféricos semipermanentes y dinámicos, estos pueden ser cerrados (ciclones, anticlones) y abiertos (vaguadas, dorsales), tal como se observan en un mapa meteorológico. La circulación de la atmosfera es la responsable del transporte de ciertas cantidades (energía, momento, vapor) y del cambio en las condiciones del tiempo sobre los diferentes lugares del planeta. La atmósfera cumple con la condición de equilibrio hidrostático por lo tanto las

22

velocidades verticales son de orden mucho menor que las velocidades horizontales (en la escala macro), y por lo tanto se puede aproximar el estudio de los movimientos tridimensionales de la atmósfera con planos horizontales en la vertical. La atmósfera libre en la escala sinóptica ( ≈ 200 a 2000 km) cumple con el llamado equilibrio geostrófico, que resulta de un equilibrio de fuerzas entre la fuerza de Coriolis, y la fuerza del gradiente de presión. La dirección de los vientos predominantes sobre la región en estudio (ver figura 3) están determinados por la circulación del noreste que establece el Anticiclón semipermanente del Atlántico. Sin embargo el debilitamiento del mismo por alejamiento de la costa o desplazamiento hacia el norte determina la aparición de vientos del oeste en superficie característicos de la época invernal. Asimismo los vientos observados junto a la costa del Río de la Plata y Océano Atlántico están influenciados por factores de circulación locales como es la brisa marina y terrestre. Esta determina la rotación durante el día del viento desde una componente norte a una del sureste que va disminuyendo a medida que el calentamiento del suelo por la radiación solar comienza a disminuir. Las velocidades medias anuales van desde unos 6 m/s en la costa sureste hasta mínimos relativos de 3.5 m/s en la cuenca de la Laguna Merín. En general se observan velocidades medias mensuales mas o menos constantes durante todo el año, pero se destaca la primavera con velocidades medias de 6.5 m/s en el sur y 4.8 m/s en la Laguna Merín.

Fig. 3 Campo de Presión atmosférica en superficie

Media anual en hPa. (1982-1993)

23

3.3 Características del banco de datos de niveles

3.3.1 Características de la región estudiada

3.3.1.1 Introducción La Cuenca hidrográfica del Río Negro tiene una superficie de 69900 km2, que representa el 39% de la superficie del País, a la que deben sumarse 3125 km2 que se ubican en territorio brasileño. Su cuenca está limitada al oeste por las cuchillas Negra y de Haedo que las separan de la cuenca del Río Uruguay, al este por la cuchilla Grande y al sur por las cuchillas Grande inferior y del Bizcocho. En el norte esta separada parcialmente del Brasil por la cuchilla de Santa Ana. La longitud total del río Negro es de unos 850 km y sus principales afluentes son el río Tacuarembó, ubicado en la parte superior de la cuenca, y el río Yí que incorpora sus aguas al Negro inferior. Todos los ríos son de alimentación pluvial únicamente y no poseen a lo largo de sus cursos, lagos o lagunas naturales que regulen sus escurrimientos. Los ríos en general tienen pendientes suaves, pues no existen sistemas orográficos importantes. El río Negro tiene en su recorrido solamente unos 100 km sobre la cota de 100 m. y la mayor parte de la cuenca discurre por debajo de esa cota hasta su desembocadura. Los cauces suelen presentar un lecho menor, por el que escurren el caudal de base, alimentado por el agua subterránea, y un lecho mayor por el que corren las crecidas. En este último por causa de la humedad del suelo y la temperatura ambiente adecuada existe vegetación consistente en bosque de tipo galería conformado por árboles y arbustos.

3.3.1.2 Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.7°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1250 mm. Se observa un máximo de unos 1400 mm. sobre las nacientes del Río Cuñapirú y un mínimo de 1100 en el sur de la cuenca junto a la divisoria de aguas con la cuenca del Río Santa Lucía. Los meses más lluviosos son febrero y marzo, con 125 mm. y el menos lluvioso es agosto con 90 mm., la diferencia entre ambos (35 mm.) indica la regularidad de las precipitaciones a lo largo del año. La humedad relativa de la cuenca presenta un valor medio anual de 74%, y oscila entre 65% en diciembre y enero y 82% en junio y julio.

3.3.1.3 Información Hidrológica. La información para el estudio de niveles del Río Negro, consistió en:

24

- series diarias del nivel del río ( en metros ) en Paso Pereira (182800), Paso Aguiar (182500) y Paso Mazangano (182400), que constituyen tres puestos de medición, ubicados en el departamento de Tacuarembó (ver Tabla 5) y ordenados de oeste a este sobre el curso del río.

- los datos corresponden al período 1975-1990 y en general las series incluyen tres

mediciones diarias en cada lugar. Fueron proporcionadas dos versiones de la información para dos de los tres puestos, presentándose alguna diferencia en ellas, habiéndose depurado la base de los errores más obvios.

- la cobertura de la información es parcial y existen datos faltantes tanto a nivel de

conjuntos de días contiguos, de días aislados y de las mediciones a través del mismo día. Los vacíos de información en general no son coincidentes en fecha, a través de los tres puestos de medición.

Teniendo en cuenta que el objetivo del trabajo es el análisis de series diarias, se seleccionó la primera de las tres mediciones de cada día, cuando la misma existía. En su defecto, se consideró la segunda o tercer medición del día, en ese orden, según la disponibilidad del dato. De este modo, se construyeron tres series con datos diarios, donde los datos faltantes pasaron a ser los días en los que no se había realizado ninguna de las tres mediciones previstas. La mayor parte del trabajo que se describirá se realizó trabajando sobre la serie de Paso Pereira en razón de su menor cantidad de datos ausentes. A diferencia de los parámetros lluvia y viento, no se tuvo acceso permanente a los registros originales en papel, salvo en un corto período al principio del proyecto, por lo que no fue posible encarar una comparación con los datos en papel como la que se hizo en los otros casos.

N° Nombre Latitud Longitud Area Cuenca

182800 Paso Pereira 32°26'S 55°14'W 11800 km 182500 Paso Aguiar 32°17'S 54°50'W 8300 km 182400 Paso Mazangano 32°05'S 54°42'W 6650 km Tabla 5 Referencias de las estaciones hidrológicas utilizadas.

La información corresponde al período 1975 - 1990

3.3.1.4 Régimen hidrológico. Los caudales medios mensuales del río Negro, observados en Paso de los Toros, muestra dos épocas bien definidas: una de creciente, de abril a octubre, y otra de aguas bajas, de noviembre a marzo. El mes con menor caudal medio es enero y en cuanto a caudales máximos, los meses de julio y setiembre tienen valores casi idénticos. El caudal medio anual es de unos 600 m3/s, pero el caudal experimenta fuertes variaciones no sólo a nivel diario sino también mensual.

25

Los niveles extremos registrados se ubican en el intervalo 0 a 13.7 m. La serie está aparentemente afectada por varios outliers, por lo que los valores extremos deben tomarse con cautela. Los percentiles 5 y 95 % de los valores valen 0.2100 y 6.7205 m respectivamente.

Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

<m

>

Figura 4 Promedio de los niveles diarios observados en cada mes para el período 1975-1990 en

Paso Pereira.

Según se indica en la figura 4 el mes con nivel promedio máximo es agosto, y el más bajo en enero. Las diferencias son del orden de 4.5 veces, indicando la variabilidad de los niveles a lo largo del año. Los registros de setiembre, al igual que los de agosto, tienen una distribución bimodal, aspecto que no se repite en octubre quien exhibe una distribución mucho más uniforme.

3.4 Características del banco de datos de evaporación diaria

3.4.1 Características de la región estudiada

3.4.1.1 Introducción La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km 2 , que representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el suroeste y sur por el Río de la Plata, al sureste por el Oceano Atlántico, y al este por el Río Yaguarón y la Laguna Merin.

26

Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azúcar en Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se encuentran a lo largo de los ríos y arroyos.

3.4.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río de la Plata. La evaporación medida a través del Tanque tipo “A” tiene valores anuales acumulados de 1800 mm. sobre Mercedes (oeste de la región) y un valor acumulado mínimo menor de 1500 mm. sobre el litoral del Océano Atlántico.

3.4.1.3 - Información Meteorológica. El período a estudiar de registros de evaporación acumulada diaria en formato magnético se restringió al período del 1 Enero de 1986 al 31 de diciembre de 1990. Dentro de la región la densidad de estaciones meteorológicas que constan de Tanque de evaporación del tipo “A” se restringe a siete. La información en estas Estaciones Meteorológicas es relevada en forma diaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración de balances hídricos semanales, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos. Las medidas de evaporación acumulada diaria fueron tomadas por la Dirección Nacional de Meteorología. Se seleccionaron siete estaciones localizadas en el sur del Uruguay. Su identificación y localización se esquematizan en la Tabla 6 y Figura 5, respectivamente

N° Nombre Latitud Longitud 86440 Melo 32°22'S 54°11'W 86490 Mercedes 33°15'S 58°04'W 86500 Treinta y Tres 33°13'S 54°23'W 86532 Trinidad 33°32'S 56°55'W 86565 Rocha 34°29'S 54°18'W 86568 Libertad 34°41'S 56°32'W 86585 Prado 34°51'S 56°12'W

Tabla 6 Listado de las estaciones meteorológicas con registros diarios en el período 1986-1990

27

Figura 5 Localización de las estaciones meteorológicas con registros de evaporación diaria seleccionadas para este trabajo

3.4.1.4 - Régimen de Evaporación. El vapor de agua de la atmósfera proviene casi exclusivamente de los procesos de evaporación ocurridos en la superficie de nuestro planeta. La mayor parte de esa evaporación, cerca del 85% en promedio, ocurre sobre los océanos, y una proporción no despreciable ocurre sobre los continentes. La vegetación tiene un rol fundamental en la transferencia de vapor de agua a la atmósfera, las plantas se comportan como una especie de mecha, entre el subsuelo, que es el reservorio de agua líquida, y la atmósfera. El término “evapotranspiración” designa la cantidad de vapor de agua transferida a la atmósfera tanto por evaporación directa a nivel del suelo como por la transpiración de los órganos aéreos de las plantas. La noción de evapotranspiración potencial ha sido introducida por el climatólogo americano Thornthwaite, y expresa la evapotraspiración máxima ourrida desde una superficie vegetal que no tiene restricciones al suministo de agua. En estas condiciones la evapotranspiracion potencial puede ser considerada independiente de la especie vegetal que constituye la cobertura como asimismo de la naturaleza del suelo y finalmente como una función de las condiciones energéticas y dinámicas de la atmósfera. El Tanque evaporimétrico tipo “A” fue desarrollado por el Weather Bureau (U.S.A.) para viabilizar estudios sobre el desarrollo de métodos para estimar la evaporación sobre lagos y relacionarlos con los datos meteorológicos normalmente recolectados. Como las redes de observación con Tanque evaporimétrico son en general muy dispersas e incompletas, se han desarrollado métodos de extrapolación.

28

4. IMPUTACIÓN DE AUSENCIAS

4.1 - Métodos en los que se tiene en cuenta únicamente la información histórica Se entiende por ello, que se está imputando usando exclusivamente datos provenientes del análisis de la serie temporal de la propia estación. Además, en general, se indicará:

h = día en que se presenta la ausencia. X h

* = valor a imputar el día de la ausencia (h).

4.1.1 - Por interpolación temporal entre registros Programa: run_time.m, interp1.m

Algoritmo: Cuando falte el dato correspondiente a un día determinado se buscan los días anterior y posterior más próximos, en los que se tenga dato medido en esa estación, y se interpola linealmente.

4.1.2 - Promedio juliano Programa: julmean.m

Algoritmo: Siempre con los valores cronológicos de lluvia por estación, se considera la base de registros pluviométricos como la replicación de un mismo fenómeno con ciclo anual (la variable es entonces la lluvia diaria del calendario juliano) y se utiliza como valor para imputar los huecos el valor de dicha variable, estimado a partir de la media. Así por ejemplo, el día 15 de enero, se calculará el promedio en la estación de todos los registros que se tengan (para ese día del calendario juliano y para esa estación) y con dicho valor se imputarán todas las ausencias correspondientes al 15 de enero para algún año en esa estación.

tX : registro pluviométrico correspondiente al día t en la estación considerada.

Si la estación donde hay un hueco es la j-ésima, y h ddmmaa=

X XX

card Bhj t

t B

*

( )= =

∈∑ , donde

{ }jestaciónlaenddmmyyttB ;: == (día y mes coinciden con los de h)

29

4.1.3 - Promedio global de la estación

Programa: staverage.m Algoritmo: Los datos de lluvia correspondientes a cada estación son considerados como una serie temporal, cuyo promedio en el período disponible es el valor que se utilizará para imputar todas las ausencias correspondientes a la estación.

tX : registro pluviométrico correspondiente al día t en la estación considerada.

Para cada estación j, se calcula:

∑=A

tj

Acard

XX

)(

{ }jestaciónlaenXtA

j

Acard

XX

t

At

tt

∃==

=∑∈

:

10,...2,1

)(

X Xth j= , si la ausencia h correspondió a la estación j.

4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la estación

Programa: dispara.m Algoritmo: Este método asigna a los casos faltantes un valor elegido al azar dentro de los registros históricos conocidos correspondientes a dicha estación. Más allá de su simplicidad y crudeza, tiene la propiedad de no alterar los estadísticos (media, varianza, etc.) de la serie.

tX : registro correspondiente al día t en la estación considerada.

X random X t Ah t* ( , )= ∈ , si la ausencia h correspondió a la estación j.

}{ jestaciónlaenXtA t∃= :

4.1.5 - Valor modal de la serie

Programa: nollovio.m Algoritmo:

Este es un método muy sencillo, que asigna para cada estación su valor más probable.

Por ejemplo, en el caso de la lluvia diaria en Uruguay, este valor es siempre 0 mm/día.

tX : registro pluviométrico correspondiente al día t en la estación considerada.

30

),(mod* AtXalX th ∈= , si la ausencia h correspondió a la estación j.

}{ jestaciónlaenXtA t∃= :

4.1.6 – Imputación con el último valor disponible en la serie

Programa: naive.m Algoritmo: Este algoritmo extremadamente simple fue implementado para crear un marco de comparación con otros métodos más sofisticados. Es sin embargo muy popular.

**τ−= hh XX , siendo h=día en que se presenta la ausencia y

}0:inf{ * >≠=− − τττ τ yNaNXh h

4.1.7 – Promedio y moda horario-mensuales de la estación (sólo viento)

Programas: rellwind.m, mediash.m y modash.m Algoritmo: Los datos de módulo correspondientes a cada estación son considerados como una serie temporal, obtenida como resultado de mediciones efectuadas cada tres horas. Para su uso, la serie se subdivide según mes y hora, estableciéndose valores que corresponden al promedio en la hora considerada, discriminando por mes. Esos valores se utilizarán para imputar las ausencias correspondientes a ese mes y a esa hora en la estación. Para el caso de rumbos no se promediará; se tomará la moda, dado que se trata de datos circulares. Se tendrán pues noventa y seis constantes por estación (doce por ocho medias, doce por ocho modas) con las que se rellenarán los datos faltantes en la misma. (Doce: una por cada mes; ocho: una por cada hora). tX : módulo de viento correspondiente al registro t en la estación considerada

(corresponde a la hora 3x del día y, x=0,1,…,7). En el caso de módulos, para cada mes j, se calcula el promedio mensual de la hora de medición (3x):

∑∈

=At

tjx Acard

XX

)(3 j=1,2,…,12, { }xhoralaajmeselenXtA t 3,: ∃=

jxh XX 3

* = si la ausencia h correspondió al mes j y a la hora 3x en la estación. Es decir,

para cada mes j se toman todos los datos correspondientes a la hora 3x y se promedian. (Estas medias se realizan usando el programa mediash.m).

En el caso de los rumbos para cada mes j se calcula la moda mensual de la hora de

medición (3x). La moda (valor más frecuente) se obtiene por medio de un histograma de rumbos, realizado cada 45 grados, división que obedece a las características del instrumento

31

de medición empleado para obtener los registros de rumbo (para establecer su valor se utiliza el programa modash.m).

))(()( 3 At

jx XhistMaxXMo ∈= j=1,2,…,12, { }xhoralaajmeselenXtA t 3,: ∃=

4.1.8 – Promedio juliano (sólo viento)

Programa: windjuli.m Algoritmo:

Siempre con los valores cronológicos de viento por estación, se consideran las bases

de registros eólicos como si se tratara de la replicación de un mismo fenómeno once veces (la variable es entonces el viento horario, con mediciones cada tres horas, del calendario juliano) y se utiliza como valor para imputar los huecos, el valor de dicha variable correspondiente al año anterior (si existe).

Así, por ejemplo, si el hueco es a la hora 9 del día 15 de enero, se tendrán en cuenta en

la estación todos los registros que se tengan en los once años (para la hora 9 de todos los 15 de enero de los once años considerados y para esa estación) y con el valor del año anterior más próximo se imputarán todas las ausencias correspondientes al 15 de enero para ese año en dicha estación (pueden ser a lo sumo dos: rumbo y módulo).

tX : registro de viento correspondiene al día t en la estación considerada

Si la estación donde hay un hueco es la j-ésima, y h=ddmmaa3x, x=0, 1, 2, …, 7

th XX =* , donde t=ddmmyy3x de la estación j, donde y<a (día y mes coinciden con

los de h, al igual que la hora, pero el año es anterior)

4.2- Métodos en los que se tiene en cuenta únicamente la información regional En este caso, se utiliza únicamente información recabada simultáneamente, sin usar información de los días precedentes.

4.2.1 - Imputación dinámica (“Hot - Deck”)

Programa: hotdeck.m Algoritmo: Este método de asignación dinámica asigna información a grupos de datos cuando dicha información no está disponible, se desconoce o es incorrecta (y debe cambiarse). Dicho método fue preparado por la Oficina del Censo de los Estados Unidos y posteriormente fue perfeccionado por otros. Básicamente, en el método de asignación dinámica se usa la información conocida acerca de individuos con características similares para determinar la información "más apropiada" cuando se desconoce parte (o partes) de una información similar sobre otros individuos.

32

4.2.2 - Vecino geográficamente más cercano

Programa: vecidist.m Algoritmo: Por este método, dada la ausencia el día h para la estación j y dados los registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor correspondiente a la que está más próxima a la estación j (desde un punto de vista geográfico). Hay una versión especializada en el caso del viento de superficie, que imputa separadamente el módulo y el rumbo.

j

tX : registro pluviométrico correspondiente al día t en la estación j . khh XX =* , siendo k la estación geográficamente más próxima donde hay registro

4.2.3- Vecino más cercano por Criterio de Expertos

Programa: veciconf.m Algoritmo: Por este método, dada la ausencia el día h para la estación j y dados los registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor correspondiente a la que está más próxima a la estación j , definiendo la proximidad a partir de una jerarquía establecida por expertos, en base a conocimientos meteorológicos de la zona en estudio.

jtX : registro pluviométrico correspondiente al día t en la estación j .

khh XX =* , siendo k la estación más próxima, según el Criterio de Expertos, donde hay registro.

4.2.4 - Promedio espacial correspondiente al día de la ausencia

Programa: daymean.m Algoritmo:

Este método tiene en cuenta la variable lluvia en su comportamiento espacial únicamente. Si se tienen n estaciones, se considera la serie temporal del vector n-dimensional de lluvias, y en caso de ausencias para un día h (dimensión del vector correspondiente menor que n), en todas las coordenadas faltantes se imputa el promedio de las coordenadas conocidas. Por tanto, el valor a imputar será el promedio aritmético entre todas las estaciones donde hay registro, calculado sobre los valores observados para el día h correspondiente a la ausencia.

33

jtX : registro pluviométrico correspondiente al día t en la estación j .

Si se define: ( )1021 ,, tttt XXXX K= en el hueco:

dim X h( )<10, ( )1021* ,, hj

hhhh XXXXX LL= y

X XX

card Chj h

i

t C

= =∈∑ ( )

, y { }01,2,1,: L=∀∃= iXiC ih

Comentarios: la entropía estadística y los resultados de estos métodos Si se tiene: X X X n1 2, ,L posibles estados excluyentes de una variable X p p pn1 2, ,L las probabilidades asociadas a dichos estados Para eventos independientes, la entropía estadística se define por:

( ) ∑=

=−=

ni

iiin pppppH

121 log,, L , con pi

i

i n

==

=

∑ 11

.

De acuerdo con la definición, se observa: 1) H(1)=0 (la entropía de un suceso cierto es nula). 2) Grandes valores de incertidumbre se obtienen cuando las probabilidades de todos

los estados posibles de la variable X son iguales:

pn

i ni = ∀ =11 2, , ,L

En efecto: ( ) nnn

pppHni

in log

1log

1,,

121 =−= ∑

=

=L

Se considera ahora la cantidad de lluvia en la posición P y la correspondiente a la posición P d+ . A partir de ellas, se define una variable ( ) ( ) ( )dPXPXdX +−= , que será una variable aleatoria con distintas probabilidades según la distancia d . Para cada d , se estima la densidad de la variable aleatoria ( )dX por medio del histograma de frecuencias relativas, estableciéndose entonces la entropía H para cada distancia d . Realizados los cálculos correspondientes, se obtiene un valor mínimo para la entropía que supera 0 6, , y una distancia mínima inter-pluviómetros de más de 8 km , por lo que se concluye que es razonable esperar que los métodos que estén basados únicamente en información regional (o geográfica), no den muy buenos resultados para el relleno de datos faltantes.

34

4.2.5 – Promedio/mediana espacial correspondiente al día de la ausencia (sólo viento)

Programa: daymean_w.m Algoritmo: Este método tiene en cuenta la variable viento (rumbo o módulo) en su comportamiento espacial únicamente. Si se tienen n estaciones, se considera la serie temporal n-dimensional de módulos o rumbos, y en ese caso de ausencias para un registro h (dimensión del vector correspondiente menor que n), en todas sus coordenadas faltantes se imputará el promedio de las coordenadas conocidas, en el caso de módulos. Para los rumbos, la consideración vectorial de la serie temporal se mantiene, sólo que se opta por la mediana como medida de localización, dado que los datos son circulares. Por tanto, en el caso de módulos, el valor a imputar será el promedio aritmético entre todas las estaciones donde hay dado, calculado sobre los valores observados para el registro h correspondiente a la ausencia. Para los rumbos, será la mediana calculada considerando los registros h de las estaciones donde hay dato. Sea j

tX : registro de viento (rumbo o módulo) correspondiente al día t en la estación j.

Si se define ( )821 ,...,, tttt XXXX = en el hueco; dim( ( )821* ,...,,,8)dim( hhhhh XXXXX =< con:

para el caso de módulos: ∑∈

==Ct

ih

h Ccard

XXX

)(* , y { }8,2,1,: L=∀∃= iXiC i

h

para el caso de rumbos: )(* CMeX h = , con { }8,2,1,: L=∀∃= iXiC ih

Con respecto a la entropía estadística también se deben repetir los cálculos realizados

para otros parámetros. Si se considera el viento (módulo y rumbo) en la posición P y en la posición P+d. A partir de ellas, se define la variable )()()( dPXPXdX +−= , que será una variable aleatoria con distintas probabilidades según la distancia d. Para cada d, se estima la densidad de la variable aleatoria )(dX por medio del histograma de frecuencias relativas, estableciéndose entonces la entropía H para cada distancia d. Realizados los cálculos correspondientes, se obtiene un valor mínimo para la entropía que supera 1.37 y una distancia mínima inter-medidores de más de 18 km, por lo que se concluye que es razonable esperar que los métodos que estén basados únicamente en información regional (o geográfica) no den muy buenos resultados para el relleno de datos faltantes.

4.2.6 - Promedio espacial ponderado correspondiente al día de la ausencia

Programa: cressman.m y cressman2.m Algoritmo: Al igual que el anterior, este método tiene en cuenta únicamente el comportamiento espacial. Si se tienen n estaciones, se considera la serie temporal del vector n-dimensional del parámetro, y en caso de ausencias para un día h (dimensión del vector correspondiente menor que n), en todas las estaciones faltantes se imputa una media ponderada de los registros de

35

las estaciones conocidas. Para el método de Cressman los pesos de la ponderación de la lectura j-ésima para imputar la i-ésima estación son inversamente proporcionales al cuadrado de la distancia dij. El algoritmo denominado cressman.m usa como función el inverso de la distancia mientras el denominado cressman2.m usa el inverso de cuadrado de la distancia. Ambos métodos son lineales.

jtX : registro correspondiente al día t en la estación j .

∑∈

=Ct

ihi

jh XwX , siendo

∑∈

=

Ck

Pkj

Pij

id

dw

1

1

con Pijd la potencia P-ésima de la distancia euclídea entre la estación i y la estación j, y

el conjunto { }01,2,1,: L=∀∃= iXiC ih

4.2.7 - Métodos basados en la pseudo-distancia de Kulback-Leibler Distancia de Kulback- Leibler. Cuando se trató la estructura y estacionalidad se consideró la estimación de la discrepancia de Kulback- Leibler. Veamos ahora la definición concreta de dicha pseudo-distancia o discrepancia. DEFINICIÓN: Se define la distancia de Kulback-Leibler entre dos funciones de distribución, como el valor:

( ) [ ]

<<== ∫∫

casootro

GFsidxFxg

xfLxdxf

xg

xfL

GFFF NN

,

,)()(

)()(

)(

)(,

µρ

Observación: Esta distancia es una pseudo-distancia, dado que no cumple con la propiedad de simetría. ( ( ) ( )FGGF ,, ρρ ≠ ), por lo que el cálculo de la misma da resultados distintos según la estación que se elija como de referencia. 4.2.7.1- Imputación por la estación “Kulback-Leibler más próxima”, sin restricciones (sólo viento)

Programa: kulback.m, kulvient2.m y rellwink.m Algoritmo:

Este método calcula los histogramas de frecuencias relativas en cada una de las estaciones para luego, eligiendo una como la más verosímil, ranquear el resto según su proximidad a la escogida, en base a la distancia de Kulback-Leibler. La variable es el registro diario disponible:

36

jtX : registro correspondiente al día t en la estación j .

En base a esa jerarquía de estaciones establecida, es que se imputarán los datos faltantes: - supóngase que en el día h hay un hueco en la estación i , - que se estableció una jerarquía de las restantes estaciones en base a la distancia de

Kulback-Leibler a la estación i: ( ) ( ) ( )njijiji ,,, 21 ρρρ L<< ,

- entonces, el valor a imputar vendrá dado por: 1* j

hh XX = , si hay registro en la estación 1j para el día h.

- de no existir registro para ese día en la estación más próxima, se va recorriendo la jerarquía de estaciones establecida, hasta obtener un dato para ese día.

Cabe señalar que se trabaja en la intersección de soportes de los histogramas (de diez intervalos de clase cada uno de ellos), en el supuesto de que las distribuciones son absolutamente continuas la una respecto de la otra. 4.2.7.2- Imputación por la estación “Kulback-Leibler más próxima”, eliminando días secos (sólo lluvia)

Programa: kulback0.m Algoritmo:

El método difiere del anteriormente descrito, únicamente en lo que a la construcción de histogramas se refiere: la variable ya no es el registro puro (que puede ser nulo), sino que es el registro del día cuando efectivamente hubo lluvia medible.

jtX : registro pluviométrico no nulo correspondiente al día t en la estación j .

4.2.7.3- Imputación por la estación “Kulback-Leibler más próxima”, con restricciones (sólo lluvia)

Programa: kulbackm.m Algoritmo:

Finalmente, este método, trabaja con la variable registro del día cuando efectivamente hubo lluvia medible, sólo que, en momentos de construirse los histogramas, se les exige que cada intervalo de clase acumule como mínimo un 0.05 de las observaciones.

jtX : registro pluviométrico no nulo correspondiente al día t en la estación j .

37

4.2.8 - Mínimos Cuadrados

Programas: mincdr.m, lss.m Algoritmo:

El objetivo del método es imputar los datos ausentes, usando una combinación lineal de los datos presentes del día, con pesos adecuados de forma de lograr un error cuadrático mínimo. Dada la matriz de datos D, (cada fila de la cual tiene n observaciones simultáneas), de dimensión m×n, m-observaciones, n-estaciones meteorológicas. Con el objetivo de imputar el valor correspondiente a la estación j, se toma una combinación lineal de los valores de las restantes k estaciones, nk ≤ , con pesos ( )kwwww ,...,, 21= tales que:

ji dwD ≈ (1)

donde Djes la matriz D sin la columna j, jd es la columna j de D.

A los efectos de éste método, los pesos w se eligen de forma de minimizar:

min1

2

2→=− ∑

=

k

ii

jj dwD l (2)

El problema (2) representa un problema clásico de mínimos cuadrados. La solución se obtiene a partir de las ecuaciones normales

( ) 0=− wDdD jjjt (3) ó

jjtjjt dDwDD =. (4)

Nota: los pesos, base de la imputación de la estación j como una combinación lineal de las restantes estaciones, dependen de la combinación de datos “presentes” del día particular. Hay un conjunto de pesos diferente para cada combinación de ausencias-presencias. El algoritmo ipmplementado en mincdr.m calcula nuevos pesos si la combinación de datos presentes no se había dado previamente; el algoritmo implementado en lss.m en cambio, asume siempre que todas menos una de las estaciones está disponible. Para los casos de ausencias múltiples, asume un valor inicial para ellas e itera, imputando secuencialmente una de las ausentes por vez, utilizando los datos disponibles y las estimaciones más recientes para ello. Cuando los valores imputados en dos iteraciones sucesivas difieren menos que una tolerancia, acepta el resultado y termina. Si se supera el número prescrito de iteraciones o no se logra esa tolerancia, no imputa.

4.2.9 - Mínimo Error Promedio

Programa: minprm.m Algoritmo: El objetivo del método es imputar los datos de las estaciones ausentes con una combinación lineal de los valores disponibles en el mismo día con pesos elegidos para minimizar el promedio del error absoluto.

38

La elección de los pesos de (1) se realiza en este caso de modo que:

min1

→=− ∑k

ii

jj dwD Ql (5)

minimizando la norma 1 del error. Esto es equivalente a minimizar el promedio. El problema (5) debe ser tratado como un problema de programación no lineal.

4.2.10 - Mínimo Error Promedio Robusto

Programa: minprmfl.m Algoritmo: El algoritmo utiliza el anterior como primera estimación; el segundo paso consiste en a) analizar la distribución de los errores de regresión y determinar los registros con discrepancias mayores. Luego se reiteran los cálculos utilizando sólo los valores que han diferido menos de los verdaderos. Los límites para el descarte se fijan como ciertos cuantiles de la distribución de errores.

4.2.11 - Mínimo Percentil 95

Programa: minprc.m Algoritmo:

El objetivo del método es imputar los datos de las estaciones ausentes mediante una combinación lineal de los datos presentes con pesos elegidos de forma de minimizar el percentil 95 del error absoluto. Los pesos de la ecuación (1) se eligen de forma que el percentil 95 del error sea mínimo, es decir :

( )Pr minc D w dj j− → (6)

La condición (6) se resuelve como un problema de programación no lineal

4.2.12 - Métodos robustos de ajuste: Least Median of Squares (LMS)

Programa: mult_regr.m, fsa_lms.f Algoritmo: Este método fue sugerido por Rousseeuw (1984), y consiste en utilizar un estadístico más robusto que la suma de cuadrados como objetivo a minimizar. En este caso, se utiliza la mediana de los cuadrados de las desviaciones entre el verdadero valor, y el obtenido vía la regresión. Es equivalente al método del peor caso trabajando sobre la mitad de la población pero con el detalle que el algoritmo elige “cierta” mitad conveniente.

39

Los algorimos mismos pueden ser de tipo combinatorio (i.e. ensayar todas las posibles maneras de elegir la mitad de la población) o se pueden basar en criterios probabilísticos como los utilizados por Hawkins (1993). En este caso, los pesos se calculan con un programa FORTRAN suministrado por Hawkins.

En cualquier caso, lo que se hace es: para cada estación meteorológica, se estiman con estos algoritmos los coeficientes óptimos que, utilizando datos de todas las estaciones vecinas, estiman mejor los valores observados en la estación. Este proceso se repite para todas las estaciones, generándose así una matriz de coeficientes con una columna para cada estación. En el caso en que exista más de una ausencia por día, se procede como se describió para el método lss.m

4.2.13 - Métodos robustos de ajuste: Least Trimmed Squares (LTS)

Programa: mult_regr.m, fsa_lts.f Algoritmo:

En este caso se utiliza otro criterio sugerido también por Rousseeuw (1984), que minimiza la suma ponderada de los cuadrados de los residuos, siendo los pesos 0.0 o 1.0. Se asume que los pesos 0.0 afectarán a los residuos que contienen outliers, y por lo tanto el total de ceros se especificará a priori. También en este caso se utilizó un programa FORTRAN suministrado por Hawkins para la determinación de los coeficientes. Los mismos, una vez calculados, se utilizan exactamente igual que en el caso anterior.

4.2.14 - Métodos de imputación basados en redes neuronales:

Programas: bpXX.m, trainbpXX.m Algoritmo: La conceptualización de una red neuronal puede verse en diversos textos pero brevemente se trata de un modelo matemático inspirado en la organización y funcionamiento del sistema nervioso, y en particular, de su unidad básica: la neurona. Ella se modela partiendo de la base que para un determinado estímulo, se genera una respuesta (que se asume determinística) modelada por una función de transferencia. Las funciones de transferencia más usadas son la lineal, sigmoide, etc., algunas de cuyas gráficas se presentan en la figura 7. Para este trabajo se han utilizado dos funciones más denominadas sinh y asinh (seno hiperbólico y su inversa) cuya composición da la función identidad. Excepto para el caso lineal y las últimas mencionadas, la mayor parte de las funciones de transferencia tienen un recorrido acotado en [ ]1,1− . Al igual que en su equivalente biológico, las neuronas se conectan entre sí formando una red, y los estímulos para una neurona provienen de las reacciones de otras. En el modelo matemático que se considerará, las neuronas se organizan en capas, y la relación entre las capas se modela de manera simple haciendo que el estímulo para una neurona de una capa sea la suma ponderada de los outputs de las neuronas de la capa anterior más un término de sesgo

40

(que es independiente del estímulo). El software utilizado presupone que todas las neuronas de una capa aportan información a la capa siguiente, y que son iguales entre sí. La primer capa de neuronas recibe los estímulos directamente desde el exterior. Todas las capas entre la primera y la última se denominan ocultas, y tanto el número de capas como el número de neuronas que debería haber en ellas es tema de prueba y error. La figura 8 muestra el esquema general de una red. Los símbolos Σ indican la operación de ponderación más la adición del sesgo, mientras que F1 y F2 son las funciones que modelan a la primer y segunda capa de neuronas.

a=logsig(x)

+1

-1

a=logsig(w*x+b)

+1

-1

-b/w

a=tansig(x)

+1

-1

a=tansig(w*x+b)

+1

-1

-b/w

Figura 7 Representación de dos funciones de transferencia no lineales. El término w*x representa una

combinación lineal de los datos de entrada, mientras que b es un término de sesgo. Una vez diseñada la topología de la red, y definidas las funciones F1, F2, etc. corresponde realizar el entrenamiento de la misma. Ello consiste en presentarle simultáneamente un conjunto de datos y el resultado correcto, de forma que la red aprenda de ellos. El aprendizaje está simulado mediante el ajuste del sesgo y los coeficientes de ponderación que hay asignados a cada neurona, que la vinculan con las reacciones de la capa anterior. El sesgo y los pesos son iterativamente ajustados de forma de minimizar el error cuadrático medio entre lo que la red predice y los valores que se le han presentado como correctos. Este entrenamiento usualmente se realiza tomando una parte de la población (denominado training set) y los pesos obtenidos se validadn contra el resto de la población (denominado testing set). El proceso se considera satisfactorio si la red se comporta en forma similar con este segundo conjunto que no participó en el entrenamiento. Cuando se da por terminado tal proceso, la red está en condiciones de trabajar. Con los pesos ajustados previamente la red procesará los estímulos (datos) que se le presenten, y dará una reacción que se adoptará como output del conjunto.

41

p(1)

p(2)

p(3)

p(4)

Σn1(1)

F1

Σn1(2)

F1

Σn1(3)

F1

Σn1(4)

F1

Σn1(5)

F1

Σn2(1)

F2

Σn2(2)

F2

Σn2(3)

F2

Figura 8 Esquema general de una red neuronal, con cuatro datos de entrada, 5 neuronas en la capa oculta del

tipo F1, y tres neuronas en la salida del tipo F2. En el caso en consideración, se diseñaron varias redes diferentes, que podían estar estimuladas por todos los datos disponibles del día menos uno (el que se buscaba imputar), funciones de esos mismos datos, únicamente los datos del día anterior, los datos del día anterior y el actual, etc. siendo en todos los casos la salida por una única neurona, salida que se iba a tomar como el valor estimado o función de el. El proceso de entrenamiento es muy largo y costoso; trabajando en estaciones de trabajo con un conjunto de entrenamiento de aproximadamente 4000 días, el ajuste de los pesos puede insumir del orden de 10 horas para cada estación incógnita. La estrategia de entrenamiento provista por MATLAB consiste en elegir al azar valores iniciales, e iterar determinísticamente de forma de hallar un mínimo (local). Si bien MATLAB provee alguna alternativa para no quedar atrapado en un mínimo local, el análisis de los resultados reveló que no se lograba escapar exitosamente en muchos casos, aunque se extendiera el número máximo de iteraciones. Se optó por realizar experimentos con muchos (diferentes) puntos iniciales, e iterar en cada caso solamente algunos cientos de iteraciones. De entre todos los mínimos locales obtenidos, se selecciona el más pequeño, y se reinicia la iteración con vistas a perfeccionarlo. El diseño de la arquitectura de la red es importante, pero no existen en la literatura guías sobre como seleccionarla. Se ensayaron varios diseños, algunos de los cuales fueron descartados en etapas tempranas del entrenamiento, y se mencionan aquí aquells que fueron incluídos en los resultados. Ellos son redes compuestas de:

a) Una capa oculta de 6 neuronas tipo tansig (ver figura 7) siendo la salida de tipo lineal. Los datos de entrada son los 9 registros disponibles en las estaciones vecinas. Se la denominó con el nombre bp1.

42

b) Una capa oculta de 6 neuronas tipo tansig siendo la salida de tipo lineal. Los datos de entrada son las 9 anomalías disponibles en las estaciones vecinas, definidas como la diferencia entre el valor observado y la media anual de la estación. Es matemáticamente equivalente a la red bp1 (cambiando el término de sesgo), por lo que su interés se reduce a constatar las dificultades que tiene el algoritmo de optimización utilizado en encontrar el óptimo global. Se la denominó con el nombre bp2

c) Dos capas ocultas, compuestas de 8 neuronas lineales y 4 logsig, y la capa de salida implementada con una neurona tipo logsig. Al ser la salida comprendida entre 0 y 1, lo que se hizo en este caso fue entrenar la red para que replique no la lluvia, sino el valor transformado con la función inversa de probabilidad acumulada (ver métodos de interpolación climatológica) cuyo domino es el intervalo [ ]1,0 y cuyo recorrido es el rango de lluvias observado. El valor cero corresponde con la lluvia cero, y para todos los demás, la densidad de probabilidad es uniforme. Los datos de entrada son los 9 registros disponibles en las estaciones vecinas. Se la denominó con el nombre bp7.

d) Una capa oculta de 6 neuronas tipo tansig siendo la salida de tipo lineal. Los datos de entrada son las 9 anomalías disponibles en las estaciones vecinas, definidas como la diferencia entre el valor observado y la estimación obtenida con el método de Gandin para la estación. Es matemáticamente equivalente a la red bp1 (cambiando el término de sesgo), por lo que su interés se reduce a constatar las dificultades que tiene el algoritmo de optimización utilizado en encontrar el óptimo global. Se la denominó con el nombre bp10

e) Una capa oculta de 6 neuronas tipo tansig siendo la salida de tipo lineal. Los datos de entrada son los 10 registros del día anterior, por lo que es un predictor puro. Se la denominó con el nombre de bp11.

f) Una capa oculta con 6 neuronas de tipo tansig, y la capa de salida una neurona de tipo lineal. Los datos de entrada son los 9 registros disponibles en las estaciones vecinas del día, más los 10 registros del día anterior. Se la denominó con el nombre bp12.

g) Una capa oculta con 4 neuronas de tipo sinh, y la capa de salida una neurona de tipo asinh. Al utilizar una función y su inversa, se facilita el aprendizaje del caso trivial de la función identidad. Los datos de entrada son los 9 registros disponibles en las estaciones vecinas del día. Se la denominó con el nombre bp14.

h) Una capa oculta con 4 neuronas de tipo sinh, y la capa de salida una neurona de tipo asinh. Los datos de entrada son los 9 registros disponibles en las estaciones vecinas del día, más los 10 registros del día anterior. Se la denominó con el nombre bp17.

i) Una capa oculta con neuronas de tipo tansig y la capa de salida de tipo lineal. El número de neuronas de la capa oculta se determina en función del número de estaciones disponibles para cada día, por lo que resulta variable en el tiempo. Se adoptó la parte entera de N/3. Para cada día se realiza el entrenamiento, intentándose ajustar así la función lluvia(x,y). Una vez entrenada, la misma es evaluada en todas las estaciones incógnita. Se la denominó como bp22.

j) Similar a bp22, pero ajustando la raíz cuadrada del valor de la lluvia. Se la denominó como bp23.

k) Una capa oculta con 8 neuronas de tipo asinh, una capa oculta de 4 neuronas de tipo sinh y en la capa de salida una neurona de tipo purelin. Se la denominó con el nombre bp30.

43

l) Ídem anterior. Esta red tiene la particularidad que su conjunto de entrenamiento fue tomado como aquel que resultó como un conjunto básido para el método LTS. el objetivo era entrenar con los datos más confiables apuntando a ignorar los outliers que podían afectar la suma de cuadrados de los errores. Se la denominó con el nombre bp32.

m) Para el caso de las series temporales, se utilizó la función simulin.m de Matlab, que ajusta neuronas lineales en forma adaptativa. Se la denominó annlin.

Desde un punto de vista informático, con las excepciones de bp22, bp23 y annlin, todas las otras fueron entrenadas con programas muy similares entre sí denominados trainbpXX.m, y utilizadas con un único programa bp.m, lo que facilita el mantenimiento y actualización.

4.2.15 - Funciones Climatológicas de Interpolación

Programas: gandin.m, gandin20.m, gandin3a.m, gandin4.m, gandin5.m, gandin6.m, gandin7.m, gandin_diario.m, gandintrans.m

Algoritmo: Se entiende por funciones climatológicas de interpolación a aquellas expresiones que incorporan en sus constantes datos de las series históricas disponibles, sus correlaciones y propiedades estadísticas. Por ende, para aplicarlas, es necesario disponer de un banco de datos, el cual brindará la información requerida, y participará intensivamente en los cálculos. Tales procedimientos son de rutina en la inicialización de modelos meteorológicos planetarios. De entre los posibles, se analiza la interpolación óptima (debida a Gandin, 1965), que se presenta a continuación. Sea )()(' * rSrSS −= , donde S(r) es el valor real, )(* rS el valor estimado y r el radiovector que indica el punto en el cual se interpolará. La magnitud S es escalar.

Sea T un conjunto de observaciones de S, (que se designa por ( )irS ), en i n=1.. sitios,

durante 1..m eventos.T ha sido formado considerando regímenes comparables. Por ejemplo, podría estar formado sólo por datos nocturnos. Se destaca con la palabra verdadero a los parámetros que se definen para los valores exactos (pero desconocidos) de la variable en estudio. Los estimadores de los parámetros, calculados a partir de las medidas se indican con un ^. La barra indica promedio en el tiempo. La covarianza verdadera de la muestra se define como

( ) jinjiSS jiij ≠== ;,2,1,;'' Lσ

La función de estructura verdadera en un punto de los medidos es

( )2'' jiij SS −=β

44

La varianza verdadera en un punto de los medidos es 2'iii S=σ y la matriz [ ]ijσ=Σ es

una matriz simétrica de orden n. Se puede definir el coeficiente de correlación verdadero

[ ] 2/1jjij

ijij σσ

σµ =

Asociado a él, se define una matriz M = [ ]ijµ , con elementos 1=ijµ .

Si se denota como iS al valor medido del parámetro, que es diferente del valor iS real,

se cumplirá que iii SS ε+=ˆ , dado que difieren en una cantidad iε aleatoria.

Se asume por hipótesis, que los errores aleatorios no están correlacionados con los

valores medidos iS , ni con los errores en las otras estaciones, por lo que

iijjiii yS εσδεεε •== 0ˆ

donde iεσ es la desviación estándar de la medida, que depende del instrumento. Si a estos se

les asumen iguales entre sí, resulta εε σσ =i

ni ••1=

De lo expuesto, se puede escribir

iii SS ε+′=ˆ

22

ˆˆ εσσσ +=′= iiiii S (el medido difiere del verdadero) y

ijjiii SS σσ =′′= ˆˆˆ , para ji ≠ (el medido no difiere del verdadero)

El error estándar de la observación puede ser estimado extrapolando la función de estructura β , supuesta homógenea e isótropa, a la distancia cero. O sea

[ ][ ] [ ]

2

222

222

2

.2.2.2

ˆˆ.2ˆˆˆˆ

ε

εεε

σβ

σσσσσσσσσ

β

+=

=+−+=−+++=

=′′−′+′=′−′=

ij

ijjjiiijjjii

jijijiij SSSSSS

De aquí, como ,0=iiβ y se asume )(rββ = , resulta 0

2 ˆ2=

=r

βσε

Este procedimiento para estimar el error instrumental suele dar resultados exageradamente grandes. Johnson (1982) propone como alternativa, determinarlo como el máximo valor posible que cumple

( ) ( ) jijjii

ijij ≠∀≤

−−= ,1

ˆˆ2/122/12

εε σσσσ

σµ

45

El método de interpolación óptima predice no la magnitud, sino el valor de la perturbación S’ ( )0r , con la siguiente expresión

S’ ( )0r = 011

ˆ ISN

i +′∑=ω

Los pesos iω son seleccionados con objeto de minimizar la media cuadrática de los

errores 0I sobre los puntos medidos.

( )( )

001

2

1

2

1 1

2

110

2 σσωσωσωω

εω

ε +−+=

=′−+′=

∑∑∑∑

=== =

=

i

N

ii

N

iiij

N

i

N

jji

N

iii SSE

La condición de mínimo implica Nii

..1;0 ==Ε∂ω∂

, lo que conduce al siguiente sistema

02 222 ii

N

ijijj σσωσω ε =+∑

=

; i=1..N

Si se divide término a término por ( )iiσσ 00 se puede transformar

ii

i

ii

i

jjii

jjijN

j

j

σσσ

σσ

σω

σσ

σσ

σω ε

00

02

001 00

=+∑=

; i = 1..N

Haciendo el cambio de variable ( ) 2/1jjii

ijij σσ

σµ = , resulta

ioii

iii

jj

j

N

jij µ

σσ

σσ

ωσ

σωµ ε =+∑

=

2

00001

Llamando 00σσ

ω iijjq = se llega a

0

2

1i

iiij

N

jij qq µ

σσµ ε =+∑

=

, i = 1...N

El sistema así obtenido es similar al mencionado por Haagenson, si se desprecia el error instrumental.

El cociente de iiσ

σ 00 , denominado windiness ratio por Johnson, es otra función a

modelar.

46

El mismo mide la natural variabilidad entre sitios, y en cierta medida se opone conceptualmente a la inicialización con una media espacial única para los valores ,0

∗S criterio

que es práctica corriente. Una vez determinados los pesos iω (o los )iq , el valor de la perturbación en cualquier

punto se calcula como

i

ii

N

ii SqS ′=′ ∑

= σσ 00

10

Como ya se mencionó, se asume para ijµ , y bajo las hipótesis de isotropía y

homogeneidad, que es únicamente función de la distancia entre los puntos i y j. Para aplicación en la eliminación de ausencias el problema se simplifica, pues en la hipótesis que todos los eventos responden a la misma función de estructura no es necesario

modelar la misma ni el cociente iiσ

σ 00 en función de la posición relativa, ya que el valor

experimental está disponible. Los pasos requeridos son:

a) calcular la matriz experimental M b) estimar el error instrumental

c) dado que iiσ

σ 00 =1, resolver el sistema

( )( )kNiik

iiij

kN

jij ∈=+∑

=,

2

1

µσσωωµ ε

siendo N(k) el conjunto de estaciones para las que hay datos, y k el indice de la(s) estaciones que tienen ausencias. Dependiendo de la estimación del error instrumental, de los datos que se utilizan, etc., se han ensayado algunas variantes del método general que se esquematizan en la tabla 4.

( )rS * Variable a interpolar Con datos del día

t t-dt gandin media histórica lluvia X -

gandintrans media histórica f(lluvia) X - gandin6 media histórica lluvia X X gandin7 media histórica lluvia X -

Inicializando el campo con el valor cero gandin_diario 0 lluvia-media diaria X X

gandin4 0 lluvia X X gandin5 0 lluvia X -

Despreciando el error instrumental gandin20 media histórica lluvia X - gandin3a media histórica lluvia-media diaria X -

Tabla 4 Descripción de los métodos basados en la interpolación con funciones climatológicas. f(lluvia) indica una transformación que logra una función de densidad de probabilidad casi uniforme (ver texto). t y t-dt indican

los datos del día y del día anterior.

47

La transformación f(lluvia) está diseñada de forma de lograr una función de distribución diferente a la original. Para ello se calculó la función de densidad de probabilidad acumulada (cuyo codominio es el intervalo cerrado [ ]1,0 ) de los valores positivos de la lluvia, y se aplicó una interpolación climatológica a esa nueva variable. Dadas las características de la lluvia, la función de distribución de la nueva variable no es uniforme, sino que tiene un valor aislado para el cero, y es uniforme para el resto. Nótese que el valor de lluvia cero se corresponde también con cero en la nueva variable, la que también tiene codominio positivo. A modo de ejemplo, en la figura 9 se observa el histograma de los valores positivos, así como la función de probabilidad acumulada para una estación particular.

0 20 40 60 80 100 120 140 160 1800

10

20

30

40Histograma de los valores >0 en la estacion 2436

%

0 20 40 60 80 100 120 140 160 1800

50

100

%

(mm/dia)

Funcion de densidad de probabilidad acumulada

Figura 9 Función de densidad de probabilidad para las lluvias mayores que cero, y función acumulada de

probabilidad para la estación 2436 en el período 1960-1991

4.2.16 – Penalización de coeficientes principales

Programa: mahalan_nocov.m y mahalan_nocor.m (sólo lluvia), mahalan_yescov.m, mahalan_yescor.m

Algoritmo: Este método también se basa en el Análisis de Componentes Principales (ACP), y ha sido propuesto y presentado en López et al. (1994a). La idea consiste en calcular un estadístico que penalice los valores grandes de los coeficientes principales de las componentes más débiles. En el método anterior esas componentes eran simplemente ignoradas en la reconstrucción argumentando que estaban asociadas a ruido, etc. Se puede justificar que la iimputación óptima mantendrá en valores bajos todos y cada uno de esos términos, y se intenta forzar eso al estimar los valores faltantes de forma de minimizar la suma parcial de cuadrados sobre ellos.

48

Los coeficientes principales pueden calcularse sobre la matriz de covarianza, o previa manipulación, sobre la matriz de correlación de la muestra. El caso ”yes” vs. “no” corresponde a si se ignora la existencia de una gran población de ceros o no, aspecto que se consideró para el caso de lluvia diaria.

4.3- Métodos en los que se tiene en cuenta la información regional e histórica En este caso, se utilizan simultáneamente datos del mismo día de la ausencia, y, eventualmente, de fechas previas. Algunas de las redes neuronales descritas antes podrían incluirse en esta lista.

4.3.1 - Promedio ponderado arbitrariamente (sólo lluvia)

Programa: ponmean.m Algoritmo:

Se considera la serie temporal del promedio diario de los datos disponibles.

XX

card Dtti

i D

=∈∑ ( )

, { }itXiD ∃= : , i = 1 2 10, ,L , donde

j

tX : registro pluviométrico correspondiente al día t en la estación j .

En base a ello, se construye el correlograma del promedio diario en la región y se observa que prácticamente no hay correlación entre días consecutivos: con un "lag" de 1, el coeficiente de autocorrelación es de 0.3415, mientras que con un "lag" de 2, el coeficiente de autocorrelación es de 0.0662. Pese a ello, se usa como método de imputación una media ponderada de la variable evaluada en el día anterior, el posterior, el ante-anterior y el post-posterior al día con ausencia, usando como coeficientes de ponderación las autocorrelaciones obtenidas.

( )062.03415.02

062.03415.03415.0062.0 2112*

+××+×+×+×

= ++−− hhhhh

XXXXX

4.3.2 - Promedio ponderado arbitrariamente (sólo viento)

Programa: correlog.m, ponmean.m Algoritmo: Se consideran las dos series temporales del promedio horario (cada tres horas) de los datos de viento en la región (tomando las n estaciones) de las bases consideradas. En este caso se ignora el carácter circular de los datos de rumbo.

49

XX

card Dtti

i D

=∈∑ ( )

, { }itXiD ∃= : , i = 1 2 10, ,L , donde

j

tX : registro de viento correspondiente al día t en la estación j .

En base a ello, se construye el correlograma del promedio horario (uno para todas las series) en la región y se observa que hay fuerte correlación entre registros consecutivos: con un "lag" de 1, los coeficientes de autocorrelación son de 0.87 para los módulos y 0.72 para los rumbos, mientras que con un "lag" de 2 dichos coeficientes son de 0.76 y 0.51 respectivamente. Entonces se usa como método de imputación una media ponderada de la variable evaluada en el registro anterior, el posterior, el ante-anterior y el post-posterior al registro con ausencia, usando como coeficientes de ponderación las autocorrelaciones obtenidas.

Para módulos:

( )87.076.02

76.087.087.076.0 2112*

+××+×+×+×

= ++−− hhhhh

XXXXX

Para rumbos:

( )51.072.02

51.072.072.051.0 2112*

+××+×+×+×

= ++−− hhhhh

XXXXX

4.3.3 - Condicionamiento según el estado del día anterior (sólo lluvia)

Programa: imputall.m Algoritmo:

En realidad no se trata de un método de relleno propiamente dicho, sino de un paso previo a la aplicación de los otros métodos. Por medio de este programa, se genera un vector de ceros y unos, donde el 0 corresponde a un día donde probabilísticamente no llovió, y el 1 corresponde a un día donde probabilísticamente efectivamente llovió. El cálculo de las probabilidades de lluvia efectiva (estimadas por medio de las probabilidades empíricas), se hizo teniendo en cuenta el estado del día anterior, es decir: por medio de otro programa (probcond.m), se determinaron las probabilidades condicionadas de lluvia dado el estado del día anterior (seco o lluvioso) y, teniendo en cuenta entonces dicha información, se determina probabilísticamente si el día correspondiente a la ausencia fue lluvioso o seco. Usando entonces una cadena de Markov estacionaria de primer orden, se “cruzan” los métodos anteriores, esperándose obtener mejores resultados, pero tratándose ahora de métodos estocásticos de imputación de datos faltantes. En términos analíticos: se define una variable aleatoria

50

−−

=);1(,0

);1(,1

tenlloviónosi

tenlloviósiYt

y se estiman las probabilidades condicionadas:

)01()(

)11()(

101

111

======

tt

tt

XXPtp

XXPtp

a partir de las probabilidades empíricas calculadas en todo el período. (El resto se calcula por complementaridad de sucesos). Dada entonces una ausencia para el día h , previamente se determina si corresponde asignársele un valor no nulo (decisión basada en la información del día anterior), para luego imputarle el valor correspondiente por uno de los métodos anteriormente implementados. A diferencia de los anteriores, el resultado de la imputación no es determinístico, por lo que se dificulta mucho la comparación entre métodos. Sin perjuicio de ello, se entendió importante describirlo e implementarlo.

4.3.4 - Interpolación temporal de coeficientes principales

Programa: itcp_nocor.m, itcp_nocov.m Algoritmo: Este método se basa en el Análisis de Componentes Principales (ACP), y que ha sido tratado en López et al. (1994). Aquí sólo se describe brevemente la notación, y se remite al lector a la referencia citada. Sea ( ) )(1, tnP el vector de precipitaciones de las n estaciones elegidas, para el instante t.

Se considera la matriz M cuyas filas son los vectores rjt Mm j..1,)( =−PP , definidas para

aquellos días en que no faltan datos. MP es el vector de precipitaciones medias en el período.

Los vectores propios de ( ) *=, MMC Tnn serán denominados patrones, y se denotan

como ie . Se supondrá que los valores propios asociados son decrecientes con i. La relación

entre los registros pluviométricos ( ) )(1, tnP y el vector de coeficientes ( ) )(1, tnA está dada por

)( + = )( tt M E.APP (7)

donde MP es el vector de precipitaciones medias en el período, y ( ) ,nnE la matriz formada por

los vectores propios ie .

La matriz ( ) ,nnE es invertible, por lo que dados los datos )( mft −P y )( rft +P es posible

obtener los vectores )( mft −A y )( rft +A correspondientes. La ecuación (7) también se puede

expresar como

51

( )

( )

( )

( )

..= ; .

a

.

.

.

.

a

=)( ;

p

.

.

.

.

p

= ;

p

.

.

.

.

p

=)( 21

n

1

n

1

n

1

nM

t

t

t

t

t

t eeeEAPP (8)

).(+ = )(n=i

1=ii∑ iM tt eaPP (9)

Para el tiempo intermedio ( )1,, −++−∈ rflmfltl la lluvia se calcula mediante

interpolación lineal el vector )(tA . Todos los valores de la precipitación para ese día, se pueden obtener en principio de la ec. (7). Del análisis de los coeficientes ia surge que cuanto mayor es el índice i el coeficiente

ia tiene una desviación estándar menor por lo que su aporte a la suma también es menor

típicamente. Lo anterior justifica que en la reconstrucción del vector )(tP se desprecien los términos para i>q, para algún q, sin perder información esencial, sustituyéndose la fórmula (9) por:

).(+ = )(q=i

1=ii∑ iM tt eaPP (10)

En resumen, para un día ft en que falte algun dato del vector )( ftP se buscan los días

más próximos, anterior y posterior, en los cuales se tenga dato medido en todas las estaciones. Se hace notar que en este método se trabaja con el conjunto de las n estaciones, no con cada una por separado. Sea ft el día a imputar. Sean mft − el último día anterior a ft con datos completos y

rft + el primer día posterior a ft con datos completos ( )rffmf ttt +− < < . Se calculan los

coeficientes )( mft −A y )( rft +A correspondientes a los vectores )( mft −P y )( rft +P con la

ecuación (7). Para el momento lmft +− , se calcula el vector )( lmft +−A interpolando linealmente los

vectores A anteriormente mencionados. El valor tentativo de la precipitación para ese día, )( ftP , se calcula con la ec (10). Las faltantes de la base de datos correspondientes a

componentes del vector )( ftP se toman de los valores del vector tentativo.

Una vez completado el día ft , se reinicia la interpolación, utilizando los vectores

)( lmft +−P y )( rft +P como puntos de partida, hasta completar todos los faltantes. El mejor o

peor desempeño de esta aproximación, está vinculado a las características de la función de autocorrelación de los ai. Usualmente, para otras variables meteorológicas, las propiedades de autocorrelación de la serie temporal de ai son muy diferentes entre sí. Esto es otra justificación para limitar el número de sumandos.

52

5. CONTROL DE CALIDAD.

5.1- Consideraciones Generales

5.1.1 - Necesidad de una depuración progresiva. En Silveira et al. (1991), se muestra que en una población con r=4000 eventos, tan sólo dos valores disparatados podrían alterar significativamente los estadísticos que describen la información. Este hecho obliga a realizar un proceso de depuración recursivo, en el que, en primera instancia, se buscan solamente los errores más gruesos. Como se verá luego, progresivamente se puede ajustar el criterio, para proceder a la detección de problemas más sutiles.

5.1.2 - Metodología y criterios para la comparación de los distintos métodos aplicados. El objetivo del control de calidad es lograr separar, con la máxima probabilidad, los datos erróneos de aquellos correctos. Esta no es la meta usualmente planteada en la literatura, ya que allí se apunta a detectar los días que contienen datos erróneos, y no el(los) dato(s) individualmente. Para el caso de pequeñas poblaciones (algunas decenas de eventos) esa opción puede ser válida, pero no lo es para el caso de las variables meteorológicas. Esta diferencia (asociada al tamaño de la población) no es la única, y ha obligado a un tratamiento original de los estimadores de éxito al evaluar los diferentes métodos. Los detalles se expondrán en lo que sigue. Si los datos están dicotomizados (hay sólo dos posibilidades: son erróneos o son correctos), al clasificarlos se cometen dos tipos de error:

• el error Tipo I, que se define como la probabilidad de afirmar que un dato es erróneo cuando es correcto, y

• el error Tipo II, que está vinculado con la probabilidad de sentenciar que un dato es correcto cuando en realidad no lo es.

Debe quedar claro que la dicotomía es sólo válida en una simulación, o a lo sumo en el caso de errores groseros. En otros casos, no es posible encontrar un valor correcto, ya que las características del instrumento, observador, etc. llevan a que haya un conjunto de posibles valores correcto del cual, en el mejor de los casos, uno está asentado en el papel. Es por ello que se han asumido dos hipótesis: a) los datos asentados en papel son correctos y b) el inspector es perfecto, ya que al serle pedido que revise un dato individual, lo sustituye siempre con el valor correcto. En otras palabras, el inspector no se equivoca. En la literatura consultada, se consideran pequeñas poblaciones contaminadas con un conjunto pequeño de datos erróneos. Los métodos se consideran exitosos si logran clasificar correctamente todos los datos erróneos como tales, y sólo a ellos. Así proceden Atkinson et al.,

53

1993; Hawkins et al., 1984; Hadi, 1994; Rocke y Woodruff, 1996; Rousseeuw y Van Zomeren, 1990, etc. muchos de ellos basados en conjuntos contaminados publicados en Rousseeuw y Leroy, 1987. En términos del error Tipo I y II, lo que se busca es que, en una única operación, se logren errores Tipo I y II iguales a cero. Este objetivo no es realizable en una población grande. No se puede esperar que los métodos operen y clasifiquen correctamente todos los errores, sino se prefiere que, de alguna forma, pueda regularse el esfuerzo (¡significativo!) requerido para detectar primero los errores más importantes. Nótese que ni en el error Tipo I ni en el Tipo II se ha considerado el tamaño del error; simplemente se le cuenta. En la práctica, y con fines meteorológicos, es más interesante lograr reducir algún estimador el error remanente en la base, más que asegurar que no queden errores. Así se utilizan típicamente el error medio cuadrático (RMSE en lo que sigue) o la desviación media absoluta (MAD), o eventualmente, algún percentil de la distribución de los errores absolutos. En algún caso, los métodos admiten parámetros que regulan el tamaño del conjunto de candidatos a error. De esa manera aumento la probabilidad de señalar correctamente un dato erróneo como tal (disminuyendo así el error Tipo I). Sin embargo, esto aumenta el error Tipo II, ya que algunos errores quedarán en el banco de datos señalados como correctos. Por otra parte, si el conjunto de candidatos es grande, el error Tipo II disminuye, pero el error Tipo I aumenta. El compromiso entre utilizar una y otra alternativa depende en cierta medida de las necesidades del usuario, y aparecen como alternativas contrapuestas. Sin embargo, si el algoritmo de detección es aplicado en varias ocasiones, depurando progresivamente el banco de datos, es posible unificar en un único índice ambos objetivos. La metodología que sigue al respecto es una contribución original de este proyecto, la que se encuentra recogida en López, 1997, 1999a. En la figura 10 se presenta un esquema que facilitará el análisis. El eje de las abscisas indica la proporción del total de la población que será revisada. Las ordenadas indican alguna medida del error remanente, por ejemplo, el RMSE. Por la hipótesis del inspector perfecto, si se revisan todos los datos, la base quedará sin errores. Ello explica que las tres curvas (Best, Worst y Possible) terminen en cero error para la abscisa 100 por ciento. Nótese que, por la misma hipótesis, las curvas serán no crecientes; al avanzar la corrección el inspector encontrará errores (si los hay), y simultáneamente la medida del error se reducirá (o se mantendrá), resultando una evolución estrictamente no creciente. El valor inicial al (0 por ciento de esfuerzo) es también el mismo. Las curvas no son continuas; estrictamente cada método produce no una función, sino una permutación diferente de los datos señalando el orden en que deben ser corregidos. Cada método dará una curva diferente para el mismo conjunto de datos. Todas ellas tendrán la misma ordenada para 0 y 100 por ciento, y serán estrictamente no crecientes. Sin embargo, no son las únicas restricciones a cumplir. Existen, entre todas las posibles, dos curvas particulares: la mejor y la peor. La mejor (Best en la figura 10 ) se construye de la siguiente forma: se ordenan en forma decreciente los datos de acuerdo con el valor absoluto de la diferencia con el dato verdadero. Eso hace que los errores más significativos estén primero, y los errores menos significativos al final. El mejor método será aquel que produce esa permutación particular de índices. Luego de señalados todos los errores existentes, el error remanente es cero cualquiera sea la permutación utilizada, por lo que se concluye que el mejor método no es único.

54

Similar razonamiento puede establecerse para el peor método, siendo en este caso la permutación exactamente la inversa de la anterior. Al principio se encuentran todos aquellos datos sin error (en cualquier orden); cuando se agotan los datos sin error, se comienza sugiriendo aquellos cuyo error es menor, y progresivamente se seleccionan los de tamaño mayor. Por lo expuesto previamente, siempre se llega a cero error cuando se han controlado todos los datos.

0 N 100-N 100

Effort [%]

Any

mea

sure

of t

he r

emai

ning

err

or

o Best

Worst o

Possible o

Figura 10 Esquema de la mejor (Best), peor (Worst) y una posible (Possible) curva de operación de un método sobre un juego particular de datos. El de las abscisas está en función del esfuerzo (Effort) mientras que el de las ordenadas indica alguna medida del error remanente (RMSE, MAD, etc.). N indica la fracción del conjunto inicial que tiene errores, y es numéricamente igual al error Tipo II inicial. Tomado de López, 1997 Por definición, ninguna otra curva de operación puede dar una abscisa por debajo de la mejor, ni por encima de la peor; ya que a lo sumo pueden igualarlas. Las zonas "prohibidas" se indican con un rayado en la figura. El hecho de existir curvas óptimas habilita a elaborar algún índice que mida la proximidad de una curva de operación particular a la óptima. Este índice se ha construído de la siguiente manera:

( )( )

( )∫

−=

esfuerzo

esfuerzo

dssmejorspeor

dsscurvaspeor

esfuerzoI

0

0

.)()(

.)()(

(11)

La relación de precedencia entre las curvas hace que el índice sólo puede tomar valores entre cero (la peor curva) y 1 (la mejor curva). Este índice tiene otras propiedades interesantes: para esfuerzos menores que 100, dos curvas con iguales valores valores finales de la ordenada (o sea, con similares resultados para el mismo esfuerzo total) no dan igual índice, prefiriéndose correctamente aquella curva que evoluciona más rápido al principio (ver curva A en figura 11) .

55

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

0

10

20

30

40

50

60

70

80

90

100

Effort [%]

# er

rors

foun

d [%

]

(A)

(B)

(Best)

(Worst)

o

o

o

o

o(Real)

Figura 11. Ejemplo de la mejor, peor y dos curvas particulares de operación, para el primer 2 por ciento del

esfuerzo. El eje de las ordenadas está relacionado con el error Tipo II, mientras que la pendiente de las curvas es mayor cuanto menor sea el error Tipo I. Las áreas sombreadas indican el límite de las curvas posibles. La curva

Real (continua), la curva (A) y la (B) son todos casos válidos. Tomado de López, 1997 Esta figura merece algún comentario adicional, ya que implícitamente maneja información de los errores Tipo I y II. Sea N el error Tipo II inicial, o en otros términos, la proporción (en por ciento) de errores en relación a la población total. Si se denota como f(x) la función descrita en la figura 11, siendo x el esfuerzo (también en por ciento), el error Tipo I puede ser calculado para todas las abscisas como

1001

N

dx

dfeI −= (12)

mientras que el error Tipo II se calcula con la relación

ef N

II = −

100

100 100 (13)

por lo que queda claro que las funciones con mayor pendiente serán preferibles a los efectos de disminuir el error Tipo I; puede verse que la pendiente de f(x) está estrictamente acotada por 100/N, ya que para cualquier esfuerzo incremental, lo más que puede encontrarse es la misma proporción de errores. Los diferentes métodos serán descritos en las secciones siguientes. Para poder compararlos, a todos ellos les será planteado el mismo juego de datos contaminados, y se evaluarán los índices integrales hasta un esfuerzo prefijado. Este juego de datos será generado en forma aleatoria, y se analizarán muchas realizaciones independientes, comparándose estadísticamente los resultados en términos de los índices. Este enfoque difiere del planteado en

56

el informe de avance, en el que se sugería detener la operación cuando el error Tipo I era "muy bajo", basándose en que es uno de los pocos estadísticos calculables por el usuario final (que no conoce los valores "verdaderos"). Con el fin de realizar una comparación útil, las curvas de operación han sido calculadas sólo hasta un nivel prescrito de esfuerzo. El límite es diferente según sea un método orientado al dato o al evento, así como también las curvas óptimas (mejor y peor) son diferentes en ambos casos; el mejor evento para comenzar es aquel que contiene la mayor contribución al estadístico del error (RMSE, MAD, etc.) mientras que el mejor dato sería simplemente el que difiere más del verdadero valor. Claramente, no tienen porqué estar vinculados.

5.2- Métodos utilizados para la detección de errores

5.2.1 - Breve síntesis del Análisis de Componentes Principales (ACP) Dados que varias de las metodologías que se han aplicado usan directamente el ACP, se presenta un resumen sintético de dicho método. En lo que sigue, se denomina ( )kip τ al valor de la precipitación correspondiente al

instante τ k (k=1..r) en la estación i (i=1..n). Se denominará como pi a la media temporal de ( )kip τ , k=1..r.

Dado un conjunto de registros ( )kip τ se les puede representar mediante un vector

( )kn τ)1,(P en el espacio Rn (fig. 12). Cada punto k de la nube, corresponde a una fecha τ k . El

origen de coordenadas se toma en el baricentro de la nube, que tiene componentes pi y se denotará como PM . Es posible demostrar que existe una dirección

re1 (en general, única) que minimiza la

suma de cuadrados S1

S M Hk kk

r

1 ==∑ 2

1

re1 no depende del tiempo τ k . Se denominará como ( )ka τ1 a la proyección OHk . Cada sumando

en S1 puede interpretarse como la norma L2 del vector ( ) ( ) 11M .PP ea kk

rττ −−

Obsérvese que el vector de datos de lluvia para cualquier τ k se ajusta con un vector

constante, más un múltiplo de un vector constante. El término S

r1 es interpretable como la

varianza no explicada por la aproximación con un único término. A continuación, puede definirse

re2 como el vector que minimiza la varianza remanente

57

( ) ( ) ( )∑=

−−−=r

kkkMk eaeaPPS

1

2

22112 ..rr τττ

siendo ( )ka τ2 la proyección según la dirección re2 del segmento OMk . Incluso geométricamente

es posible ver que r re e1 2. = 0.

Análogamente se procede hasta Sn. En Lebart et al.(1977) se demuestra que los ie

r son

los vectores propios de la matriz de covarianza:

( )( ) ( )( )

−−== ∑

kjkjikiijij ppppccC ττ .: ,

y que los valores propios iλ están directamente vinculados con los Si. Se puede ver que las

variables ( )τia y ( ) jia j ≠,τ , tienen correlación cruzada nula. Si se denomina D a la matriz

cuya diagonal está formada por los iλ , y E a la matriz formada por los vectores propios ier

,

entonces resulta: TEDEC ..=

O Hk

Mke1

Figura 12 Esquema de las componentes principales, en un espacio de dimensión 3.

En lo que sigue, se denominará como componentes principales, a los vectores unitarios

ier

, y como coeficientes principales, a la serie de los ( )τia correspondientes. Nótese que el

índice i no está asociado con una estación meteorológica. En resumen, existe una transformación lineal que vincula las series de registros

( ) nipi ..1, =τ , con los coeficientes principales ( )τia mediante

( ) ( )ττ AEPP M .+= (14)

58

donde MP es el vector de precipitaciones medias en el período.

( )

( )

( )

( )

( )

( )

=

=

=

= −

MM

MM

rrL

rrMM

MM

M

M

M

M

M

M

M

M

M

nnn

nn

M

n

eeeeE

a

a

A

p

p

P

p

p

P 11

111

;;;

τ

τ

τ

τ

τ

τ

La matriz E es en general invertible, por lo que dados los datos ( ) nipi ..1, =τ es posible

obtener los coeficientes ( )τA correspondientes con la siguiente expresión:

( ) ( )( )MPPEA −= − ττ .1 (15) La ecuación (15) también se puede expresar como

( ) ( ) i

ni

iiM eaPP

r.

1

ττ ∑=

=+=

Los vectores ie

r (también denominados patrones) son calculados a partir de la nube de

puntos (datos disponibles). En la misma puede existir un pequeño grupo de valores disparatados, que incidan en la determinación de tales patrones, afectando sensiblemente los mismos. En el caso estudiado, típicamente dos de cada tres días tenían alguna ausencia. Por ello, para cada t, deben distinguirse dos situaciones: - se dispone de registros en las n estaciones. - falta algún registro. En el primer caso, es posible calcular directamente las n coordenadas ( )τia . Si para

algún i, ( )τia no está dentro del i-ésimo rango especificado, los n registros de lluvia utilizados

en su determinación son revisados. Estos rangos se determinan a partir de la distribución de ia

para todo el período. En el segundo caso, puede aplicarse algún procedimiento para estimar el (los) dato(s) faltante(s), de forma de reducir el problema al caso anterior.

59

5.2.2 - Datos marginales en la distribución univariada Programa: run_boun

Algoritmo: Consiste en determinar rangos "razonables" para los valores registrados en cada estación, y señalar los casos en que los registros no pertenecen a ellos. Tales rangos pueden estar basados en consideraciones físicas, o simplemente tener en cuenta la probabilidad marginal. En general, el método no es demasiado potente para errores "razonables" (por ejemplo, si se confunde la fecha al digitar, o si se mueve la escala en un río), y asimismo no permite evidenciar malos hábitos del personal que toma las lecturas. En el caso de la lluvia, este método puede detectar eventos claramente anómalos por exceso, pero es incapaz de identificar un dato igual a cero como erróneo, dado que el 80% de los datos, son cero (López et al., 1994a). También está la posibilidad de un chequeo temporal (Abbott, 1986, pp 5) en que se adoptan límites para el incremento entre la lectura y su valor en el instante anterior. En estos métodos sólo la serie de la propia estación y variable está involucrada. No se requiere información adicional.

5.1.3 - Datos marginales en la distribución multivariada

Programas: pca_cor.m, pca_cov.m Algoritmo: En este caso, la población se considera formada por n-uplas, cuya componente i es la lectura en la estación i-ésima. Mediante el análisis de componentes principales, u otro similar puede elegirse una nueva base para el vector de n observaciones en el espacio n-dimensional. Las coordenadas en la base original son los propios registros. El estudio de su distribución y los criterios allí manejables ya fueron mencionados en el punto anterior. Las coordenadas en la nueva base en cambio, son función de los n registros, y están afectados por todos ellos a la vez. Estas coordenadas tienen distribuciones diferentes a las originales, y diferentes entre sí. Se puede sin mayor dificultad, identificar aquellas que corresponden a patrones de "ruido", y aplicarles a ellas por separado el criterio expuesto en 5.2.2. Ello hace que un evento será señalado como outlier si alguna de sus coordenadas está fuera de un intervalo prefijado, mientras que no hay cotas para las otras.

60

Si bien el ACP estándar teóricamente asume un banco de datos completo, esta restricción puede relativizarse. La matriz de correlación (o la de covarianza) puede construirse elemento a elemento, y calcular las componentes principales para los eventos con ausencias. El criterio puede aplicarse luego de imputarlas. Este enfoque no garantiza, sin embargo, que la matriz de correlación (o la de covarianza) sean definidas positivas, aspecto importante para la estabilidad numérica del método así como (¿por qué no?) propiedad requerida formalmente. Es por eso que se implementaron versiones iterativas: se estima una primer matriz usando sólo los eventos completos. Se imputan las ausencias, y se recalculan las matrices ahora con todos los datos disponibles más los datos imputados. Se estima nuevamente la matriz, y se procede hasta que el cambio es despreciable. También se hubieran podido seguir métodos como los sugeridos por Loh, 1991.

Los programas implementan la metodología sugerida por López et al., 1994a. La distribución de densidad de probabilidad de los componentes ( )τia tiene percentiles β y β−1

denominados )1(iw y )2(

iw fuera del intervalo [ ])2()1( , ii ww se ubican sólo el β2 por ciento de los

eventos. Para cada componente los extremos del intervalo se calculan de la propia población. El sufijo cor indica que se analiza la variable normalizada (con varianza unitaria y media cero) utilizándose por tanto los vectores propios de la matriz de correlación; en el segundo caso (sufijo cov) solamente la media es cero, y los componentes se calculan con la matriz de covarianza. Los resultados no exhiben una significativa diferencia. El número de términos a controlar se determinó basándose en criterios sugeridos por Hawkins, 1974. Para que todas las estaciones meteorológicas estén adecuadamente representadas en los componentes débiles, ellas deben aparecer con un peso que supere cierto umbral: se adoptó arbitrariamente un valor n15.0 , siendo n el número de estaciones a considerar (n=10 en el caso de la lluvia). De la aplicación de este criterio resulta que hay que controlar típicamente los 6 componentes más débiles, siempre para el caso de la lluvia.

5.2.4 - Método de Hawkins Programa: mahalan.m

Algoritmo: Este esquema también hace uso de los componentes principales, pero en lugar de controlar por rangos, controla a través de la distribución de un estadístico sugerido por Hawkins, 1974. El mismo se define como:

( ) ( )∑

=

=n

kj j

j

W

aT

ττ

2

2 (16)

Esta sumatoria toma únicamente aquellas componentes marginales (de escasa significación) de la población. Allí es donde se manifiestan más claramente los outliers. Si k=1 y los pesos jW se toman como la varianza de ( )τia , entonces 2T es la distancia de Mahalanobis.

Siguiendo las recomendaciones de López et al., 1994, se utilizó para los pesos jW la distancia

61

intercuartil del 95%. La distribución acumulada del estadístico 2T se presenta para ese caso en la figura 13.

0 5 10 15 200

20

40

60

80

100

mm/día

%

Distribución acumulada de probabilidad para T2

Figura 13 Distribución acumulada de probabilidad para el estadístico 2T , calculado con k=6 y jW como se

indica en el texto De la distribución se nota que el estadístico es muy poco sensible a la mayoría de los datos. Los candidatos a ser error se determinan basados en que el estadístico sea mayor que el valor determinado por un percentil (95, por ejemplo).

5.2.5 - Otros métodos basados en la distancia de Mahalanobis Para realizar una comparación más creíble, fueron implementados algunos métodos bien conocidos en la literatura especializada. La mayoría tiene fuertes vinculaciones con la distancia de Mahalanobis, por lo que se presentará aquí una breve introducción para unificar la notación. La distancia clásica de Mahalanobis está definida para cualquier conjunto X y para cualquier evento xi (Rousseeuw y Van Zomeren, 1990) como:

( )( ) ( ) ( )( )MDi i i

T= − −−

x T X C X x T X1

(17)

siendo T(X) estimado como la media aritmética del conjunto X y la matriz C(X) estimada como la matriz de covarianza. La distancia MDi indica que tan lejos está el evento xi del centro de la nube. La matriz C(X) es simétrica definida positiva, por lo que el conjunto de eventos xi con igual distancia de Mahalanobis están ubicados sobre una superficie elipsoidal con centro T(X). Bajo ciertas hipótesis, valores grandes de la distancia de Mahalanobis corresponden con valores anómalos; para distribución de Gauss en las componentes, la distancia de Mahalanobis al cuadrado debe seguir una distribución χ2.

62

Desafortunadamente, el calcular C(X) y T(X) con los métodos tradicionales sufre del efecto de enmascaramiento, que ocurre cuando está presente un conjunto de más de un dato anómalo cercanos entre sí. En este caso, tanto C(X) como T(X) son afectados y los datos anómalos ya no tendrán un valor grande de MDi. Para superar este problema, se han propuesto métodos alternativos para estimar correctamente C(X) y T(X) aún en presencia de errores arbitrariamente grandes en la población. El término inglés "high breakdown" (alta resistencia o robustez) se ha acuñado para indicar que los resultados de la estimación no serán afectados por errores arbitrariamente grandes en una fracción ε de la población. La cota teórica admisible para ε depende del método, pero en todos los casos es un poco menor que la mitad de la población.

e2 e3

e1

Figura 14 Croquis de las diferentes regiones para detección de errores en el espacio de los componentes utilizados. Desde dentro hacia fuera, para w=3, se ilustran las regiones del método estándar de Mahalanobis, el de Hawkins y el de López et al., 1994a. Un evento no será considerado sospechoso si pertenece al interior de la región. En la figura, el componente a1 no está acotado ni para los métodos de Hawkins ni López, mientras que en el caso del elipsoide de Mahalanobis, los tres componentes a1, a2 y a3 están acotados. Entre los más conocidos, se han seleccionado los métodos de Covarianza con Determinante Mínimo (MCD), Elipsoide de Volumen Mínimo (MVE), Estimador-S y Estimador-M (Rocke96) y el Método de Hadi (Hadi94). Todos producen estimadores robustos, y sus propiedades teóricas han sido estudiadas en la literatura. Una vez conocidos los parámetros C(X) y T(X) puede calcularse la distancia MDi y ordenarse los eventos candidatos; aquellos eventos con valores más altos de la distancia, serán los primeros candidatos. Hadi (1994) sugiere que una vez calculadas las distancias, sólo aquellas que superen un determinado valor deben ser considerados como candidatos, siendo ese valor dependiente del número de columnas en la matriz (observaciones por evento) y de un nivel de confianza. Este criterio no fue incluido en las simulaciones, si bien es importante para otras aplicaciones prácticas.

63

5.2.5.1 - Covarianza de Determinante Mínimo (MCD) y Elipsoide de Volumen Mínimo (MVE)

Programa: minvol.f, fsa_mcd.f Algoritmo: Los criterios de Covarianza de Determinante Mínimo (Rousseeuw y Leroy, 1987) y Elipsoide de Volumen Mínimo (Rousseeuw y Van Zomeren, 1990) son dos métodos muy populares para estimar los parámetros. El MCD busca un subconjunto de X que ignore una fracción ε del total de forma que su matriz de covarianza tenga determinante mínimo. Al ignorar parte de los datos, la estimación tiene alta resistencia (es inmune) a errores arbitrarios en una fracción ε de la población. Se ha utilizado en las simulaciones un programa suministrado gentilmente por Hawkins, basado en ideas expuestas en Hawkins, 1993. El algoritmo de MVE busca un vector T(X) y una matriz C(X) de forma que solamente para una fracción ε de la población, la distancia de Mahalanobis MDi supere una constante que depende del número de datos en cada evento. Al ser C(X) simétrica y definida positiva, el criterio de MVE puede interpretarse como encontrar un centro y ejes principales de un elipsoide de volumen mínimo que deje fuera sólo una fracción ε de la población. Sin embargo, a diferencia del MCD, en este caso la matriz C(X) no es la matriz de covarianza de ningún subconjunto de la población. Ambos métodos (MCD y MVE) son muy costosos en términos de CPU para casos como el considerado en los que hay muchos eventos. Sin embargo, una vez calculados los parámetros, su uso es muy económico. En el experimento se limitó el número de iteraciones admisibles para hallar tanto el MCD como el MVE, por lo que es posible que los resultados puedan mejorarse en algún grado.

5.2.5.2 - Estimador-S y Estimador-M de T(X) y C(X) Programa: multout.c

Algoritmo: Se puede demostrar que tanto el MCD como el MVE son casos particulares de estimadores más generales. Siguiendo a Rocke, 1996, se definirá un Estimador-S como el vector T(X) y la matriz C(X) simétrica definida positiva que minimizan el det(C(X)) sujeto a

( )( ) ( ) ( )( )n bi i

T− −− −

=∑1 1

0ρ x T X C X x T X (18)

donde ρ es una función no decreciente en [0,∞]. La función ρ es usualmente diferenciable (la mayor excepción la da el MVE, donde ρ es 0 o 1). Para el caso de la distribución normal multivariada, ρ(x)=0.5x2, y Rocke (1996) afirma que esta función no debería depender del número de variables. El Estimador-M puede ser definido (Maronna 1976) como el vector T(X) y la matriz simétrica, definida positiva C(X) que son una solución de

( )( ) ( )x T Xi iu d− =∑ 1 0 (19)

64

( )( ) ( )( ) ( ) ( )n u di i

T

i− − − =∑1 2

2x T X x T X C X (20)

siendo u1 y u2 funciones no negativas y no decrecientes para argumentos positivos, y di el cuadrado de la distancia de Mahalanobis, definido como

( )( ) ( ) ( )( )di i i

T2 1= − −−x T X C X x T X (21)

La alta resistencia de ambos estimadores han sido analizados en unos cuantos trabajos en la literatura (ver Rocke 1996 conteniendo una revisión). El código utilizado en los trabajos ha sido implementado por Rocke and Woodruff (1996) y está disponible en statlib; el mismo usa algunas funciones particulares u1 y u2 definidas según sugerencias contenidas en Rocke (1996), y fue utilizado sin cambios.

5.2.5.3 - Método de Hadi (1994) El método de Hadi (1992, 1994) produce un resultado formalmente similar al de MCD. Intenta encontrar un subconjunto conteniendo cerca de la mitad de la población con distancia mínima a una estimación de la matriz de covarianza. Sin embargo, no es combinatorio, ya que la estimación evoluciona desde una estimación inicial por la vía de agregar un nuevo punto hasta que el conjunto requerido es obtenido. El algoritmo es considerablemente más rápido que los otros, pero sufre de algunos inconvenientes. En particular, no es independiente de una transformación afín (Rocke y Woodruff, 1996) lo que implica que los candidatos serán diferentes luego de un cambio de origen y de unidades de medida. Los métodos de Hawkins, MVE, MCD, Estimador-S y Estimador-M son independientes a la transformación afín. Los programas run_hadi_dias y run_hadi_d_dia son similares e implementan en el primer caso el método de Hadi tal como se describirá. Se diferencian únicamente en que la variable a analizar es, en el primer caso la variable en bruto y en el segundo caso, la anomalía respecto a la predicción obtenida con gandin3a. Los programas run_hadi_datos y run_hadi_d_dat implementan un control ulterior en que se hace un análisis de sensibilidad con el fin de encontrar los errores individuales como ya ha sido descrito.

Programas: run_hadi_d_dat.m, run_hadi_d_dia.m, run_hadi_datos.m, run_hadi_dias.m, hadi1.m, hadi2.m

Algoritmo: Sea una tabla nxp, con n observaciones de p variables. Se define la función

( ) ( )V,cxV,crrr

−= ii fD ni ..1= como una distancia basada en el vector cr

y en la matriz V

(definida positiva), de la siguiente manera:

( ) ( ) ( )cVcVcrrrrr −−= −

iT

ii xxD 1, , ni ..1= (22)

Nota: La definición estándar de la distancia de Mahalanobis es tomando como ixcrr = y para

SV = (matriz de covarianza de la muestra). Paso 0: Estimar un vector columna Mc

r como la mediana de las lecturas disponibles. La matriz de

covarianza muestral se calcula como

65

( )( )∑=

−−−

=n

i

TMiMiM n 11

1cxcxSrrrr

(23)

Evaluar las distancias ( )MMiD Sc ,r

de todas las filas de la tabla y ordenarlas de menor a mayor;

sean los índices 1=iν si ( ) 2/1++≤ pni y 0=iν en otro caso. Calcular

=

==n

ii

n

iii

V

1

1

ν

ν xc

r

r y

( )( )

=

=

−−=

n

ii

n

i

TViVii

V

1

1

ν cxcxS

rrrr

(24)

Reordenar nuevamente las observaciones de acuerdo con ( )VViD Sc ,r

y seleccionar las p+1

observaciones de distancia mínima. A ese conjunto se le denominará básico y por omisión al resto se le denominará conjunto no-básico. Paso 1: Para el conjunto básico, indicado con 1=iν ( 0=iν para el no-básico) calcúlense los

estimadores

=

==n

ii

n

iii

b

1

1

ν

ν xc

r

r y

( )( )

=

=

−−=

n

ii

n

i

TViVii

b

1

1

ν cxcxS

rrrr

(25)

Se distinguen ahora dos situaciones, según la matriz sea o no singular (caracterizada por el recíproco del número de condición). Alternativa 1a: La matriz de covarianza es no singular, por lo que se pueden calcular las distancias ( )bbiD Sc ,

r y

ordenar de nuevo a toda la población. Alternativa 1b: La matriz de covarianza es singular, por lo que la distancia no estará definida. En ese caso, agréguese al conjunto básico una nueva filas de la población ya ordenada, y vuélvase al Paso 1. Paso 2: Mientras el conjunto básico no tenga h observaciones ( ( )( )21int ++= pnh ) volver al paso 1 agregando la primer fecha de la lista. Paso 3: En este momento el conjunto básico tiene r observaciones. Una vez evaluadas todas las distancias ( )bnpbi cD Sc ,

r (nótese el escalar cnp multiplicando a la matriz), y ordenadas en forma

creciente, se denota como 1+rd el (r+1)-ésimo elemento de la lista. Si 2,1 nprd αχ≥+ se para el

proceso, declarándose como anómalos todos los eventos que cumplan ( ) 2,, npbnpbi cD αχ≥Sc

r. El

número cnp es un factor constante, y se calcula con la siguiente fórmula: 2

1

31

21

−++

−−+=

pn

p

pncnp (26)

66

Si en cambio 2,1 nprd αχ<+ amplíese el conjunto básico con un nuevo elemento. Si se terminó la

lista (r+1=n) entonces se declarará que el conjunto no tiene errores, y se termina. Caso contrario, se vuelve al paso 3. Al igual que antes, el caso del análisis por datos se procesa con un estudio separado e sensibilidad de la distancia de Mahalanobis (estadístico que definió el carácter de anómalo para el evento) señalando el dato que más lo afecta.

5.2.6 - Método de las redes neuronales Todos los métodos descritos en las secciones precedentes, de una forma u otra describen estadísticos que se muestran muy sensibles cuando son calculados con valores anómalos. Los valores mayores están asociados con situaciones inusuales, por lo que los hace candidatos para contener errores. Basándose en ideas similares a las mencionadas en López et al., 1994a para los scores de los componentes principales, se han diseñado algunos métodos que reutilizan resultados obtenidos con el fin de imputar valores ausentes con redes neuronales artificiales, y que han sido presentados en el capítulo anterior. Las redes neuronales artificiales tienen una arquitectura en capas, en las que la información se mueve en un único sentido. La información disponible estimula una primer capa de neuronas, las que a su vez estimulan una o más capas ocultas, hasta que finalmente la neurona de salida produce la estimación requerida. La red es entrenada previamente de forma de producir ante un estímulo, la salida correcta observada en las estaciones meteorológicas. La literatura consultada estima como difícil la interpretación de los estímulos intermedios. En varias publicaciones se ha venido analizando la posibilidad de utilizar esos estímulos para detectar situaciones anómalas en los datos de entrada. El razonamiento asume que, al igual que en el caso de los Componentes Principales, es posible identificar estadísticos que adoptan valores grandes únicamente en casos inusuales. Lo que se ha hecho en el marco de este proyecto, es conjeturar sobre los diferentes roles que cumplen las neuronas en las redes sencillas implementadas, apuntando a clasificar algunas como detectoras de errores. A estos efectos, se elaboró una "regla" y se la ensayó con éxito en las redes disponibles. La regla está basada en la comprobación que las neuronas tienen diferente nivel de actividad, y que hay algunas que permanecen típicamente inactivas. Ante estos casos, la práctica corriente sugiere eliminar neuronas y reentrenar la red, ya que la red corre riesgo de estar sobreentrenada, lo que implica que tiene una capacidad limitada para generalizar (predecir valores razonable con casos que nunca ha visto). Este enfoque tiene su razón de ser, y descansa en la hipótesis implícita que los datos no contienen valores erróneos. Cuando no es ese el caso, el sistema funciona de la siguiente manera: un grupo de neuronas se activa rutinariamente, estimulando significativamente las conexiones sinápticas que le siguen. En términos cuantitativos, las salidas de las neuronas en consideración son multiplicadas por un coeficiente constante resultado del entrenamiento, y el resultado da un aporte sensible en la combinación lineal que sirve de estímulo a la capa que sigue. En los casos considerados, sólo se disponía de una capa oculta, por lo que esta salida era tomada por una única neurona que producía el resultado complexivo del sistema.

67

Se observó que existían neuronas cuyos coeficientes en la combinación lineal eran sensiblemente mayores que las demás. Un razonamiento simplista diría que se deben eliminar aquellas neuronas con pesos despreciables, pero resultaba que eran esas las que justamente estaban típicamente activas. Las neuronas con pesos mayores tenían un comportamiento totalmente pasivo (no se activaban) excepto para unos pocos casos, en los que aportaban al conjunto de forma de ajustar la predicción. Se definió que sería considerada "ruidosa" (o asociada con ruido) toda neurona cuyo peso en la combinación lineal fuera mayor a cinco veces al mínimo peso en esa capa. Este criterio está basado en la observación, y posiblemente sea mejorable con más investigación. Nótese que podría ocurrir que una red dada no tenga neuronas "ruidosas"; en este caso, y para estos fines, se recomendaría agregar más neuronas en las capas en consideración, de forma que alguna de las nuevas asuma ese rol. También podría ocurrir que exista más de una neurona "ruidosa". Una vez detectada(s) la(s) neurona(s) en estas condiciones, se analizan utilizando toda la población los valores que adoptan las salidas de las mismas, determinándose así rangos no admisibles (outlier regions en la nomenclatura de Davies and Gather, 1993). Nótese que la clasificación en "ruidosa-no ruidosa" se realiza observando los coeficientes de la red; los rangos mismos requieren analizar la red en conjunto con la población de datos. Por la forma en que las redes fueron entrenadas, para una población con registros de 10 estaciones meteorológicas hay que entrenar 10 redes diferentes, cada una de las cuales tendrá como entradas los 9 registros disponibles, y como salida la décima estación. Es claro que, si en un evento, hay un único valor anómalo, sólo una de las 10 redes será indiferente (la que usa como entrada los otros 9 valores), puesto que las otras 9 estarán en condiciones de señalar al evento como anómalo. Es por ello que se desarrolló en primera instancia un algoritmo que señala como sospechosos todo evento en el que al menos una de las redes detecta algo extraño. Ello cubre groseramente el caso que no todas las redes tengan neuronas "ruidosas". El método, tal como está descrito, es orientado a eventos. No se intentó identificar el dato individual que podría ser responsable del comportamiento anómalo. Otros detalles han sido presentados en López, 1999b.

5.2.7 - Método de la verosimilitud de la validación cruzada

Programa: testcrossval.m Algoritmo: Este método está basado en conceptos corrientes de Geoestadística (Samper y Carrera, 1990). El problema fundamental en esa disciplina es encontrar un interpolador aceptable dados un número finito (y pequeño) de puntos con observaciones. Bajo ciertas hipótesis, en el método clásico de krigeado (Samper y Carrera, 1990) el valor interpolado es obtenido como una media ponderada de los datos disponibles, con pesos que dependen de las coordenadas del punto y de las observaciones. Se asume homogeneidad (las propiedades estadísticas del campo no varían con las coordenadas relativas) e isotropía (tampoco varían con la dirección), y que las propiedades de correlación en el espacio pueden ser descritas con un variograma que depende únicamente de la distancia entre puntos.

68

La estimación de este variograma es el problema fundamental de la Geoestadística. Usualmente se le elige de un pequeño subespacio de funciones con propiedades específicas. Samper y Neumann, 1989 sugirieron estimar los parámetros del mismo mediante la maximización de la verosimilitud de la validación cruzada de la muestra. En su forma más simple posible, ello obliga a: 1) retirar una observación 2) estimar ese valor usando las demás observaciones 3) guardar la diferencia entre el valor estimado y el disponible. Una vez que este cálculo está realizado para todos las observaciones, es posible calcular la verosimilitud del conjunto, que depende de los parámetros del variograma y de los datos mismos. Esa verosimilitud puede maximizarse para un variograma particular, pero luego su valor absoluto depende únicamente de los datos mismos. En el caso en estudio no interesaba obtener estimaciones en otros puntos diferentes que los de la red de observación. Al igual que en los métodos de interpolación objetiva (Gandín) se asumió que las propiedades estadísticas eran similares para condiciones sinópticas comparables. Por lo tanto, se utilizó toda la información disponible para calcular la covarianza en lugar de obtenerla vía el variograma. La matriz obtenida era claramente simétrica y definida positiva, cumpliendo con todos los requisitos necesarios. Ello elimina la necesidad de modelar el variograma, y por lo tanto, de maximizar la verosimilitud. La estrategia fue calcular la verosimilitud utilizando la estructura de covarianza muestral; ese valor es una medida de que tan creíble es la imputación realizada con la validación cruzada. En casos anómalos, los valores diferirán mucho y la verosimilitud será baja. En la práctica se imputó utilizando la rutina denominada gandin20, y se calculó la verosimilitud en todos los eventos. Luego se les ordenó de menor a mayor y se sugirió que aquellos con menores valores eran los que contenían algún error. Por lo tanto, el método tal como está descrito está orientado a eventos.

5.2.8 - Método del gradiente admisible

Programa: run_bou2.m Algoritmo: Este método está orientado fundamentalmente a series temporales, y es aplicable para algunos parámetros hidrometeorológicos. El mismo es muy simple, y consiste en especificar un rango admisible para las pendientes (i.e. primer derivada) estimadas por la vía del cociente incremental. Krajewski and Krajewski, (1989) lo aplicaron a un experimento preliminar con datos de caudales. En su formulación original, los autores sugieren dividir la(s) serie(s) en dos conjuntos: del estudio del primero, se sugieren valores extremos de los cocientes incrementales, y luego los aplican a todo el conjunto. En nuestro caso, se estimaron los límites sobre el conjunto de datos previo a ser contaminado con outliers artificiales. Dependiendo del problema, los extremos pueden tener diferente valor absoluto. En particular, en el caso de caudales es posible que la pendiente máxima en crecida sea mayor que en bajante, simplemente por argumentos asociados al balance hídrico y a las características cinemáticas del flujo. En todo caso, las particularidades de cada serie temporal son contempladas dejando libres esos números.

69

A los efectos del experimento, se elaboraron rutinas que estimaban los cuantiles 2.5% y 97.5%, y se adoptaron esos valores como límites. Dado que ellos fueron estimados con los datos sin perturbar, y recién luego fueron incluidos los outliers, no es correcto decir que se produce un 5% de candidatos en cada pasada. El cociente incremental implica dos datos consecutivos: si ese cociente se va de los rangos se asume que el dato más nuevo es el erróneo. Si el dato en el instante t es un outlier grosero, es posible que sean a la vez señalados los valores correspondientes al intervalo (t-1,t) y se declara outlier al t-ésimo (correcto) pero a su vez será afectado el cociente en el intervalo (t,t+1), declarándose también como outlier al t+1-ésimo (incorrecto). Ello se tuvo en cuenta, y si existen candidatos consecutivos, se señala únicamente al primero.

5.2.9 - Método de la curvatura admisible

Programa: run_bou3.m Algoritmo: Es muy similar al anterior: un valor tP es considerado outlier si el estimador de la

derivada segunda

( ) ( ) ( ) ( )( )11

1111

−+

−−++

−−−−−−

tt

tttttttt

TT

TTPPTTPP (27)

calculado como el cociente incremental de los cocientes incrementales excede ciertos márgenes. Al igual que antes, se tiene cuidado en no incluir ternas en las cuales la anomalía puede imputársele a un único valor. Los márgenes se determinan trabajando con la serie sin contaminar.

5.2.10 - Método del producto de gradientes admisibles

Programa: run_bou4.m Algoritmo: Es muy similar al anterior: un valor tP es considerado outlier si el producto de los

cocientes incrementales hacia atrás y hacia adelante excede ciertos márgenes. Al igual que antes, se tiene cuidado en no incluir ternas en las cuales la anomalía puede imputársele a un único valor.

( ) ( ) ( ) ( )tttttttt TTPPTTPP 1111 * −−++ −−−− (28)

70

5.2.11 – Modelado de la distribución (sólo lluvia) Programa: mdd.m

Algoritmo: El modelo que se describe a continuación no puede ser encasillado totalmente en ninguna de las divisiones que se han planteado anteriormente. Si bien su objetivo original fue detectar errores, es también un modelo destinado a favorecer los métodos de imputación analizados, mejorando su eficiencia ( tanto en la aproximación al resultado verdadero como en el tiempo de cálculo ). Hechas estas precisiones se pasa a describirlo.

Utilizando toda la información descriptiva disponible que emerge de la base de datos y del tratamiento estadístico realizado en los puntos anteriores, se ha construido un modelo probabilístico de estimación de la distribución diaria de lluvia. Este modelo habrá de permitir aproximar el dato faltante de lluvia de una estación pluviométrica de un cierto día con una distribución de probabilidad que utiliza la información de la lluvia en esa misma estación el día anterior y en “genéricas “ estaciones vecinas que luego definiremos con mayor precisión, el mismo día. A continuación se especificará el modelo. Para cada estación pluviométrica i, se define :

tiw = milímetros de lluvia caída el día t en la estación y (29)

∑∑==≠≠

==p

ij

i

p

ij

jtiitjj

jgconwjgu11

1)()( (30)

es decir que uit es una combinación lineal de las lluvias caídas en las demás estaciones consideradas el día t. Consideradas las transformadas:

>≤<≤<

=

=

17,3

177,2

70,1

0,0

it

it

it

it

wsi

wsi

wsi

wsi

X

>≤<≤<

=

=

17,3

177,2

70,1

0,0

)1(

)1(

)1(

)1(

ti

ti

ti

ti

wsi

wsi

wsi

wsi

Y

>≤<≤<

=

=

17,3

177,2

70,1

0,0

it

it

it

it

usi

usi

usi

usi

Z donde

( ) ( ) ( ) ( ) { } 33,2,1,0ReRe.Re,,Re == ZcYcXcZYXc La expresión general del Modelo que interesa es:

( )( )zZyYxXP === , (31)

71

es decir, se trata de que la lluvia en una determinada estación se distribuye de determinada manera, condicionada a lo sucedido en la misma estación el día anterior y de algún modo en estaciones “vecinas” el mismo día. Los valores que toman X e Y surgen directamente de la tabla de datos disponibles. Con una simple transformada como se ha definido se obtienen los x e y que constituyen los dos primeros elementos observados de la variable aleatoria triple (X,Y,Z). En cambio se plantean problemas metodológicos para la determinación del tercer elemento. Es conveniente aclarar desde ya que la (31) se obtendrá a partir de la distribución conjunta de (X,Y,Z) utilizando la definición misma de probabilidad condicionada. Será necesario obtener la distribución marginal doble (Y,Z) y podría pensarse de alguna manera en una marginal de X, aunque aquí se presentan grandes dudas metodológicas sobre si se puede de alguna manera utilizar como algún tipo de probabilidad a priori, la simple información dada por frecuencias históricas. Como pensamos que un razonamiento de ese tipo es inconducente, siendo preferible utilizar distribuciones de referencia nos limitaremos a hallar las distribuciones de probabilidad condicionadas planteadas en la (31). Debemos buscar los caminos para obtener los valores que corresponden a las expresiones establecidas en (30), que expresan la información espacial necesaria para la obtención del último elemento de cada terna en la distribución conjunta. Aquí, por ahora, como la construcción del modelo está en una fase fermental se utilizarán dos caminos para obtener la Z. En uno de ellos la combinación lineal expresada en (30) para ponderar de alguna manera los milímetros de lluvia será la determinada por la aplicación del método de Gandín ya descrito. En el segundo caso se utilizarán los conocimientos obtenidos al analizar estacionalidad en relación a las estaciones más cercanas en cada mes a una dada, según la distancia de Kulback- Leibler. En este caso, si hay alguna estación claramente “más cercana” se utilizará ella en (30) con coeficiente 1, y 0 las demás ( en caso de distancias muy similares se ponderarán con el mismo peso aquellas estaciones que cumplan con esta condición y con cero las demás ). En el caso extremo, posible teóricamente, pero no verificado en esta base de datos, de que todas las distancias fueran similares en un cierto mes se debería realizar la combinación lineal de todas ellas. En la práctica se ha elegido la más cercana. De este modo, la matriz original se transforma en una nueva con las ternas. Posteriormente se agrupa por mes, es decir se calcula la distribución para cada mes de la distribución conjunta. Se obtienen así para todas las estaciones pluviométricas el siguiente tipo de matrices 3- way:

{ }

===

=91

121

641

L

L

L

k

j

i

conxX ijr , donde

el término genérico indica para cada una de las 64 ternas posibles, (recordar que Rec (X,Y,Z) = (0,1,2,3)3) el número de veces que aparece en cada mes, para cada una de las 9 estaciones pluviométricas consideradas.

72

Llegado este punto el cálculo de la frecuencias relativas de la variable (X,Y,Z) puede hacerse por estación o para toda la cuenca. En caso de considerar cada estación, se realiza en primer instancia el agrupamiento de meses obtenido al estacionalizar. Es decir se considera la estacionalidad particular de cada estación. Esto en definitiva indica que al considerarse un determinado dato faltante, se tendrá en cuenta de cuál estación es y a qué día del año corresponde (como consecuencia a qué grupo de estacionalidad pertenece). Se obtendrán de esta manera la distribución triple y la marginal doble necesaria, para cada agrupación de meses, de cada estación. De trabajarse con toda la cuenca al mismo tiempo, claramente la estacionalidad será una sola. En este segundo procedimiento el modelo pierde especificidad, hay una sola estacionalidad, y las mismas distribuciones valen para todas las estaciones. Gana sin embargo en generalidad, sobre todo pensando en la aplicación a una nueva estación de la cuenca o si se quiere realizar inferencia a otras estaciones. Una vez obtenidas todas las distribuciones condicionales y verosimilitudes que surgen del modelo, se puede aún profundizar en el análisis. Ya el hecho de tener las diferentes distribuciones de probabilidad que el modelo brinda significa un importante avance. En este sentido podemos considerar el hecho de qué aporta el disponer de una distribución de probabilidad para cada día en la cuenca. Esto significa información directamente usable cuando por algún motivo es necesario saber qué puede haber ocurrido en un determinado lugar, fuera de una estación pluviométrica, en relación a la lluvia caída en un cierto día. También servirá como elemento de control de calidad de datos que provengan de las estaciones ya consideradas o de otras de la cuenca. Es evidente que el sucederse de fenómenos que cuentan con muy baja probabilidad deberá llamar la atención del usuario sobre la calidad de esa información. Por otra parte la información del modelo puede transformarse en un factor que incremente la eficiencia de los diferentes estimadores puntuales que se han analizado en los capítulos anteriores. Y este mejoramiento de eficiencia puede tener que ver con dos aspectos: uno, la obtención de estimadores con menor error y, segundo, la posibilidad de ahorrar tiempo de cálculo en el caso de imputación de un dato faltante, restringiendo el campo de búsqueda a un determinado período del año y a determinados intervalos. Este último aspecto deja en evidencia un aspecto del modelo que debe todavía desarrollarse. Esto es, cómo aprovechar íntegramente la información en distribución que brinda el modelo, para mejorar los estimadores calculados.

73

6 - Resultados obtenidos El proyecto que se describe es altamente complejo, y las miles de horas de cálculo han producido un banco de datos extremadamente rico y difícil de sintetizar. A los efectos de dar cumplimiento a lo especificado en el proyecto, se analizarán los resultados obtenidos para varios parámetros meteorológicos, tratando de encasillarlos de alguna manera para facilitar las comparaciones entre métodos. La mayor parte de los aspectos metodológicos fueron históricamente analizados en primera instancia para la lluvia diaria, y es por ello que se presentarán junto con el análisis de sus resultados. Las otras variables meteorológicas consideradas esencialmente fueron ajustadas al mismo molde, con la excepción del trabajo realizado sobre la dirección del viento dadas sus características de variable circular.

6.1 Lluvia diaria En todos los casos tratados, al mismo banco de datos se le realizaron estudios de tres tipos: imputación de ausencias, detección de eventos con errores y detección de datos dentro de cada evento con errores. Al término error se le considerará sinónimo de outlier en la mayor parte del documento, sin perjuicio de alguna excepción. Los experimentos fueron globalmente similares: tomando el banco de datos, se le modificó apropiadamente, eliminándole datos disponibles (con el fin de imputarlos luego) o insertándole errores aleatorios (con el fin de detectarlos luego). Los métodos apropiados a cada caso fueron aplicados, y sus medidas de desempeño calculadas. Esta operación fue realizada un número grande de veces, siguiendo una metodología de tipo Monte Carlo, evaluándose a posteriori estadísticos de la población de las medidas de desempeño. Las tablas que siguen recogen esencialmente ese análisis.

6.1.1 Generación de ausencias Si bien conceptualmente más simple que el caso de los errores, la forma de generar ausencias requirió cierto análisis. En particular, una pregunta importante es si se puede decir que las ausencias se presentan en forma de rachas, definiéndose así el caso en que aparezcan, para la misma estación, períodos largos sin lecturas. En la práctica, ello corresponde a roturas en el instrumento, o extravío de los registros en papel (típicamente se perdería un mes entero). Si bien eso se pudo constatar con los datos disponibles, corresponde analizar estadísticamente la situación, de forma de diseñar apropiadamente un generador aleatorio de ausencias. Para ello se implementó el test descrito por Little, 1988, el que arrojó como conclusión que en el caso de la lluvia diaria era posible utilizar un generador tipo MCAR, en el que las ausencias se dan al azar y con distribución doblemente uniforme, tanto en las fechas como en las estaciones. El total de las ausencias se limitó a un máximo del 1 por ciento de la población.

74

6.1.2 Imputación de valores ausentes A los efectos de distinguir en alguna medida métodos que requieren más información de otros que no la requieren, los resultados para la imputación se presentan en la tabla 8 para el caso de los métodos que utilizan en el momento de imputar únicamente los datos del mismo día, y en la tabla 9 los métodos que usan información adicional. La red neuronal denominada bp11 si bien usa datos de un único día se ha incluido en la segunda categoría. Las columnas se interpretan de la siguiente manera: en la primera se identifica el método con un nombre ya descrito en el capítulo correspondiente. A continuación se incluyen cuatro estimadores de la función de densidad de probabilidad de la desviación absoluta, definida como la diferencia entre lo imputado por el método y el valor existente en los registros originales. Estos estimadores son el promedio y los percentiles 75, 85 y 95%. Así, por ejemplo, los resultados para la red neuronal bp1 muestran que en el 75% de los casos la red imputa con un error menor a 1.891 mm/día, y en el 95% de los casos, con un error menor a 12.520 mm/día. Esos casos corresponden a los resultados calculados para cada una de las realizaciones de Monte Carlo, y promediados luego entre todas ellas. La quinta columna es el error cuadrático medio, definido como la suma de cuadrados del error absoluto dividido por la cantidad de eventos, y promediado luego entre todas las realizaciones de Monte Carlo. Los resultados han sido obtenidos luego de 415 simulaciones aplicando los métodos descritos anteriormente. Se dispone de información adicional (no incluida en las tablas) como ser:

• mediana de la distribución del error absoluto • tiempo requerido por simulación • número de imputaciones realizadas por simulación

En el caso de la lluvia diaria, la mediana resulta ser típicamente cero. Para otros parámetros meteorológicos podría ser más interesante su presentación. El tiempo requerido por la simulación es una medida indirecta del costo de su aplicación, ya que muchos métodos (las redes neuronales, los métodos que minimizan los percentiles, etc.) tienen un alto costo inicial previo a su aplicación, pero luego son muy económicos. Otros métodos como el hotdeck tienen en cambio su costo principalmente asociado al tiempo de ejecución. Cono no se puede establecer fácilmente una equivalencia entre uno y otro, se ha intentado aportar información cualitativa al respecto indicando en las dos columnas siguientes si el método se considera de costo alto o bajo, sin definir con precisión cuánto es bajo o alto. En los cálculos se utilizó información del período 1960-1980, resultando aproximadamente 11000 eventos de 10 estaciones. Los resultados obtenidos confirman lo dificultoso que es el problema para el caso de los registros diarios. El error medio cuadrático no pudo ser menor a 6.3 mm/día. Si se le compara con la resolución de los datos (asentados en papel en décimas de mm/día) se puede concluir que sería pésimo. Sin embargo, los técnicos de la DNM consultados estiman que el error inherente al instrumento es posiblemente próximo a 5 mm/día. Otra medida de la bondad de los métodos más sofisticados, es comparar su desempeño con otros métodos de aplicación casi trivial. A modo de ejemplo, se seleccionaron el naive (imputa con el último dato disponible para la estación), el valor modal (que en el caso de la lluvia diaria en esta cuenca implica asignarle una lectura cero) y el denominado veciconf (que

75

para cada dato ausente, toma el dato disponible de una estación según un orden de precedencia especificado por un experto). La desviación media cuadrática de este último es bastante mejor que la de los primeros (aproximadamente 8.0 contra 13.0 y 10.4 mm/día) y ese valor se puede estimar como 30% peor que el resultado del mejor método. El número que resulta para los estimadores de la distribución de error (percentiles) también están en ese orden (11 vs. 28.7, 20.3 y 15.4 mm/día) con la excepción del percentil 75% que resulta ser óptimo para el método que asigna el valor modal. La media óptima (del orden de 2 mm/día) no es demasiado mejor que la que se obtiene para el veciconf (2.45 mm/día). En conclusión, los diferentes métodos de imputación mejoran ciertamente los resultados de los métodos extremadamente simples, pero quizá no en la medida de lo esperado. Se pueden asignar como motivos las dificultades inherentes al fenómeno físico considerado, y la poca precisión de las medidas de campo.

Algoritmo

Promedio 75 por ciento

85 por ciento

95 por ciento

RMSE Recursos requeridos

mm/día mm/día mm/día mm/día mm/día Altos Bajos kulback 2.768 0.060 4.720 17.122 8.815 * bp1 2.503 1.891 4.359 12.520 6.675 * bp10 2.606 1.969 4.877 13.878 7.132 * bpl4 2.328 1.494 3.959 12.165 6.452 * bp2 2.590 2.237 4.667 12.838 6.681 * bp22 2.769 1.206 4.784 16.218 8.475 * bp23 2.790 0.368 3.011 18.071 9.675 * bp30 2.344 1.577 3.489 11.492 6.946 * bp32 2.794 1.217 2.593 13.547 10.286 * bp7 2.531 1.429 3.552 11.889 6.965 * cressman 2.235 1.021 4.029 13.056 6.748 * daymean 2.421 1.602 4.413 13.272 6.934 * dispara 5.420 4.092 11.709 31.059 14.253 * gandin 2.261 1.209 3.759 12.038 6.363 * gandin_diario 2.504 1.535 4.493 13.897 7.420 * gandin20 2.295 1.288 3.796 11.979 6.355 * gandin3a 2.386 1.552 4.306 13.091 6.836 * gandin5 2.116 1.095 3.727 12.066 6.367 * gandin7 1.975 0.415 2.900 11.949 6.541 * gandintrans 2.814 2.345 4.585 13.145 7.517 * hotdeck 2.787 0.412 4.380 16.926 8.491 * itcp_nocor 4.770 4.204 8.267 22.534 10.998 * itcp_nocov 4.865 3.756 6.450 20.882 10.749 * julmean 4.998 4.672 6.259 17.559 10.199 * kulback 2.811 0.055 4.729 17.613 8.957 *

Tabla 8 Resultados para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75, 85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el disponible.

En conjunto con la tabla 9 se indican en negrita los cinco mejores resultados obtenidos

76

Algoritmo Promedio 75 por ciento

85 por ciento

95 por ciento

RMSE Recursos

requeridos mm/día mm/día mm/día mm/día mm/día Altos Bajos Ims 3.787 1.704 6.253 24.692 11.155 * Its 2.072 0.881 3.310 11.958 6.541 * Iss 2.205 1.223 3.758 11.985 6.354 * mahalan_nocor 4.333 1.793 5.103 16.983 33.107 * mahalan_nocov 15.588 1.818 4.981 17.472 383.691 * mahalanyescor 2.520 1.011 3.711 13.698 7.583 * mahalanyescov 2.561 0.960 3.808 14.003 0.738 * mincdr 2.099 1.110 3.643 11.934 6.327 * minprc 2.091 1.135 3.693 11.805 6.283 * minprm 2.029 0.735 3.301 11.965 6.432 * minprmfl 2.037 0.556 3.212 12.225 6.576 * naive 4.779 2.562 10.063 28.731 13.080 * valor modal 2.951 0.000 2.792 20.328 10.416 * staverage 4.948 3.072 3.234 17.375 9.992 * veciconf 2.452 0.005 3.892 15.395 8.039 * vecídist 2.427 0.006 3.848 15.173 7.951 *

Tabla 8 (cont.) Resultados para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75, 85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el

disponible. En conjunto con la tabla 9 se indican en negrita los cinco mejores resultados obtenidos

Algoritmo Promedio 75 por ciento

85 por ciento

95 por ciento

RMSE Recursos

requeridos mm/día mm/día mm/día mm/día mm/día Altos Bajos bp11 4.536 3.898 6.704 17.252 9.569 * bp12 2.938 2.842 5.333 13.456 7.150 * bp17 2.629 2.155 4.509 12.684 6.610 * gandin4 2.227 1.543 3.976 12.047 6.319 * gandin6 2.361 1.652 4.063 12.062 6.333 *

Tabla 9 Resultados para los diferentes métodos de imputación, que utilizan valores del día, del día anterior o de ambos. Se presenta el valor esperado, los percentiles 75, 85 y 95, y la raíz del error cuadrático medio para la distribución del valor

absoluto de la diferencia entre el dato imputado y el disponible. En conjunto con la tabla 8 se indican en negrita los cinco mejores resultados obtenidos

La separación en dos tablas de los resultados por este criterio es relativamente arbitraria, y pueden hacerse otras. En particular, hay una división conceptual que merece la pena ser considerada. La mayor parte de la literatura trabaja con métodos que pueden denominarse globalmente como lineales, en la medida que la imputación es el resultado de una combinación lineal de los datos disponibles (López, 1997b). Así, los diferentes métodos lineales difieren entre sí al momento de estimar los coeficientes, requiriendo más o menos cálculos, datos o hipótesis. Un aspecto importante a mencionar es que es posible diseñar métodos óptimos entre todos los lineales, de forma de hacer máximo su desempeño para una determinada función objetivo. En la medida que esos métodos existen (y se han denominado mincdr para optimizar el RMSE; minprc para el percentil 95; minprm para el promedio, etc.) lo único que resta hacer con los otros métodos lineales es analizar la distancia que existen con respecto al óptimo, para cada uno de los estimadores de éxito.

77

Por otra parte se pueden considerar los métodos no lineales, que no están condicionados matemáticamente por los óptimos anteriores. Se buscaron diferentes alternativas, fundamentalmente vinculadas a las redes neuronales artificiales. Es posible demostrar que en ciertas condiciones (Cybenko, 1989) las ANN son Aproximadores Universales, capaces de ajustar arbitrariamente bien funciones continuas, bajo hipótesis modestas. Así fue posible lograr encontrar métodos (ahora no lineales) que produjeran un error con percentil 95% menor al óptimo 11.805 de los métodos lineales. Hasta donde los autores conocen, este enfoque es un aporte surgido del proyecto en lo que se refiere al área meteorológica. Es del caso señalar que, para los códigos disponibles, las ANN son diseñadas de forma de optimizar el RMSE; sin embargo, no lograron mejorar el óptimo de los métodos lineales. El motivo puede deberse a los outliers presentes en la población disponible, ya que alguna de las ANN fue entrenada en etapas tempranas del proyecto con la base aún no completamente depurada. En general, y considerando el desempeño de las ANN, puede decirse que son más sensibles a los outliers que los métodos lineales, pero que pueden dar un mejor ajuste en la mayor parte de los otros casos. Eso se manifiesta en los buenos resultados que se obtienen para los percentiles 95, 85 y 75%, valores que no son afectados por la presencia de unos pocos outliers, a diferencia del promedio y la RMSE. Esta hipótesis se ye reforzada al considerar el desempeño de las ANN como detectores de outliers, aspecto recogido en López, 1999b y analizado aquí más adelante. Por otra parte, es de hacer notar que no se observó una sustancial mejora al incorporar información de los días previos. El motivo está asociado a los algoritmos de optimización utilizados, los que se pudo verificar en varios casos que fallaban en escapar de mínimos locales. Por ejemplo, la red bp12 tiene casi el doble de parámetros que la bpl, y con una adecuada selección de los mismos se la puede hacer idéntica a ella; sin embargo, ese caso particular no fue obtenido por los algoritmos de optimización, produciendo una solución subóptima. Entre los métodos lineales, es de hacer notar el buen desempeño del método denominado gandin7. El mismo trabaja (a diferencia de los otros) sobre una variable transformada de la población original, obtenida extrayendo la raíz cuadrada. Este resultado auspicioso (presente en el informe preliminar) deliberadamente no fue aprovechado en los trabajos posteriores, buscándose lograr similares desempeños sin realizar manipulaciones a la medida del problema. La filosofía del proyecto era ensayar métodos conocidos, o desarrollar nuevos, pero siempre buscando que sean generalizables a otras variables meteorológicas, y la transformación de la variable es altamente especifica al problema. A modo de ejemplo, una transformación general siempre disponible, seria la de llevar los datos del problema al intervalo [0,1] con densidad de probabilidad arbitraria (uniforme, normal, etc.). Un buen resultado obtenido con esta transformación hubiese sido de gran valor dada su generalidad. Si bien en el caso de la lluvia la transformación con esos requerimientos no es estrictamente posible, ya que el valor 0 mm/día tiene una probabilidad especialmente alta, se diseñó el método denominado gandintrans que opera sobre la variable transformada. Dado que su desempeño no fue excesivamente satisfactorio, no se continuó en su aplicación a otros casos. Los métodos lineales denominados lss y mincdr tienen desempeños similares, pero debe señalarse que la complejidad incluida en el segundo (que tenia coeficientes diferentes dependiendo de la combinación de ausencias-presencias en cada evento) no mejora substancialmente los números del primero, que simplemente extraía los pesos asumiendo una

78

ausencia por día, e iteraba en el caso que hubiera más de una. Este resultado, unido al costo desmesurado de la determinación de los pesos, justifica el haber dejado de lado la determinación de similares coeficientes para el caso de los métodos lts y lms. Como último aspecto a comentar del experimento, debe considerarse el número de simulaciones de Monte Carlo realizadas. Para todos los métodos se realizaron un número grande de simulaciones con la expectativa que las distribuciones y sus estimadores y momentos se estabilizaran. El problema fue definir cuándo estaban estabilizados. La literatura no es demasiado explícita al respecto, y el criterio que se adoptó fue el siguiente: la población de estimadores se separa en dos partes a las que se les aplica el test de Kolmogorov-Smirnov (Koroliuk, 1986 págs. 475-476) que analiza si dos muestras pertenecen a la misma distribución. Se aceptó que si este test era favorable con un nivel de confianza del 95% la simulación se daba por terminada.

6.1.3 Generación de errores aleatorios El problema de la apropiada simulación de desempeño de los métodos de detección de errores requiere de algún procedimiento para la generación de los errores a encontrar. En el caso de la lluvia se realizó un trabajo muy completo que se ha descrito en López, 1998b (trabajo incluido en el anexo), al que se remite al lector. La utilidad del mismo excede la de este trabajo, ya que, disponiendo de un generador de errores aleatorio, es posible realizar simulaciones sobre sistemas complejos (como el de gestión de represas de riego, energía o de agua potable) de forma de dar márgenes de error realistas en los valores esperados de la salida. A modo de ejemplo, si se dispone de un modelo hidrológico del tipo lluvia-nivel en el embalse, se puede analizar la sensibilidad de los niveles en función de los simples errores de los datos de partida, obteniendo así rigurosamente límites estadísticos a estas medidas hidrológicas (usualmente asumidas como exactas).

6.1.4 Detección de valores erróneos Tal como se indicó al principio, el experimento consistió en sembrar el banco de datos con errores y luego encontrarlos. La operación del sembrado fue realizada sustituyendo siempre observaciones disponibles de forma de poder ponderar si el dato sembrado difería poco o mucho del valor verdadero. Desafortunadamente, la contabilidad requerida para poder comparar métodos introduce algunos tecnicismos en el análisis, que se deben contemplar. En la literatura, la mayor parte de los métodos está orientada a eventos (López, 1999b). Ello implica que lo que el método intenta es señalar los individuos en la población de puntos de R que tienen un comportamiento anómalo. Ello es muy útil, pero no es suficiente en la medida que la anomalía puede estar asociada a algunas pocas lecturas. Ello es debido a que las lecturas meteorológicas son tomadas en estaciones separadas espacialmente, por observadores independientes; el proceso de digitación de registros en papel también es realizado en forma ordenada por estación, lo que hace que el punto en R recién se conforme dentro de la computadora. Por lo tanto, es de interés encontrar métodos capaces de señalar no solamente el evento sospechoso, sino también el dato dentro del evento. Algunos de los métodos orientados a eventos pueden ser extendidos de forma de producir un método orientado a datos, pero otros no. En muchos de los casos (con la excepción de los métodos descritos en López, 1994a), este trabajo de generalización del método ha sido un aporte de este proyecto.

79

Todos los métodos han sido enfrentados al mismo banco de datos con errores, y se han calculado los índices definidos en el capítulo 5. Debe hacerse notar que los métodos óptimos de detección son distintos según sean orientados al evento o al dato (López, 1 999a), por lo que los índices no son intercambiables. Así por ejemplo, en la tabla 10 se observa que el método bpl tiene un índice promedio de 52.305 % en su habilidad de encontrar errores, pero ese ni no puede ser automáticamente comparado con el que aparece en la tabla 14 para el mve_dato, de sólo 17.05 %. Incluso las simulaciones se realizaron hasta un nivel de esfuerzo predeterminado, que fue diferente para el caso de los métodos orientados a eventos (en los que el esfuerzo se mide en relación al total N de eventos disponibles) que para el de los orientados a datos (en los que el esfuerzo se mide en relación al total N*p de datos disponibles, siendo p el número de estaciones disponibles). En las simulaciones, se procesó hasta un 10 por ciento en el caso de eventos, y 2 por ciento en el caso de datos. Por lo expuesto hay que distinguir entre métodos orientados a identificar al evento con error y los que intentan detectar el dato con error. Las tablas 10, 11, 12 y 13 presentan los resultados orientados a eventos, mientras que las tablas 14, 15, 16 y 17 ilustran el caso de métodos orientados a datos. La tabla 10 tiene cuatro columnas, la primera identificando al método y las otras tres analizando su desempeño en términos de tres índices. El primero, mide la distancia relativa al método óptimo considerando la habilidad de encontrar errores, independientemente de su cuantía. El segundo, tiene en cuenta el error absoluto, por lo que un ni más alto indica que el método es capaz de encontrar los errores más significativos en las primeras etapas de la depuración. El tercer índice es similar al segundo, pero tiene en cuenta el error cuadrático medio como estimador de error. En cada una de esas columnas hay dos subdivisiones. La primera ilustra el valor promedio alcanzado por ese índice a lo largo de la simulación de Monte Carlo. Así, por ejemplo, si el método denominado bpl tiene un índice de Encontrados vs. esfuerzo que en media vale 52.305%, ello debe interpretarse como que encuentra para un mismo esfuerzo, algo más de la mitad de errores que el método óptimo. Como referencia, debe considerarse un método como el de Duplicate Performance Method (DPM) (descrito por ejemplo en Strayhorn, 1990; López, 1996, etc.) que en el caso especial de errores generados en la etapa de digitación, corrige los mismos con un índice del 50% en valor esperado, asumiendo que el orden en que se digitan por segunda vez los registros es al azar. En casos como éstos no debe inferirse que el DPM tiene un desempeño comparable con bpl; el 50% es el valor esperado del desempeño asumiendo que se reordena la lista de eventos en forma aleatoria, y se la digita por segunda vez hasta un esfuerzo determinado. Si esto se realiza muchas veces, en forma independiente, etc. entonces el valor esperado estará en ese nivel. Esta situación es rara vez aplicable en la práctica, ya que si se dispone de los recursos necesarios como para digitar una fracción alfa de la población N veces, es más razonable digitar una fracción N*alfa obtenida con cualquiera de los métodos que se presentan. La segunda división corresponde a la probabilidad que el método sea el de mejor desempeño entre todos los considerados. Así, la red neuronal bpl0 fue sin lugar a dudas la más exitosa en detectar errores cuando la cuantía era importante. Incluso su índice para el error promedio es muy próximo al óptimo, lo que es un resultado altamente interesante para estos

80

métodos no lineales. El método mve_ddia tiene un desempeño comparable en términos de la media para esos casos. Al igual que en el caso de la imputación, se realizaron simulaciones hasta lograr que los índices se estabilizaran estadísticamente; por ello, los resultados están basados en 555 simulaciones.

Método Encontrados vs. esfuerzo Precisión como MAD Precisión como RMSE media óptimo media óptimo media óptimo bp1 52.305 0.00 71.714 0.00 63.777 0.00 bp7 58.918 0.00 74.516 0.00 62.108 0.00 bp10 67.148 0.00 90.829 100.00 84.449 99.80 bp14 59.311 0.00 76.118 0.00 64.978 0.00 crossva05 56.915 0.00 76.311 0.00 67.344 0.00 pcacovd05 56.041 0.00 75.560 0.00 65.684 0.00 mahaday05 58.476 0.00 77.763 0.00 68.637 0.00 mve_dias 59.045 0.00 76.389 0.00 65.692 0.00 mve_ddia 84.428 10.80 86.179 0.00 80.397 0.20 mcd_dias 59.170 0.00 75.342 0.00 63.911 0.00 mcd_ddia 84.501 23.40 68.153 0.00 61.759 0.00 hadi_dias 55.365 0.00 44.477 0.00 31.065 0.00 hadi_ddia 50.716 0.00 46.283 0.00 33.571 0.00 rockedias 49.609 0.00 55.262 0.00 34.793 0.00 rockeddia 84.550 65.80 85.783 0.00 79.948 0.00

Tabla 10 Promedio y probabilidad (en por ciento) de ser el mejor método orientado a eventos según los índices considerados luego de 555 simulaciones. Todos los índices son adimensionados.

Del análisis de la tabla 10 se puede observar que, además de la red neuronal bpl O tuvieron un buen desempeño las variantes del método de Rocke, 1996 cuando fue aplicada a la anomalía (ver capítulo 4) al igual que las de mcd_ddia y mve_ddia. Todas ellas requieren de unos cálculos preparatorios costosos para estimar el vector de medias y la matriz de covarianza. Entre los métodos menos costosos, se destaca el denominado mahaday05 propuesto originalmente por Hawkins, 1974. El mismo opera con la matriz de covarianza de la muestra, por lo que su cálculo es inmediato. La comparación entre métodos no sería completa si únicamente considerara los valores promedios de los índices. Es perfectamente posible que ello enmascarara desempeños pobres y brillantes, por lo que se elaboró otro tipo de comparación, método contra método, analizando el número de casos en que uno producía índices mejores que el otro. Ello está presentado (dependiendo del índice) en las tablas 11 a 13. En todas ellas, se presenta una tabla de doble entrada, que debe procesarse de la siguiente forma. Por ejemplo, en la tabla 11 en la línea (D) bpl4, columna (B) se está comparando el índice obtenido con el método bpl4 vs. el obtenido por el método bp7. En el 79.10% de los casos, el índice del primer método fue mejor que el del segundo. A diferencia de la tabla 10, no se puede estimar la cuantía de esa diferencia, sino solamente la precedencia. La última fila contiene el promedio por columna, por lo que su interpretación corresponde a la probabilidad que el método no sea la mejor opción, ya que valores grandes del mismo indican que es superado por la mayor parte de los otros métodos.

81

Los resultados son consistentes con los presentados antes, y se ve que el método rocke_ddia no es el mejor solamente en un 2.83% de las simulaciones. Los dos métodos “económicos” (pcacovd05 y mahaday05) tienen un desempeño secundario. En la tabla se indican con fondo gris los cinco mejores métodos según este criterio.

A B C D E F G H I J K L M N O

(A)bp1 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 9 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0.00 2 . 2 0 86.10 96.60 0.00

(B)bp7 100.00 0 . 0 0 20.90 99.50 99.30 62.30 37.50 0.00 25.00 0.00 99.60 100.00 100.00 0.00

(C)bp10 100.00 100.00 100.00 100.00 100.00 100.00 100.00 0.00 100.00 0.00 100.00 100.00 100.00 0.00

(D)bp14 100.00 79.10 0 . 0 0 100.00 99.50 73.90 71.50 0.00 63.10 0.00 99.60 100.00 100.00 0.00

(E)crossva05 100.00 0 . 5 0 0 . 0 0 0 . 0 0 78.90 2 . 2 0 0 . 2 0 0.00 0 . 0 0 0.00 84.10 100.00 100.00 0.00

(F)pcacovdo5 99.10 0 . 7 0 0 . 0 0 0 . 5 0 21.10 0 . 9 0 0 . 7 0 0.00 0 . 7 0 0.00 65.60 99.80 100.00 0.00

(G)mahadayo5 100.00 37.70 0 . 0 0 26.10 97.80 99.10 30.80 0.00 33.20 0.00 96.40 100.00 100.00 0.00

(H)mve_dias 100.00 62.50 0 . 0 0 28.50 99.80 99.30 69.20 0.00 36.40 0.00 99.80 100.00 100.00 0.00

(I)mve_ddia 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 27.60 100.00 100.00 100.00 15.70

(J)mcd_dias 100.00 75.00 0 . 0 0 36.90 100.00 99.30 66.80 63.60 0.00 0.00 99.80 100.00 100.00 0.00

(K)mcd_ddia 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 72.40 100.00 100.00 100.00 100.00 26.70

(L)hadi_dias 97.80 0 . 4 0 0 . 0 0 0 . 4 0 15.90 34.40 3 . 6 0 0 . 2 0 0.00 0 . 2 0 0.00 99.80 100.00 0.00

(M)hadi_ddia 13.90 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 2 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0.00 0 . 2 0 78.20 0.00

(N)rockedias 3 . 4 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0.00 0 . 0 0 21.80 0.00

(O)rockeddia 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 84.30 100.00 73.30 100.00 100.00 100.00

Promedio 0 . 8 1 0 . 4 4 0 . 2 0 0 . 3 4 0 . 6 2 0 . 6 7 0 . 4 5 0 . 4 0 0.10 0 . 3 7 0.07 70.00 0 . 8 7 0 . 9 2 0.03 Tabla 11 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 555 simulaciones

La tabla 12 es formalmente similar a la anterior. Cuando se utiliza un índice que tiene en cuenta el tamaño de los errores encontrados, las figuras cambian en algo. El método que se lleva las palmas es el bpl0 tal como fue indicado anteriormente, seguido por los métodos de Rocke y del elipsoide de volumen mínimo. De entre los otros métodos, interesa señalar el de Hawkins y el la verosimilitud (crossvaø5) debido a su bajo costo de implementación. La tabla 13 es muy similar a la anterior, mostrando unos cambios en el orden de los métodos pero no demasiados en los mejores métodos. Nuevamente, el método que se lleva las palmas es el bpl0 tal como fue indicado anteriormente, seguido por los métodos del elipsoide de volumen mínimo y luego por el de Rocke. Luego se intercambian posiciones entre el de la verosimilitud (crossva05) y el de Hawkins. Una reflexión general que puede hacerse es que, si se disponen de los recursos informáticos apropiados (software y hardware) vale la pena realizar los cálculos más complejos. La ventaja dependerá fundamentalmente del costo relativo entre la corrección de los errores y el tiempo de CPU. Si se dispone de recursos informáticos generosos puede economizarse en corrección. Con el fin de no apabullar con gráficas, no se han presentado los resultados relativos a la evolución del índice vs. el esfuerzo. Uno en particular que podría haber sido interesante presentar, es el esfuerzo requerido para lograr un nivel de depuración dado (por ejemplo, cuanto hay que corregir en promedio para lograr disminuir al 70% el error remanente). Lo que se ha presentado corresponde al error remanente para un esfuerzo dado, y los datos necesarios para el otro cálculo no están disponibles, requiriéndose realizar parte de la simulación nuevamente.

82

A B C D E F G H I J K L M N O

(A) bp1 1 . 3 0 0.00 0 . 0 0 0 . 0 0 2 . 2 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 32.60 100.00 100.00 100.00 0 . 0 0

(B) bp7 98.70 0.00 1 . 6 0 5 . 0 0 26.10 2 . 2 0 0 . 7 0 0 . 0 0 10.30 32.60 100.00 100.00 100.00 0 . 0 0

(C)bp10 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

(D) bp14 100.00 98.40 0.00 42.00 59.60 22.70 36.90 0 . 0 0 89.50 32.60 100.00 100.00 100.00 0 . 0 0

(E)crossva05 100.00 95.00 0.00 58.00 64.70 21.40 48.10 0 . 0 0 86.80 32.60 100.00 100.00 100.00 0 . 0 0

(F) pcacovd05 97.80 73.90 0.00 40.40 35.30 17.70 33.50 0 . 0 0 60.90 32.60 100.00 100.00 100.00 0 . 0 0

(G) mahaday05 100.00 97.80 0.00 77.30 78.60 82.30 75.00 0 . 0 0 84.50 32.60 100.00 100.00 100.00 0 . 0 0

(H) mve_dias 100.00 99.30 0.00 63.10 51.90 66.50 25.00 0 . 0 0 98.70 32.60 100.00 100.00 100.00 0 . 0 0

(1) mve_ddia 100.00 100.00 0.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

(J) mcd_dias 100.00 89.70 0.00 10.50 13.20 39.10 15.50 1 . 3 0 0 . 0 0 32.60 100.00 100.00 100.00 0 . 0 0

(K) mcd_ddia 67.40 67.40 0.00 67.40 67.40 67.40 67.40 67.40 0 . 0 0 67.40 67.40 67.40 67.40 4 . 5 0

(L) hadi_dias 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 32.60 16.20 0 . 4 0 0 . 0 0

(M) hadi_ddia 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 32.60 83.80 0 . 0 0 0 . 0 0

(N) rockedias 0 . 0 0 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 32.60 99.60 100.00 0 . 0 0

(O)rockeddia 100.00 100.00 0.00 100.00 100.00 100.00 100.00 100.00 0 . 0 0 100.00 95.50 100.00 100.00 100.00

Promedio 0 . 7 1 0 . 6 2 0.00 0 . 4 1 0 . 4 0 0 . 4 7 0 . 3 1 0 . 3 8 0 . 0 7 0 . 5 3 0 . 4 4 0 . 9 0 0 . 8 6 0 . 7 8 0 . 1 4 Tabla 12 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método 1 exceda al

valor obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 555 simulaciones.

A B C O E F G H I J K L M N O

(A)bp 83.10 0.00 23.80 0 . 9 0 23.10 14.40 9 . 0 0 0.00 46.30 32.60 100.00 100.00 100.00 0 . 0 0

(B)bp7 16.90 0.00 1 . 1 0 0 . 2 0 10.60 1 . 6 0 0 . 0 0 0.00 4 . 7 0 32.60 100.00 100.00 100.00 0 . 0 0

(C)bp 100.00 100.00 100.00 100.00 100.00 100.00 100.00 99.80 100.00 100.00 100.00 100.00 100.00 100.00

(D) bpl4 76.20 98.90 0.00 7 . 0 0 37.50 22.50 27.00 0.00 87.60 32.60 100.00 100.00 100.00 0 . 0 0

(E) crossva05 99.10 99.80 0.00 93.00 71.00 29.20 87.90 0.00 100.00 32.60 100.00 100.00 100.00 0 . 0 0

(F) pcacovd05 76.90 89.40 0.00 62.50 29.00 24.30 53.70 0.00 77.30 32.60 100.00 100.00 100.00 0 . 0 0

(G) mahadayo5 85.60 98.40 0.00 77.50 70.80 75.70 74.60 0.00 81.40 32.60 100.00 100.00 100.00 0 . 0 0

(H) mve_dias 91.00 100.00 0.00 73.00 12.10 46.30 25.40 0.00 99.30 32.60 100.00 100.00 100.00 0 . 0 0

(I)mve_ddia 100.00 100.00 0.20 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 96.90

(J) mcd_dias 53.70 95.30 0.00 12.40 0 . 0 0 22.70 18.60 0 . 7 0 0.00 32.60 100.00 100.00 100.00 0 . 0 0

(K) mcd_ddia 67.40 67.40 0.00 67.40 67.40 67.40 67.40 67.40 0.00 67.40 68.60 67.70 67.70 2 . 9 0

(L) hadi_dias 0.00 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 31.40 12.10 4 . 5 0 0 . 0 0

(M) hadi_ddia 0.00 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 32.30 87.90 32.60 0 . 0 0

(N) rockedias 0.00 0 . 0 0 0.00 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0 . 0 0 0.00 0 . 0 0 32.30 95.50 67.40 0 . 0 0

(O) rockeddia 100.00 100.00 0.00 100.00 100.00 100.00 100.00 100.00 3.10 100.00 97.10 100.00 100.00 100.00

Promedio 0.58 0 . 6 9 0.00 0 . 4 7 0 . 3 2 0 . 4 4 0 . 3 4 0 . 4 1 0.07 0 . 5 8 0 . 4 4 0 . 9 0 0 . 8 3 0 . 8 0 0 . 1 3 Tabla 13 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 555 simulaciones.

La tabla 14 recoge los índices obtenidos en el experimento para los métodos orientados a datos. Deben señalarse como diferencias con las tablas anteriores los bajos índices registrados, mostrando que todos los métodos están bastante lejos del óptimo. Las diferencias entre ellos son de menor cuantía que antes, ya que entre el peor y el mejor hay menos del 10% para la primer columna, y de algo más del 20% para las restantes.

83

Método Encontrados vs. esfuerzo Precisión como MAD Precisión como RMSE media óptimo media óptimo media óptimo mve_dato 17.05 2.30 27.60 0.40 21.76 2.90 mcd_dato 15.36 0.00 22.60 0.00 16.54 0.00 hadi_dato 12.17 0.00 14.86 0.00 9.11 0.00 rockedato 11.29 0.00 12.63 0.00 6.76 0.00 hadi_ddat 13.47 0.00 18.70 0.00 12.14 0.00 mcd_ddat 19.42 33.90 29.13 2.90 20.11 0.50 rockeddat 19.43 62.70 29.16 9.20 20.13 3.80 pcacov_05 12.11 0.00 26.62 1.80 19.21 2.50 mahalan05 15.02 0.20 33.01 85.80 25.91 90.30

Tabla 14 Promedio y probabilidad (en por ciento) de ser el mejor método orientado a datos según los índices considerados luego de 555 simulaciones. Todos los índices son adimensionados

A B C O E F G H I

(A)mve_dato 99.30 100.00 100.00 99.60 2.30 2.30 100.00 96.40

(B)mcd_dato 0.00 99.80 100.00 95.70 0.00 0.00 99.80 59.80

(C)hadi_dato 0.00 0.20 85.80 8.60 0.00 0.00 49.40 2.30

(D)rockedato 0.00 0.00 14.20 2.00 0.00 0.00 26.30 0.70

(E)hadi_ddat 0.00 4.30 91.40 98.00 0.00 0.00 82.00 12.40

(F)mcd_ddat 72.80 100.00 100.00 100.00 100.00 35.00 100.00 99.80

(G)rockeddat 73.00 100.00 100.00 100.00 100.00 64.00 100.00 99.80

(H)pcacov_05 40.40 0.20 50.60 73.70 18.00 0.00 0.00 2.20

(I)mahalan05 98.60 40.20 97.70 99.30 87.60 0.20 0.20 97.80

Promedio 0.32 0.38 0.73 0.84 0.57 0.07 0.04 0.73 0.41 Tabla 15 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 555 simulaciones.

A B C D E F G H I

(A)mve_dato 100.00 100.00 100.00 100.00 27.20 27.00 59.60 1.40

(B)mcd_dato 0.00 100.00 100.00 96.40 0.20 0.20 10.10 0.00

(C)hadi_dato 0.00 0.00 96.60 0.20 0.00 0.00 0.00 0.00

(D)rockedato 0.00 0.00 3.40 0.00 0.00 0.00 0.00 0.00

(E)hadi_ddat 0.00 3.60 99.80 100.00 0 0.00 1.40 0.00

(F)mcd_ddat 72.80 99.80 100.00 100.00 100.00 22.50 78.20 11.70

(G)rockeddat 73.00 99.80 100.00 100.00 100.00 77.70 78.60 12.40

(H)pcacov_05 40.40 89.90 100.00 100.00 98.60 21.80 21.40 2.70

(I)mahalan05 98.60 100.00 100.00 100.00 100.00 88.30 87.60 97.30

Promedio 0.32 0.55 0.78 0.89 0.66 0.24 0.18 0.36 0.03 Tabla 16 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método i exceda al valor

obtenido para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 555 simulaciones.

Como se señaló antes, prácticamente ningún método en la literatura conocida por los autores está orientado a datos; es por ello que se han modificado apropiadamente los disponibles fundamentalmente siguiendo la técnica sugerida por López, 1994a. Al igual que antes, los métodos más costosos son más eficientes para encontrar errores independientemente de su tamaño. La figura cambia drásticamente cuando se pasa a considerar éste, siendo una interesante sorpresa el buen desempeño del método debido a Hawkins, que resulta ser el mejor entre los disponibles. La escena está dominada por cuatro métodos, tres de los cuales son de “alto costo” y

84

uno de “bajo costo”, con la particularidad que éste último resulta ser el mejor si el tamaño de los outliers importa.

A B C D E F G H I

(A)mve_dato 100.00 100.00 100.00 100.00 72.30 71.90 77.10 4.10

(B)mcd_dato 0.00 100.00 100.00 97.30 9.50 9.40 19.60 0.00

(C)hadi_dato 0.00 0.00 94.10 3.10 0.00 0.00 0.40 0.00

(D)rockedato 0.00 0.00 5.90 0.00 0.00 0.00 0.00 0.00

(E)hadi_ddat 0.00 2.70 96.90 100.00 0.40 0.40 2.00 0.00

(F)mcd_ddat 27.70 90.50 100.00 100.00 99.60 15.30 59.10 5.00

(G)rockeddat 28.10 90.60 100.00 100.00 99.60 84.70 59.10 5.00

(H)pcacov_05 22.90 80.40 99.60 100.09 98.00 40.90 40.90 2.70

(I)mahalan05 95.90 100.00 100.00 100.00 100.00 9.00 95.00 97.30

Promedio 0.19 0.52 0.78 0.88 0.66 0.34 0.26 0.35 0.02 Tabla 17 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 555 simulaciones.

6.2 Viento de superficie horario Esta variable meteorológica fue seleccionada por varios motivos. Desde el punto de vista del proyecto, aportaba el ejemplo de un caso con correlación espacial y temporal importante, a diferencia de la lluvia diaria que tenía correlación temporal débil. Por otra parte, era un ejemplo sobre el que se hablan realizado trabajos previamente, y sobre el que se estimaba iba a ser necesario proseguir. Además, era un caso en el que estaba disponible un modelo numérico capaz de interpolar en el espacio las lecturas de las estaciones disponibles, aspecto atractivo ya que permitirla comparar el desempeño de un método especializado en la variable, que incorporaba una conceptualización física del fenómeno, con métodos que no la asumían. El modelo disponible (descrito en López, 1993b) es un modelo de tipo lineal: la interpolación resultante luego de complejos cálculos resulta ser una combinación lineal de los datos de entrada, por lo que se entendió superfluo aplicarlo al estar acotada la bondad del ajuste de una combinación lineal de los datos de partida, por lo que se argumentó en 6.1. El viento de superficie es observado por dos instrumentos: uno indica el módulo de la velocidad del viento (típicamente, en km/hr) y el otro indica la dirección en relación a los puntos cardinales. Esta última observación es típicamente discretizada en rumbos por lo que la base de datos recoge una versión categorizada de una variable continua. Este hecho, unido la dificultad de comparar distancias en variables de tipo circular (una estimación de 359 grados difiere mucho a primera vista de la lectura correcta de 0 grados) obliga a tratar en forma diferente, y con diferentes métricas, el caso del viento. Por otra parte, el fenómeno puede ser observado como se ha descrito, pero manipulado de otra forma. Desde un punto de vista metodológico, originalmente se concibió el tratamiento del problema en forma similar a López, 1993b, quien transformó la combinación (módulo, rumbo) en componentes meridional y zonal (Este => Oeste, y Sur => Norte). En ese caso, la tabla de valores resultante resulta ser homogénea (todas las columnas tienen las mismas unidades de medida) y desaparece el problema de la variable circular. Sin perjuicio de ello, se desarrollaron / implementaron algunos métodos que tratan en forma especifica el caso de variables circulares. Sobre ellos (y sobre aquellos que podían ser

85

aplicados a este problema a pesar del carácter especial del fenómeno) se realizaron algunas simulaciones preliminares, que se presentaran más adelante. La mayor parte de las simulaciones fueron realizadas sobre la base de datos de componentes, por ser ese caso el más general e interesante.

6.2.1 Generación de ausencias Se realizó un estudio preliminar que confirmó que las ausencias se daban simultáneamente en módulo y dirección, a pesar que el instrumento es diferente. Las ausencias en forma de racha estaban localizadas al final de la base, por lo que pudieron ser ignoradas como una característica del conjunto. En el caso de las componentes, se asumió que las ausencias se daban en forma independiente por componente. Ello no es cierto, ya que si alguno de los instrumentos no registraba lectura, en rigor se ignoran las dos componentes. Para el caso mencionado se utilizó también un criterio tipo MCAR.

6.2.2 Imputación de valores ausentes: caso de las componentes

En la tabla 18 se consideran los resultados tras 400 simulaciones para los método que utilizan únicamente información del mismo instante. La tabla 19 describe el desempeño de métodos que usan otra información adicional. Ambas tablas deben procesarse en forma conjunta. Los resultados muestran un resultado casi automáticamente superior para aquellos métodos que explotan la información del instante anterior. Así, las dos variantes denominadas gandin4 y gandin6 están entre las cinco mejores utilizando cualquier criterio. Por otra parte, la mera interpolación de la serie temporal (de componentes!) tiene un desempeño muy bueno en términos del promedio y percentil 75% del error absoluto, y bueno en los otros casos. Esto confirma en parte lo sostenido por López et al., 1998b que concluyen que en Uruguay, el viento de superficie se observa con demasiada frecuencia, siendo admisible observaciones más separadas.

Los métodos no lineales también tienen un desempeño bueno; en particular, el

denominado bpl está entre los mejores. Al valorar el desempeño de estos métodos, debe tenerse en cuenta que dadas las características del proyecto, no se extremaron esfuerzos en lograr los ajustes óptimos para cada método. En particular, para todas las redes neuronales se utilizó la misma arquitectura (a saber, número de capas ocultas, tipo y número de neuronas, etc.) ajustando únicamente el número de datos de entrada. Ello puede resultar en una red subóptima, con propiedades pobres de generalización o con un ajuste pobre, por lo que los resultados para estos métodos deben declararse como conservadores, y un estudio detallado y especifico puede ciertamente mejorar los estadísticos presentados.

Al igual que en el caso de la lluvia diaria, puede compararse a modo de ejemplo el desempeño del método que asigna el valor modal contra los óptimos hallados. Igual que antes, se confirma que la mejora no es sustantiva. Respectivamente, 2.235 vs. 3.465 para el promedio; 2.824 vs. 5.025 , 4.138 vs. 7.242 y 7.7342 vs. 12.94 para los percentiles 75, 85 y 90%, y finalmente 3.464 vs. 5.268 m/s para el caso del error medio cuadrático. La mejora se ubica entre un mínimo de 34% hasta un máximo de 56%, dependiendo del estadístico. Al igual que en el caso de la lluvia diaria, hay que tener en consideración la variabilidad inherente al fenómeno, y

86

los errores del instrumento. Según López, 1993b, los mismos se pueden estimar en el orden de los 2 m/s en media cuadrática.

Algoritmo Promedio 75 por ciento

85 por ciento

95 por ciento RMSE

bp1 2.258 2.930 4.162 7.342 3.487 bp14 2.370 3.041 4.391 8.041 3.673 gandin 2.536 3.292 4.678 8.303 3.770 gandin20 2.529 3.281 4.671 8.293 3.764 gandin5 2.534 3.279 4.739 8.558 3.863 julmean 3.546 4.927 6.650 10.550 4.907 Ims 3.774 5.104 7.270 12.287 5.489 lts 3.656 5.019 7.119 12.328 5.409 lss 2.584 3.359 4.876 8.753 3.929 mahalan_nocor 3.027 3.814 5.426 9.696 5.525 mahalan_nocov 3.082 3.803 5.610 10.576 5.599 mincdr 2.521 3.273 4.749 8.536 3.851 minprc 2.530 3.267 4.725 8.514 4.156 minprm 2.466 3.146 4.651 8.770 3.900 minprmfl 3.306 4.553 6.735 11.985 5.106 naive 2.685 3.274 5.118 10.785 4.525 ponmean 2.287 2.848 4.343 8.192 3.643 staverage 3.243 4.418 5.742 10.225 4.529 valor modal 3.465 5.025 7.242 12.194 5.268 vecidist 4.364 6.338 9.170 14.391 6.488

Tabla 18 Resultados para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75, 85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el

disponible, todo medido en m/s. En conjunto con la tabla 19 se indican en negrita los cinco mejores resultados obtenidos

6.2.3 Imputación de valores ausentes: comparación datos originales vs. componentes

Los resultados que se obtuvieron corresponden a simulaciones en las que se generaron 973 huecos (3% del total de registros en una estación), y se calculó la diferencia resultante entre el dato real y el valor generado por cada uno de los métodos. Dichos huecos “fictos” son seleccionados con el auxilio de una distribución uniforme, y la comparación se hizo solo para algunos de los métodos implementados, fundamentalmente para confrontar en cierta forma los resultados que surgen de procesar los registros originales en comparación a los que surgen de aplicarlos sobre las bases proyectadas en las direcciones E-W y S-N.

Para cada hueco “ficto” se procedió de dos maneras: una, manteniendo las bases

inalteradas (rumbos y módulos), y otra, proyectando los datos en base a sus coordenadas cartesianas (v.cosφ y v.sinφ ), para luego recuperar el módulo v y el rumbo φ. Para cada uno de dichos procedimientos, a su vez, se extrajeron dos resultados: el correspondiente al uso directo de los métodos de relleno implementados (determinístico), y el otro correspondiente a la introducción de información del comportamiento del viento en la hora anterior (probabilístico).

87

Algoritmo Promedio 75 por ciento

85 por ciento

95 por ciento RMSE

bp12 2.262 2.904 4.156 7.513 3.486 gandin4 2.235 2.824 4.138 7.701 3.488 gandin6 2.248 2.849 4.145 7.628 3.464 time_interp 2.268 2.824 4.362 8.324 3.680 itcp_nocor 2.496 3.101 4.624 8.761 3.885 itcp_nocov 2.647 3.412 4.937 8.855 4.005

Tabla 19 Resultados para los d métodos de imputación, que utilizan valores del día, del día anterior o de ambos. Se presenta el valor esperado, los percentiles 75, 85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la

diferencia entre el dato imputado y el disponible. En conjunto con la tabla 18 se indican en negrita los cinco mejores resultados obtenidos

Se calculó como medida de ajuste la media, mediana, rango intercuartil y desvío absoluto

medio de las diferencias correspondientes a esos 973 huecos “fictos”. El experimento es repetido luego varias veces promediándose los resultados obtenidos como forma de tener una mejor aproximación de las estimaciones.

Como se puede apreciar en las tablas que aparecen abajo, trabajando con las bases originales (módulos y rumbos, resultados directos de las mediciones realizadas), el primer método implementado (rellwinc), que utiliza la moda como estimador para rumbos, estarla revelándose como el menos eficiente de todos los procedimientos comparados. Se realizaron entonces los histogramas circulares correspondientes, observándose que, si se excluyen las calmas, los rumbos no tienen un comportamiento claramente unimodal, observación que estarla justificando en cierta forma el mal comportamiento del método.

Otro resultado destacable es que la información temporal anterior y posterior del viento es relevante: quizás por el tipo de aparato que mide el rumbo, ya que la veleta indicadora no vuelve a cero cada vez, sino que gira desde la posición ocupada en la medida anterior. De ahí los indicios de que el procedimiento ponmean (que es combinación lineal de datos temporalmente adyacentes al hueco) sea el que se revele como más conveniente.

Se destaca también como resultado que condicionar la imputación del dato faltante a la situación inmediatamente anterior no mejora el resultado (es más, a veces llega a empeorarlo), lo que, aunado a la característica no-determinística del procedimiento de imputación, hace que este tipo de metodología no resulte recomendable en la práctica.

88

6.2.3.1 Resultados operando sobre los datos originales Media( X) Desvío( X) C.V.( X) Mediana Intercuart. Desv.Abs. rellwind 80.0834 2.3950 0.0299 79.7900 3.4650 1.9626 rellwink 12.0322 0.5072 0.0422 12.0700 0.4700 0.3658 windjuli 11.0087 0.2799 0.0254 10.9900 0.3550 0.2192 rellwing 8.3572 0.6834 0.0818 8.2300 0.5950 0.4059 ponmean 7.7272 0.2483 0.3210 7.7200 0.3100 0.1897 dispara 12.5453 0.4270 0.0340 12.5150 0.6100 0.3385 daymean 12.5453 0.4270 0.0340 12.5150 0.6100 0.3385

Tabla 20 Resultados de la imputación de rumbos, utilizando métodos deterministicos, y operando sobre los datos originales

Media( X) Desvío( X) C.V.( X) Mediana Intercuart. Desv.Abs. rellwind 7.8706 0.1651 0.0210 7.8700 0.2350 0.1332 rellwink 6.4475 0.3993 0.0619 6.4700 0.4900 0.3002 windjuli 11.0850 0.3370 0.0304 11.0700 0.4550 0.2525 rellwing 8.2453 0.7226 0.0876 8.2800 0.4650 0.3877 ponmean 5.4369 2.0430 0.0376 5.4350 0.2850 0.1638 dispara 7.5863 0.2593 0.0342 7.6150 0.3350 0.1996 daymean 11.5078 0.4217 0.0366 11.5200 0.5250 0.3334

Tabla 21 Resultados de la imputación de módulos, Utilizando métodos deterministicos, y operando sobre los datos originales

Media( X) Desvío( X) C.V.( X) Mediana Intercuart. Desv.Abs. rellwind 80.4750 2.4633 0.0306 79.9150 3.5150 2.0398 rellwink 10.4313 0.4116 0.0395 10.3650 0.5850 0.3233 windjuli 11.0375 0.3514 0.0318 11.0250 0.4600 0.2816 rellwing 10.1353 0.4586 0.0452 10.0750 0.5950 0.3454 ponmean 8.3372 0.2109 0.0253 8.3150 0.3550 0.1750 dispara 12.0912 0.4154 0.0344 12.1150 0.5550 0.3387 daymean 12.0912 0.4154 0.0344 12.1150 0.5550 0.3387 Tabla 22 Resultados de la imputación de rumbos, utilizando métodos con la variante probabilística, y operando sobre los

datos originales

Media( X) Desvío( X) C.V.( X) Mediana Intercuart. Desv.Abs. rellwind 8.3103 0.1767 0.0213 8.3100 0.2650 0.1478 rellwink 5.7466 0.3755 0.0654 5.7000 0.5000 0.2811 windjuli 8.8700 0.2802 0.0316 8.9400 0.4550 0.2369 rellwing 7.4166 0.5447 0.0734 7.5000 0.5450 0.3526 ponmean 5.6319 0.1859 0.0330 5.6150 0.2000 0.1440 dispara 7.2500 0.2685 0.0370 7.2650 0.3600 0.2012 daymean 10.1937 0.3362 0.0330 10.2300 0.4450 0.2685

Tabla 23 Resultados de la imputación de módulos, utilizando métodos con la variante probabilística, y operando sobre los datos originales

89

6.2.2 Resultados operando sobre los datos transformados Las bases de datos (rumbos y módulos), son utilizadas para calcular las componentes

vectoriales. Se aplican los mismos métodos de imputación considerados en el análisis anterior, se calculan los mismos estadísticos, y luego se realiza la transformación inversa, recuperándose los valores medios y medianas de módulos y rumbos, de forma de poder establecer comparaciones con los resultados obtenidos en la parte anterior.

El procedimiento es el siguiente: las bases iniciales de rumbos y módulos son utilizadas para generar otras nuevas que serán las componentes cartesianas del viento.

=

=→

)(*

)cos(*

rumbossenmódulosy

rumbosmódulosx

módulos

rumbos

Es en estas nuevas bases que se generarán los huecos, y en las que se la aplicarán los mismos métodos utilizados en las bases originales. Luego de obtenidas las diferencias entre las x y las y, y determinadas las medias y medianas correspondientes, se “deshace” el cambio de coordenadas, obteniéndose los valores de rumbos y módulos correspondientes.

Los resultados obtenidos estarían indicando que al proyectar los datos, se estarían “contaminando” las mediciones de rumbos con las de módulos y recíprocamente, hecho que no deja de ser razonable si se tiene en cuenta que ambas magnitudes se miden en aparatos diferentes, por lo que sus procesos de medición obedecen a experimentos independientes.

Una vez más, se constata que trabajar con métodos aleatorios (condicionamiento en base al estado del viento en la medición temporalmente anterior) no produce mejora significativa alguna, ya que los indicios muestran que los resultados empeoran.

rellwind rellwink windjuli rellwing ponmean dispara daymean Media 24.5954 19.8470 17.2929 35.7056 16.8588 19.2289 20.8939 Mediana 5.7742 22.4283 14.1551 36.5977 14.1754 15.2943 17.9927

Tabla 24 Resultados de la imputación de rumbos, utilizando métodos determinísticos, y operando sobre los datos proyectados en componentes.

rellwind rellwink windjuli rellwing ponmean dispara daymean Media 8.2238 11.1176 8.9627 11.3888 5.4185 7.5888 6.7252 Mediana 6.4854 6.6467 5.2525 6.8480 3.4302 5.2125 4.2282

Tabla 25 Resultados de la imputación de módulos, utilizando métodos deterministicos, y operando sobre los datos proyectados en componentes.

rellwind rellwink windjuli rellwing ponmean dispara daymean Media 21.0462 21.1924 17.2929 35.7056 16.8588 19.2289 20.8939 Mediana 5.7742 22.4283 14.1551 36.5977 14.1754 15.2943 17.9927

Tabla 26 Resultados de la imputación de rumbos, utilizando métodos con la variante probabilística, y operando sobre los datos proyectados en componentes.

rellwind rellwink windjuli rellwing ponmean dispara daymean Media 8.4993 10.1161 8.9157 8.5762 5.6006 7.2412 6.7252 Mediana 7.0167 5.7132 5.4754 4.8136 3.6030 4.9511 4.2577

Tabla 27 Resultados de la imputación de rumbos, utilizando métodos con la variante probabilística, y operando sobre los datos proyectados en componentes.

90

6.2.4 Generación de errores: caso de las componentes Para el caso del viento de superficie fue utilizado un algoritmo muy simple, que consiste en la sustitución de un dato de la tabla tomado al azar, por otro también tomado al azar. A estos efectos, la tabla estaba conformada por las componentes E-W y S-N del viento. En la medida que no se realizó un trabajo tan detallado como el anteriormente descrito para la lluvia, la similitud o representatividad de los errores generados por este procedimiento con los observados en la práctica no pudo discernirse. En López et al., 1993a esta técnica fue comparada indirectamente con los errores encontrados, y se concluía que el mecanismo de generación no reflejaba lo grosero de los errores encontrados en la práctica. Ello significa para los métodos de detección un caso mucho más difícil que lo habitual, por lo que su desempeño en la simulación indicaría una cota inferior al mismo en las aplicaciones prácticas.

6.2.5 Detección de valores erróneos: caso de las componentes En la tabla 28 se presentan los resultados en media, y la probabilidad de ser el óptimo entre los considerados para el caso de los métodos orientados a eventos. En todos los casos, los resultados han sido obtenidos tras 450 simulaciones. Los resultados para los errores encontrados vs. el esfuerzo sugieren un desempeño muy bueno del método propuesto por López, 1994a, y claramente distanciado de los otros considerados. El método debido a Hawkins, 1974, y el propuesto en este trabajo basado en la verosimilitud tienen un desempeño resaltable, aunque inferior al otro método. Cuando se considera el tamaño de los errores, el método propuesto López, 1 994a continua siendo el mejor, pero seguido muy de cerca por los dos mencionados. La red neuronal bpl tiene un desempeño muy bueno, mas aún considerando el escaso esfuerzo puesto en su diseño. El bajo valor en media de cualquiera de los Índices está asociado a lo difícil que le resulta a los métodos encontrar los errores. Ello debe asignarse al método utilizado para su generación, y los resultados deberían mejorar con errores más realistas. No se espera sin embargo, que el orden relativo de los métodos varíe sensiblemente.

Encontrados vs. esfuerzo Precisión como MAD Precisión como RMSE Método

media óptimo media óptimo media óptimo

bp1 23.15 0.00 27.32 53.50 20.77 34.20 bp14 20.22 0.00 22.83 0.00 17.00 0.00 crossva05 24.48 0.00 23.58 0.50 14.48 0.00 pcacovd05 31.28 100.00 27.63 46.00 21.68 65.80 mahaday05 23.88 0.00 21.30 0.00 17.96 0.00 mve_dias 15.93 0.00 10.00 0.00 6.60 0.00 mcd_dias 15.93 0.00 10.12 0.00 6.81 0.00 rockedias 16.05 0.00 10.20 0.00 6.85 0.00 hadi_dias 22.42 0.00 18.28 0.00 14.16 0.00

Tabla 28 Promedio y probabilidad (en por ciento) de ser el mejor método según los índices considerados luego de 450 simulaciones. Todos los métodos son orientados a eventos, y todos los índices son adimensionados

En las tablas 29, 30 y 31 se presentan la comparación método a método en términos de los índices de éxito de Encontrados vs. esfuerzo, MAD vs. esfuerzo y RMSE vs. esfuerzo. En forma coherente con la tabla 28, el mejor método resulta ser el pcacovd05, seguido por los ya mencionados de la verosimilitud y de Hawkins. Cuando se considera la cuantía del error, el

91

método derivado de la red neuronal bpl se muestra comparable o levemente superior, mientras que los demás están claramente por debajo. Es interesante reiterar que estos métodos son mucho más económicos de implementar que el de las redes neuronales (cualquiera de ellas), lo que es particularmente atractivo para su uso intensivo. Entre ellos, el más costoso es el de la validación cruzada. En el momento de su explotación las demandas de recursos son perfectamente comparables.

A B C D E F G H I

(A)bp1 99.80 13.70 0.00 2940.00 100.00 100.00 100.00 73.50

(B)bp14 0.20 0.00 0.00 1.90 100.00 99.80 99.80 3.90

(C)crossva05 86.30 100.00 0.00 61.20 100.00 100.00 100.00 93.00

(D)pcacovd05 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

(E)mahadayo5 70.60 98.10 38.80 0.00 100.00 100.00 100.00 82.40

(F)mve_dias 0.00 0.00 0.00 0.00 0.00 51.10 37.30 0.00

(G)mcd_dias 0.00 0.20 0.00 0.00 0.00 48.90 26.30 0.00

(H)rockedias 0.00 0.20 0.00 0.00 0.00 62.70 73.70 0.00

(I)hadi_dias 26.50 96.10 7.00 0.00 17.60 100.00 100.00 100.00

Promedio 0.32 0.55 0.18 0.00 0.23 0.79 0.81 0.74 0.39 Tabla 29 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 450 simulaciones.

A B C D E F G H I

(A)bp1 100.00 98.10 53.70 94.20 100.00 100.00 100.00 100.00

(B)bp14 0.00 32.50 0.00 82.90 100.00 100.00 100.00 100.00

(C)crossva05 1.90 100.00 1.20 88.40 100.00 100.00 100.00 100.00

(D)pcacovd05 46.30 17.10 98.80 100.00 100.00 100.00 100.00 100.00 (E)mahadayo5 5.80 0.00 11.60 0.00 100.00 100.00 100.00 91.10

(F)mve_dias 0.00 0.00 0.00 0.00 0.00 38.30 27.70 0.00

(G)mcd_dias 0.00 0.00 0.00 0.00 0.00 61.70 33.00 0.00

(H)rockedias 0.00 67.50 0.00 0.00 0.00 72.30 67.00 0.00

(I)hadi_dias 0.00 0.00 0.00 0.00 8.90 100.00 100.00 100.00

Promedio 0.06 0.32 0.27 0.06 0.42 0.82 0.78 0.73 0.55 Tabla 30 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método i exceda al valor

obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 450 simulaciones.

92

A B C D E F G H I

(A)bp1 99.30 100.00 34.20 91.30 100.00 100.00 10000.00 10000.00

(B)bp14 0.70 94.90 0.00 33.50 100.00 100.00 100.00 97.10

(C)crossva05 0.00 5.10 0.00 7.00 100.00 100.00 100.00 59.50

(D)pcacovd05 65.80 100.00 100.00 99.80 100.00 100.00 100.00 100.00 (E)mahadayo5 8.70 66.50 93.00 0.20 100.00 100.00 100.00 96.90

(F)mve_dias 0.00 0.00 0.00 0.00 0.00 28.70 21.40 0.00

(G)mcd_dias 0.00 0.00 0.00 0.00 0.00 71.30 39.50 0.00

(H)rockedias 0.00 0.00 0.00 0.00 0.00 78.60 60.50 0.00

(I)hadi_dias 0.00 2.90 40.50 0.00 3.10 100.00 100.00 100.00

Promedio 0.08 0.30 0.48 0.04 0.26 0.83 0.77 0.73 0.50 Tabla 31 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a eventos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 450 simulaciones.

En la tabla 32 se presentan los resultados para métodos orientados a datos. Lo llamativo de la misma es el bajísimo valor absoluto de los valores medios observados, que se asocian a lo difícil que resulta para estos métodos encontrar los errores sembrados. Consecuentemente, las conclusiones que se presentarán deben tomarse con cierta cautela. Sin embargo, es del caso mencionar que el método pcacov_05 fue uno de los utilizados (junto con mahalan05) para la depuración original de errores del banco, habiendo demostrado también un desempeño satisfactorio en ese caso a juicio de los técnicos de la DNM. Estos dos métodos son los que aparecen como los mejores, seguido de cerca por el método debido a Hadi, 1994. Los demás están sensiblemente separados, lo que motiva que solamente se hayan seleccionado los tres mejores en el resto de las tablas.

Encontrados vs. esfuerzo Precisión como MAD Precisión como RMSE Método

media óptimo media óptimo media óptimo pcacov_05 4.92 100.00 9.35 99.50 6.45 85.30 hadi_dato 3.65 0.00 6.83 0.20 4.99 1.70 mahalan05 3.26 0.00 7.02 0.20 5.58 13.00 mve_dato 0.74 0.00 1.17 0.00 0.84 0.00 mcd_dato 0.73 0.00 1.37 0.00 1.09 0.00 rockedato 0.72 0.00 1.30 0.00 1.02 0.00

Tabla 32 Promedio y probabilidad (en por ciento) de ser el mejor método según los índices considerados luego de 450 simulaciones. Todos los métodos son orientados a datos, y todos los índices son adimensionados

Las tablas 33, 34 y 35 recogen los resultados obtenidos en la comparación mutua entre los métodos, resultando en todos los casos una definida ventaja para los tres métodos ya citados.

A B C D E F (A)pcacov_05 100.00 100.00 100.00 100.00 100.00 (B)hadi_dato 0.00 84.80 100.00 100.00 100.00 (C)mahalan05 0.00 15.20 100.00 100.00 100.00 (D)mve_dato 0.00 0.00 0.00 54.00 57.30 (E)mcd_dato 0.00 0.00 0.00 46.00 54.20 (F)rockedato 0.00 0.00 0.00 42.70 45.80 Promedio 0.00 0.23 0.37 0.78 0.80 0.82

Tabla 33 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la

mejor opción. Resultados obtenidos luego de 450 simulaciones.

94

A B C D E F (A)pcacov_05 99.80 99.80 100.00 100.00 100.00 (B)hadi_dato 0.20 34.90 100.00 100.00 100.00 (C)mahalan05 0.20 65.10 100.00 100.00 100.00 (D)mve_dato 0.00 0.00 0.00 18.10 23.10 (E)mcd_dato 0.00 0.00 0.00 81.90 69.20 (F)rockedato 0.00 0.00 0.00 76.90 30.80 Promedio 0.00 0.33 0.27 0.92 0.70 0.78

Tabla 34 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método i exceda al valor obtenido para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la mejor opción. Resultados

obtenidos luego de 450 simulaciones.

pcacov_05 hadi_dato mahalan05 mve_dato mcd_dato rockedato

pcacov_05 97.30 86.30 100.00 100.00 100.00

hadi_dato 2.70 19.80 100.00 100.00 100.00

mahalan05 13.70 80.20 100.00 100.00 100.00

mve_dato 0.00 0.00 0.00 10.40 14.50

mcd_dato 0.00 0.00 0.00 89.60 73.00

rockedato 0.00 0.00 0.00 85.50 27.00

Promedio 3.28 35.50 21.22 95.02 67.48 77.50 Tabla 35 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido

para el método j. Todos los métodos son orientados a datos. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 450 simulaciones.

6.3- Niveles diarios El trabajo de investigación se realizó sobre la serie de los últimos cinco años disponibles (1984-1989), teniendo en cuenta que desde el punto de vista metodológico y de resultados no se lograría mayor aporte con la utilización de la serie completa. A su vez, algunas limitaciones del software disponible para algunos métodos motivaron que fuera más eficiente trabajar con 2052 observaciones que con las correspondientes al período completo (5295 datos diarios). Del análisis de las series diarias de Paso Pereira, Aguiar y Mazangano para el período referido, se constató que la que tenía menos datos faltantes era Pereira, por lo que se la adoptó para el análisis realizado. Sin embargo, cabe señalar que para la presentación gráfica se eliminaron dos valores extremos (5.800 en Aguiar el 19/09/86 y 4.174 en Mazangano el 17/12/86) que el simple análisis gráfico permitió detectar. La primera etapa del trabajo requería un control de calidad mínimo de la serie, a los efectos de la ubicación de los datos faltantes y la detección de valores anómalos, por lo menos los más evidentes. Para ello se utilizó básicamente instrumental gráfico, analizando la serie de los datos originales, así como la

95

primera diferencia de los datos de nivel y el logaritmo del cociente entre datos consecutivos (variable proxy del cambio porcentual). El objetivo de la imputación en esta etapa fue simplemente eliminar el problema del dato faltante para el ajuste del modelo. A tales efectos, en una primera instancia, se estimaron modelos de regresión lineal explicando el comportamiento del nivel de un "paso" del río, por el de cada uno de los otros dos disponibles, probando el rezago que arrojara mayor grado de ajuste, y siempre teniendo en cuenta su ubicación geográfica (río arriba o a la inversa). Para el caso de Paso Pereira, la regresión que aportó un mayor R2 es la que utiliza como variable explicativa el nivel de Paso Aguiar en t-1 (0.8368). No obstante ello, debido a las características de la serie, o más precisamente, de la distribución de los datos faltantes, resultaba irrelevante en esta etapa el método que se empleara para realizar la imputación preliminar de los datos. Debido a ello se realizó una interpolación lineal entre el valor precedente y siguiente al día o los días con vacíos de información. Para el período analizado se encontraron seis faltantes: una ausencia aisladas y cinco días consecutivos, cuyas fechas se detallan en el cuadro siguiente. Para la detección de valores anómalos se recurrió a la visualización gráfica de la serie original y su transformación estacionaria, particionando a estos efectos la serie en períodos semestrales. Se utilizó en primer lugar como criterio de depuración, la "razonabilidad" del dato bajo la hipótesis que el error se podía originar en la transmisión telefónica o en la lectura del dato manuscrito. En segundo lugar, se analizaron individualmente los incrementos diarios de nivel que superaran los tres desvíos estándar. Se presentan a continuación, las modificaciones realizadas a los datos originales, a los efectos de obtener una serie depurada para su modelización.

FECHA Dato Dato FECHA Dato Dato

07/07/83 0 640 24/06/87 0 234

04/12/83 370 320 25/06/87 0 213

09/01/84 250 150 27/09/83 560 500

03/05/84 490 590 27/09/83 105 155

09/08/85 508 608 28/09/83 170 270

08/11/86 402 432 13/11/83 135 185

19/12/86 214 274 21/02/84 260 300

21/06/87 0 297 28/05/84 495 465

22/06/87 0 276 27/09/84 382 362

23/06/87 0 255 13/09/85 456 386 Tabla 36 Modificaciones realizadas a los datos originales en Paso Pereira a los efectos de obtener una serie depurada para su

modelización.

96

La característica de serie temporal univariada hace que sea necesario dejar de lado muchos de los métodos ensayados con las otras variables.

6.3.1 - Imputación de valores ausentes En las tabla 37 se ven los resultados de la imputación. resultados tras 500 simulaciones. Los mismos muestran un buen desempeño para los métodos más simples, lo que hacía superfluo continuar con otros. Sin embargo, se implementó una red neuronal especialmente adaptable para series, de forma de poder comprobar su buen ajuste con los métodos simples. Los resultados muestran un desempeño inferior, por lo que no se continuó por esa línea.

Algoritmo

Promedio 75 por ciento

85 por ciento

95 por ciento

RMSE

mm mm mm mm mm spline 0.09 0.08 0.13 0.32 0.28 linear 0.09 0.09 0.14 0.34 0.24 annlin 0.19 0.19 0.30 0.66 0.38

Tabla 37 Resultados preliminares para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75,85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el disponible. Se indica en negrita el mejor resultado

obtenido

6.3.2 - Generación de errores aleatorios Al igual que para el caso de la lluvia y el viento, es necesario disponer de un algoritmo de generación al azar de errores para la serie de niveles. La literatura en este tópico vuelve a ser escasa, y el único caso encontrado corresponde al trabajo de Krajewski et al., 1989. Los autores sugieren utilizar un muestreo aleatorio de una distribución lognormal, cuya media esté dentro del rango de la muestra, pero su varianza sea un múltiplo de la estimada para la muestra. Ellos establecen que esas reglas para la generación de errores no han sido contrastadas con casos reales, una situación que se repite en este proyecto, dado las dificultades para el acceso a la información original en papel. Con respecto a las fechas (localización) de los errores, asumen que una distribución uniforme es suficientemente apropiada para los fines del proyecto, y por ende será también aplicada en este experimento. La alternativa de utilizar una varianza múltiplo de la de la muestra, y una media apropiada ha sido comparada en la literatura contra el caso de la misma varianza, pero con una media claramente sesgada. Rocke, 1996 demostró que el caso más dificultoso para detectar errores correspondía a aquel en que la forma (descrita a través de la matriz de covarianza) de la nube de puntos de la muestra y de los errores era la misma, pero que discrepaban en la media. Para relativizar el efecto de los outliers en los parámetros de la distribución misma, se utilizó una transformación logarítmica donde la nueva serie se obtiene como:

97

( )00.1ln += xX (29)

0 0.5 1 1.5 2 2.50

50

100

150

200

250Histograma de la serie transformada

Figura 15 Histograma de la serie de niveles luego de la transformación logarítmica

0 0.5 1 1.5 2 2.50

0.2

0.4

0.6

0.8

1

1.2

observado

sim

ulad

o

Ajuste con distribucion log-uniforme

Figura 16 Qqplot de los niveles simulados vs. observados.

98

Como estimador de la varianza de la población transformada se usó la mitad de la distancia intercuartil 2.5 y 97.5%, y como estimador de la media la mediana. Para el caso de la serie de la estación 182800, los percentiles 2.5, 50 y 97.5 de la variable transformada resultan ser 0.14, 1.178 y 2.089. Una vez analizados los histogramas de la variable transformada, se pudo comprobar que la distribución de la población se parecía mucho más a una uniforme que a una normal, resultado diferente al presentado por Krajewski. Por ello se optó por construir la serie sintética de errores, utilizando como mediana el percentil 75% y manteniendo la distancia intercuartil.

0 1 2 3 4 5 6 7 8 9 100

5

10

15

observado

sim

ulad

o

Nivel observado vs. simulado (distribucion log-uniforme c/sesgo)

Figura 17 Qqplot de los niveles observados vs. simulados utilizando un sesgo

6.3.3 - Detección de valores erróneos En la Tabla 38 se presentan los resultados obtenidos para 300 simulaciones. Se concluye que el método que controla por los valores de la curvatura es el de mejor desempeño, seguido por el que controla la pendiente. En las Tablas 39, 40 y 41 se presentan las probabilidades de que el método i produzca un índice más grande que el método j. Se puede ver que incluso métodos simples dan resultados muy buenos, en la medida que el índice promedio se aproxima al óptimo. Esto podría deberse a una inapropiada (por exagerada) simulación de los errores, aspecto que no se confirma dado que el método que analiza los valores extremos tuvo un desempeño pobre. En el caso de esta serie temporal, simulando errores aislados, parece claro que la metodología más efectiva es la que utiliza la curvatura como señal, resultado que es coherente con los propuestos por Krajeski et al., 1989.

99

6.4- Evapotranspiración En la propuesta del proyecto se especificó que se aplicarían los métodos a otros casos de interés, que en alguna forma ejemplificaran la generalidad del desempeño de los métodos considerados. Dado que no se conocen otros ejemplos similares al viento (con variables circulares) se requería otro parámetro que reuniera de alguna manera la generalidad. Se seleccionó la evapotranspiración como variable testigo, y se le aplicó la mayoría de los métodos desarrollados, confirmando globalmente las conclusiones previas.

Método Encontrados vs. esfuerzo

Precisión como MAD

Precisión como RMSE

media óptimo media óptimo media óptimo maxpend 73.9041 2.3 87.7447 14.3 73.0984 19.0 maxprdpnd 68.1132 15.0 67.7440 0.0 48.4112 0.0 maxvalue 32.0329 0.0 49.5533 0.0 39.9345 0.0 maxcurv 82.5630 82.7 90.4167 85.7 74.7846 81.0

Tabla 38 Promedio y probabilidad (en por ciento) de ser el mejor método según los índices considerados luego de 300 simulaciones. Todos los índices son adimensionados

maxpend maxprdpnd maxvalue maxcurv maxpend 71.3 100.0 2.7 maxprdpnd 28.7 97.3 15.0 maxvalue 0.0 2.7 0.0 maxcurv 97.3 85.0 100.0 Promedio 42.00 53.00 99.10 5.90

Tabla 39 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 300 simulaciones.

maxpend maxprdpnd maxvalue maxcurv maxpend 100.0 100.0 14.3 maxprdpnd 0.0 98.3 0.0 maxvalue 0.0 1.7 0.0 maxcurv 85.7 100.0 100.0 Promedio 28.57 67.23 99.43 4.77

Tabla 40 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 300 simulaciones.

6.4.1 - Imputación de valores ausentes En la tabla 42 y en la tabla 43 se presentan los resultados obtenidos tras 500 simulaciones. Nuevamente, las redes neuronales muestran un muy buen desempeño, considerando además que no fueron rediseñadas para la nueva variable. Ni siquiera utilizando información del día anterior se logra

100

mejorar los estimadores, aspecto que debe balancearse al considerar lo económico que resulta aplicar los métodos gandin4 y gandin6, que no requieren entrenamiento alguno.

maxpend maxprdpnd maxvalue maxcurv maxpend 100.0 100.0 19.0 maxprdpnd 0.0 86.0 0.3 maxvalue 0.0 14.0 0.3 maxcurv 81.0 99.7 99.7 Promedio 27.00 71.23 95.23 6.53

Tabla 41 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Resultados obtenidos luego de 300 simulaciones.

Como era razonable esperar, entre los métodos lineales aquellos que están diseñados para ser óptimos según el estimador apropiado tienen un buen desempeño, pero en este caso lo destacable es que ese buen desempeño se da para todos los estimadores. Ello parece indicar que la población de datos originales (que no fue depurada para este trabajo) contenía pocos errores serios. Los métodos más triviales tienen, igual que antes, un desempeño más pobre. Así, el valor modal, el promedio de la estación, etc. dan estimadores de error que incluso superan al doble del óptimo reportado. Como excepción interesante, se puede señalar el caso de daymean cuyo error medio cuadrático es sólo marginalmente peor que el óptimo observado. Ello puede ser una característica del fenómeno, que tiene una fuerte autocorrelación en el espacio dentro del rango de separación de las estaciones consideradas.

Algoritmo

Promedio 75 por ciento

85 por ciento

95 por ciento

RMSE

mm/día mm/día mm/día mm/día mm/día bp1 1.063 1.422 1.888 3.050 1.517 bp10 1.100 1.477 1.992 3.210 1.561 bp14 1.015 1.356 1.821 2.921 1.448 bp2 1.189 1.590 2.158 3.547 1.691 bp7 1.107 1.445 1.971 3.330 1.610 cressman 1.064 1.415 1.938 3.160 1.527 cressman2 1.072 1.423 1.950 3.261 1.548 daymean 1.149 1.542 2.085 3.360 1.616 dispara 3.136 4.585 5.778 7.856 3.986 gandin 1.088 1.464 1.980 3.180 1.540

Tabla 42 Resultados preliminares para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75,85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el disponible. Se

indican en negrita los cinco mejores resultados obtenidos

101

gandin_diario 1.447 1.864 2.583 4.417 2.243 gandin20 1.087 1.463 1.977 3.172 1.538 gandin3a 1.114 1.496 2.017 3.239 1.571 gandin5 1.111 1.483 2.014 3.321 1.607 gandin7 1.089 1.466 1.978 3.222 1.552 gandintrans 1.101 1.471 1.991 3.260 1.569 hotdeck 1.685 2.250 3.119 5.133 2.397 itcp_nocor 1.517 2.056 2.782 4.404 2.096 itcp_nocov 1.434 1.929 2.627 4.202 1.995 julmean 1.693 2.339 3.099 4.782 2.290 lss 1.004 1.353 1.831 2.916 1.442 mahalan_nocor 7.049 3.038 4.662 12.728 42.683 mahalan_nocov 2.247 1.997 3.012 6.819 6.855 mahalanyescor 1.123 1.522 2.036 3.239 1.571 mahalanyescov 1.094 1.473 2.004 3.219 1.559 mincdr 1.075 1.439 1.939 3.216 1.562 minprc 1.013 1.369 1.849 2.933 1.454 minprm 1.004 1.353 1.841 2.948 1.451 minprmfl 1.004 1.350 1.838 2.960 1.454 naive 1.744 2.390 3.202 5.064 2.396 staverage 2.318 3.199 3.801 5.181 2.822 valor modal 4.356 6.246 7.523 9.583 5.202

Tabla 42 (cont.) Resultados preliminares para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75,85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el disponible. Se

indican en negrita los cinco mejores resultados obtenidos

Algoritmo Promedio 75 por

ciento 85 por ciento

95 por ciento

RMSE

mm/día mm/día mm/día mm/día mm/día gandin4 1.054 1.423 1.930 3.091 1.497 gandin6 1.057 1.432 1.930 3.074 1.493

Tabla 43 Resultados preliminares para los diferentes métodos de imputación. Se presenta el valor esperado, los percentiles 75,85 y 95, y la raíz del error cuadrático medio para la distribución del valor absoluto de la diferencia entre el dato imputado y el disponible. Se

indican en negrita los cinco mejores resultados obtenidos

6.4.2 - Generación de errores aleatorios Por las mismas razones planteadas en el caso del viento de superficie, se optó por utilizar un algoritmo simple de mezcla de datos en la tabla, tomando uniformemente al azar la fecha y estación destino, y asignándole un dato preexistente en la tabla también con fecha y estación elegida uniformemente al azar.

102

6.4.3 - Detección de valores erróneos En las tablas 44, 45, 46 y 47 se presentan los métodos orientados a eventos. Se puede confirmar la línea general de buen desempeño que han tenido los métodos no lineales, resultando en este caso las redes bp1 y bp10 las de mejor desempeño. Nótese que ambas redes son matemáticamente equivalentes, y su desempeño diferenciado es solamente una muestra de la dificultad de los algoritmos de entrenamiento en lograr un óptimo global. Por otra parte, considerando el escaso esfuerzo puesto en adaptar la arquitectura de las redes a cada variable, esta generalidad en los resultados es altamente remarcable. También lo es el hecho que el método propuesto por López, 1994a se mantenga cerca de estos índices, considerando su bajo costo de aplicación. Las tablas sucesivas muestran el detalle, y confirman que algunos métodos son mejores para detectar errores cuando importa su cuantía, mientras que para otros ello no es un problema. Los valores razonables de los índices (en el entorno del 50% cuando la cuantía no importa, y superiores al 80% en los otros casos) dan una señal sobre la representatividad de los resultados para errores no simulados. Nótese que, al igual que en el viento de superficie, la mera mezcla es un criterio bastante conservador para generar outliers, y algunos métodos que se basan en estadísticos de la población entera directamente serían incapaces de detectar ese tipo de errores. En este caso, los resultados están basados en 500 simulaciones.

Método Encontrados vs. esfuerzo

Precisión como MAD

Precisión como RMSE

media óptimo media óptimo media óptimo crossva05 37.580 0.0 57.448 0.0 43.792 0.0 pcacovd05 44.821 0.0 76.274 1.8 66.591 2.8 mahaday05 17.091 0.0 30.710 0.0 27.771 0.0 pcacord05 50.219 35.8 48.277 0.0 42.958 0.0 bp1 36.658 0.0 63.138 0.0 54.844 0.0 bp7 30.959 0.0 55.264 0.0 49.349 0.0 bp10 51.843 64.2 88.611 98.2 81.049 97.2 bp14 19.543 0.0 33.848 0.0 28.678 0.0

Tabla 44 Promedio y probabilidad (en por ciento) de ser el mejor método según los índices considerados luego de 500 simulaciones. Todos los índices son adimensionados. Con el sombreado se indican los mejores desempeños.

crossva05 pcacovd05 mahaday05 pcacord05 bp1 bp7 bp10 bp14 crossva05 4.5 97.5 1.8 58.0 98.2 0.0 100.0 pcacovd05 95.5 100.0 1.0 99.8 100.0 0.2 100.0 mahaday05 2.5 0.0 0.0 3.0 5.8 0.0 10.5 pcacord05 98.2 99.0 100.0 99.8 100.0 35.8 100.0 bp1 42.0 0.2 97.0 0.2 97.0 0.0 100.0 bp7 1.8 0.0 94.2 0.0 3.0 0.0 100.0 bp10 100.0 99.8 100.0 64.2 100.0 100.0 100.0 bp14 0.0 0.0 89.5 0.0 0.0 0.0 0.0 Promedio 42.50 25.44 84.78 8.40 45.45 62.63 4.50 76.31

Tabla 45 Estimación de la probabilidad (en por ciento) de que el índice de Encontrados vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Con el sombreado se indican los mejores

desempeños. Resultados obtenidos luego de 500 simulaciones.

103

crossva05 pcacovd05 mahaday05 pcacord05 bp1 bp7 bp10 bp14 crossva05 0.5 94.5 91.2 17.2 62.7 0.0 100.0 pcacovd05 99.5 100.0 100.0 99.8 100.0 1.8 100.0 mahaday05 5.5 0.0 6.2 4.5 6.0 0.0 17.2 pcacord05 8.8 0.0 93.8 0.2 12.2 0.0 99.2 bp1 82.8 0.2 95.5 99.8 93.0 0.0 100.0 bp7 37.2 0.0 94.0 87.8 7.0 0.0 100.0 bp10 100.0 98.2 100.0 100.0 100.0 100.0 100.0 bp14 0.0 0.0 82.8 0.8 0.0 0.0 0.0 Promedio 41.73 12.36 82.58 60.73 28.59 46.74 0.23 77.05

Tabla 46 Estimación de la probabilidad (en por ciento) de que el índice de MAD vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Con el sombreado se indican los mejores desempeños.

Resultados obtenidos luego de 500 simulaciones.

crossva05 pcacovd05 mahaday05 pcacord05 bp1 bp7 bp10 bp14 crossva05 0.0 93.8 55.2 4.5 18.5 0.0 97.8

pcacovd05 100.0 98.2 100.0 98.8 99.0 2.8 100.0

mahaday05 6.2 1.8 7.8 5.5 6.2 0.0 32.0

pcacord05 44.8 0.0 92.2 0.8 16.8 0.0 98.0

bp1 95.5 1.2 94.5 99.2 81.8 0.0 100.0

bp7 81.5 1.0 93.8 83.2 18.2 0.0 100.0

bp10 100.0 97.2 100.0 100.0 100.0 100.0 100.0

bp14 2.2 0.0 68.0 2.0 0.0 0.0 0.0

Promedio 53.78 12.65 80.06 55.93 28.48 40.29 0.35 78.48

Tabla 47 Estimación de la probabilidad (en por ciento) de que el índice de RMSE vs. esfuerzo para el método i exceda al valor obtenido para el método j. La última fila es la probabilidad de no ser la mejor opción. Con el sombreado se indican los mejores desempeños.

Resultados obtenidos luego de 500 simulaciones.

6.5- Tratamiento de datos de nivel mediante modelos de series temporales

6.5.1 -Transformación estacionaria La serie presenta un comportamiento claramente no estacionario, tal como se puede observar en la gráfica 1 del Anexo, tanto en media como en varianza. Se probaron dos transformaciones para lograr estacionariedad: a) la diferencia de orden 1 de la serie original (gráficas 4 y 5 del Anexo) y b) el logaritmo del cociente entre datos consecutivos. Luego de realizar para ambas transformaciones, las medias por meses y años y calcular el estadístico t correspondiente para probar la media cero, se seleccionó la diferencia de orden uno de la serie, con la que se logra la estacionariedad en media pero no en varianza. Si bien aparecen síntomas de posible no linealidad luego de la transformación realizada, las etapas siguientes del trabajo se realizaron bajo ese supuesto. Se postergó para una segunda instancia el estudio estadístico de la linealidad.

104

6.5.2 - Modelo ARIMA estimado La primera etapa en el ajuste de un modelo ARIMA a una serie temporal es la identificación del mismo. Las principales herramientas para ello son la estimación de la función de autocorrelación y de autocorrelación parcial, cuyos gráfico se presentan en el Anexo. El análisis de los mismos permite inferir dos posibles especificaciones, a saber: 1- Un modelo autorregresivo de orden 1 AR(1) 2- Un modelo autorregresivo de orden 3 AR(3) cuya estimación se presenta en el Anexo. La simple observación gráfica de la primera diferencia de la serie, muestra un problema de heteroscedasticidad condicional (la varianza no es constante a través del tiempo)1 La particular distribución de los residuos permite probar la especificación de una estructura condicional heteroscedástica [ARCH(p)]. El tratamiento de este tipo de heteroscedasticidad, en que los residuos grandes y pequeños de un modelo aparecen agrupados a intervalos, ha sido objeto de diversos trabajos de investigación en los últimos años. La consideración de la heteroscedasticidad afectará la estimación de los parámetros autorregresivos, por lo que es necesario realizar un proceso iterativo de máxima verosimilitud para estimar tanto los parámetros del modelo AR, como los del modelo ARCH. El presente Informe de avance incluye la estimación del modelo AR(1) con estructura ARCH. En la etapa siguiente (en curso) se realizará la estimación del modelo AR(3) con estructura ARCH, por ser el que en una primera instancia capta mejor la estructura de la serie, lo que surge del análisis de los autocorrelogramas de los residuos (ver Anexo).

6.5.3 - Modelo ARCH estimado En primer lugar se procedió a especificar el orden de autocorrelación condicional, de los residuos al cuadrado del modelo. Para ambas especificaciones [AR(1) y AR(3)] resultó una heteroscedasticidad condicional de orden 2. Para realizarla se sobreparametrizó el modelo (orden 4) resultando en ambos casos no significativos los parámetros de orden 3 y 4. Los parámetros estimados se comportan de manera adecuada, es decir, son positivos.

11Es posible que la misma sea consecuencia de la eventual no linealidad de la serie.

105

En el Anexo se presenta la secuencia de la estimación por máxima verosimilitud de los parámetros AR(1) y ARCH(2).

106

7- REFERENCIAS. Abbot, P. F., 1986. "Guidelines on the Quality Control of Surface Climatological Data" World

Meteorological Organization WCP-85, WMO/TD-No. 111. 65 pp Atkinson, A. C.; Mulira, H.M., 1993: “The stalactite plot for the detection of multivariate outliers”, Statistics and Computing 3, 27-35 Barnett, V.; Lewis, T., 1984. "Outliers in statistical data" John Wiley and Sons, 463 pp. Coppi R.; Corazziari, I. 1995: “Apuntes. Curso-taller Interamericano sobre Métodos

Estadísticos aplicados a la investigación social” Centro Interamericano de Ense;anza de Estadística CIENES. Santiago de Chile, 25 oct. – 15 nov.

Coppi, R.; Zanella, F. 1979: “L’analisi fattoriali di una serie temporale multipla relativa allo stesso insieme di unitá statistiche” Atti della XXIXX riuinione della SIS

Cybenko, G. 1989: “Approximation by superpositions of a Sigmoidal function” Math. Control Signals Sstems, 2, 303-314

Davies, L. and Gather, U., 1993: “The identification of multiple outliers”. Journal of theAmerican Statistical Association. 88, 423, 782-801

DiMego, 1988. "The National Meteorological Center Regional Analysis System". Mon. Wea. Rev. V 116, pp 977-1000

DNM, 1988. "Procedimientos para el control de calidad climatológico" Informe interno de la Dirección Nacional de Meteorología, Nov. 1988, 20 págs.

Escoufier, Y.; 1973: “Le traitment des variables vectorielles” Biometrics, 29, 751-760 Escoufier Y.; 1977: “Operators related to a data matrix” in Recent developments in statistics,

Barra Ed., North Holland 125-131 Fernau, M.E.; Samson, P.J., 1990. "Use of Cluster analysis to define periods of similar

meteorology and precipitation chemistry in eastern North America. Part I: Transport Patterns" Journal of Applied Meteorology, V 29, N 8, 735-750.

Francis, P.E., 1986. "The use of numerical wind and wave models to provide areal and temporal extension to instrument calibration and validation of remotely sensed data" In Proceedings of A workshop on ERS-1 wind and wave calibration, Schliersee, FRG, 2-6 June, 1986 (ESA SP-262, Sept. 1986)

Gandin, L. M., 1965. "Objective analysis of Meteorological Fields". Israel Program for Scientific Translations, 242 pp.

González, R. C., y Woods, R. E., 1992. "Digital Image Processing" Addison-Wesley, pp 307-407 Gandin, L. M., 1988. ""Complex Quality Control of Meteorological Observations". Mon. Wea.

Rev., V 116, pp 1137-1156 Gnanadesikan, R.; Kettenring, J.R., 1972. "Robust estimates, residuals and outlier detection

with multiresponse data" Biometrics, V 28, 81-124. Goyeneche,J.J., Lorenzo,F. (1989). Tratamiento de la información de base para el cálculo de

índices de precios de Comercio Exterior. SUMA, 4 (7):119-126, CINVE. Haagenson, P.L, 1982. "Review and evaluation of methods for objective analysis of

meteorological variables" Papers in Meteorological Research, V 5, N 2, 113-133.

107

Harshman, R. A. 1970: “Foundations of the PARAFAC procedure: models and conditions for an “exploratory” multimode factor analysis” UCLA working papers in phonetics, quoted by Koonenberg, 1983

Hawkins, D.M., 1974. "The detection of errors in multivariate data, using Principal Components" Journal of the American Statistical Association, V 69, 346, 340-344.

Hawkins, D.M.,; Bradu, D.; Kass, G.V. 1984. "Location of several outliers in multiple-regression data using elemental sets”. Technometrics, 26, 197-208

Hawkins, D.M., 1993: “The feasible set algorithm for least median of squares regression”. Computational Statistics & Data Analysis, 16, 81-101

Hawkins, D.M., 1994a: “The feasible set algorithm for least trimmed squares regression”. computational Statistics & Data Analysis, 17, 185-196

Hawkins, D.M., 1994b: “The feasible set algorithm for the minimum covariance determinant estimator in multivariate data”. computational Statistics & Data Analysis, 17, 197-210

Hollingsworth, A.; Shaw, D.B.; Lonnberg, P.; Illari, L.; Arpe, K. and Simmons, A.J., 1986. "Monitoring of observation and analysis quality by a data assimilation system" Monthly Weather Review, V 114, N 5, 861-879.

Husain, T., 1989. "Hydrologic uncertainty measure and network design" Water Resources Bulletin, V 25, N 3, 527-534.

Jácome Sarmento, F.; Sávio, E.; Martins, P.R., 1990. "Cálculo dos coeficientes de Thiessen em microcomputador". En Memorias del XIV Congreso Latinoamericano de Hidráulica, Montevideo, Uruguay (6-10 Nov., 1990). V 2, 715-724.

Johnson, G.T. 1982. "Climatological Interpolation Functions for Mesoscale Wind Fields". Journal of Applied Meteorology, V 21, N 8, 1130-1136.

Kennedy, S. 1989 "The Small Number problem and the accuracy of spatial databases" En "The accuracy of spatial databases". Editado por Goodchild, M. and Gopal, S. Publicado por Taylor & Francis Ltd. Cap. 16, pp. 187-196.

Kiers, H. A. L.; 1989: “INDSCAL for the analysis of categorical data”. In Multiway Data Analysis Coppi, R.; Bolasco, S. Eds.) Chap. 2, 155-168

Koonenberg P. M.; 1983: “Three-mode principal component analysis” DSWO Press, Leiden. Koroliuk, V. S. 1986: “Manual de Teoría de Probabilidades y Estadística Matemática”. Ed. MIR,

Moscow, 580 pp. Krajewski, W. F. and Krajewski, K. L. 1989 "Real-time quality control of streamflow data - A

simulation study" Water Resources Bulletin, V 25, N 2, 391-399. Kuskal, J. B.; 1984: “Multilinear methods”. In Research Methods for Multimode Data Analysis

Law, H. G. et al. Eds. Praeger, New York 36-62 Lavit, C.; 1988: “Analise conjointe de tableaux quantitatifs” Masson Lavit, C.; Escoufier, Y.; Sabatier, R.; Traissac, P.; 1994: “The ACT (STATIS method)”

Computational Statistics & Data Analysis, 8, 97-120 Lebart, L.; Morineau, A.; Tabard, N.; 1977: “Techniques de la description statistique: Methodes

et logiciels pour l’analyse des grands tableaux” Ed. Dunod, Paris, 344 pp. Little, R. J. A.; 1988: “A test of Missing completely at Random for Multivariate Data with

Missing Values” Journal of the American Statistica Association, 83, 404, 1198-1202 Loh, W. L., 1991. "Estimating covariance matrices". The Annals of Statistics, V 19, N 1, pp.

283-296

108

López, C. y Kaplan, E., 1993a "Análisis de calidad de datos (viento y presión)" Publicación Técnica del Centro de Cálculo PTCC 1/93. También "Informe para el estudio del potencial eólico nacional a gran escala" Convenio UTE-FI, 1993, Cap. 6, 24 pp.

López, C. 1993b. “Predicción de la serie temporal del campo de velocidad de viento sobre topografía compleja. aplicación a la zona sur del Uruguay” Tesis presentada para la obtención de un grado de Maestría en Mecánica de los Fluídos Aplicada. Facultad de Ingeniería, Montevideo, Uruguay

López, C.; González, E.; Goyret, J., 1994a. "Análisis por componentes principales de datos pluviométricos. a) Aplicación a la detección de datos anómalos" Estadística (Journal of the Inter-American Statistical Institute) 1994, 46, 146,-147, pp. 25-54.

López, C.; González, J. F.; Curbelo, R., 1994b. "Análisis por componentes principales de datos pluviométricos. b) Aplicación a la eliminación de ausencias". Estadística (Journal of the Inter-American Statistical Institute) 1994, 46, 146,-147, pp. 55-83.

López, C. 1996: “Improvements over the duplicate performance method for outlier detection in categorical multivariate surveys” Journal of the Italian Statistical Society, 5, 2 11-28

López, C., 1997a. "Locating some types of random errors in Digital Terrain Models" Journal of Geographical Information Science, V 11, N 7, 677-689.

López, C., 1997b. “Application of ANN to the prediction of missing daily precipitation records, and comparison against linear methodologies” In Proceedings of the International Conference on Engineering Applications of Neural Networks. Stockholm, 16-18 June 337-340

López, C. 1997c. “Quality of Geographic Data – Detection of Outliers and Imputation of Missing Values” Ph.D. Thesis Dept. of Geodesy and Photogrammetry, Royal Institute of Technology, Stockholm, Sweden, ISSN 1400-31558

López, C. and Kaplan, E., 1998a. "A new technique for imputation of multivariate time series: application to an hourly wind dataset" Tenth Brazilian Meteorological Conference. Brasilia, Brazil 26-30 October, 1998

López, C., 1998b. "An error model for daily rain records" Tenth Brazilian Meteorological Conference. Brasilia, Brazil 26-30 October, 1998

López, C., 1999a. "On the measure of success in outlier detection algorithms", en proceso de revisión.

López, C., 1999b. "Looking Inside the ANN "Black Box": Classifying Individual Neurons as Outlier Detectors", To be presented at IJCNN99, Washington DC, July 1999

López, C. 2000: “On the improving of elevation accuracy of Digital Elevation Models: a comparison of some error detection procedures” Aceptado para su publicación en Transactions on Geographical Information Science.

Maronna R. 1976.: “Robust M-estimators of Multivariate location and scatter” The Annals of Statistics, 4, 1, 51-67

Minton, G. 1969.: “Inspection and correction error in data processing” Journal of the American statistical Association, 64, 328, 1256-1275

Núñez, S. 1994. Comunicación personal. Servicio Meteorológico Argentino O'Hagan, A., 1990. "Outliers and credence for location parameter inference" Journal of the

American Statistical Association: Theory and Methods, V 85, N 409, 172-176. Parrish, D.F. and Derber, J.C., 1992. "The National Meteorological Center`s Spectral Statistical

Interpolation Analysis System". Monthly Weather Review, V 120, pp. 1747-1763. Reolón, Roald, 1992. Comunicación personal.

109

Rocke, D. M. and Woodruff, D. L., 1996, Identification of outliers in Multivariate Data Journal of the American Statistical Association, 91, 435, 1047-1061

Rocke, D. M., 1996, Robustness properties of S-estimators of Multivariate location and shape in High dimension, The Annals of Statistics, 24, 3, 1327-1345

Rousseeuw, P. J., 1984, “Least Median of Squares Regression” Journal of the American Statistical Association, 79, 388, 871-880

Rousseeuw, P. J. and Leroy, A., 1987, “Robust Regression and Outlier Detection” , New York: John Wiley

Rousseeuw, P. J. and Van Zomeren, B.C., 1990, “Unmasking Multivariate Outliers and Leverage Points” Journal of the American Statistical Association, 85, 411, 633-639

Rousseeuw, P. J., 1991, “A Diagnostic Plot for Regression Outliers and Leverage Points” Comput. Statistics & Data Analysis, 11, 127-129

Rubin, D. B., 1987. "Multiple imputation for nonresponse in surveys". John Wiley and Sons, 253 pp.

Samper, F.J. and Carrera, J., 1990, “Geoestadística: aplicaciones a la hidrología subterránea”. ISBN 84-404-6045-7 480 pp (in spanish)

Samper, J. and Neuman, S. P., 1989, “Estimation of Spatial Covariance Structures by Adjoint State Maximum Likelihood Cross Validation. 1. Theory”. Water Resour. Res. 25, 3, 351-362

Sevruk, B., 1982. "Methods of correction for systematic error in point precipitation measurement for operational use" World Meteorological Organization WMO 589, Operational Hydrology Report 21, 89 pp.

Silveira, L.; López, C.; Genta, J.L.; Curbelo, R.; Anido, C.; Goyret, J.; de los Santos, J.; González, J.; Cabral, A.; Cajelli, A., Curcio, A., 1991. "Modelo matemático hidrológico de la cuenca del Río Negro" Informe final. Parte 2, Cap. 4. 83 pp.

Silveira, L.; Genta, J.L.; Anido Labadie, C., 1992. "HIDRO URFING- Modelo hidrológico para previsión de caudales en tiempo real". Publicación técnica del Instituto de Mecánica de los Fluidos e Ingeniería Ambiental (IMFIA) Hidrología 1/92. 28 pp, Facultad de Ingeniería, Montevideo, Uruguay.

Slanina, J.; Mols, J.J. and Baard, J.H., 1990. "The influence of outliers on results of wet deposition measurements as a function of measurement strategy" Atmospheric Environment, V 24A, N 7, pp. 1843-1860.

Stone, M.; Brooks, R.J., 1990: "Continuum regression: Cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares and principal components regression" J. R. Statist. Soc. B, V 52, N 2, pp 237-269.

Strayhorn, J. M.; 1990: "Estimating the errors remaining in a Data Set: Techniques for Quality Control" The American Statistician, V 44, N 1, pp 14-18

Tucker, L. R.; 1963: “Implications fo Factor Analysis of three-way matrices for measurement of change” In Problems in measuring change, Harris, C.W. (Ed.) Madison, Winsconsin, University of Winsconsin Press.

Tucker, L. R.; 1964: “The extension of Factor Analysis to three dimensional matrices” In Contributions to mathematical Psychology, Fredericksen, N. and Gulliksen, H. (Eds.) New York, Holt, Rinhart and Winston