e-ciencia, minería de datos y astrofísica - descubrimiento de
TRANSCRIPT
![Page 1: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/1.jpg)
e-Ciencia, Minería deDatos y Astrofísica
Descubrimiento de Conocimiento en la era de los grandessurveys
L.M. Sarro1,2
1Departmento de Inteligencia Artificial, UNED, España
2Spanish Virtual Observatory
Julio 2012 / Desarrollos tecnológicos en Astronomía
![Page 2: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/2.jpg)
Avance
![Page 3: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/3.jpg)
Lista para llevar
• Clasificación supervisada/no-supervisada• La maldición de la dimensionalidad• El compromiso sesgo-varianza• Reducción de la dimensionalidad• La importancia de la evaluación
![Page 4: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/4.jpg)
1.- Intro: e-Ciencia y el 4o paradigma
![Page 5: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/5.jpg)
Los cuatro paradigmas de la cienciasegún J. Gray
• Paradigma 1: Ciencia empirica (que describe fenómenosnaturales)
• Paradigma 2: Ciencia teórica• Paradigma 3: Simulaciones numéricas• Paradigma 4: Massive data exploration
• El cuarto paradigma, unifica experimentos, teoría ysimulaciones
• Consiste en extraer conocimiento a partir de datos(knowledge discovery)
• Involucra las ciencias de la computación, la inteligenciaartificial y estadística.
![Page 6: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/6.jpg)
e-Ciencia: encrucijada de disciplinasCiencias de la Computación, Estadística, Inteligencia Artificial y...
• La e-Ciencia es Inteligencia Artificial porque pretendereproducir con máquinas un comportamientogenuinamente humano. Implica modelos e Ingeniería delConocimiento.
• La e-Ciencia es Estadística porque ésa es el área en laque las máquinas nos superan.
• La e-Ciencia es algo más: en este caso, Astronomía.
![Page 7: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/7.jpg)
Recordatorio
En ocasiones, utilizaré figuras en 2 o 3 dimensiones parailustrar determinados aspectos de la charla. Recordad: todo loque os voy a contar tiene sentido sólo en las gigantescasbases de datos actuales, que residen en espacios de muy altadimensionalidad en los que la intuición visual no sirve de nada.
![Page 8: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/8.jpg)
La ley de Moore en Astronomía
Área total de telescopiosde 3+ m (en m2).
Número total de píxeles(en Megapíxeles).
(Cortesía de Djorgovski)
• Los sensores CCD siguen la leyde Moore
• Pronto tendremos sensoresGigapíxel
• El volumen de datos creceexponencialmente (eje ylogarítmico)
• Los sistemas de almacenamientoy acceso siguen una ley similar
![Page 9: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/9.jpg)
El tsunami de datos
Katsushika Hokusai(Edo, actual Tokio, 31 de octubre de 1760 - 10 de mayo de
1849)
![Page 10: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/10.jpg)
Ejemplos de bases de datos masivas
Survey Mirror Píxeles Tamaño MuestreoLSST 8.4 m 3.2 GP 6.8 PB al año 1000/10Pan-STARRS 1.8 m 4 x 1.4 GP 800 TB al añoSDSS 2.5 m 120 MP DR8, 50 TBGaia 2 x 1m 106x10MP 1 PB
![Page 11: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/11.jpg)
Tareas de descubrimiento deconocimiento
• Determinación de parámetros físicos:regresión no lineal multivariante
• Clasificación de objetos: clasificaciónsupervisada
• Descubrimiento de nuevos tipos deobjetos (clustering, clasificación nosupervisada)
• Descubrimiento de objetos exóticos(outliers o atípicos)
• Selección de modelos
![Page 12: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/12.jpg)
Tareas de descubrimiento deconocimientoDeterminación de parámetros físicos
Conceptos clave:
• Conjunto de entrenamiento• Mapa no lineal• Existen multitud de técnicas
estadísticas y de Minería de Datospara construir el modelo: redesneuronales, máquinas de vectoressoporte, Random Forests, ProcesosGaussianos...
• Reducción de dimensionalidad• Sobreajuste
![Page 13: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/13.jpg)
Tareas de DCClasificación de objetos
10 15 20 25Time (days)
-0.06
-0.04
-0.02
0
0.02
0.04
Del
ta M
ag
10 15 20 25Time (days)
-0.04
-0.02
0
0.02
0.04
Del
ta M
ag
CoRoT 110666938
CoRoT 110835975
Conceptos clave:• ¡Los mismos!
![Page 14: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/14.jpg)
Tareas de descubrimiento deconocimientoClasificación de objetos
![Page 15: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/15.jpg)
Tareas de descubrimiento deconocimientoDescubrimiento de objetos exóticos
![Page 16: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/16.jpg)
2.- Clasificación Supervisada o regresión
![Page 17: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/17.jpg)
Tareas de descubrimiento deconocimientoDescubrimiento de objetos exóticos
Multitud de métodos:• Redes neuronales• Máquinas de Vectores Soporte• Árboles de decisión/regresión, Random Forests...• Procesos Gaussianos• ...
![Page 18: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/18.jpg)
El ejemplo más simpleAnálisis Lineal
• Un problema 3D: D = {xi , yi , ci}• Un modelo lineal:
fθ(x) = Θ(θ1 · x + θ2 · y − k)
• Un modelo lineal equivalente alperceptrón (neurona artificial)
• Desconocemos los parámetros θ• Asumimos errores gaussianos
errors• Verosimilitud: L = p(D|θ)
![Page 19: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/19.jpg)
Redes neuronalesModelo no lineal
• Capa de entrada, oculta y de salida• La no linealidad aparece como consecuencia de la capa
oculta• Se entrenan por ciclos con un conjunto de entrenamiento• Los ciclos de entrenamiento se detienen cuando se
alcanza un mínimo de la función de error sobre unconjunto independiente.
![Page 20: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/20.jpg)
Un último ejemplo:Máquinas de Vectores Soporte
• Una aproximación totalmente diferente: Minimización delriesgo estructural
• La receta: encontrar el hiperplano de margen máximo• El truco del kernel
![Page 21: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/21.jpg)
Dos avisos (I)
La representatividad estadística del conjunto de entrenamiento:
• Construir un conjunto deentrenamientorepresentativo es difícil
• Los conjuntos deentrenamiento suelenreflejar sesgosobservacionales
• Los conjuntos sintéticos noson perfectos (y hay queañadirles ruido).
![Page 22: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/22.jpg)
Dos avisos (II)El sobreajuste y el compromiso sesgo-varianza.
La frontera ideal (sinruido).
Una muestra realcon ruido
Otra muestra realcon ruido
La frontera perfecta (sin errores) para la primera muestra reales desastrosa si la aplicamos a la segunda muestra real.
![Page 23: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/23.jpg)
Evaluación de los modelosValidación cruzada
¿Cómo evitar el sobreajuste?
• Alternativas:LOOCV, stratifiedCV, ...
• ¡Nunca evaluéis elmodelo sobre elconjunto deentrenamiento!
![Page 24: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/24.jpg)
La maldición de la dimensionalidad
Un ejemplo: los 10 vecinos más cercanos. Supongamos unadistribución homogénea de 1000 ejemplos en un hipercubo dedimensión d.
10 1 0.1d=2 10% 3% 1%d=5 40% 25% 16%
d=10 63% 50% 40%d=20 79% 71% 63%d=50 91% 87% 83%
¡Necesitamos técnicas de reducción de la dimensionalidad!
![Page 25: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/25.jpg)
Un ejemplo clásico: los espectros
![Page 26: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/26.jpg)
¿Qué no he mencionado?
![Page 27: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/27.jpg)
La búsqueda de nuevas clases de objetos: Agrupamiento
![Page 28: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/28.jpg)
El problemaEl objetivo de la clasificación nosupervisada es identificar losgrupos naturales presentes en unconjunto de datos, sin categoríaspreconcebidas. Los miembros deun mismo grupo deben sersimilares entre sí y diferentes delso miembros de otros grupos.Métrica. El problema principal es la
separación de grupos solapadosen espacios de altadimensionalidad.
![Page 29: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/29.jpg)
Clustering espacial
![Page 30: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/30.jpg)
Cross-matching
Pero... la visión completa se obtiene sumando datosastrométricos y espectrofotométricos (o, equivalentemente,físicos como temperaturas, gravedades, luminosidades...). Unfactor fundamental es la identificación cruzada de fuentes enmúltiples bases de datos: SDSS, 2MASS, VISTA, DENIS...
![Page 31: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/31.jpg)
Gaia
![Page 32: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/32.jpg)
Características deseables de unalgoritmo de agrupamiento
Tipos de técnicas: jerárquicas/planas, duras/probabilísticas,paramétricas/no-paramétricas,
• Capacidad de identificargrupos pequeñossolapados consuper-grupos
• Descripción probabilística• Determinación automática
del número de grupos.• Grupos de forma arbitraria
![Page 33: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/33.jpg)
Nuestra propuesta para Gaia:agrupamiento basado en densidades
![Page 34: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/34.jpg)
La búsqueda de lo exótico: detección de atípicos
![Page 35: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/35.jpg)
Nuestra propuesta para Gaia:agrupamiento basado en densidades
![Page 36: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/36.jpg)
¿Por dónde empezamos?
1 Identificad un problemainteresante (pero no demasiado)
2 Buscad en el ADS3 Localizad las bases de datos con
información relevante y cruzadlas4 Explorad los datos, haced
representaciones reducidas,entendedlos
5 Explorad técnicas (weka, rapidminer, R...)
6 Analizad los resultados
![Page 37: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/37.jpg)
¿Os hace un Weka?
![Page 38: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/38.jpg)
...O para l@s muy valientes, R
![Page 39: e-Ciencia, Minería de Datos y Astrofísica - Descubrimiento de](https://reader034.vdocuments.pub/reader034/viewer/2022051405/589ed5991a28ab814a8bfda5/html5/thumbnails/39.jpg)
Yo, por si acaso, os dejo datos parajugar:
• README• Hipparcos Variabilidad• OGLE LMC• OGLE SMC• OGLE bulge• Mix variabilidad• Modelos de Kurucz• Espectros ELODIE (R)• VLT Giraffe (R)