Árboles de estimación estocástica de probabilidades...
TRANSCRIPT
Árboles de Estimación
Estocástica de
Probabilidades:
NEWTON
TREES Autor:
Fernando Martínez Plumed
Directores:
Cèsar Ferri Ramirez
María José Ramírez Quintana
Tesis de Máster en Ingeniería del Software,
Métodos Formales y Sistemas de Información
1
ÍNDICE
1. Introducción
2. Newton Trees
3. Valores Faltantes
4. Experimentación
5. Conclusiones y Trabajo Futuro
2
Introducción
1.1 Minería de Datos
1.2 Tareas y Técnicas
1.3 Árboles de Decisión
1.4 PET´s
1.5 DBDT
1.6 Motivación
1
3
1.1 Minería de Datos
Definiciones:
“Proceso de extracción de información y patrones de comportamiento que permanecen ocultos entre grandes cantidades de información.”
“Proceso que a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil.”
Introducción 4
1.1 Minería de Datos
Introducción 5
Relaciones Información
CONOCOMIENTO ÚTIL
Y
PATRONES OCULTOS
1.2 Tareas y Técnicas
Introducción 6
Tareas: Predictivas: se trata de problemas y tareas en
los que hay que predecir uno o más valores para uno o mas ejemplos.
Los ejemplos en la evidencia van acompañados de una salida (clase, categoría o valor numérico) o un orden entre ellos.
Dependiendo de como sea la correspondencia entre los ejemplos y los valores de salida y la presentación de los ejemplos podemos definir varias de tareas predictivas:
Clasificación y Regresión
1.2 Tareas y Técnicas
Introducción 7
Tareas: Descriptivas: los ejemplos se presentan
como un conjunto δ = {e : eϵE}, sin etiquetar ni ordenar de ninguna manera. El objetivo, por tanto, no es predecir nuevos datos sino describir los existente:
Asociaciones, Dependencias, Correlaciones y Agrupamiento.
1.2 Tareas y Técnicas:Taxonomía
Introducción 8
T
A
R
E
A
S
DESCRIPTIVOS
Relación entre Variables
(Atributos)
Asociaciones y Dependencias (si las variables son categoricas)
Correlaciones (si las variables son numericas)
Relación entre Individuos (Ejemplos)
Agrupamiento
PREDICTIVOS
Clasificación (si la variable de salida es
categórica)
Regresión (Si la variable de salida es numérica)
1.2 Tareas y Técnicas:Taxonomía
Introducción 9
Con Modelo Sin Modelo o No inteligible
EAGER • Reg. Lineal • K-means • Arboles de Decisión • Reglas • ILP, IFLP
• Perceptron Learning • Radial Basis Functions. • Bayes Classifiers • Métodos Kernel y SVM
LAZY • Reg. Lineal Pond. Local • CBR • K-NN (Nearest Neighbour)
Útiles para extracción de conocimiento
Representables en forma de reglas Técnicas:
1.2 Tareas y Técnicas:Taxonomía
Introducción 10
TÉCNICA
PREDICTIVO / SUPERVISADO DESCRIPTIVO / NO SUPERVISADO
Clasificación Regresión Clustering Reglas Asociación Otros (Fact.,
Correl.)
Redes Neuronales
Arboles de Decisión
Kohonen
Regresion Lineal,
Regresión Logística
Kmeans
A priori
Analisis Multivariante
CN2
K-NN
RBF
Bayes Classifiers
1.3 Árboles de Decisión Los árboles de decisión son una de las técnicas
más populares y potentes en Aprendizaje Automático y Minería de Datos.
Clasificadores para clasificar instancias (datos) representadas como vectores de características (features).
Se basan en la idea de particionar recursivamente el conjunto de entrenamiento en conjuntos cada vez más pequeños hasta que el conjunto es puro.
Nodos Condiciones (atributo seleccionado).
Introducción 11
1.3 Árboles de Decisión Ventajas:
Buenos resultados en Accuracy.
Desventajas:
Tratamiento heterogeneo de un limitado número de tipos de datos (nominales y numericos).
ID3 , C4.5 o C5.0 [Quinlan], CART [Breiman].
Introducción 12
1.3 Árboles de Decisión
Introducción 13
1.4 PETs Variación de los árboles de decisión clásicos
donde la salida proporcionada es una probabilidad.
No modifican la manera de construir los árboles: usan criterios, particiones y métodos de poda diseñados para otras tareas o medidas.
Buenos resultados en términos del AUC (Area Under the Curve) y MSE (Mean Squared Error).
Aunque los PETs retornan probabilidades, no son probabilísticos en términos de cómo se usa el árbol para clasificar nuevas instancias.
Introducción 14
1.5 DBDT “Distance-Based Decision Trees”
Uso de distancias y funciones de similitud para diseñar árboles de decisión más flexibles.
Permite tratar cualquier tipo de datos en el que se puedan definir distancias.
Devuelve un árbol de prototipos de clase (nodos en el árbol).
Un ejemplo caerá en un nodo dado dependiendo de su proximidad al prototipo de clase.
Introducción 15
1.5 DBDT
Introducción
dnum(x,y) diferencia absoluta dnom(x,y) función identidad
16
1.6 Motivación
Presentación de un nuevo método de inducción de árboles de decisión, los Newton Trees.
Trabajan con cualquier tipo de datos.
Manejan de forma uniforme las distintas características.
Probabilísticos en su uso haciendo que cada instancia recorra todo el árbol y no sólo una rama.
Introducción 17
Newton Trees
2.1 Newton Trees
2.2 Particiones Gravitacionales
2.3 Generación del Árbol
2.4 Cálculo Estocástico de la Probabilidad
2.5 Comprensibilidad
2
18
Newton Trees Particiones
Gravitacionales Árboles de Estimación Estocástica de
Probabilidades.
Construcción, uso y representación del árbol basados en el principio de atracción. Las probabilidades se derivan también a partir de dicho principio.
Árbol de prototipos.
Representación gráfica del árbol sencilla de interpretar.
Los árboles son univariantes, pero sus particiones no son necesariamente paralelas a los ejes.
2.1 Newton Trees
Newton Trees 19
Newton Trees Particiones
Gravitacionales Particiones nodo/cluster por clase.
Cada nodo/cluster es caracterizado por un prototipo (medioide).
A partir de los medioides calculados, los datos se distribuyen de acuerdo a la siguiente función de atracción:
2.2 Particiones Gravitacionales
Newton Trees 20
Newton Trees Particiones
Gravitacionales 1. Para cada atributo Xr y cada clase i, se
calcula un prototipo πr, i.
2. Seleccionar el atributo que maximice algún criterio de partición (Gain Ratio).
3. Se asocia cada instancia de entrenamiento a su prototipo más próximo.
4. Si la partición es impura ir a 1, si no Fin.
2.3 Generación del árbol
Newton Trees 21
Newton Trees Particiones
Gravitacionales 1. Computar, desde la raíz a las hojas, la
probabilidad de caer en cada nodo.
2. Calcular el vector de probabilidad en cada hoja.
2.4 Cálculo estocástico de la probabilidad
Newton Trees 22
Newton Trees Particiones
Gravitacionales 3. Propagar hacia arriba este vector para
obtener en la raíz el vector total de
probabilidad p(root,e)
2.4 Cálculo estocástico de la probabilidad
Newton Trees 23
Instancia a clasificar:
(FEMALE,NO)
Newton Trees
2.4 11
0+
2
1𝑝 =
11
0 → 𝑝 = 1
11
0+
2
1𝑝 =
2
1 → 𝑝 = 0
24
Valores Faltantes
3.1 Valores Faltantes
3.2 Valores Faltantes en C4.5
3.3 Valores Faltantes en Newton Trees
3.4 Ejemplo
3
25
¿Qué pasa cuando parte de los datos están incompletos, como ocurre generalmente con cualquier conjunto de datos de la vida real?
Descartar una proporción importante de los datos por incompletos y declarar algunos casos como inclasificables.
Adaptar los algoritmos para poder trabajar con atributos con valores faltantes.
Valores Faltantes
3.1 Valores Faltantes
26
Quinlan mostró que la combinación de todos los posibles resultados con un valor faltante en el ejemplo de test en la fase de clasificación proporciona una mejor precisión general que otros enfoques.
Para clasificar un ejemplo e, éste se propaga por todas las ramas para calcular su probabilidad de forma proporcional al número de instancias de entrenamiento (con valores conocidos para el atributo de partición).
El algoritmo C4.5 adopta esta aproximación.
Valores Faltantes
3.2 Valores Faltantes en C4.5
27
Aproximación en Newton Trees: para atributos con valores faltantes se asume que la distancia a cualquier prototipo es igual, tal que:
Se ignoran los valores faltantes en la fase de aprendizaje .
Se establece constante (igual a 1) el valor de la distancia a cualquier prototipo.
Valores Faltantes
3.3 Valores Faltantes en Newton Trees
28
Instancia de Test:
(FEMALE,?)
Valores Faltantes
3.4 Ejemplo
29
Experimentación
4.1 Configuración
4.2 Resultados
4
30
Newton Trees vs J48 (sin poda y con suavizado de Laplace en las hojas) implementado en WEKA.
Gain Ratio.
30 Datasets extraídos del repositorio UCI.
20 repeticiones x 5 folds Cross Validation.
Métricas de evaluación: Accuracy, AUC y MSE.
Tests estadisticos (Wilcoxon signed-ranks)
4.1 Configuración
Experimentación 31
Tabla 1. Comparativa Global
(30 Datasets)
Newton Trees Unpruned
Laplace J48
Acc. AUC MSE Acc. AUC MSE
Media 82,091 0,866 0,100 80,728 0,842 0,110
Media (Binarios)
83,650 0,867 0,115 81,339 0,831 0,133
Media (> 2 Clases)
80,308 0,866 0,084 80,031 0,854 0,083
Nominales 90,159 0,931 0,069 87,310 0,894 0,080
Numéricos 79,703 0,860 0,118 79,422 0,848 0,127
Mixtos 77,205 0,810 0,109 75,888 0,781 0,118
4.2 Resultados
32
Tabla 2. Comparativa Valores Faltantes
(7 Datasets)
Newton Trees Unpruned Laplace
J48
Acc. AUC MSE Acc. AUC MSE
Media 83,934 0,874 0,095 83,641 0,860 0,100
Media (Binarios)
84,531 0,853 0,111 83,454 0,838 0,119
Media (Clases >2)
82,440 0,926 0,056 84,108 0,914 0,053
4.2 Resultados
33
Conclusiones y Trabajo Futuro
5.1 Conclusiones
5.2 Trabajo futuro
5.3 Artículos
Relacionados
5
34
Novedoso método de aprendizaje de árboles de estimación estocástica de probabilidad, los Newton Trees.
El uso de medioides permite el tratamiento homogéneo de cualquier tipo de datos.
Representación grafica inteligible.
Adaptación para el tratamiento de valores faltantes.
Conclusiones
5.1 Conclusiones
35
Los resultados obtenidos en las distintas pruebas llevadas a cabo cumplen nuestras expectativas en cuanto a homogeneidad (en el tratamiento de los tipos de datos), transparencia (tratamiento de los datos inteligible), eficiencia (con un coste bajo) y eficacia (con resultados significativamente mejores a que los obtenidos con el j48).
Conclusiones
5.1 Conclusiones
36
AUC como criterio de partición.
Extensión de los Newton Trees a otros métodos de aprendizaje como la regresión o el clustering.
Tratamiento de datos estructurados (cadenas, listas,…).
Clasificación de instancias multi-etiqueta.
Conclusiones
5.2 Trabajo Futuro
37
5.3 Artículos Relacionados
F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees , 23rd Australasian Joint Conference on Artificial Intelligence, AI 2010,(LNCS), Adelaide, Australia.
F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Tratamiento de Valores Faltantes en Newton trees , V Simposio de Teoría y Aplicaciones en Minería de Datos, TAMIDA 2010, Valencia, España.
F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees . Extended Technical Report, DSIC UPV 2010, http://www.dsic.upv.es/~flip/NewtonTR.pdf
Introducción 39
¡Gracias!
40