![Page 1: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/1.jpg)
Algoritmos de Estimación de DistribucionesAlgoritmos de Estimación de Distribucionespara la Selección Simultánea de Instancias y
Atributos
MAEB 2012 – Albacete8‐10 Febrero
Pablo Bermejo, José A. Gámez, Ana M. Martínez y José M. PuertaUniversidad de Castilla‐La ManchaUniversidad de Castilla La Mancha
1
![Page 2: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/2.jpg)
ResumenResumen
1. Pre‐procesamiento de bases de datosp
2. IFS ‐ Propuestas
3. Experimentos
4. Conclusiones y Trabajo Futuro
2
![Page 3: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/3.jpg)
1. Pre‐procesamiento de bases de datos
• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:
• Cuando n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.
• Otro problema común: imbalanceado.3
![Page 4: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/4.jpg)
1. Pre‐procesamiento de bases de datos
• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:
Selección de atributos(FS)
..
• Cuando n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.
• Otro problema común: imbalanceado.4
![Page 5: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/5.jpg)
1. Pre‐procesamiento de bases de datos
• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:
Selección de atributos(FS) Construcción de Atributos
Xn+1
..
……………………
• Cuando n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.
• Otro problema común: imbalanceado.5
![Page 6: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/6.jpg)
1. Pre‐procesamiento de bases de datos
• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:
Selección de atributos(FS) Construcción de AtributosMuestrear instancias
Xn+1
Muestrear instancias
..
……………………
• Cuando n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t i
N+1 … … … … …
dimensionalidad. Si N es muy grande, bases de datos masivas.• Otro problema común: imbalanceado.
6
![Page 7: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/7.jpg)
1. Pre‐procesamiento de bases de datos
• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:
Selección de atributos(FS) Construcción de AtributosMuestrear instancias Seleccionar Instancias (IS)
Xn+1
Muestrear instancias Seleccionar Instancias (IS)
..
……………………
• Cuando n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t i
N+1 … … … … …
dimensionalidad. Si N es muy grande, bases de datos masivas.• Otro problema común: imbalanceado.
7
![Page 8: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/8.jpg)
1. Pre‐procesamiento de bases de datos
S (S l ió d ib )• FS (Selección de atributos):– Reduce la anchura de la base de datos: ligereza, mejores modelos, más
entendibles.– Las métricas utilizadas para seleccionar un atributo suelen calcularse a partir
de las instancias disponibles.
• IS (Selección de instancias):– Reduce la longitud de la base de datos: ligereza, clusters mejor definidos, gran
mejora para clasificadores perezosos.mejora para clasificadores perezosos.– Las métricas utilizadas para seleccionar una instancia suelen calcularse a partir
de los atributos disponibles.
FS influye en ISIS influye en FS¿Cuál realizar antes? Selección Simultánea (IFS)
8
![Page 9: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/9.jpg)
2 IFS2. IFS
• IFS‐CHC: algoritmo evolutivo adaptativo CHC.IGA l it éti i t li t d d• IGA: algoritmo genético inteligente con operador de cruce ortogonal.
• HGA: algoritmo genético híbrido: técnicas de búsqueda local+AG.HGA: algoritmo genético híbrido: técnicas de búsqueda local+AG.• Una de las propuestas más recientes y exitosas es IFS‐CoCo:
– Co‐evolución genética de 3 poblaciones• 1 población para FS• 1 población para IS• 1 población para IFS1 población para IFS
– Resultados muy buenos– Wrapper: caro computacionalmente
9
![Page 10: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/10.jpg)
EDAsEDAs• Algoritmos evolutivos que trabajan sobre conjuntos de poblaciones de soluciones
candidatas.candidatas.
10
![Page 11: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/11.jpg)
EDAsEDAs
(f l )• Ventajas (frente a los AGs): – Menor número de parámetros a ajustar.– Mayor expresividad y transparencia del modelo probabilístico que guía el y p y p p q g
proceso de búsqueda.
• Existen multitud de EDAs:• Existen multitud de EDAs: – Sin dependencias: UMDA.
• Distribución de probabilidad conjunta a partir de las distribuciones univariadas independientes.
– Dependencias bivariadas.– Dependencias múltiples.p p
11
![Page 12: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/12.jpg)
2 IFS2. IFS
• Proponemos 2 nuevos métodos para realizar IFS, ambos basados en evolución de EDAs (UMDA), y con evaluación i i l t filtprincipalmente filter:
– IFS‐EDAig– IFS‐EDAcfs– En ambas búsquedas, las poblaciones se inicializan dando la probabilidad a cada instancia inversamente proporcional a la cardinalidad de su clase, para
l l d b d dintentar sesgar el resultado a una base de datos balanceada IFS + balanceado.
12
![Page 13: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/13.jpg)
2 IFS2. IFS• IFS‐EDAig:
– Fase filter (UMDA): repetida n vecesU i di id t lí it t l i t i l i d• Un individuo representa explícitamente las instancias seleccionadas
• Los atributos seleccionadas se representan implícitamente con un ranking de los kmejores atributos por IG
• La suma de estos k atributos es la bondad de un individuoLa suma de estos k atributos es la bondad de un individuo– Fase wrapper: comparación del mejor individuo de cada UMDAk
( [])[]1
f c Tc
ki
iIG x
K mejores atributos: ranking por IG
13
![Page 14: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/14.jpg)
2 IFS2. IFS• IFS‐EDAcfs: filter puro: 1 sola búsqueda UMDA
– Un individuo representa explícitamente las instancias seleccionadasUn individuo representa explícitamente las instancias seleccionadas.– Los atributos seleccionadas se representan implícitamente con una búsqueda voraz con
métrica CFS (correlation‐based FS).– La bondad de un individuo es la devuelta por dicha búsqueda.La bondad de un individuo es la devuelta por dicha búsqueda.
14
![Page 15: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/15.jpg)
3 Experimentos3. Experimentos• Utilizamos el siguiente corpus para la evaluación de nuestras propuestas y
comparación con otros métodos:comparación con otros métodos:
15
![Page 16: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/16.jpg)
3 Experimentos3. Experimentos
l d di 3 0 l l d• Hemos evaluado nuestras propuestas mediante una 3x10cv, y los resultados devueltos son la media los 3 valores devueltos por la media de cada 10cv.
– Nº generaciones = 50– Tamaño población = 20– Tamaño población aprendizaje (cada generación) = 10
• 1NN como algoritmo base de clasificación.
• Atenderemos a los siguientes criterios para comparar nuestras propuestas con otras existentes:
– Tasa de aciertos (TA)– Kappa– Tiempo de ejecución
Test de Wilcoxon
Tiempo de ejecución– % Reducción de atributos
16
![Page 17: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/17.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
17
![Page 18: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/18.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
18
![Page 19: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/19.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
19
![Page 20: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/20.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
20
![Page 21: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/21.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
21
![Page 22: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/22.jpg)
3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig
22
![Page 23: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/23.jpg)
3 Experimentos3. Experimentos
23
![Page 24: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/24.jpg)
3 Experimentos3. Experimentos
24
![Page 25: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/25.jpg)
3 Experimentos3. Experimentos
25
![Page 26: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/26.jpg)
3 Experimentos3. Experimentos
26
![Page 27: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/27.jpg)
3 Experimentos3. Experimentos
27
![Page 28: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/28.jpg)
3 Experimentos3. Experimentos
28
![Page 29: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/29.jpg)
3 Experimentos3. Experimentos
29
![Page 30: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/30.jpg)
3 Experimentos3. Experimentos
• IFS-EDA mejor que el resto
TASA DE ACIERTO
Negrita: diferencia estadística
KAPPA
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
30
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
![Page 31: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/31.jpg)
3 Experimentos3. Experimentos
• IFS-EDA mejor que el resto
TASA DE ACIERTO
Negrita: diferencia estadística
KAPPA
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
31
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
![Page 32: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/32.jpg)
3 Experimentos3. Experimentos
• IFS-EDA mejor que el resto
TASA DE ACIERTO
Negrita: diferencia estadística
KAPPA
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
32
Resultados comparables con IFS-CoCo al tomar sólo bdd discretas
![Page 33: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/33.jpg)
4 Conclusiones4. Conclusiones
d d l b d l• Propuesta de dos algoritmos basados en EDAs para la IFS:– IFS‐EDAig: UMDA para un nº creciente de atributos evaluados con IG.
Validación cruzada de 1NN para seleccionar nº atributos final en pfunción de instancias.
– IFS‐EDAcfs: más sencillo. Un único UMDA con selección de atributos mediante métrica cfsmediante métrica cfs.
• Ventajas a nivel de kappa con el resto de técnicas excepto IFS‐CoCo, a quien aventaja en coste computacional.
• Otras ventajas:– Necesidad de ajustar un nº menor de parámetros .
P ibilid d d i l l li ió– Posibilidad de recurrir a la paralelización.– Las bases de datos resultantes están balanceadas.– Porcentaje de reducción en cuanto al número de atributos es mayorPorcentaje de reducción en cuanto al número de atributos es mayor.
33
![Page 34: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/34.jpg)
Trabajo futuroTrabajo futuro
• Hacer extensibles los algoritmos a bases de datos con atributos numéricos para evitar el uso de técnicas de discretizacióndiscretización .– Medidas filter que manejen los valores numéricos directamentedirectamente.
• Explotar formas alternativas de inicializar la población para aumentar el porcentaje de reducción de instancias.p j
• Probar diferentes EDAs bivariados, o incluso multivariados, para manejar las relaciones entre las variables.
• Interesante: adaptar las propuestas HGA e IFS‐CoCo para la utilización de EDAs.
34
![Page 35: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de](https://reader035.vdocuments.pub/reader035/viewer/2022071504/6124e6f344ebce4f307c5382/html5/thumbnails/35.jpg)
Gracias!Gracias!
35