selección de características introduccion a tecnicas de mineria de datos mg. samuel oporto díaz...
TRANSCRIPT
![Page 1: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/1.jpg)
Selección de Características
INTRODUCCION A TECNICAS DE MINERIA DE DATOS
Mg. Samuel Oporto Díaz
erro
r d
el c
lasi
ficad
or
número de características
número de ejemplos
![Page 2: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/2.jpg)
Mapa Conceptual – Minería de Datos
DataObjetivo
DataPre-procesada
DataTransformada Patrones
Fuentes de datos Pre-procesamientoExploración y
transformaciónReconocimiento de
PatronesEvaluación e Interpretación
DatacrudaDHW
DBMS
Texto
Evaluación y Entendimiento
Muestreo y Selección• Muestreo • Selección
Limpieza de Datos• Limpieza de datos• Datos que no existen• Datos no clasificados• Identificación de
extremos• Eliminación de Ruido
Transformación de Datos• Reducción de
Dimensionalidad• Creación de
Características• Normalización de Datos• Variables
Correlacionadas• Discretización
Reportes y VisualizaciónModelado• Descripción• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación• Detección de
Desviación
![Page 3: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/3.jpg)
33 /39/39
Tabla de Contenido• Introducción 4• Pre-procesamiento 9• Reducción de Datos 26• Selección de Instancias 36• Selección de Características 40• Ejemplo
– Planteamiento del Problema 49– Procedimiento de solución 53– Algoritmos 58– Fuentes de Datos 64– Diseño de Experimentos 66– Resultados Experimentales 68
![Page 4: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/4.jpg)
44 /39/39
INTRODUCCION
![Page 5: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/5.jpg)
55 /39/39
Proceso de la Minería de Datos
![Page 6: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/6.jpg)
66 /39/39
Proceso de Minería de Datos
• Pre-procesamiento.• Problemas de pre-procesamiento como un problema de
búsqueda
• Minería de Datos.• Aprendizaje/extracción de conocimiento como problemas
de optimización y búsqueda
![Page 7: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/7.jpg)
77 /39/39
Preparación y pre-procesamiento de datos
![Page 8: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/8.jpg)
88 /39/39
Preparación de Datos
• El propósito fundamental de la preparación de los datos es la manipulación y transformación de los datos sin refinar para que la información contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma más fácil.
![Page 9: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/9.jpg)
99 /39/39
PRE-PROCESAMIENTO
![Page 10: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/10.jpg)
1010 /39/39
Importancia
• Los datos reales pueden ser impuros, pueden conducir a la extracción de patrones/reglas poco útiles.
• Esto se puede deber a:– Datos Incompletos: falta de valores de atributos, – Datos con Ruido– Datos inconsistentes (incluyendo discrepancias)
![Page 11: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/11.jpg)
1111 /39/39
Importancia
• La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de Minería de Datos.
• Esta actuación incluye: – Selección relevante de datos:
• Eliminando registros duplicados• Eliminando anomalías,
– Reducción de Datos:• Selección de características• muestreo o selección de instancias• Discretización.
![Page 12: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/12.jpg)
1212 /39/39
Importancia
• La preparación de datos genera “datos de calidad”, los cuales pueden conducir a patrones/reglas de calidad.
• Por ejemplo, se puede: – Recuperar información incompleta.– Eliminar outliers– Resolver conflictos,
![Page 13: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/13.jpg)
1313 /39/39
Importancia
• Datos de baja calidad puede llevar a modelos de minería de datos de baja calidad.
• Decisiones de calidad deben ser basadas en datos de calidad.
• La preparación de datos (limpieza, transformación, ….) puede llevar la mayor parte del tiempo de trabajo en una aplicación de minería de datos (90%).
![Page 14: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/14.jpg)
1414 /39/39
¿Qué incluye la Preparación de Datos?
• Engloba a todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento / minería de datos puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.)
![Page 15: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/15.jpg)
1515 /39/39
¿Qué incluye la Preparación de Datos?
• Es difícil dar una lista exacta de tareas o tópicos. • Diferentes autores dan diferentes tareas y clasificaciones.• Se pueden incluir las siguientes tareas o tópicos.
– Limpieza de datos – Integración de datos – Transformación de datos – Reducción de datos
![Page 16: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/16.jpg)
1616 /39/39
¿Qué incluye la Preparación de Datos?
![Page 17: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/17.jpg)
1717 /39/39
Limpieza de datos
• Resuelve redundancias consecuencia de la integración • Chequea y resuelve problemas de ruido, valores perdidos,
elimina outliers, • Resuelve inconsistencias/conflictos entre datos
![Page 18: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/18.jpg)
1818 /39/39
Limpieza de Datos
• Outliers• Son objetos/datos con características que son
considerablemente diferentes de la mayoría de los otros datos/objetos del conjunto.
![Page 19: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/19.jpg)
1919 /39/39
Limpieza de Datos
• Datos con ruido. Suavizado
![Page 20: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/20.jpg)
2020 /39/39
Limpieza de Datos
• Ejemplo de inconsistencias
Presencia de discrepancias en datos
Edad=“42” Fecha de Nacimiento=“03/07/1997”
![Page 21: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/21.jpg)
2121 /39/39
Integración de Datos
• Obtiene los datos de diferentes fuentes de información • Resuelve problemas de representación y codificación • Integra los datos desde diferentes tablas para crear
![Page 22: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/22.jpg)
2222 /39/39
Transformación de Datos
• Los datos son transformados o consolidados de forma apropiada para la extracción de información.
• Diferentes vías: – Sumarización de datos – Operaciones de agregación, etc. – Aplicación de funciones
![Page 23: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/23.jpg)
2323 /39/39
Ejemplos de Transformación de Datos
• Normalización min-max
• Normalización z-score
• Normalización por escala decimal
donde j es el entero más pequeño tal que max(| v’|) < 1
![Page 24: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/24.jpg)
2424 /39/39
Reducción de Datos
• Selecciona/extrae datos relevantes para la tarea de la minería de datos/extracción de información.
Datos originales Datos Reducidos
![Page 25: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/25.jpg)
2525 /39/39
Reducción de Datos
• Diferentes vías para la Reducción de Datos: – Selección de Características – Selección de Instancias – Agrupamiento / Compactación– Discretización
![Page 26: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/26.jpg)
2626 /39/39
REDUCCION DE DATOS
![Page 27: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/27.jpg)
2727 /39/39
Reducción de Datos
![Page 28: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/28.jpg)
2828 /39/39
Selección de Características
• La SC pretende elegir atributos que sean relevantes para una aplicación y lograr el máximo rendimiento con el mínimo esfuerzo. El resultado de la SC sería:– Menos datos los algoritmos pueden aprender más – rápidamente – Mayor exactitud el clasificador generaliza mejor – Resultados más simples más fácil de entender
• SC y Transformación (extracción y construcción)
![Page 29: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/29.jpg)
2929 /39/39
Selección de Características
Var 1 Var 5 Var 13
![Page 30: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/30.jpg)
Selección de Características
• La SC se puede considerar como en problema de búsqueda
• Los Algoritmos Evolutivos y las diferentes meta-heurísticas se han utilizado para este problema.
![Page 31: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/31.jpg)
3131 /39/39
Proceso
![Page 32: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/32.jpg)
3232 /39/39
Selección de Instancias
• La SI pretende elegir los ejemplos que sean relevantes para una aplicación y lograr el máximo rendimiento. El resultado de la SC sería: – Menos datos los algoritmos pueden aprender más
rápidamente – Mayor exactitud el clasificador generaliza mejor – Resultados más simples más fácil de entender
• SI y Transformación (compactación/agrupamiento)
![Page 33: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/33.jpg)
3333 /39/39
Ejemplos de diferentes tamaños
8000 puntos 2000 puntos 500 puntos
![Page 34: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/34.jpg)
3434 /39/39
Agrupamiento
• Compactación mediante el análisis de clusters
![Page 35: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/35.jpg)
3535 /39/39
Discretización
• Divide el rango de atributos continuos (numéricos) en intervalos
• Almacena solo las etiquetas de los intervalos • Importante para reglas de asociación y clasificación • Ejemplo:
![Page 36: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/36.jpg)
3636 /39/39
SELECCIÓN DE INSTANCIAS
![Page 37: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/37.jpg)
3737 /39/39
Selección de Instancias
![Page 38: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/38.jpg)
3838 /39/39
Muestreo
![Page 39: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/39.jpg)
3939 /39/39
Muestreo
![Page 40: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/40.jpg)
4040 /39/39
SELECCIÓN DE CARACTERÍSTICAS
![Page 41: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/41.jpg)
4141 /39/39
El Problema
• Se desea clasificar ejemplos de determinados objetos en una de varias categorías o clases preestablecidas.
• La tarea de clasificación de patrones consiste en construir un mapa de relaciones entre el espacio de características y el conjunto de las clases, de modo de poder reconocer a qué clase corresponde cualquier patrón de entrada representado por un vector de características.
• En muchos otros problemas de clasificación no se conoce a priori, por falta de una teoría sólida establecida, cuáles son las características relevantes que permiten discriminar entre diversas categorías.
![Page 42: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/42.jpg)
4242 /39/39
El problema
• El problema de la selección de características consiste en seleccionar un subconjunto de m características de entre un conjunto original de n características candidatos , bajo algún criterio de desempeño.
• Hay un total de de tales subconjuntos.
• El número de posibilidades crece exponencialmente, haciendo impráctica la búsqueda exhaustiva, aun para valores moderados de n.
![Page 43: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/43.jpg)
4343 /39/39
Maldición de la dimensionalidad
err
or
de
l cla
sific
ad
or
número de características
número de ejemplos
![Page 44: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/44.jpg)
4444 /39/39
Objetivos
• reducir la complejidad del clasificador y su implementación en hardware/software.
• compresión de información (eliminar características redundantes e irrelevantes).
• reducir el costo de medición al disminuir el número de características.
• proveer una mejor clasificación debido a efectos por tamaño finito de la muestra.
![Page 45: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/45.jpg)
4545 /39/39
Ejemplos de datasets
• Aplicaciones donde se fusionan datos provenientes de múltiples sensores.
• Integración de múltiples modelos, donde se juntan los parámetros de diferentes modelos matemáticos para propósitos de clasificación. Por ejemplo, combinación de características de diferentes modelos de textura en imágenes.
• Aplicaciones de data mining, donde el objetivo es recuperar las relaciones escondidas entre un gran número de características.
![Page 46: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/46.jpg)
4646 /39/39
Métodos
• Un método de selección de características típicamente requiere de los siguientes ingredientes:– Generación de subconjuntos, que corresponde a un
procedimiento de búsqueda.– Un criterio de evaluación J para comparar subconjuntos
de características. – Un criterio de parada, típicamente un umbral de
significancia o la dimensión del espacio final de características.
![Page 47: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/47.jpg)
4747 /39/39
Proceso
![Page 48: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/48.jpg)
4848 /39/39
Comparación de cuatro técnicas de selección de características envolventes para procesos de
clasificación.
![Page 49: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/49.jpg)
4949 /39/39
PLANTEAMIENTO DEL PROBLEMA
![Page 50: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/50.jpg)
5050 /39/39
Selección de CaracterísticasLa selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
![Page 51: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/51.jpg)
5151 /39/39
Selección de CaracterísticasEncontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador.
Se trata de reducir la dimensionalidad de los patrones de entrada Sm.
Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.
![Page 52: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/52.jpg)
5252 /39/39
Selección de Características• Si se evalua todo el espacio de posibles combi-naciones, el
costo computacional es muy alto• Si n es la cantidad de características identificadas y m es la
cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es:
Si n = m; 2n
n 2n
10 1,02420 1,048,57630 1,073,741,82440 1,099,511,627,776
![Page 53: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/53.jpg)
5353 /39/39
PROCEDIMIENTO DE SOLUCION
![Page 54: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/54.jpg)
5454 /39/39
Proceso de Selección de Características
FiltroEnvolventeHíbrido
e: error del clasificador
B. OptimaB. Sub-optimaB. AleatoriaB. Heurística
Clasificador
![Page 55: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/55.jpg)
5555 /39/39
Generación del Sub-Conjunto• Búsqueda exhaustiva
• Búsqueda secuencial hacia delante.• Búsqueda secuencial hacia atrás.
• Búsqueda Aleatoria (BA).• Búsqueda Aleatoria Optimizada (BAO)
• Búsqueda Mejor Primero (BMP)• Búsqueda Genética (BG)
Optima
Sub-optima
Aleatoria
Heurística
![Page 56: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/56.jpg)
5656 /39/39
Evaluación del Sub-Conjunto• Filtro. Independientes del algoritmo de aprendizaje.• Componente principal, entropía.
• Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje.
• Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética.
• Híbridos. Filtro + Envolvente.
![Page 57: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/57.jpg)
5757 /39/39
Criterio de Paro¿Cuándo detener la búsqueda? :
error del clasificador
![Page 58: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/58.jpg)
5858 /39/39
ALGORITMOS
![Page 59: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/59.jpg)
5959 /39/39
Algoritmos de Búsqueda• BUSQUEDA ALEATORIA (BA)• Realiza una búsqueda sobre un porcentaje de todo el
espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo.
• BUSQUEDA ALEATORIA OPTIMIZADA (BAO)• Dado un subconjunto de características, si al quitar una
característica.– error sube relevante <fracaso>– error baja irrelevente <exito>
• Se pretende eliminar las irrelevantes.
![Page 60: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/60.jpg)
6060 /39/39
Algoritmos de Búsqueda• BUSQUEDA MEJOR PRIMERO (BMP)• Usa un árbol de búsqueda, de tal forma que la
característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características.
• BUSQUEDA GENÉTICA (BG)• Hace uso de un algoritmo genético. El objetivo consiste en
encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).
![Page 61: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/61.jpg)
6161 /39/39
Criterio de ParoBúsqueda Aleatoria (BA)
gradiente error < umbral
Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral
Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5]
Búsqueda Genética (BG) minimizar el error del clasificador.
![Page 62: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/62.jpg)
6262 /39/39
Algoritmos de Clasificación
Desarrollado por Quinlan. Es un árbol de regresión.Es recursivo, y se basa en la estrategia "divide y vencerás“Mejora del ID3.
Árbol de Decisión C4.5 Naive Bayesian
Aprendizaje probabilístico:Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta.La predicción probabilística predice múltiples hipótesis ponderadas
Tiempo P N Humedad P Nsoleado 2/9 3/5 alta 3/9 4/5cubierto 4/9 0 normal 6/9 1/5lluvia 3/9 2/5Temperatura Vientocalor 2/9 2/5 si 3/9 3/5suave 4/9 2/5 no 6/9 2/5fresco 3/9 1/5
![Page 63: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/63.jpg)
6363 /39/39
Algoritmos de Clasificación
Presentadas en 1992. Vapnik y Chervonenkis.Crea nuevas características linealmente separables.Busca un hiperplano que puede separar el espacio en dos partes
Maquinas de Vector Soporte
Red de Retropropagación
Trabaja con datos continuos o discretosLa salida puede ser vector de valores reales o discretos.Aprende por modificación de los pesos.Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.
![Page 64: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/64.jpg)
6464 /39/39
FUENTES DE DATOS
![Page 65: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/65.jpg)
6565 /39/39
Datos
Nombre inst
anci
as
cara
cter
ístic
as
clases % nom % num 1% 0%ADULT 48,842 14 2 57 43 23.5 76.5BANDS 512 39 2 50 50 35.5 64.5MUSHROOM 8,124 22 2 100 0 37.3 62.7
UCI Repository of Machine Learning DatabaseUniversity of California
![Page 66: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/66.jpg)
6666 /39/39
DISEÑO DE EXPERIMENTO
![Page 67: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/67.jpg)
6767 /39/39
Diseño de Experimentos
DATOS
AL
GO
RIT
MO
D
E B
US
QU
ED
AC
LA
SIF
ICA
DO
RE
S
ADULT, BANDS, MUSHROOM
• Árbol de Decisión C4.5
• Naive Bayesian
• Maquinas de Vector Soporte
• Red de Retropropagación
• Búsqueda Aleatoria
• Búsqueda Aleatoria Optimizada
• Búsqueda Mejor Primero
• Búsqueda Genética
48experimentos
K-fold
K = 10
Validación cruzadaANOVAVoting
![Page 68: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/68.jpg)
6868 /39/39
RESULTADOS EXPERIMENTALES
![Page 69: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/69.jpg)
6969 /39/39
Resultados Experimentales
![Page 70: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/70.jpg)
7070 /39/39
BANDS BA BAO BMP BG Puntaje ( e )BA 0 1 2 2 5
BAO 3 0 3 4 10BMP 2 1 0 3 6BG 2 0 1 0 3
ADULT BA BAO BMP BG Puntaje ( e )BA 0 0 2 1 3
BAO 4 0 1 1 6BMP 2 3 0 1 6BG 3 3 3 0 9
MUSHROOM BA BAO BMP BG Puntaje ( e )BA 0 1 1 1 3
BAO 3 0 3 3 9BMP 3 1 0 3 7BG 3 1 1 0 5
Tablas de Votación (error)Puntajes en función a la tasa de error promedio del clasificador
![Page 71: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/71.jpg)
7171 /39/39
Tablas de Votación (reducción)Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos
BANDS BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 2 1 4BMP 2 2 0 2 6BG 3 3 2 0 8
ADULT BA BAO BMP BG Puntaje ( % red )BA 0 4 2 3 9
BAO 0 0 2 0 2BMP 2 2 0 2 1BG 1 4 2 0 7
MUSHROOM BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 0 0 1BMP 1 4 0 1 6BG 3 4 3 0 10
![Page 72: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/72.jpg)
7272 /39/39
Conclusión Voting
Reducción del error• No se puede concluir quién es el peor (2BA y 1BG)• No se puede concluir quién es el mejor (2 BAO y 1BG)
Reducción de la dimensionalidad.• El peor es BAO para la data usada (3 BAO)• No se puede concluir quién es el mejor (2 BG, 1 BA)
![Page 73: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/73.jpg)
7373 /39/39
ANOVA: Error
24,4 22,4 23,4 26,275BA BAO BMP BG
24,4 BA 0,93680459 0,1475422 2,10833222,4 BAO 0,6632365 2,7093123,4 BMP 1,919958
26,275 BG
ERROR (%)
4,125 2,5 2,7 2,6BA BAO BMP BG
4,125 BA 0,88402 0,79302 1,292422,5 BAO 0,04872 0,064872,7 BMP 0,067022,6 BG
ERROR (%)
t(5%,6)=1.9432
23,6 22,4 23,4 26,275BA BAO BMP BG
23,6 BA 1,692829 0,277184 3,3248622,4 BAO 1,961948 6,2333323,4 BMP 4,51995
26,275 BG
ERROR (%)
BANDS
ADULT
MUSHROOM
![Page 74: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/74.jpg)
7474 /39/39
ANOVA: Reducción t(5%,6)=1.9432
BANDS
ADULT
MUSHROOM 48,8635 28,409 51,13625 60,2275BA BAO BMP BG
48,8635 BA 2,17217 0,26262 1,8678028,409 BAO 0,93658 3,0430151,1363 BMP 0,9300360,2275 BG
REDUCCIÓN (%)
44,9998 20,0000 23,3335 31,6668BA BAO BMP BG
44,9998 BA 3,38232 1,832351 1,7597220,0000 BAO 0,333352 2,7815323,3335 BMP 0,82231,6668 BG
REDUCCIÓN (%)
50,8065 49,1935 57,25825 61,29025BA BAO BMP BG
50,8065 BA 0,25132383 0,8193583 1,03313449,1935 BAO 1,1840049 1,294193
57,25825 BMP 0,38766261,29025 BG
REDUCCIÓN (%)
![Page 75: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/75.jpg)
7575 /39/39
Conclusión ANOVAReducción del error• El peor es el BG para la data usada• Los mejores son BAO y BA para la data usada, pero entre
los no se de puede concluir una diferencia.
Reducción de la dimensionalidad.• El peor es el BAO para la data usada• Los mejores son BA y BG para la data usada, pero entre
los no se de puede concluir una diferencia.
![Page 76: Selección de Características INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz error del clasificador número de características número](https://reader033.vdocuments.pub/reader033/viewer/2022061215/54a5c22c49795925738b4bff/html5/thumbnails/76.jpg)
7676 /39/39
PREGUNTAS