curso de minería de datos luis pelayo guerra velasco josé maría peña sánchez víctor robles...
TRANSCRIPT
![Page 1: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/1.jpg)
Curso de Minería de datos
Luis Pelayo Guerra Velasco
José María Peña Sánchez
Víctor Robles Forcada
Facultad de Informática, UPM
Mayo de 2008
![Page 2: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/2.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 3: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/3.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 4: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/4.jpg)
Aproximación
Una visión simplificada de la minería de datos
Los “modelos” son el producto de la minería de datos...
...y dan soporte a las estrategias de decisión que se tomen
ModelosMinería de datosDatos
![Page 5: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/5.jpg)
Datos y Modelos => Conocimiento
Los datos se obtienen de:
Bases de datos (relacionales,
espaciales, temporales,
documentales, multimedia,
etc)
World Wide Web
Modelos descriptivos: identifican
patrones que explican o resumen los datos
Reglas de asociación: expresan patrones de
comportamiento en los datos
Clustering: agrupación de casos homogéneos
Modelos predictivos: estiman valores de
variables de interés (a predecir) a partir de
valores de otras variables (predictoras)
Regresión: Variable a predecir continua
Clasificación supervisada: Variable a
predecir discreta
![Page 6: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/6.jpg)
Definiciones
Data Mining (Minería de datos)
Proceso de extraer conocimiento util y comprensible, previamente
desconocido, desde grandes cantidades de datos almacenados en
distintos formatos (Witten and Frank, 2000)
Knowledge Discovery in Databases - KDD (Descubrimiento
de Conocimiento en Bases de Datos)
Proceso no trivial de identificar patrones válidos, novedosos,
potencialmente útiles y, en última instancia, comprensibles, a partir de
los datos (Fayyad y col. 1996)
![Page 7: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/7.jpg)
Estadística vs Minería de datos
Es tadis tica Mineria de datos
Const rucción d em od elos
Ceñ id o a p rem is as y t eorem asMayor liber tad en la cons trucción ,
in terp retab le
Score Veros im ilitud d e los d a tos d ad o el m od elo Más d irecto, PBC p or ejem p lo
Búsqued a Tes t d e la raz ón d e la veros im ilitud Metaheur ís t icos
Transp arencia Más com p licad os d e in terp retar Más cla ros y s encillos
Valid ación No Sí
Selección d evar iab les
Filter Wrap p er
![Page 8: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/8.jpg)
OLAP vs Minería de datos
OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of
Shared Multidimensional Information)
OLAP Mine ría de datos
¿Cu ál es la p rop orción m ed ia d e accid en t es en t refu m ad ores y n o fu m ad ores?
¿Cu ál es la m ejor p red icción p ara accid en t es?
¿Cu ál es la fact u ra t elefón ica m ed ia d e m is clien t es yd e los q u e h an d ejad o la com p añ ia?
¿Dejara X la com p añ ia? ¿Qu é fact ores afect an a losab an d on ad os?
¿Cu án t o es la com p ra m ed ia d iar ia d e t ar jet asrob ad as y legít im as?
¿Cu áles son los p at ron es d e com p ra asociad os con elfrau d e d e t ar jet as?
![Page 9: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/9.jpg)
Aplicaciones
Financieras
Comercio
Seguros
Educación
Medicina
Bioinformática
Otras áreas
![Page 10: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/10.jpg)
Ejemplo (I)
Agente comercial: ¿Debo conceder una hipoteca a un cliente?
Datos:
Modelo generado:
Minería de datos
If Defaulter-accounts > 0 then Returns-credit = no
If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
![Page 11: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/11.jpg)
Ejemplo (II)
Supermercado: ¿Cuándo los clientes compran huevos, también compran
aceite?
Datos:
Modelo generado:
Minería de datos
Eggs -> Oil: Confianza = 75%, Soporte = 37%
![Page 12: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/12.jpg)
Ejemplo (III)Gestión de personal de una empresa: ¿Qué clases de empleados hay
contratados?
Datos:
Modelo generado:
Minería de datos
Grupo 1: Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos
Grupo 2: Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada
Grupo 3: Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones
![Page 13: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/13.jpg)
Ejemplo (IV)
Tienda de TV: ¿Cuántas televisiones planas se venderán el
próximo mes?
Datos:
Modelo generado:
Minería de datos
Modelo lineal: número de televisiones para el próximo mes
V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder – 0.05
![Page 14: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/14.jpg)
CRISP-DM
![Page 15: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/15.jpg)
KDD
La minería de datos se encuadra dentro de un proceso
mucho mayor conocido como KDD (Knowledge Discovery
from Databases)
Fases del proceso iterativo e interactivo
1. Integración y recopilación de datos
2. Selección, limpieza y transformación
3. Minería de datos
4. Evaluación e interpretación
5. Difusión y uso
![Page 16: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/16.jpg)
KDD – Knowledge Discovery in Databases
![Page 17: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/17.jpg)
Fase 1
Integración y recopilación de datos
Decisiones estratégicas basadas en el análisis, la planificación y la predicción: datos en varios departamentos
Cada fuente de datos distintos formatos de registro, diferentes grados de agregación, diferentes claves primarias, ....
Integración de múltiples bases de datos: almacenes de datos (data warehousing)
Almacén de datos aconsejable cuando el volumen de información es grande. No estrictamente necesario (archivos de texto, hojas de cálculo, ...)
![Page 18: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/18.jpg)
Fase 2
Selección, limpieza y transformación Calidad del conocimiento descubierto depende (además del algoritmo de
minería) de la calidad de los datos analizados Presencia de datos que no se ajustan al comportamiento general de los datos
(outliers) Presencia de datos perdidos (missing values) Selección de variables relevantes (feature subset selection) Selección de casos aleatoria en bases de datos de tamaño ingente Construcción de nuevas variables que faciliten el proceso de minería de datos Discretización de variables continuas
![Page 19: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/19.jpg)
Fase 3
Minería de datos
Modelos descriptivos Reglas de asociación
Clustering
Modelos predictivos
Regresión: regresión lineal, regresión logística Clasificación supervisada: clasificadores Bayesianos, redes
neuronales, árboles de clasificación, inducción de reglas, K-
NN, combinación de clasificadores
![Page 20: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/20.jpg)
Fase 4
Evaluación e interpretación Técnicas de evaluación: validación simple (training + test),
validación cruzada con k-fold, bootstrap Reglas de asociación: cobertura (soporte), confianza Clustering: variabilidad intra y entre Regresión: error cuadrático medio Clasificación supervisada: porcentaje de bien clasificados, matriz
de confusión, análisis ROC Modelos precisos, comprensibles (inteligibles) e interesantes
(útiles y novedosos)
![Page 21: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/21.jpg)
Fase 5
Difusión y uso
Difusión: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la organización
Medir la evolución del modelo a lo largo del tiempo (patrones tipo pueden cambiar)
Modelo debe cada cierto tiempo de ser: Reevaluado Reentrenado Reconstruido
![Page 22: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/22.jpg)
Herramientas
Weka, Clementine, etc.
Knime. KoNstanz Information MinEr
Flujo de datos utilizando nodos
Conexión con otras aplicaciones
Ampliación de nodos
![Page 23: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/23.jpg)
Knime
![Page 24: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/24.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 25: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/25.jpg)
Datos
La parte más importante de la minería de datos, son
precisamente, los datos
Además de su obtención, uno de los pasos más
importantes es el preprocesado
Diversas técnicas según la necesidad
![Page 26: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/26.jpg)
Obtención de datos en Knime
![Page 27: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/27.jpg)
Representación de datos en Knime
![Page 28: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/28.jpg)
Missing values
Es posible que los métodos a utilizar no traten bien
los campos con valores faltantes (missing values)
Hay que detectarlos y tratarlos
Ignorar, eliminar columna, filtrar fila, reemplazar el
valor, etc.
![Page 29: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/29.jpg)
Missing values en Knime
![Page 30: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/30.jpg)
Discretización
Consiste en la conversión de un valor numérico en
un valor nominal ordenado que representa un
intervalo
En ciertas técnicas de clasificación es necesario que
todos los datos sean discretos
![Page 31: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/31.jpg)
Discretización en Knime
![Page 32: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/32.jpg)
Numerización
Es el proceso inverso a la discretización
Pasar valores nominales a numéricos
Es menos común
Hay dos tipos:
Numerización 1 a n
Numerización 1 a 1
![Page 33: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/33.jpg)
Numerización en Knime
![Page 34: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/34.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 35: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/35.jpg)
Tareas descriptivas
Agrupamiento (clustering)
Correlaciones y factorizaciones
Reglas de asociación
Dependencias funcionales
Detección de valores e instancias anómalas
![Page 36: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/36.jpg)
Tabla de métodos
Nom breDESCRIPTIVO
Agru p am ien to Reglas de as ociación Correlaciones / Facto riz aciones
Re des neu ronales X
Árbo les de decis ión ID3 , C4 .5 , C5 .0
Árbo les de decis ión CART
Otros árbo les de decis ión X X
Re des de Kohonen X
Regres ión lineal y logarítm ica X
Regres ión logís t ica X
Km eans X
Aprio ri X
Naive Bayes
Vecim os m ás p róxim os X
Anális is facto rial y de com p .p r incip ales
X
Twos tep , Cobweb X
Algoritm os genét icos y evo lu t ivos X X X
Máqu in as de vecto res s opo rte X
CN2 ru les (cobertu ra) X
Anális is d is cr im in a n te m u lt ivar ia n te
![Page 37: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/37.jpg)
Clasificación no supervisada
Datos: parte de un conjunto de datos u objetos cada
uno caracterizado por varias variables
Se trata de obtener grupos de objetos
![Page 38: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/38.jpg)
Clustering
Dados unos datos sin etiquetar, el objetivo es
encontrar grupos naturales de instancias
a) Particional b) Jerárquico
![Page 39: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/39.jpg)
Tipos de clustering
Clustering particional
Partición de los objetos en grupos o clusters. Todos los objetos
pertenecen a alguno de los k clusters, los cuales son disjuntos.
Problema => elección de k
Clustering ascendente jerárquico
Crear un dendograma, es decir, crear un conjunto de agrupaciones
anidadas hasta construir un árbol jerárquico
![Page 40: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/40.jpg)
K-medias
Método más utilizado de clustering particional
La idea es situar los prototipos o centros en el espacio, de forma
que los datos pertenecientes al mismo prototipo tengan
características similares
Los datos se asignan a cada centro según la menor distancia,
normalmente usando la distancia euclídea
Una vez introducidos todos los datos, se desplazan los prototipos
hasta el centro de masas de su nuevo conjunto, esto se repite
hasta que no se desplazan más.
![Page 41: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/41.jpg)
K-medias en Knime
![Page 42: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/42.jpg)
Jerárquico
Dependiendo de la manera de construir el árbol:
Aglomerativos: hojas -> raíz
Divisivos: raíz -> hojas
Dependiendo de cómo se calcule la distancia de enlace entre
grupos:
Enlace simple
Enlace completo
Enlace en la media
![Page 43: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/43.jpg)
Clustering jerárquico en Knime
![Page 44: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/44.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 45: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/45.jpg)
Tareas predictivas
Clasificación
Clasificación suave
Estimación de probabilidad de clasificación
Categorización
Preferencia o priorización
Regresión
![Page 46: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/46.jpg)
Tabla de métodos
Nom breDESCRIPTIVO
Clas ificación Regres ión
Redes neu ronales X X
Árboles de decis ión ID3 , C4 .5 , C5 .0 X
Árboles de decis ión CART X X
Otros árboles de decis ión X X
Redes de Kohonen
Regres ión lineal y logar ítm ica X
Regres ión logís t ica X
Km eans
Apr ior i
Naive Bayes X
Vecim os m ás p róxim os X X
Anális is factor ial y de com p . p r incipales
Twostep , Cobweb
Algor itm os genét icos y evolu t ivos X X
Máqu inas de vector es sopor te X X
CN2 ru les (cober tu r a) X
Anális is d iscr im inan te m u lt ivar ian te X
![Page 47: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/47.jpg)
Clasificación supervisada
Datos: N objetos con n+1 variables (n predictoras + clase)
Inducir automaticamente un modelo clasificatorio
![Page 48: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/48.jpg)
Paradigmas de clasificación supervisada
Arboles de clasificacion (Quinlan, 1986; Breiman y col. 1984)
Clasificadores k–NN (Covert y Hart, 1967; Dasarathy, 1991)
Regresion logística (Hosmer y Lemeshow, 1989)
Métodos Bayesianos (Mitchell, 1997)
Sistemas clasificadores (Holland, 1975)
Redes neuronales (McCulloch y Pitts, 1943)
Inducción de reglas (Clark y Nibblet, 1989; Cohen, 1995; Holte, 1993)
Máquinas de soporte vectorial (Cristianini y Shawe–Taylor, 2000)
Análisis discriminante (Fisher, 1936)
![Page 49: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/49.jpg)
Árboles de clasificación
Método más facil de utilizar y de entender
Conjunto de condiciones organizadas en una
estructura jerárquica
Las opciones posibles a partir de una condición son
excluyentes
ID3, C4.5, C5.0, CART, etc.
![Page 50: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/50.jpg)
Métodos bayesianos
Basados en la teoría de la probabilidad (teorema de
Bayes)
Naïve Bayes es el clasificador principal
Uso de redes bayesianas
Se usan en tareas descriptivas y predictivas
![Page 51: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/51.jpg)
Clasificadores k-NN
Se asigna la clase mayoritaria entre los k vecinos
más proximos
Se utiliza una función distancia
Problema: Establecer un valor de k adecuado
Cuando se asigna la clase del ejemplo más próximo
solamente, es 1-NN
![Page 52: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/52.jpg)
Clasificación en Knime
![Page 53: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/53.jpg)
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
![Page 54: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/54.jpg)
Tipos de validación
Validación interna
Es en la que se aprende, clasifica y valida con los datos
de un mismo conjunto
Validación externa
Se aprende un modelo con un conjunto de datos, y se
valida con unos datos que no han sido empleados en el
aprendizaje
![Page 55: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/55.jpg)
Hold-out
Separar los datos disponibles en dos subconjuntos de datos:
training set (para aprender un modelo) y test set (el resto de los
datos)
Se calcula la accuracy sobre el test set para estimar el error del
modelo obtenido con el training set
![Page 56: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/56.jpg)
K-fold-Cross-Validation
Se particiona aleatoriamente en k subconjuntos el conjunto de datos
disponible.
Para cada uno de los subconjuntos obtenidos, se utilizará de test set para
evaluar el modelo obtenido con el resto de subconjuntos
Se realiza la media de las evaluaciones realizadas para obtener el
resultado final
![Page 57: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/57.jpg)
Leave one out
Se deja una instancia de los datos como test set y se aprende
con el resto del conjunto
Este proceso se repite para cada instancia
Se obtiene el resultado final realizando la media de todas las
ejecuciones
![Page 58: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/58.jpg)
0.632 Bootstrap Se divide en dos partes
Se aprende y se valida con el mismo conjunto de datos
N iteraciones de:
Se seleccionan con reemplazo el mismo número de instancias que se tengan del conjunto de
datos inicial
Se utiliza el conjunto de datos creado como training set y se evalua con el conjunto formado
por las instancias que no han sido seleccionadas en el paso anterior
Se obtiene la media de las N iteraciones
Resultado final: e = 0.632xEresubstitution
+ 0.368xEiteraciones
![Page 59: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/59.jpg)
Validación en Knime
![Page 60: Curso de Minería de datos Luis Pelayo Guerra Velasco José María Peña Sánchez Víctor Robles Forcada Facultad de Informática, UPM Mayo de 2008](https://reader033.vdocuments.pub/reader033/viewer/2022061300/54d47056497959482c8b4a3e/html5/thumbnails/60.jpg)
Bootstrap en Knime