aprendizaje no supervisado: clustering norberto díaz díaz bioinformatics group of seville (bigs)...
Post on 23-Jan-2016
220 Views
Preview:
TRANSCRIPT
Aprendizaje no Supervisado: Clustering
Norberto Díaz DíazBioinformatics Group of Seville (BIGS)
Dpto. de Lenguajes y Sistemas InformaticosUniversidad de Sevilla
Tabla de Contenidos
Introducción
Clustering
Jerárquico: CobWeb, FarthestFirst
Basado en Particiones: K-means
Algoritmo EM
Aprendizaje Supervisado (Clasificación)El conjunto de datos contiene un atributo que “guía” el aprendizaje (clase).
Clasificadores: K-NN (IBk), C4.5 (J48)…
Introducción
Aprendizaje No Supervisado (Clustering-Biclustering)No existe atributo clase.
Aprendizaje Semi-Supervisado Algunos ejemplos tienen clase y otros no.
CLUSTERING
Objetivo: crear conjunto de elementos los cuales tengan alguna característica común.
El clustering solo actua bajo una dimensión.
Crear conjuntos de genes según su expresión bajo condiciones experimentales.
Crear conjuntos de condiciones según la expresión de los genes de un genoma.
filas
columnas
Clustering Jerárquico - Algoritmo
Se basa en descomponer jerárquicamente el conjunto de datos de entrada
clustering
clustering
clustering
clustering
clustering
Clustering Jerárquico - Ejemplo
Partición recursiva de los datos
Clustering Jerárquico – CobWeb (en Weka)
Clustering Jerárquico – FarthestFirst (en Weka)
Clustering Basado en particiones: K-Medias
Consiste en minimizar las distancias de los elementos de la partición y
el centroide de ésta.
K-Medias: Ejemplo 1
K-Medias: Ejemplo online
http://www.lsi.us.es/~ndiaz/proyectosFinCarrera.html
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html
Kmedias – SimpleKMeans (en Weka)
Clustering EM (Expectation Maximization)
Se basa en el modelo estadístico de Gauss:
Estima parámetros por máxima verosimilitud
Imputación de datos inexistentes
El proceso es similar a K-meansLos parámetros son recalculados hasta que los valores convergen
Suele utilizarse para estimar la distribución de los datos a prioriEsto puede verse en el algoritmo de clustering CLICK
Clustering EM - Weka
Ejercicio – Supervisado vs NoSupervisado
¿Quién consigue el mejor resultado para la base de datos “zoo.arf”, usando supervisado y no-Supervisado?
FIN
top related