aprendizaje mecánico supervisado y...
TRANSCRIPT
Aprendizaje Mecánico Supervisado y Clasificación
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
aprendizaje mecánico supervisado
Técnica para generar funciones a partir de ejemplos de entrenamientoDependiendo del output
variables continuas (regresión)etiquetas de clases (clasificación)
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
pasos para aprendizaje mecánico supervisado
determinar el tipo de ejemplostipo de datos a utilizar
compilar un conjunto de ejemploscaracterización del uso real de la función
seleccionar características (features) que describan al objeto
curse of dimensionalityruido
determinar la estructura de la funciónredes neuronalesárboles de decisión
ajuste de parámetros
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificación de dígitos manuscritos
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
reconocimiento de expresiones faciales
fuente
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
spam
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificación de documentos
Asignar un documento a una o más categorías basándose en su contenido Clasificadores
redes neuronalessupport vector machineprogramación genéticaclasificadores bayesianos
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificación
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
DadoUn conjunto de instancias XUn concepto a aprender
c: X → {0,1}Ejemplos de entrenamiento
D = ⟨⟨x1,c(x1) ⟩…⟨xm,c(xm)⟩⟩Conjunto de posibles hipótesis H
Tareagenerar hipótesis o estimar c, i.e., encontrar h∈H tal que h(x)=c(x) ∀x ∈ X
aprendizaje de conceptos
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Cada ejemplo observado puede aumentar o disminuir la probabilidad estimada sobre la correctitud de la hipótesisConocimiento previo
1. Cada candidato a hipótesis 2. Distribución probabilística de cada hipótesis
sobre los datos observados
Las predicciones son probabilísticasLas predicciones de múltiples hipótesis pueden ser combinadas
aprendizaje bayesiano
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
¿Cuál es la hipótesis más probable dado el conjunto de entrenamiento?
Teorema de Bayes y aprendizaje mecánico de conceptosAlgoritmos consistentes de aprendizaje mecánico
¿Cuál es la clasificación más probable de una nueva instancia dado el conjunto de entrenamiento?
Clasificador de Bayes óptimo Algoritmo de GibbsAprendizaje Bayesiano Naïve Ejemplo: aprendiendo a clasificar texto
Redes de creencia bayesianas
aprendizaje bayesiano: panorama general
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Se arroja un dado para determinar de donde sacar una galleta
Si se obtiene un 1 o un 2, la galleta se toma de la caja A, de lo contrario se toma de la caja B
teorema de Bayes: ejemplo
A B
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB)(
)()|()|(DP
hPhDPDhP =
P(h|D) = probabilidad a posteriori de hP(h) = probabilidad a priori de hP(D|h) = probabilidad de observar D
dado que vale h P(D) = probabilidad de observar D
teorema de Bayes
donde
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
BuscamosP(Caja A|Chocolate)
SabemosP(Caja A)= 1/3P(Chocolate|Caja A) = 3/5P(Chocolate) = 4/9
4/15/4
3/1*5/3)|( ==ChocolateACajaP
teorema de bayes: ejempl
Si obtenemos una galleta de chocolate, ¿cuál es la probabilidad de que provenga de la caja A?
A B
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
teorema de Bayes: otro ejemplo
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
)|(argmax DhPhHh
MAP∈
≡
)()()|(argmax
DPhPhDPh
HhMAP
∈=
Probabilidad Máxima a Posteriori (MAP)
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
1. Para cada hipótesis h en H, calcularla probabilidad a posteriori
2. Devolver la hipótesis hMAP con mayor probabilidad a posteriori
)|(argmax DhPhHh
MAP∈
≡
)()()|()|(
DPhPhDPDhP =
búsqueda de hMAP por fuerza bruta
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBH
|H|1)( ∈∀= hhP
⎩⎨⎧ ∈∀=
=nosi0
si|
)(1)(
DhhDP iii dxd
especificación de probabilidades
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBH
|H|1)( ∈∀= hhP
⎩⎨⎧ ∈∀=
=nosi0
si|
)(1)(
DhhDP iii dxd
|H|
||)( ,DHVS
DP =
⎪⎩
⎪⎨
⎧∈∀=
=
nosi0
si||
1|
)()( ,
DhDhP
iiiDH
dxdVS
especificación de probabilidades
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB)|(argmax DhPh
HhMAP
∈≡
)()()|(argmax
DPhPhDPh
HhMAP
∈=
)()|(argmax hPhDPhHh
MAP∈
=
Probabilidad Máxima a Posteriori (MAP)
)|(argmax hDPhHh
ML∈
≡
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
toda hipótesis consistente con D es una hipótesis MAP
evolución de probabilidades a posteriori
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBUn algoritmo de aprendizaje mecánico es consistente si devuelve una hipótesis que no comente error alguno sobre los ejemplos de entrenamientoTodo algoritmo de aprendizaje consistente devuelve una hipótesis MAP si se cumple:
distribución uniforme sobre Hdatos de entrenamiento deterministas y libres de ruido
algoritmo consistente de aprendizaje mecánico
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Suposición:la clasificación más probable de una nueva instancia se obtiene combinando la predicción de todas las hipótesis, ajustadas por su probabilidad a posteriori
)|()|(argmax DhPhvPv iHh
ijVv
ij
∑∈∈
=
dónde V es un conjunto de clasificaciones posibles
clasificador de Bayes óptimo
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBConsideremos tres hipótesis:
h1,h2 y h3.
3.0)|( 3.0)|( 4.0)|( 321 === DhPDhPDhP
Una nueva instancia x es clasificada positiva mediante h1 y negativa mediante h2 y h3.
0)|( 0)|( 1)|( 321 =+=+=+ hPhPhP
1)|( 1)|( 0)|( 321 =−=−=− hPhPhP
clasificador de Bayes óptimo: ejemplo
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBDe acuerdo al clasificador de Bayes óptimo
)|()|(argmax DhPhvPv iHh
ijVv
ij
∑∈∈
=
4.0)|()|( =+∑∈
DhPhP iHh
ii
6.0)|()|( =−∑∈
DhPhP iHh
ii
donde
−=∑∈−+∈
)|()|(argmax},{
DhPhvP iHh
ijv
ij
por lo tanto
clasificador de Bayes óptimo: ejemplo (cntd)
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
1. Elegir una hipótesis h de manera aleatoria de acuerdo a la distribución a posteriori sobre H
2. Usar h para predecir la clasificación de la próxima instancia de x
algoritmo de Gibbs
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEBClasificar una nueva instancia descripta mediante la tupla de atributos con los siguientes valores
naaa K21,
),|(argmax 21 njVv
MAP aaavPvj
K∈
=
),()()|,(
argmax21
21
n
jjn
VvMAP aaaP
vPvaaaPv
j K
K
∈=
)()|,(argmax 21 jjnVv
MAP vPvaaaPvj
K∈
=
clasificador bayesiano naïve
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Propiedades• Las probabilidades pueden ser
fácilmente estimadas• Idéntica a la clasificación MAP si vale la
suposición de independencia condicional• No debe realizarse una búsqueda
explícita sobre el espacio de posibles hipótesis
∏∈
=i
jijVv
NB vaPvPvj
)|()(argmax
Si los valores de los atributos son condicionalmente independientes, entonces
clasificador bayesiano naïve
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB nn
vavvaP c==
| valedonde ejemplos|| oconteniend valedonde ejemplos|)|(
mnmpnc
++ p = estimación a priori de la
probabilidad a ser calculadam = tamaño de muestra equivalente
estimación de probabilidades
ProblemaCuando un atributo aparece muy pocas veces, es posible tener nc =0.
Solución: usar una m-estimación
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
aprendiendo a clasificar texto
X todos los posibles documentos de textoejemplos de entrenamiento provenientes de una función objetivo f f toma valores del subconjunto V de Xy los mapea a positivo o negativo(ejemplo: documentos interesantes/no interesantes)Objetivo: aprender a partir de estos ejemplo para predecir nuevos casos
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
aprendiendo a clasificar texto
Cuestiones de diseño:representación de un documento de texto como valores de atributoobtención de probabilidades para aplicar el clasificador bayesiano
naaa K21,
∏∈
=i
jijVv
NB vaPvPvj
)|()(argmax
∏i
ji vaP )|(
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
aprendiendo a clasificar texto
Representación del texto de un documento arbitrario en término de sus valores de atributo
atributos: posiciones en el texto valores: palabras.
a1=“representación”a2=“del”a3=“texto”....
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
)|zzz""()|aaa""()(argmax
)|()(argmax
1v
v
j
j
jnjjV
ijij
VNB
vaPvaPvP
vaPvPv
===
=
∈
∈∏
L
aprendiendo a clasificar texto
Clasificación bayesiana de texto
Problemas:suposición de independenciaposición de la palabra en el texto
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
• Extraer Vocabulario a partir de todos los documentos• Calcular P(vj) y P(wk | vj)
– Para cada vj en V• docsj ← documentos con clase vj•
• Textj ← documento individual con docsj• n ← núm. total posiciones de palabras en Textj• por cada wk en Vocabulario
– nk ← número de apariciones de wk enTextj
–||
1)|(oVocabularin
nvwP kjk +
+←
||||
)(Ejemplos
docsvP j
j ←
aprendizaje de texto
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB• posiciones ← todas las posiciones de palabras en el
documento actual que se encuentran en Vocabulario
• Devolver vNB, donde
∏∈∈
=posicionesi
jijV
NB vaPvPv )|()(argmaxjv
clasificación de texto
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Nearest Neighbor classifiers
Intuición:documentos similares deberían asignarse a la misma clase.
t1
t2
t3
1d
2d
||||||||)cos(),(
21
2121
dd
dddd⋅
⋅== ασ
α
modelo de espacio vectorialsimilaridad por coseno
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Nearest Neighbor classifiers
Entrenamientorepresentar cada documento como un vector recordar su clase
ClasificadorRecuperar documentos con un ángulo especifico
la clase con mayor número de documentos gana
Recuperar los “k” documentos más similares al documento nuevo
la clase con mayor número de documentos gana
Alternativa: pesar los documentos para decidir
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificador basado en ángulo
α
?
{ })cos(),(| ασ ≥∈ ikjk ddclased
=),(: αα ij dClaseA
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificador basado en k vecinos más próximos
5
3
1
7
2
4
6
9
8
?
{ }iljl dapróximosmásvecinosklosentredclased |∈
=),(: kdClaseA ijk
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
clasificador basado en pesos
?
||||
),()(:
j
clasedik
ijWV clase
ddpClaseA jk
∑∈
=
σ
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
selección de características relevantes
Recordando TFIDF
j
ij
freqfreq
fmax
=
ii n
Nidf log=
iijij idffw ×=
freqij es la frecuencia del término ki en el documento djf es la frecuencia normalizada del término ki en el documento dj (el máximo se obtiene sobre los términos del documento), N es el total de documentos de una colección, ni son los documentos en los que aparece el término ki. idf es la frecuencia de documento inversa
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
selección de características relevantes
Problemas con TF-IDFrealizado para el corpus completono se consideran correlaciones y frecuencias a través de clases los términos que aparecen con mayor frecuencia relativa en ciertas clases deberían tener mayor importancia poca frecuencia a través del corpus completo no es tan importante.
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
selección de características relevantes
selección perfectadirigida a la metaelegir todos los posibles subconjuntos de característicaspor cada subconjunto entrenar y evaluar al clasificadorquedarse con el mejor subconjuntocomputacionalmente intratable!
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
selección de características: algoritmo Greedy
1. Por cada término computar una medida de discriminación entre clases.
2. Ordenar términos en orden decreciente basados en tal medida.
3. Conservar los mejores términos (características) para ser usados por el clasificador.
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
medidas de discriminación
Depende demodelo de documentosvelocidad para entrenamientofacilidad de actualización
EjemplosTestInformación mutuaÍndice de discriminación de Fisher
(ver Chakrabarti 5.5)
2χ
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
validación
Heurística de búsqueda simple:agregar características (una a la vez) hasta que ya no se observen mejoras
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
Evaluación de clasificadores
Reuters10700 documentos etiquetados 10% con etiquetas múltiples
OHSUMED348566 abstracts sobre revistas de medicina
20NG18800 mensajes de USENET etiquetados20 clases a nivel de hoja, 5 a nivel de raíz
WebKB8300 en 7 categorías.
Industry10000 páginas de 105 sectores industriales
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
evaluación
Posibles casosCada documento está asociado con exactamente una clase.Cada documento está asociado con un subconjunto de clases.
Matriz de confusión (M)Apta para más de dos clasesM[i; j] : número de documentos de prueba pertenecientes a la clase i que fueron asignados a la clase jClasificador perfecto:
M[i;j] > 0 sssi i=j
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
evaluación
Por cada documento, crear un conjunto de clases positivas y negativas (ejemplo “deportes” y “no deportes”)Precisión y cobertura
matriz de contingencia para cada par (d,c)
|} c devuelve noor clasificady C c {| [1,1]M|} c devuelveor clasificady C c {| [1,0]M
|} c devuelve noor clasificady C {c| [0,1]M|} c devuelveor clasificady C c {| [0,0]M
dcd,
dcd,
dcd,
dcd,
∉=
∉=
∈=
∈=
)( dC )( dC
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
evaluación basadas en la matriz de contingencia
micro promediada
macro promediada
precisión y cobertura (micro promediado)
precisión y cobertura (macro promediado)
∑=cd
cdMM,
,μ
]0,1[]0,0[]0,0[
)(μμ
μμ MM
MprecisionM
+=
]1,0[]0,0[]0,0[
)(μμ
μμ MM
MrecallM
+=
∑∑=c d
dcc MC
M ,||1
]0,1[]0,0[]0,0[)(cc
cc MM
MprecisionM+
=]1,0[]0,0[
]0,0[)(cc
cc MM
MrecallM+
=
aprendizajemecánico y
clasificación
MINERIAMINERIADE LADE LA
WEBWEB
evaluación del clasificador
Trade-off precisión coberturaGraficar precisión vs. recall: cuanto mejor el clasificador, más alta la curvamedia armónica : descartar clasificadores que sacrifiquen una medida para favorecer otra
precisión coberturaprecisióncobertura2 F1 +
××=