probabilidad de máxima entropía wsd usando modelos...
TRANSCRIPT
WSD usando Modelos de probabilidad de Máxima Entropía
Armando Suárez Cueto
Manuel Palomar Sanz (Dtor.)
Grupo de Procesamiento del Lenguaje y Sistemas de Información
Dpto. de Lenguajes y Sistemas Informáticos
Universidad de Alicante
febrero de 2002 2
Índice
� Introducción
� Modelos de probabilidad de Máxima Entropía
� wsdME: implementación� esquema del sistema
� atributos (features)
� Experimentos y resultados� DSO
� SENSEVAL-2
� Conclusiones
� Trabajos futuros
febrero de 2002 3
Introducción
� Asignación del significado correcto a las palabras (Word Sense Disambiguation)
� Significados ←←←← Diccionarios (¿WordNet?)
� Métodos de asignación
• basados en el conocimiento
• basados en aprendizaje a partir de corpus
• supervisado (corpus anotado)
• no supervisado
febrero de 2002 4
Modelos de probabilidad de Máxima Entropía
� Modelos de probabilidad condicional de ME� Problema: clasificación de contextos
� Maximizar la entropía: máxima ignorancia sobre los datos
• caracterización contextos: fi(x, c)• Estimación de parámetros αααα i : Generalized Iterative Scaling (GIS)
∑∈∈
∈
=
=
CcX,x)|(log)|()(' -)(
)(maxarg*
xcpxcpxppH
pHpPp
∏=
=K
i
cxfi
i
xZxcp
1
),(
)(1)|( α
febrero de 2002 5
Modelos de probabilidad de Máxima Entropía
� Clasificación de contextos� Aprendizaje a partir de corpus anotado
• Ejemplos: contextos ya clasificados
• Caracterización de los contextos (features)
=
=casootroen
ccyxcpsicxf
0')(1
),(
“El BBVA muestra interés(1) por la compra de acciones de Airtel.”1"")1,(1),( ==−= cymuestraxpalabrasicxfh
2)1,(1),( ==+= cyADJxpossicxfi
febrero de 2002 6
Modelos de probabilidad de Máxima Entropía
� Aplicaciones ME en PLN� POS-tagging
� Sentence Boundary detection
� ...(Ratnaparki)
� WSD
• clasificar (desambiguar) nombres, verbos y adjetivos (y adverbios)
• Clases:
• sentidos WordNet
• dominios
• Contextos: ventanas, oraciones, párrafos, textos...
• palabras, lemas, información sintáctica, tópicos, ...
febrero de 2002 7
wsdME: implementación
� Esquema del sistema (C++, datos formato texto)
MÓDULOS DE FORMATO
MÓDULO DE APRENDIZAJE
MÓDULO DE CLASIFICACIÓN
MÓDULO DE EVALUACIÓN
�SEMCOR�DSO�SENSEVAL-2�texto plano
�TREE-TAGGER�MINIPAR�CONEXOR
�GISMÓDULO DE CARACTERIZACIÓN
DE CONTEXTOS
atributos?
febrero de 2002 8
wsdME: implementación
� Módulos de formato
analizadores
traductores
preparadores
DSO SENSEVAL-2
SEMCOR
CorpusformatowsdME
datos
texto plano
febrero de 2002 9
wsdME: implementación
� Módulos de aprendizaje, clasificación y evaluación
caracterización de contextos
aprendizaje (GIS) clasificación
corpusanotado
clasificadores
texto ambiguo
atributos
palabras clasificadas
evaluación
corpusanotado resultados
febrero de 2002 10
wsdME: implementación
� atributos (features)
• |C|×|A|×|L| funciones
� Relajación
• |C|×|L| funciones
'),(1),(',
),,'( ccyalxpropsicxfCcAa
alc ===∈∀∈
},,{ CcXxcxCorpus ∈∈><=
C = sentidos posibles de la palabral = tipo de atributoA = valores posiblesa = valor predefinido (manual o automáticamente)prop(x, l) = atributo l en el contexto x
'),(1),(' ),'(),'( ccyWlxpropsicxfCc lclc =∈=∈∀
)},(,|{),( lxpropwcxwWCc lc =><∃=∈
febrero de 2002 11
wsdME: implementación
� atributos (features)
� Funciones no relajadas• 0: palabra ambigua
• S: palabras en posiciones w±1, w±2, w±3
• Q: categoría gramatical de palabras in posiciones q±1, q±2, q±3
• Km: lemas de nombres en cualquier posición que aparecen al menos el m% de las veces con un sentido concreto
• R: rol gramatical de la palabra ambigua
� Funciones relajadas• L: lemas de palabras en posiciones l±1, l±2, l±3
• W: palabras en posiciones w±1, w±2, w±3
• B: lemas de colocaciones en posiciones (l-2,l-1), (l-1,l+1), (l+1,l+2)
• C: colocaciones en posiciones (w-2,w-1), (w-1,w+1), (w+1,w+2)
• P: categoría gramatical de palabras in posiciones p±1, p±2, p±3
• D: lema de la palabra de la que depende la ambigua
• M: palabra compuesta a la que pertenece la ambigua
febrero de 2002 13
x3:“El Gobierno argumentó que el legítimo interés(2) de la Nación no es incompatible con la solidaridad con los países más pobres.”
wsdME: implementación
� atributosx1:“El BBVA muestra interés(1) por la compra de acciones de Airtel.”
x2:“El enorme interés(1) despertado por las acciones de la compañía...”
� l = w-1
• 3 x 2 = 6 funciones
• relajadas = 2 funciones
}"","{")1,1( enormemostrarW =−
}"{")1,2( legítimoW =−
febrero de 2002 14
Experimentos y resultados
� DSO (inglés)• nombres y verbos
� SENSEVAL-2 (Spanish lexical sample)• nombres, verbos y adjetivos
� Selección de features� El mejor resultado para cada palabra
� Incorporación progresiva de atributos
� Impacto de la relajación
febrero de 2002 15
Experimentos y resultados
� DSO (mejores resultados)
febrero de 2002 16
Experimentos y resultados
� DSO (no SQ)
febrero de 2002 17
Experimentos y resultados
� DSO
en mejores sin SQ0 L W S B C P Q K R D M 0 L W S B C P Q K R D M func accur
age,N 0CSQRDMK5 X X X X X X X X RDMCK3 X X X X X -1414 -4,0art,N 0CSQRDMK5 X X X X X X X X 0WC X X X -1524 -0,8car,N S X 0LB X X X -3007 -0,5
child,N SQ X X 0LWBC X X X X X -2684 -2,3church,N 0RDMCK3 X X X X X X 0RDMCK3 X X X X X X 0 0,0
cost,N 0W X X 0W X X 0 0,0head,N 0LWBCPK3RDM X X X X X X X X X X 0LWBCPK3RDM X X X X X X X X X X 0 0,0
interest,N 0SQRDM X X X X X X 0WCRDMK3 X X X X X X X -3657 -1,2line,N 0RDMCK5 X X X X X X 0RDMCK5 X X X X X X 0 0,0
work,N 0SQ X X X 0LWBCPK3RDM X X X X X X X X X X -3428 -0,4fall,V WCRDMK3 X X X X X X WCRDMK3 X X X X X X 0 0,0
know,V 0RDMCK10 X X X X X X 0RDMCK10 X X X X X X 0 0,0set,V BSQRDMK5 X X X X X X X 0WCRDMK3 X X X X X X X -3309 -4,2
speak,V 0SQ X X X 0WCRDMK3 X X X X X X X -1108 -1,4take,V LWBCSK10RDM X X X X X X X X X X WCRDMK5 X X X X X X -2385 -0,7
febrero de 2002 18
Experimentos y resultados
� DSO: impacto relajaciónfunciones accur boost mfs nb
MEJORES 2029 69,9 0,85 15,56 2,98NO SQ 528 68,9 -0,19 14,52 1,94
W S - P Q -age,N 63,6 68,2 -4,63 62,3 63,3 -1,04art,N 50,4 56,2 -5,85 49,8 51,6 -1,78car,N 96,6 97,1 -0,44 96,3 96,3 0,00child,N 86,5 90,2 -3,70 81,5 81,8 -0,28church,N 59,5 64,1 -4,60 61,8 62,0 -0,23cost,N 87,2 87,4 -0,27 89,6 89,6 0,00fall,V 81,4 84,6 -3,26 78,4 78,4 0,01head,N 62,1 78,1 -16,04 61,2 64,0 -2,77interest,N 60,0 65,2 -5,13 45,9 53,7 -7,85know,V 37,8 44,3 -6,52 36,1 37,0 -0,86line,N 33,9 35,0 -1,08 25,1 25,0 0,10set,V 41,6 51,9 -10,39 39,5 43,7 -4,11speak,V 67,7 72,9 -5,17 69,7 68,7 1,02take,V 36,9 36,8 0,10 19,0 20,1 -1,06work,N 41,3 47,8 -6,52 35,2 37,5 -2,21
-4,90 -1,40
febrero de 2002 19
Experimentos y resultados
� DSO: incorporación de atributos
-8,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
8,00
10,00
LB
LWB
C
LWB
CP
0LB
0LW
BC
0LW
BC
P
0LW
BC
PK3R
DM SQ 0SQ
RD
M
0RD
M
todonombresverbos
febrero de 2002 20
Experimentos y resultados
� SENSEVAL-2� Spanish lexical sample (evaluación posterior)
40,0
45,0
50,0
55,0
60,0
65,0
70,0
75,0
80,0
85,0
LB
LWB
C
0LB
LWB
CP
LWB
CQ SQ
0LW
BC
Q
0LW
BC
0LW
BC
P
0SQ
0LB
K10
0LB
K5
LWS
BC
Q
0LW
SB
CQ
nounsverbsadjectivesALL
febrero de 2002 21
Experimentos y resultados
� SENSEVAL-2� buscando la mejor selección de atributos
resultados
uso de atributos(¡no prueba exhaustiva!)
nouns 17 69,1verbs 13 59,5
adjectives 9 81,1TOTAL 69,5
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
90,0
100,0
L B 0 W C Q S K P
ALLnounsverbsadjectives
febrero de 2002 22
Experimentos y resultados
� SENSEVAL-2 (Spanish)
resultados oficiales evaluación posteriorSystem PrecisionJHU (R) 71,2JHU 68,1Stanford - CS224N 66,9UMD - SST 62,7Duluth 8 61,5Duluth 10 60,7Duluth 7 59,5Duluth Z 59,5Duluth 6 58,1Duluth X 57,8Duluth 9 56,2Duluth Y 52,6Alicante 51,4
ME0LWSBCQ
nouns 0LBK5 63,8 63,0verbs 0LWSBCQ 55,4 55,4
adjectives LWSBCQ 78,1 78,0ALL 65,3 65,0
febrero de 2002 23
Conclusiones
� ME: basado en corpus, aprendizaje supervisado
� A la vista del corpus, no todas las palabras se desambiguan con los mismos atributos
� Se puede reducir el espacio de características� no degrada excesivamente los resultados
� incorporación de más tipos de características
� Resultados comparables a otros métodos
� wsdME: falta mucho preproceso
febrero de 2002 24
Trabajos futuros
� Dominios (Magnini)� nuevos atributos
� clases = dominios (no synsets)
� Ampliación� DSO completo
� Semcor
� Nuevo corpus GPLSI.LEXESP
� Pre/post proceso� incorporación de conocimiento
� Sistemas de cooperación entre diferentes métodos