parser vii simposio

60

Upload: john-alexander-vargas

Post on 13-Jul-2015

124 views

Category:

Documents


3 download

TRANSCRIPT

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Analizador sintáctico probabilístico con clasi�cación

de argumentos de verbo para el idioma español.

John Alexander Vargas

Escuela de Ingeniería de Sistemas y Computación

Facultad de Ingeniería

Universidad del Valle

VII Simposio de Investigación, 2014

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Agenda

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Análisis sintáctico

Tarea principal

Describir cómo las palabras de la oración se relacionan y cuál es lafunción que cada palabra realiza en esa oración, es decir, construirla estructura de la oración de un lenguaje.

Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.

Aplicaciones como la extracción de información

Traducción de textos

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Análisis sintáctico

Tarea principal

Describir cómo las palabras de la oración se relacionan y cuál es lafunción que cada palabra realiza en esa oración, es decir, construirla estructura de la oración de un lenguaje.

Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.

Aplicaciones como la extracción de información

Traducción de textos

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Ejemplo

Ejemplo de una gramática libre de contexto y de un árbol sintáctico

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Gramáticas probabilísticas libres de contexto

La probabilidad de un árbol

La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn

es p(t) = ∏ni=1 q(αi → βi )

where q(α → β ) es la probabilidad de la regla α → β

S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7

La probabilidad para el árbol seria

p(t) = 0,84

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Gramáticas probabilísticas libres de contexto

La probabilidad de un árbol

La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn

es p(t) = ∏ni=1 q(αi → βi )

where q(α → β ) es la probabilidad de la regla α → β

S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7

La probabilidad para el árbol seria

p(t) = 0,84

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

El algoritmo CKY

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Modelos de análisis de Collins

Tres modelos generativos lexicalizados propuestos por MichaelCollins

Modelo 1: Modelo generativo con cabezas lexicalizadas.

Modelo 2: Modelo 1 + distinción de complementos/adjuntos ysubcategorización.

Modelo 3: Modelo 2 + traza del movimiento de lanúcleo-cabeza.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Modelo básico

Lo primero que se nota en cada regla de una PCFGlexicalizada es la forma

P(h)→ Ln(ln) . . .L1(l1)H(h)R1(r1) . . .Rm(rm)

H es el núcleo sintáctico de la frase, el cuál hereda lapalabra-núcleo h, de su padre P .

L1 . . .Ln y R1 . . .Rm son modi�cadores de izquierda y derechadel núcleo H.

Tanto n como m pueden ser cero, Si n = m = 0, son reglasunarias.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Generación del modelo

La generación de RHS de cada regla, dada el LHS, ha sidodescompuesta en tres pasos:

1 Generación de la etiqueta del núcleo constituyente de la frase,con probabilidad PH(H|P,h).

2 Generación de modi�cadores a la izquierda del núcleo conprobabilidad ∏i=1...n+1PL(Li (li )|P,h,H), dondeLn+1(ln+1) = STOP . El símbolo STOP es adicionado alvocabulario de no-terminales, y el modelo para generandomodi�cadores a la izquierda donde ha sido generado.

3 Generación de modi�cadores a la derecha del núcleo conprobabilidad ∏i=1...n+1PR(Ri (ri )|P,h,H), Rm+1(rm+1) esde�nida como STOP.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Adicionando métrica de distancia

Collins introduce una medidad de distancia entre las palabras∆l y ∆r

No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.

El modelo queda:

Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))

Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Adicionando métrica de distancia

Collins introduce una medidad de distancia entre las palabras∆l y ∆r

No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.

El modelo queda:

Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))

Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Modelo 2: Clasi�cación de modi�cadores

Añadir un su�jo "C" a los no terminales en los datos deentrenamiento para los que:

El no terminal es un NP, SBAR, o S cuyo padre es una S, unaNP, SBAR, S, o el vicepresidente cuyo padre es unvicepresidente, o un S cuyo padre es un SBAR.La no-terminal no debe tener una de las etiquetas semánticas:ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.

También marque el primer hijo después de una cabeza PP comocomplemento

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Modelo 3: Modelando trazas y movimientos de la cabeza

Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.

hay tres formas de que el gap sea pasado hacia abajo a el RHS.

Head El gap es pasado al núcleo de la frase, como una regla.

Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.

Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Modelo 3: Modelando trazas y movimientos de la cabeza

Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.

hay tres formas de que el gap sea pasado hacia abajo a el RHS.

Head El gap es pasado al núcleo de la frase, como una regla.

Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.

Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Trabajo de Bikel

Dan Bikel construye un motor de análisis sintácticomulti-lenguaje con la capacidad de instanciar una granvariedad de modelos analizadores probabilisticos.

Como modelo línea base apropiado se escoje instanciar losparámetros del modelo 2 de Collins.

Bikel identi�có once pasos de preprocesamiento necesariospara preparar los árboles de entrenamiento cuando se usa elmodelo de análisis de Collins.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Preprocesamiento de Bikel

1 Eliminar nodos innecesarios2 Adicionando nodos base NP3 Reparando NPs base4 Adicionando información (solo aplicable al modelo 3)5 Re-etiquetación de sentencias6 Removiendo elementos nulos.7 Levantando puntuación.8 Identi�cación de argumentos no-terminales9 Eliminación de terminales no usados.10 �Reparación� Oraciones sin sujeto.11 Encontrar núcleos sintácticos.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Reglas para encontrar la cabeza

(grup.verb (r in�nitiu) (r gerundi) (r vmp) (r vsp) (r vap) (rvmi))

(S (r grup.verb) (r S) (r sn) )

(sn (r grup.nom))

(sp (l prep))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Ancora

AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.

Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP

Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.

Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje

Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Ancora

AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.

Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP

Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.

Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje

Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Información del corpus usada para el entrenamiento del

analizador

Árbol sintáctico completo anotado con constituyentes.John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Modelo de CollinsImplementación de BikelEl corpus Ancora

Funciones sintácticas

Sujeto -SUJObjeto directo -CDObjeto indirecto -CI

Atributo -ATRComplemento predicativo -CPREDComplemento preposicional -CREG

Complemento agente -CAGComplemento adverbial -CC

Complemento advervial (locativo) -CCLComplemento adverbial (temporal) -CCT

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Máquinas de vectores de soporte

Las máquinas de vectores de soporte son derivados de la teoríade aprendizaje estadistico postulado por Vapnik yChervonenkis en 1992.

Técnica para clasi�cación de datos.

Más fácil de utilizar que las redes neuronales.

Trabajan en un espacio de características

Son también conocidas como clasi�cadores de margen amplio.

Clasi�cación multiclase

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Máquinas de vectores de soporte

Hay m observaciones y cada una consiste en un par de datos:Un vector xi ∈ Rn, i . . . ,m

Una etiqueta yi ∈ {+1,−1}John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Máquinas de vectores de soporte

Hay m observaciones y cada una consiste en un par de datos:Un vector xi ∈ Rn, i . . . ,m

Una etiqueta yi ∈ {+1,−1}John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Kernel de un algoritmo SVM

Idea: Transformar los ejemplos de entrenamiento en un espaciovectorial de alta dimensión ( N � n ) (denominado espacio decaracterísticas)

Kernel lineal: k(~x ,~y) =~x �~y

Kernel polinómico: k(~x ,~y) = (~x �~y + r)p

Kernel gaussiano (función de base radial [RBF]):

k(~x ,~y) = e(−‖ ~x}−~y‖2

2σ2)

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Preprocesamiento de datos

Cada ejemplo: vector de números realesSi hay atributos categóricos -> convertirlos a datos numéricosEjemplo: un atributo con tres categorías posibles {rojo, verde,azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).Si el número de categorías del atributo no es muy grande, estacodi�cación puede ser más estable que usando un úniconúmero para cada una.

Escalado de los datos antes de aplicar SVMVentajas:

Evitar que los atributos que tengan rangos grandes dominensobre los que tengan rangos más pequeñosEvitar di�cultades numéricas durante el cálculo

Escalar linealmente cada atributo al rango [-1,+1] o [0,1]

Usar el mismo método de escalado para los datos deentrenamiento y los de prueba

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Preprocesamiento de datos

Cada ejemplo: vector de números realesSi hay atributos categóricos -> convertirlos a datos numéricosEjemplo: un atributo con tres categorías posibles {rojo, verde,azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).Si el número de categorías del atributo no es muy grande, estacodi�cación puede ser más estable que usando un úniconúmero para cada una.

Escalado de los datos antes de aplicar SVMVentajas:

Evitar que los atributos que tengan rangos grandes dominensobre los que tengan rangos más pequeñosEvitar di�cultades numéricas durante el cálculo

Escalar linealmente cada atributo al rango [-1,+1] o [0,1]

Usar el mismo método de escalado para los datos deentrenamiento y los de prueba

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Argumentos verbales

Los argumentos son expresiones lingüisticas exigidassemánticamente por el núcleo.

Los verbos tienen dos tipos básicos de argumentos:

Complementos: Necesarios para el verbo.Adjuntos (circunstancial): Son complementos no exigidos porel verbo.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Características línea base

Predicado: El lema del predicado es usado comocaracterística.

Path: La ruta sintáctica a través del árbol de análisis delconstituyente al predicado clasi�cado.

Tipo de frase: Esta es la categoría sintáctica.

Posición: Característica binaria identi�cando si la frase estaantes o despues del predicado.

Palabra-cabeza: La cabeza sintáctica de la frase.

Subcategorización: Esta es la regla de estructura de fraseexpandiendo el nodo padre del predicado en el árbol de análisis.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Características sintácticas

Posición de la entidad: la entidad puede estar a la izquierdao derecha del núcleo.

Distancia de la entidad: el número de palabras existentesentre la entidad y el núcleo.

Información morfológica de la entidad: modo, tiempo,persona y número.

Longitud de la entidad: la secuencia de los n elementos delos n-gramas.

Información morfológica del núcleo de la entidad.

Entidad de�nida: una entidad se considera de�nida si suartículo es de�nido.

Longitud del núcleo: secuencia de los n-elementos de losn-gramas del núcleo.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

libSVM: una implementación de SVM

Implementa los tipos de entrenamiento y núcleos mascomunes.

Permite clasi�cación multiclase.

Implementa el procedimiento para realizar validación cruzada

Métodos para obtener máquinas que proporcionen además laprobabilidad de la clasi�cación.

Incluye técnicas para reducir el coste de la constante C .

Implementaciones en C++ y JAVA.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Máquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

Parametrización de libSVM

Se usa un kernel gausiano (RBF) con γ = 2−7

Parámetro de costo C = 32

Se usa á técnica de validación cruzada para a�nar el conjuntode características.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Modi�cación del modelo

En el agoritmos CKY, en el método de unión de items, seclasi�ca el item modi�cador, cuando el item modi�cado setrata de un verbo.

Si la clasi�cación del item se encuentra dentro de las posiblessubcategorizaciones del verbo, entonces se aumenta laprobabilidad de selección.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Información semántica de Ancora sobre los verbos

Ancora posee archivos en formato xml para almacenar lainformación referente a los argumentos verbales.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Outline

1 Analizador Sintáctico ProbabilísticoModelo de CollinsImplementación de BikelEl corpus Ancora

2 Clasi�cación semántica con SVMMáquinas de vectores de soporteCaracterísticas lingüisticas para el SVMImplementación del modelo SVM

3 Análisis sintáctico con clasi�cación semánticaIntegración del clasi�cador en el analizadorMétricas de evaluación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Métricas de comparación

Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)

Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )

Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)

Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)

Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Métricas de comparación

Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)

Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )

Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)

Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)

Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Métricas de comparación

Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)

Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )

Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)

Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)

Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Métricas de comparación

Si P es el árbol analizado por el sistema y T el árbol analizadomanualmente (gold standard)

Recall: (# de consituyentes correctos en P) / (# deconstituyentes correctos en T )

Precision: (# de consituyentes correctos en P) / (# deconstituyentes en P)

Medida F: Media armónica entre recall y precisiónF = 2PR/(P +R)

Paréntesis cruzados: Constituyentes para los cuales lareferencia tiene parentizado ((A B) C) y el de nuestroalgoritmo (A (B C))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Integración del clasi�cador en el analizadorMétricas de evaluación

Métricas de comparación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando maquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Referencias

Daniel M. Bikel. On the Parameter Space of GenerativeLexicalized Statistical Parsing Models. PhD thesis,Philadelphia, PA, USA, 2004. AAI3152016.

Michael Collins. Head-driven statistical models for naturallanguage parsing. Comput. Linguist., 29(4):589�637, December2003.

LIBSVM: A Library for Support Vector Machines. Chih-ChungChang and Chih-Jen Lin. 2001

Support Vector Learning for Semantic Argument Classi�cation.SAMEER PRADHAN, KADRI HACIOGLU. 2005

Using Machine-Learning to Assign Function Labels to ParserOutput for Spanish. Grzegorz Chrupaªa1 and Josef vanGenabith. 2004

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Analizador Sintáctico ProbabilísticoClasi�cación semántica con SVM

Análisis sintáctico con clasi�cación semánticaConclusiones

Referencias

LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).GUSTAVO A. BETANCOURT. 2005

Miguel A. Alonso Carlos Gómez Jesús Vilares. AnálisisSintáctico. 2010

Natural Language Processing:Statistical Parsing. Raymond J.Mooney

Maria Antònia Martí, Mariona Taulé, Manu Bertran y LluísMàrquez. AnCora: Multilingual and Multilevel Annotated

Corpora. 2007

Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)'AnCora-Verb: A Lexical Resource for the Semantic Annotationof Corpora'. Proceedings of 6th International Conference onLanguage Resources and Evaluation. Marrakesh (Morocco).

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.