Download - Treebank y anotación semántica en euskara
Treebank y Treebank y anotación anotación
semántica en semántica en euskara euskara
Grupo Ixa, UPV-EHUGrupo Ixa, UPV-EHUKNOW. Workshop de sintaxisKNOW. Workshop de sintaxis
Mayo, 2007Mayo, 2007
EsquemaEsquema Treebank:Treebank:
Principios de anotaciónPrincipios de anotación MetodologíaMetodología Datos y mediaDatos y media
Anotación semánticaAnotación semántica Euskal wordnet / EuSemcorEuskal wordnet / EuSemcor Roles (Euskal propbank) Roles (Euskal propbank)
Treebank. Principios de Treebank. Principios de anotaciónanotación
Punto de partida:Punto de partida: Corpus anotado manualmente a nivel de Corpus anotado manualmente a nivel de
segmentación segmentación (cat. subcat., det., num., caso), (cat. subcat., det., num., caso), y y con MLWs, Entidades y posposiciones con MLWs, Entidades y posposiciones complejascomplejas
Etiquetado superficial, pero más Etiquetado superficial, pero más completo: completo: árbol completo de aquellos árbol completo de aquellos elementos presentes en el textoelementos presentes en el texto -> -> No se No se marcan:marcan:
la elipsisla elipsis PRO/proPRO/pro
Treebank. Principios de Treebank. Principios de anotaciónanotación
Unidad de tratamiento: oraciónUnidad de tratamiento: oración De punto (o principio de párrafo) a puntoDe punto (o principio de párrafo) a punto De punto (o principio de párrafo) a signo de De punto (o principio de párrafo) a signo de
interrogacióninterrogación De punto (o principio de párrafo) a signo de exclamaciónDe punto (o principio de párrafo) a signo de exclamación De punto (o principio de párrafo) a dos puntosDe punto (o principio de párrafo) a dos puntos
Cabeza de sintagma: elemento con Cabeza de sintagma: elemento con significado léxico -> punto de vista significado léxico -> punto de vista semánticosemántico
Los Los cimientoscimientos principales de la principales de la casacasa vieja vieja
Treebank. Principios de Treebank. Principios de anotaciónanotación
Una sola etiqueta para cada Una sola etiqueta para cada elemento de dependencia. elemento de dependencia. Excepción: las conjunciones Excepción: las conjunciones coordinantes coordinantes
28 etiquetas de dependencia, con la 28 etiquetas de dependencia, con la siguiente jerarquía (basada en siguiente jerarquía (basada en Carroll Carroll et al.et al., 1998b, 1999, 1998b, 1999))
osagarriak
predikatiboak
juntagailuak,lokaikuak,
puntuazio-ikurrak
modifikatzaileak
laguntzailea
ez perpausa
perpausa
determinatzailea
ez perpausa
perpausa
jokatua
perpausjokatugabea
ncsubj
nczobjncobj
ncmod
jokatua
jokatugabea
detmod
xcomp_obj
xmod
xcomp_subj
cmod
ccomp_objccomp_subj
ncpred
lot
auxmod
xpred
aponcmod
apocmod
apoxmod
gradmod
prtmod
itjmod
galdemod
xcomp_zobj
jokatugabea
ez perpausa
lokailuak
root(aditza)
lotat
perpausa
ez perpausa
aposizioa
graduatzailea
partikula
interjekzioa
jokatua
jokatugabea
indartzaileak
perpausa
haos, postos,menos, entios
Haul-, postposizio-,menderagailu- etaentitate-osagaiak
Treebank. MetodologíaTreebank. Metodología Fase de prueba: 2 meses (abril-mayo). Fase de prueba: 2 meses (abril-mayo).
Todos los etiquetadoresTodos los etiquetadores Familiarización con la herramienta informática Familiarización con la herramienta informática
(Abar-Hitz)(Abar-Hitz) Ajustes de la herramientaAjustes de la herramienta Formación lingüisticaFormación lingüistica
Etiquetado masivo:Etiquetado masivo: Equipo de trabajo:Equipo de trabajo:
2 etiquetadores (a tiempo parcial)2 etiquetadores (a tiempo parcial) 1 revisor (a tiempo parcial) 1 revisor (a tiempo parcial) 2 técnicos informáticos de la herramienta (a 2 técnicos informáticos de la herramienta (a
tiempo parcial)tiempo parcial)
Treebank. MetodologíaTreebank. Metodología Elección de oraciones:Elección de oraciones:
Partiendo de la lista de verbos por frecuencia, Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos frecuentesplantea etiquetar empezando por los menos frecuentes
Etiquetado:Etiquetado: Un etiquetador por arriba y otro por abajo.Un etiquetador por arriba y otro por abajo.
El revisor va guardando los ficheros en una El revisor va guardando los ficheros en una carpeta (revisados)carpeta (revisados)
No se etiquetan aquella oraciones que:No se etiquetan aquella oraciones que: son errores gramaticalesson errores gramaticales no están bien delimitadasno están bien delimitadas son demasiado largas (a posteriori sí) son demasiado largas (a posteriori sí)
Treebank. Datos y mediaTreebank. Datos y media Hasta ahora se han etiquetado 55.000 Hasta ahora se han etiquetado 55.000
palabraspalabras Media en el etiquetado masivo: 200 Media en el etiquetado masivo: 200
palabras / h palabras / h Se ha hecho un manual de anotaciónSe ha hecho un manual de anotación En un futuro se prevé que:En un futuro se prevé que:
no haya revisor y éste comience a etiquetarno haya revisor y éste comience a etiquetar se incorpore otro etiquetadorse incorpore otro etiquetador
Semántica: Euskal Wordnet / Semántica: Euskal Wordnet / EuSemcorEuSemcor
EuSemcorEGINDA EGINGABE GUZTIRA
Hitzak Agerpenak Hitzak Agerpenak Hitzak Agerpenak
Polisemikoak 442 39.208 2.888 29.663 3.330 68.871
Monosemikoak 192 7.281 1.618 9.325 1.810 16.606
EusWN-en ez daude
83 487 10.987 39.449 11.070 39.936
Guztira 717 46.976 15.493 78.437 16.210 125.413
Euskal WordnetGuztira Izenak Aditzak
Adierak 50.670 41.160 9.510
Lemak 26.565 26.069 3.496
Synset-ak 32.456 28.705 3.751
Hutsune lexikalak 2.499 2.198 301
Izen bereziak 722 722 0
Semántica: roles (Euskal Semántica: roles (Euskal Propbank)Propbank)
Se ha hecho un estudio preliminar Se ha hecho un estudio preliminar para la validación del modelo para la validación del modelo Propbank en euskera:Propbank en euskera:
Agirre et al. 2006. Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank.A Preliminary Study for Building the Basque PropBank. In Proceedings of the 5th International Conference on Language Resources and In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC)Evaluations (LREC)
http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_Prhttp://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdfopBank.pdf
En este estudio: En este estudio: se ha establecido una metodología de trabajose ha establecido una metodología de trabajo se han etiquetado tres verbos: se han etiquetado tres verbos: esan esan (‘decir’)(‘decir’), ,
adierazi adierazi (‘expesar’)(‘expesar’), eskatu, eskatu (‘pedir’)(‘pedir’) se ha demostrado que Propbank es un modelo se ha demostrado que Propbank es un modelo
válido para el euskeraválido para el euskera se han establecido estrategias de etiquetado se han establecido estrategias de etiquetado
semiautomático semiautomático
Semántica: roles (Euskal Semántica: roles (Euskal Propbank)Propbank)
Se preve empezar con el Se preve empezar con el etiquetado semántico después del etiquetado semántico después del etiquetado sintáctico, y etiquetado sintáctico, y dependiendo de los recursosdependiendo de los recursos