linguiscacomputazionale* e treebank*bosco/lingue2017/nlptreebank-2017.pdf ·...
TRANSCRIPT
Linguis'ca computazionale e treebank
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Il proge=o Turin University Treebank
• ObieFvo:
sviluppare una risorsa linguis%ca, una banca di alberi sintaFci per l’italiano
Fasi di sviluppo del proge=o
• Selezione dei tes% da annotare
• Definizione dello schema di annotazione
• Applicazione dello schema al corpus di tes% (validità e consistenza)
Selezione di tes' in TUT
• Giornali quo%diani (1.100 frasi = 18,044 tokens) • Codice civile (1.100 frasi = 28,048 tokens) • Acquis (201 frasi = 7,455 tokens) • Wikipedia (459 frasi = 14,746 tokens)
• Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)
• Totale 3.452 frasi = 102.000 token
TEXTS from PRAGUE newspapers, scientific and economic
journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
Selezione in altri treebank
Definizione dello schema di annotazione
• Scelta del formalismo
• Scelta delle informazioni e stru=ure da rappresentare
Stru=ura sintaFca: scelta tra 2 aspeF
• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)
• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal structure)
Rela%onal structure
• Le parole della frase svolgono funzioni diverse
• Le funzioni sono espresse in termini di relazioni gramma%cali
Cons%tuent structure
Le parole della frase sono organizzate in unità (cos%tuen%) che a loro volta sono ogge=o di una organizzazione (cons%tuent structure) in unità più grandi
Cons%tuent structure
Le relazioni tra le parole non sono tu=e uguali:
“Maria leggeva un libro in biblioteca”
ES: Penn annota'on
( S
( NP -‐ SBJ (PRP I) )
( ADVP -‐ TMP ( RB never) )
( VP (VBD had)
( NP (JJ many) (NNS clients) )
( NP -‐ ADV (DT a) ( NN day) ))
))
NP
VP
NP
ADVP
NP
S
SBJ
TMP
PRP
RB
VBD
NNS DT
NN DT ADV
ES: NEGRA annota'on
S
VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
Cos%tuen% e relazioni • La stru=ura relazionale include le informazioni rela%ve all’
organizzazione della frase in unità
• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole
• La stru=ura relazionale è più compa=a
• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle diverse lingue
• La stru=ura relazionale include la stru=ura argomentale
Cos%tuen% e relazioni
La stru=ura argomentale
• relazioni gramma%cali
• ruoli seman%ci
• uguali o dis%n%?
Le relazioni gramma%cali
• Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni
give someone something dare a qualcuno qualcosa
MORPHO SYNT SEM PRAGUE semi-
automatic semi-automatic
semi-automatic
NEGRA automatic interactive (probabilistic)
PENN automatic automatic (skeletal)
Processo di annotazione
Processo di annotazione in TUT
• Part Of Speech tagging automa%co
• Correzione manuale del tagging
• Parsing interaFvo
• Verifica e revisione
Costruire un treebank
Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.
InfaF è dimostrato che i sistemi di NLP che o=engono i migliori risulta% sono quelli che prendono le informazioni da treebank)
Costruire un treebank
Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.
È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di tempo e di corre=ezza.
Costruire un treebank In pra%ca l’annotazione dei treebank è prodo=a da
sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)
+ annotatori umani che correggono le analisi prodo=e in modo automa%co
Ogni relazione di TUT può essere composta di 3 elemen%:
• Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …
• Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object
• Seman%co: relazioni seman%che come Loca%on, Time, Cause
Le dipendenze nel TUT
1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]
8 il (IL ART DEF F SING) [7;VERB-‐OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-‐SUBJ
NOUN-‐OBJ NOUN-‐SUBJ
VERB-‐OBJ VERB
NOUN
ADV-‐role ADV-‐role
TUT Componente morfo-‐sinta\ca
TUT Componente morfo-‐sinta\ca
• Da% 944 differen% Verbi per un totale di 4.169 occorrenze nel corpus di TUT
• Il 30% di ques% Verbi (e le stru=ure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale
TUT Componente morfo-‐sinta\ca
Egli non è stato visto da nessuno
Egli non è stato visto da ieri
ARG
MOD
TUT Componente funzionale-‐sinta\ca
TUT Componente funzionale-‐sinta\ca
Da qui è par%to l’assalto
Succedeva dall’altra parte del mondo
I miliardi stanzia% dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica
LOC+FROM
LOC+IN
TIME
REASONCAUSE
SOURCE
TUT Componente seman'ca
TUT Componente seman'ca
• Da% 600 sintagmi preposizionali introdoF dalla preposizione DA e che svolgono il ruolo di modificatori
• È stato rilevato che essi possono assumere i seguen% 7 differen% valori seman%ci: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
TUT Componente seman'ca
1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]
8 il (IL ART DEF F SING) [7;VERB-‐OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]
Applicare lo schema di annotazione a TUT significa che ogni sua frase:
• viene parsificata in modo automa%co dal parser TULE, sviluppato in parallelo con TUT • corre=a da almeno 2 annotatori umani • verificata da tool automa%ci apposi% • so=oposta a conversioni e applicazione di altri sistemi
Ricadute del proge]o TUT
U%lizzo in 3 diverse direzioni:
• Come raccolta di da% linguis%ci
• Come banco di prova per sistemi di NLP
• Come modello per lo sviluppo di altre risorse
• Come raccolta di da% linguis%ci TUT ha consen%to
• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)
• Studio dell’ordine delle parole nella lingua italiana
Ricadute del proge]o TUT
(in 3500 sentences)
Ricadute del proge]o TUT
• Come banco di prova per sistemi di NLP TUT ha consen%to di raggiungere i risulta% allo stato dell’arte per il parsing dell’italiano, errore intorno al 10%
• TUT è stato il treebank di riferimento nelle compe%zioni per parser di italiano (Evalita 07, 09, 11)
Ricadute del proge]o TUT
• Come modello per lo sviluppo di altre risorse, TUT è u%lizzato in:
• in prospeFva cross-‐linguis%ca, ha consen%to lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)
Ricadute del proge]o TUT
• INOLTRE: TUT è stato trado=o in forma% di altri treebank grazie a tool di conversione automa%ca
• Questo ha reso possibile l’applicazione di strumen% sviluppa% per tali forma% ed il confronto tra paradigmi e modelli linguis%ci differen% nell’ambito del dibaFto su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali
Ricadute del proge]o TUT
Il Turin University Treebank (TUT) e ParTUT sono tuF progeF
del Content Centered Compu%ng Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. PaF, M. SanguineF)
del Dipar%mento di Informa%ca dell’Università di Torino
Per ulteriori informazioni:
h=p://www.di.unito.it/~tutreeb
Un treebank parallelo italiano francese e inglese nel formato del TUT.
Il proge]o ParallelTUT
Un importante problema per la LC è la valutazione:
sia come confronto tra risulta% degli umani e quelli del sistema di LC
sia come confronto tra i risulta% di sistemi diversi
Treebank e valutazione
L’esistenza di molte risorse diverse rende però difficile confrontare i risulta% o=enu% da diversi sistemi e la valutazione deve sempre essere fa=a in relazione alle stesse risorse.
Se il sistema X e il sistema Y u%lizzano lo stesso corpus per apprendere, o=engono lo stesso output?
Treebank e valutazione
La comunità della LC opera pertanto nella direzione di rendere confrontabili i risulta% dei sistemi che svolgono lo stesso task.
Questo significa ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).
Treebank e valutazione
La nozione di standard è par%colarmente rilevante per i treebank e ha portato alla definizione di un formato universale de=o Universal Dependency.
Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue.
Treebank e standard
Per la lingua italiana ad esempio sono sta% crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca Computazionale CNR di Pisa).
Ques% sono sta% fusi grazie ad un processo di conversione in un formato intermedio e poi tradoF in Universal Dependency.
Treebank e standard
Questo formato soddisfa l’interesse per confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a supporto della LC per lingue per cui non esistono risorse.
h=p://universaldependencies.org/
Universal Dependency