pisa, 15/05/2006i-cabpisa, 15/05/2006i-cab the italian content annotation bank valentina bartalesi...
TRANSCRIPT
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
I-CAB
The Italian Content Annotation Bank
Valentina Bartalesi Lenzi – Rachele Sprugnoli
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Outline
- Presentazione (I-CAB & ONTOTEXT)
- Dati sul corpus
- Tool di annotazione e formati
- Annotazione di espressioni temporali
- Annotazione di entità
- Inter-annotator Agreement
- Applicazioni web: Citografo e MEANING Browser
- Lavori futuri: annotazione di Relazioni ed Eventi
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
I-CAB: Italian Content Annotation Bank
Corpus di riferimento nel campo dell’Information Extraction
Riconoscimento e normalizzazione di:
espressioni temporali: assolute (15-5-06) e relative (tre giorni
dopo) entità: oggetti o insiemi di oggetti nel mondo
menzioni di entità: realizzazioni testuali delle entità relazioni tra entità: es. la relazione “affiliazione” collega un’entità
persona e un’entità organizzazione eventi: un qualcosa che accade cambiando lo stato delle cose
• persone (Ciampi, il presidente,…)• organizzazioni (Microsoft)• entità geo-politiche (Italia, Pisa)• luoghi (Largo Pontecorvo 3)
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il progetto ONTOTEXThttp://tcc.itc.it/projects/ontotext/
Aggiornamento e arricchimento della base di conoscenza
I-CAB
1. Knowledge markup
Sviluppo di sistemi per l’annotazione automatica di testi Sviluppo di un corpus di riferimento
2. Knowledge Extraction
3. Ontology learning and population
Obiettivi:
Scenario applicativo:
Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale
Il portale web
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Formalismi adottati
Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico:
ACE (Automatic Content Extraction, http://www.nist.gov/speech/tests/ace)
•Time Expressions Recognition and Normalization Task
•Entity Detection and Recognition Task
•Relation Detection and Recognition Task
•Event Detection and Recognition Task
Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium:
http://projects.ldc.upenn.edu/ace/annotation/2005Tasks.html
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Adattamenti ed estensioni delle linee guide inglesi
1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano:
- Inclusione delle preposizioni articolate: Inglese: at <the end of March>Italiano: <alla fine di marzo>
- Annotazione di enclitici e proclitici:parlagli / gliene parli per favore?
2) Estensione volta ad ampliare la tipologia di menzioni annotabili:
- Annotazione di congiunzioni di entità:<la mamma e il figlio>
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Corpus Adige
525 articoli tratti da “L’Adige”, quotidiano locale
4 giornate
5 categorie
Un file (txt, UTF-8) per ogni articolo
Divisione in due sezioni: training (335 documenti) e test (190 documenti)
• 7-8 Settembre 2004
• 7-8 Ottobre 2004
• Attualità• Cultura• Economia • Sport• Trento
Numero di parole: 182.500
Numero medio di parole per file: 348
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Software di annotazione: Callisto
CALLISTO: http://callisto.mitre.org/
testi scritti con caratteri codificati UTF-8 e US-ASCII
scritto in Java
annotazione stand-off task diversi: es. TIMEX2 e ACE Event
file AIF (Atlas Interchange Format)
Il task TIMEX2 permette la trasformazione di AIF in SGML
Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format)
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il formato MEANING
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione delle Espressioni Temporali
individuare le espressioni temporali presenti nel testo determinandone l’estensione
<timex2>…</timex2>
interpretare il significato delle espressioni temporali
set predefinito di attributi (vd. oltre)
Schema adottato: TIMEX2 (http://timex2.mitre.org/)
Task: riconoscimento (detection) e normalizzazione (normalization)
Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005)- ore del giorno (le ore 23:00)- periodi (3 mesi )- “sets of time” (ogni giorno)
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Esempi attributi TIMEX2 per la normalizzazione
VAL: valore dell’espressione temporale secondo lo standard ISO-8601
15 maggio 2006 VAL=“2006-05-15”sei giorni VAL=“P6D”
MOD: modificatori temporaliverso mezzanotte MOD=“APPROX”
i primi anni ’70 MOD=“START”
SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES”
n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a <TIMEX2>Natale</TIMEX2><TIMEX2>L’anno scolastico </TIMEX2> sta per terminare
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Qualche numero sull’annotazione delle espressioni temporali… Numero di espressioni temporali annotate: 4.553
2.901 nel Training – 1.652 nel Test
Numero di parole annotate: 8.872
Lunghezza media delle espressioni temporali: 2 parole
Numero medio di espressioni temporali per documento: 8,7
4,86 % del totale
Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
CHRONOS
TestoNON annotato
PRE-PROCESSING
RICONOSCIMENTO
NORMALIZZAZIONE
• Tokenizzazione• POS tagging• Riconoscimento Multiword
Testo annotato
• Circa 350 Regole[LEXICAL-TRIGGER]
• Circa 700 Regole
Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
TAG RECALL PRECISION F-MEASURE
TIMEX2 0,925 0,908 0,917
VAL 0,636 0,673 0,654
MOD 0,928 0,928 0,928
SET 0,616 0,500 0,552
Valutazione CHRONOS
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entity Detection 1/5
Entità: oggetto o gruppo di oggetti nel mondo
Menzione: realizzazione testuale di un’entità
In I-CAB annotiamo entità di tipo:
Persona es. “Carlo Azeglio Ciampi” Organizzazione es. “Microsoft” Geo Political Entity es. “Toscana” Luogo es. “via Buonarroti ”
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entity Detection 2/5
Di ogni entità si individuano:
- l’estensione, ovvero la frase nominale usata per riferire ad un’entità.
L’estensione include: modificatori, “Una grande famiglia” sintagmi preposizionali, “Il Presidente della Repubblica” proposizioni dipendenti, “La ragazza che lavora in
giardino” - la testa sintattica, la parte più significativa dell’estensione
- tutte le diverse menzioni all’interno dell’articolo, ognuna delle quali viene fatta coreferire alla rispettiva entità
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entity Detection 3/5
Le entitità si dividono nelle seguenti classi:
SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondoEs. “Ciampi ha concluso il mandato”
GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondoEs. “Il Presidente della Repubblica viene eletto ogni sette anni”
USP (Under specific referential), entità che includono quantità non definiteEs. “Molte persone stimano Ciampi”
NEG (Negatively quantified) entità con cui ci si riferisce a quantità negativeEs. “Nessuno odia Ciampi”
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entity Detection 4/5
Le menzioni si distinguono nei seguenti tipi:
NAM: nomi propri Es. “Totti”
NOM: costruzioni nominaliEs.“la squadra di calcio”
BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi)Es. “poliziotti in borghese”
PRO: pronomi Es. personali “tu”, “io”
WHQ: pronomi interrogativi e relativiEs. “chi è lì?”, “Totti che gioca nella Roma”
continua
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entity Detection 5/5
PTV: partitivi Es.“alcuni giocatori della Roma”
APP: apposizioni Es.“la Roma, squadra italiana”
PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo”
CONJ: congiunzioni di entitàEs. “Totti e la Roma”
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entità Persona 1/2
Le entità di tipo persona (PER) sono limitate agli esseri umani
Le entità PER vengono classificate secondo i seguenti sottotipi:
Individual, es. “Francesco Totti” Group, es. “la famiglia” Indefinite, es. “Non so chi arriverà”
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entità Persona 2/2
Qualche numero:
7087 entità di tipo PER 16059 menzioni di entità
In media in un documento ci sono 13,5 entità di tipo PER
In media una entità PER è mezionata 2,3 volte inun documento
La distribuzione delle entità PER:
TRAINING 4459 entità, 9994 menzioni TEST 2628 entità, 6065 menzioni
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Le entità di tipo Organizzazione (ORG) sono limitate acorporazioni, agenzie e gruppi organizzati sulla base di statuti riconosciuti a livello nazionale o internazionale.
Le ORG sono distinte in 10 sottotipi:
Government, es. “i carabinieri” Commercial, es. “la Microsoft” Educational, es. “l’Università di Pisa” Media, es. “National Geographic” Religious, es. “la chiesa valdese” Sports, es. “la Roma” Medical-Science, es. “il laboratorio analisi” Non-Governmental, es. “la Croce Rossa” Entertainment, es. “la compagnia teatrale”
Entità Organizzazioni 1/3
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione di menzioni di organizzazioni non italiane:
La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale.
Es.“Dipartimento di Stato americano”
La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale.
Es. “la polizia di stato francese”
Entità Organizzazioni 2/3
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Entità Organizzazioni 3/3
Qualche numero:
3242 entità di tipo ORG 6193 menzioni di entità
In media in ogni documento ci sono 6,2 entità di tipo ORG
In media una entità ORG è menzionata 1,9 volte in un documento.
La distribuzione delle entità ORG:
TRAINING 2217 entità TEST 1025 entità
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione di entità geo-politiche (GPE) Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici
RUOLO (“ROLE”) delle menzioni- GPE.ORG: La Francia ha firmato l’accordo con la Germania- GPE.PER: I francesi attendono con ansia le prossime elezioni- GPE.LOC: Il G8 si è riunito ieri in Francia - GPE.GPE: La Francia produce dell’ottimo vino
SOTTOTIPI di entità:• Continent: Asia, Oceania• Nation: Italia, USA• State-or-Province: Florida, Toscana, Trentino• County-or-District: Canton Ticino, Comune di Pisa• Population-Center: Pisa, New York• GPE-Cluster: Unione Europea• Special: Palestina
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Qualche numero sull’annotazione delle GPE…
n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus)
Numero di entità GPE = 904 1.876 menzioni
Sottotipi:- Population-Center: 470 - Nation: 186- State-or-Province: 179- County-or-District: 44- GPE-Cluster: 10- Continent: 9- Special: 6
Ruoli:- GPE.GPE = 980 - GPE.LOC = 573- GPE.ORG = 281- GPE.PER = 42
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Dati comparativi
Training Test TOTAL
TE Tag 2.901 1.652 4.553
PER Entità 4.459 2.628 7.087
Menzioni 9.994 6.065 16.059
ORG Entità 2.217 1.025 3.239
Menzioni 4.249 1.889 6.138
GPE Entità 904 - -
Menzioni 1.876 - -
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Dati comparativi
Training Test TOTAL
TE Tag 2.901 1.652 4.553
PER Entità 4.459 2.628 7.087
Menzioni 9.994 6.065 16.059
ORG Entità 2.217 1.025 3.239
Menzioni 4.249 1.889 6.138
GPE Entità 904 - -
Menzioni 1.876 - -
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione di luoghi (Location - LOC)
Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica
SOTTOTIPI:- Address: Corso Italia, 22° W- Boundary: il confine tra l’India e il Pakistan- Celestial: Marte, il sole, il mondo - Water-Body: il Po, il Mediterraneo- Land-Region-natural: il Caucaso- Region-International: l’Africa meridionale- Region-General: l’Italia meridionale
Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Inter-annotator Agreement
Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni
Mini – corpus: 10 file per circa 5.000 parole
Kappa Statistic & Dice Coefficient
detection normalization
ESEMPIOAccordo sull’annotazione delle PER:
- Dice Coefficient per person entity detection = 0,906- Dice Coefficient per mention detection = 0,951- Kappa Statistic per l’assegnazione dei sottotipi = 0,937- Kappa Statistic per l’assegnazione delle classi = 0,734
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il MEANING browser 1/2
Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF.
NewsManual Annotation Automatic Annotation
Callisto TextPro
AIF TextPro format
MEANING format
Database
MEANING brower
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il MEANING browser 2/2
Il MEANING browser:
http://tcc.itc.it/projects/ontotext/webicab/
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca per singolo token
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca per stringa
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca con carattere jolly
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca per lemma e Part of Speech
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca per lemma e Part of Speech
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Ricerca per entità
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il MEANING browser
Visualizzazione del testo: evidenziazione di tutte le menzioni annotate
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Evidenziazione di tutte le menzioni annotate e delle espressioni temporali
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Evidenziazione delle ORG
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
MEANING browser
Possibilità di visualizzare il pdf originale dell’articolo
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Citografo 1/3
Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente
Dati su cui lavora il citografo: 52000 documenti 10 mesi de L’Adige 10 milioni di tokens 1 milione di frasi
I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico
5,3 GB di spazio su disco
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Citografo 2/3
Il grafico:
Tempo di creazione: ~ 2 secondi
Possibilità di ZOOM in ogni punto del grafo
La ricerca è alla Google si può richiedere che venga
mostrato un grafico dell’andamento di singole parole o di
più parole che occorrono insieme nello stesso documento
È possibile comparare sullo stesso grafo l’andamento delle
occorrenze di più ricerche
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Citografo 3/3
Il Citografo
ontotext.itc.it/citografo
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Citografo
Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità)
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Il Citografo
Andamento comparato delle parole “guerra” e “pace”
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione di Relazioni
ACE Relation Detection and Recognition Task
RELAZIONI: coppie ordinate di entità presenti all’interno di una frase
2 ArgumentsTypeSubtypeSyntactic ClassModalityTense
Ciampi andò più volte in Francia
Arg 1 Arg 2 Type Subtype
Class Modality
Tense
Ciampi Francia Physical Located Verbal Asserted Past
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Annotazione di Eventi
ACE Relation Detection and Recognition Task
EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose
- LIFE -> Sottotipi: be-born, die, marry, divorce
- MOVEMENT -> Sottotipi: transport
- TRANSACTION -> Sottotipi: transfer-money
- BUSINESS -> Sottotipi: start-org, declare-bankruptcy
- CONFLICT -> Sottotipi: attack
- CONTACT -> Sottotipi: meet, phone-write
- PERSONNEL -> Sottotipi: start-position, elect
- JUSTICE -> Sottotipi: arrest-jail, trial-hearing
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
Siti web:
ACE: http://www.nist.gov/speech/tests/ace e
Callisto: http://callisto.mitre.org/
Citografo: http://ontotext.itc.it:8080/citografo/citografo.jsp
LDC: http://www.ldc.upenn.edu/
MEANING: http://www.lsi.upc.es/%7Erigau/meaning/meaning.html
MEANING Browser: http://ontotext.itc.it/webicab/index.php
ONTOTEXT Project: http://tcc.itc.it/projects/ontotext/
TIMEX2: http://timex2.mitre.org/
http://projects.ldc.upenn.edu/ace/
Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB
GRAZIE!