pisa, 15/05/2006i-cabpisa, 15/05/2006i-cab the italian content annotation bank valentina bartalesi...

51
Pisa, 15/05/2006 I-CAB Pisa, 15/05/2006 I-CAB I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Upload: lisa-battaglia

Post on 03-May-2015

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

I-CAB

The Italian Content Annotation Bank

Valentina Bartalesi Lenzi – Rachele Sprugnoli

Page 2: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Outline

- Presentazione (I-CAB & ONTOTEXT)

- Dati sul corpus

- Tool di annotazione e formati

- Annotazione di espressioni temporali

- Annotazione di entità

- Inter-annotator Agreement

- Applicazioni web: Citografo e MEANING Browser

- Lavori futuri: annotazione di Relazioni ed Eventi

Page 3: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

I-CAB: Italian Content Annotation Bank

Corpus di riferimento nel campo dell’Information Extraction

Riconoscimento e normalizzazione di:

espressioni temporali: assolute (15-5-06) e relative (tre giorni

dopo) entità: oggetti o insiemi di oggetti nel mondo

menzioni di entità: realizzazioni testuali delle entità relazioni tra entità: es. la relazione “affiliazione” collega un’entità

persona e un’entità organizzazione eventi: un qualcosa che accade cambiando lo stato delle cose

• persone (Ciampi, il presidente,…)• organizzazioni (Microsoft)• entità geo-politiche (Italia, Pisa)• luoghi (Largo Pontecorvo 3)

Page 4: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il progetto ONTOTEXThttp://tcc.itc.it/projects/ontotext/

Aggiornamento e arricchimento della base di conoscenza

I-CAB

1. Knowledge markup

Sviluppo di sistemi per l’annotazione automatica di testi Sviluppo di un corpus di riferimento

2. Knowledge Extraction

3. Ontology learning and population

Obiettivi:

Scenario applicativo:

Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale

Il portale web

Page 5: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Formalismi adottati

Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico:

ACE (Automatic Content Extraction, http://www.nist.gov/speech/tests/ace)

•Time Expressions Recognition and Normalization Task

•Entity Detection and Recognition Task

•Relation Detection and Recognition Task

•Event Detection and Recognition Task

Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium:

http://projects.ldc.upenn.edu/ace/annotation/2005Tasks.html

Page 6: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Adattamenti ed estensioni delle linee guide inglesi

1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano:

- Inclusione delle preposizioni articolate: Inglese: at <the end of March>Italiano: <alla fine di marzo>

- Annotazione di enclitici e proclitici:parlagli / gliene parli per favore?

2) Estensione volta ad ampliare la tipologia di menzioni annotabili:

- Annotazione di congiunzioni di entità:<la mamma e il figlio>

Page 7: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Corpus Adige

525 articoli tratti da “L’Adige”, quotidiano locale

4 giornate

5 categorie

Un file (txt, UTF-8) per ogni articolo

Divisione in due sezioni: training (335 documenti) e test (190 documenti)

• 7-8 Settembre 2004

• 7-8 Ottobre 2004

• Attualità• Cultura• Economia • Sport• Trento

Numero di parole: 182.500

Numero medio di parole per file: 348

Page 8: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Software di annotazione: Callisto

CALLISTO: http://callisto.mitre.org/

testi scritti con caratteri codificati UTF-8 e US-ASCII

scritto in Java

annotazione stand-off task diversi: es. TIMEX2 e ACE Event

file AIF (Atlas Interchange Format)

Il task TIMEX2 permette la trasformazione di AIF in SGML

Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format)

Page 9: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il formato MEANING

Page 10: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione delle Espressioni Temporali

individuare le espressioni temporali presenti nel testo determinandone l’estensione

<timex2>…</timex2>

interpretare il significato delle espressioni temporali

set predefinito di attributi (vd. oltre)

Schema adottato: TIMEX2 (http://timex2.mitre.org/)

Task: riconoscimento (detection) e normalizzazione (normalization)

Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005)- ore del giorno (le ore 23:00)- periodi (3 mesi )- “sets of time” (ogni giorno)

Page 11: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Esempi attributi TIMEX2 per la normalizzazione

VAL: valore dell’espressione temporale secondo lo standard ISO-8601

15 maggio 2006 VAL=“2006-05-15”sei giorni VAL=“P6D”

MOD: modificatori temporaliverso mezzanotte MOD=“APPROX”

i primi anni ’70 MOD=“START”

SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES”

n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a <TIMEX2>Natale</TIMEX2><TIMEX2>L’anno scolastico </TIMEX2> sta per terminare

Page 12: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Qualche numero sull’annotazione delle espressioni temporali… Numero di espressioni temporali annotate: 4.553

2.901 nel Training – 1.652 nel Test

Numero di parole annotate: 8.872

Lunghezza media delle espressioni temporali: 2 parole

Numero medio di espressioni temporali per documento: 8,7

4,86 % del totale

Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL

Page 13: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

CHRONOS

TestoNON annotato

PRE-PROCESSING

RICONOSCIMENTO

NORMALIZZAZIONE

• Tokenizzazione• POS tagging• Riconoscimento Multiword

Testo annotato

• Circa 350 Regole[LEXICAL-TRIGGER]

• Circa 700 Regole

Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2

Page 14: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

TAG RECALL PRECISION F-MEASURE

TIMEX2 0,925 0,908 0,917

VAL 0,636 0,673 0,654

MOD 0,928 0,928 0,928

SET 0,616 0,500 0,552

Valutazione CHRONOS

Page 15: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entity Detection 1/5

Entità: oggetto o gruppo di oggetti nel mondo

Menzione: realizzazione testuale di un’entità

In I-CAB annotiamo entità di tipo:

Persona es. “Carlo Azeglio Ciampi” Organizzazione es. “Microsoft” Geo Political Entity es. “Toscana” Luogo es. “via Buonarroti ”

Page 16: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entity Detection 2/5

Di ogni entità si individuano:

- l’estensione, ovvero la frase nominale usata per riferire ad un’entità.

L’estensione include: modificatori, “Una grande famiglia” sintagmi preposizionali, “Il Presidente della Repubblica” proposizioni dipendenti, “La ragazza che lavora in

giardino” - la testa sintattica, la parte più significativa dell’estensione

- tutte le diverse menzioni all’interno dell’articolo, ognuna delle quali viene fatta coreferire alla rispettiva entità

Page 17: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entity Detection 3/5

Le entitità si dividono nelle seguenti classi:

SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondoEs. “Ciampi ha concluso il mandato”

GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondoEs. “Il Presidente della Repubblica viene eletto ogni sette anni”

USP (Under specific referential), entità che includono quantità non definiteEs. “Molte persone stimano Ciampi”

NEG (Negatively quantified) entità con cui ci si riferisce a quantità negativeEs. “Nessuno odia Ciampi”

Page 18: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entity Detection 4/5

Le menzioni si distinguono nei seguenti tipi:

NAM: nomi propri Es. “Totti”

NOM: costruzioni nominaliEs.“la squadra di calcio”

BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi)Es. “poliziotti in borghese”

PRO: pronomi Es. personali “tu”, “io”

WHQ: pronomi interrogativi e relativiEs. “chi è lì?”, “Totti che gioca nella Roma”

continua

Page 19: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entity Detection 5/5

PTV: partitivi Es.“alcuni giocatori della Roma”

APP: apposizioni Es.“la Roma, squadra italiana”

PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo”

CONJ: congiunzioni di entitàEs. “Totti e la Roma”

Page 20: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entità Persona 1/2

Le entità di tipo persona (PER) sono limitate agli esseri umani

Le entità PER vengono classificate secondo i seguenti sottotipi:

Individual, es. “Francesco Totti” Group, es. “la famiglia” Indefinite, es. “Non so chi arriverà”

Page 21: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entità Persona 2/2

Qualche numero:

7087 entità di tipo PER 16059 menzioni di entità

In media in un documento ci sono 13,5 entità di tipo PER

In media una entità PER è mezionata 2,3 volte inun documento

La distribuzione delle entità PER:

TRAINING 4459 entità, 9994 menzioni TEST 2628 entità, 6065 menzioni

Page 22: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Le entità di tipo Organizzazione (ORG) sono limitate acorporazioni, agenzie e gruppi organizzati sulla base di statuti riconosciuti a livello nazionale o internazionale.

Le ORG sono distinte in 10 sottotipi:

Government, es. “i carabinieri” Commercial, es. “la Microsoft” Educational, es. “l’Università di Pisa” Media, es. “National Geographic” Religious, es. “la chiesa valdese” Sports, es. “la Roma” Medical-Science, es. “il laboratorio analisi” Non-Governmental, es. “la Croce Rossa” Entertainment, es. “la compagnia teatrale”

Entità Organizzazioni 1/3

Page 23: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione di menzioni di organizzazioni non italiane:

La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale.

Es.“Dipartimento di Stato americano”

La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale.

Es. “la polizia di stato francese”

Entità Organizzazioni 2/3

Page 24: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Entità Organizzazioni 3/3

Qualche numero:

3242 entità di tipo ORG 6193 menzioni di entità

In media in ogni documento ci sono 6,2 entità di tipo ORG

In media una entità ORG è menzionata 1,9 volte in un documento.

La distribuzione delle entità ORG:

TRAINING 2217 entità TEST 1025 entità

Page 25: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione di entità geo-politiche (GPE) Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici

RUOLO (“ROLE”) delle menzioni- GPE.ORG: La Francia ha firmato l’accordo con la Germania- GPE.PER: I francesi attendono con ansia le prossime elezioni- GPE.LOC: Il G8 si è riunito ieri in Francia - GPE.GPE: La Francia produce dell’ottimo vino

SOTTOTIPI di entità:• Continent: Asia, Oceania• Nation: Italia, USA• State-or-Province: Florida, Toscana, Trentino• County-or-District: Canton Ticino, Comune di Pisa• Population-Center: Pisa, New York• GPE-Cluster: Unione Europea• Special: Palestina

Page 26: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Qualche numero sull’annotazione delle GPE…

n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus)

Numero di entità GPE = 904 1.876 menzioni

Sottotipi:- Population-Center: 470 - Nation: 186- State-or-Province: 179- County-or-District: 44- GPE-Cluster: 10- Continent: 9- Special: 6

Ruoli:- GPE.GPE = 980 - GPE.LOC = 573- GPE.ORG = 281- GPE.PER = 42

Page 27: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Dati comparativi

Training Test TOTAL

TE Tag 2.901 1.652 4.553

PER Entità 4.459 2.628 7.087

Menzioni 9.994 6.065 16.059

ORG Entità 2.217 1.025 3.239

Menzioni 4.249 1.889 6.138

GPE Entità 904 - -

Menzioni 1.876 - -

Page 28: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Dati comparativi

Training Test TOTAL

TE Tag 2.901 1.652 4.553

PER Entità 4.459 2.628 7.087

Menzioni 9.994 6.065 16.059

ORG Entità 2.217 1.025 3.239

Menzioni 4.249 1.889 6.138

GPE Entità 904 - -

Menzioni 1.876 - -

Page 29: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione di luoghi (Location - LOC)

Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica

SOTTOTIPI:- Address: Corso Italia, 22° W- Boundary: il confine tra l’India e il Pakistan- Celestial: Marte, il sole, il mondo - Water-Body: il Po, il Mediterraneo- Land-Region-natural: il Caucaso- Region-International: l’Africa meridionale- Region-General: l’Italia meridionale

Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico

Page 30: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Inter-annotator Agreement

Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni

Mini – corpus: 10 file per circa 5.000 parole

Kappa Statistic & Dice Coefficient

detection normalization

ESEMPIOAccordo sull’annotazione delle PER:

- Dice Coefficient per person entity detection = 0,906- Dice Coefficient per mention detection = 0,951- Kappa Statistic per l’assegnazione dei sottotipi = 0,937- Kappa Statistic per l’assegnazione delle classi = 0,734

Page 31: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il MEANING browser 1/2

Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF.

NewsManual Annotation Automatic Annotation

Callisto TextPro

AIF TextPro format

MEANING format

Database

MEANING brower

Page 32: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il MEANING browser 2/2

Il MEANING browser:

http://tcc.itc.it/projects/ontotext/webicab/

Page 33: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca per singolo token

Page 34: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca per stringa

Page 35: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca con carattere jolly

Page 36: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca per lemma e Part of Speech

Page 37: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca per lemma e Part of Speech

Page 38: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Ricerca per entità

Page 39: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il MEANING browser

Visualizzazione del testo: evidenziazione di tutte le menzioni annotate

Page 40: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Evidenziazione di tutte le menzioni annotate e delle espressioni temporali

Page 41: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Evidenziazione delle ORG

Page 42: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

MEANING browser

Possibilità di visualizzare il pdf originale dell’articolo

Page 43: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Citografo 1/3

Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente

Dati su cui lavora il citografo: 52000 documenti 10 mesi de L’Adige 10 milioni di tokens 1 milione di frasi

I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico

5,3 GB di spazio su disco

Page 44: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Citografo 2/3

Il grafico:

Tempo di creazione: ~ 2 secondi

Possibilità di ZOOM in ogni punto del grafo

La ricerca è alla Google si può richiedere che venga

mostrato un grafico dell’andamento di singole parole o di

più parole che occorrono insieme nello stesso documento

È possibile comparare sullo stesso grafo l’andamento delle

occorrenze di più ricerche

Page 45: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Citografo 3/3

Il Citografo

ontotext.itc.it/citografo

Page 46: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Citografo

Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità)

Page 47: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Il Citografo

Andamento comparato delle parole “guerra” e “pace”

Page 48: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione di Relazioni

ACE Relation Detection and Recognition Task

RELAZIONI: coppie ordinate di entità presenti all’interno di una frase

2 ArgumentsTypeSubtypeSyntactic ClassModalityTense

Ciampi andò più volte in Francia

Arg 1 Arg 2 Type Subtype

Class Modality

Tense

Ciampi Francia Physical Located Verbal Asserted Past

Page 49: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Annotazione di Eventi

ACE Relation Detection and Recognition Task

EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose

- LIFE -> Sottotipi: be-born, die, marry, divorce

- MOVEMENT -> Sottotipi: transport

- TRANSACTION -> Sottotipi: transfer-money

- BUSINESS -> Sottotipi: start-org, declare-bankruptcy

- CONFLICT -> Sottotipi: attack

- CONTACT -> Sottotipi: meet, phone-write

- PERSONNEL -> Sottotipi: start-position, elect

- JUSTICE -> Sottotipi: arrest-jail, trial-hearing

Page 50: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

Siti web:

ACE: http://www.nist.gov/speech/tests/ace e

Callisto: http://callisto.mitre.org/

Citografo: http://ontotext.itc.it:8080/citografo/citografo.jsp

LDC: http://www.ldc.upenn.edu/

MEANING: http://www.lsi.upc.es/%7Erigau/meaning/meaning.html

MEANING Browser: http://ontotext.itc.it/webicab/index.php

ONTOTEXT Project: http://tcc.itc.it/projects/ontotext/

TIMEX2: http://timex2.mitre.org/

http://projects.ldc.upenn.edu/ace/

Page 51: Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006 I-CABPisa, 15/05/2006 I-CAB

GRAZIE!