università degli studi di modena e reggio emilia facoltà di ingegneria – sede di modena corso di...
TRANSCRIPT
Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria Informatica – Nuovo Ordinamento
Relatore: Candidato:Prof. Sonia Bergamaschi Simone Ferrari
Anno Accademico 2005 – 2006
Information Extraction: il rapporto
GATE – Named Entity Recognition
Iter seguito• Differenziazione Information Retrievial – Information Extraction
• Discussione Information Extraction Named Entity Recognition
• Descrizione GATE ANNIE
• Applicazione a siti web di GATE per NER Valutazione prestazioni
• Conclusioni e sviluppi futuri
Information Retrievial vs Information Extraction
Sistema IRInput: insieme di documenti (corpus) + query (key words)Output: documenti rilevanti + score
Sistema IEInput: insieme di documenti (corpus) + query (key words)Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito
Vantaggi IE:• minor tempo d’analisi • formato dell’output
Svantaggi IE:• difficoltà d’implementazione• in alcuni casi meno accurato rispetto alla lettura umana
Information Extraction
• Concetto nato all’interno delle MUCs
• In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST)
• Successore di MUC : ACE (1999)
Jim bought 300 shares of Acme Corp. in 2006
<ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX
TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>
GATE
a General Architecture for Text Engineering
Hamish Cunningham (University of Sheffield)
versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/
algoritmi + dati + GUI = applicazioni• Language Resources (LRs)• Processing Resources (PRs)• Visual Resources (VRs)
= CREOLE
a Collection of REusable Objects for Language Engineering
ANNIE
• A Nearly New IE system
• contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)
Attività sperimentale
NER utilizzando GATE applicato a siti WISDOM (http://dbgroup.unimo.it/wisdom/)
• output
• codice
• prestazioni
• modifiche e prestazioni2
Booking.com
InputOutput
XML Booking.com• Attività preliminare del Tokeniser
− <TextWithNodes> <Node id="0"/> BOOKING <Node id="7"/> . <Node id="8"/> COM <Node id="11"/> <Node id="12"/> online <Node id="18"/> <Node id="19"/> hotel <Node id="24"/> <Node id="25"/> reservations <Node id="37"/> (…) </TextWithNodes>
Serialized Nodes
• Creazione dell’annotation set di default da parte del Tokeniser− <Annotation Id="2567" Type="Location" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">rule1</Name> <Value className="java.lang.String">Location1</Value> </Feature> − <Feature> <Name className="java.lang.String">rule2</Name> <Value className="java.lang.String">LocFinal</Value> </Feature> − <Feature> <Name className="java.lang.String">locType</Name> <Value className="java.lang.String">city</Value> </Feature> − <Feature> <Name className="java.lang.String">matches</Name> <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686</Value> </Feature> </Annotation>
<Node id="450"/>Berlin<Node id="456"/>
− <Annotation Id="2317" Type="Lookup" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">majorType</Name> <Value className="java.lang.String">location</Value> </Feature> − <Feature> <Name className="java.lang.String">minorType</Name> <Value className="java.lang.String">city</Value> </Feature> </Annotation>
Berlin→city.lst:location:city
Valutazione delle prestazioniTramite l’AnnotationDiff Tool di GATE
• consente di confrontare due set di annotazioni
Confronto prestazioni di GATE nell’IE:
• inglese vs italiano
• inglese referenziato vs inglese
• italiano referenziato vs italiano
Inglese referenziato vs Inglese
Default
Modifiche:Norwalk, Loulè→city.lst; Tuscany→region.lst; PT →country_cap.lst
Dopo
48,84% 58,14%
Miss rimanenti: mancanza di regole adeguate
Conclusioni e sviluppi futuri• Sistema GATE fornito in modalità “primitiva”: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger)
• Training pesante (centinaia di testi, mesi)
• Sviluppo multilingua recente (molto da implementare)
• PRs sempre più intelligenti → background working