korpuszok és adatbázisok

22
Korpuszok és adatbázisok A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.

Upload: kiril

Post on 13-Jan-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Korpuszok és adatbázisok. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. február 14. Alapfogalmak. Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény” - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Korpuszok és adatbázisok

Korpuszok és adatbázisok

A számítógépes nyelvfeldolgozás alapjai

A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.

Page 2: Korpuszok és adatbázisok

Alapfogalmak• Korpusz: speciális célokra

létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény”

• Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése)

Page 3: Korpuszok és adatbázisok

Korpusztípusok• Egynyelvű

• Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven

• Beszédkorpusz: hanganyagok

• Írott nyelvi korpusz: szövegek

Page 4: Korpuszok és adatbázisok

Korpuszépítés• Mi a cél?• Milyen szövegek kerüljenek bele?

– Tematika (jog, irodalom…)– Nyelvi regiszterek (hivatalos,

köznyelv…)– Homogén/heterogén

• Méret• Nyelv• Hozzáférhetőség (szerzői jogok)

Page 5: Korpuszok és adatbázisok

Annotáció• Szöveg/dokumentum szintje

– Levél spam/nem spam

• Mondat szintje– Bizonytalan/tényszerű információt tartalmaz-

e?

• Szó/frázis szintje – Morfológiai elemzés– Tulajdonnevek

• Annotáció nélkül– Szógyakoriság– Együtt előfordulás

Page 6: Korpuszok és adatbázisok

Az annotáció típusa• kézi• félig automatikus: gépi úton bejelölt annotáció

kézi javítása• automatikus• egyszeres: egy szövegen egy annotátor megy

végig– olcsóbb– gyorsabb

• többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül– időigényesebb– drágább– egyetértési arány mérése

Page 7: Korpuszok és adatbázisok

Egyetértési arány• az annotátorok mennyire értettek egyet

(=mennyire jelöltek ugyanúgy) adott metrika szerint– Pontosság (accuracy)– F-mérték (pontosság – precision, fedés –

recall)– Kappa

• az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni

• a feladat nehézségi fokának jelzése• feladatfüggő!

Page 8: Korpuszok és adatbázisok

Az annotáció formái• Egy fájlban a szöveg és a jelölés

(általában XML)

• Külön fájlban a szöveg és a jelölés (standoff/standalone)

• Előnyök/hátrányok:– Eredeti szöveg visszanyerése– Új szövegek hozzáadása– Szövegek törlése

Page 9: Korpuszok és adatbázisok

<s id="Nepszava.24.2.1">Rövidtávú&mdash; féléves&mdash; kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak.

<choice><sic>

<w>Rövidtávú<ana>

<humor><lemma>Rövidtávú</lemma><mscat>[X]</mscat></humor><msd><lemma>Rövidtávú</lemma><mscat>[X]</mscat></msd>

</ana><anav>

<humor><lemma>Rövidtávú</lemma><mscat>[X]</mscat></humor><msd><lemma>Rövidtávú</lemma><mscat>[X]</mscat></msd>

</anav></w>

</sic><corr>

<w>rövid<ana>

<humor><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></msd>

</ana><anav>

<humor><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></msd>

</anav><anav>

<humor><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></msd>

</anav></w><w>távú

<ana><humor><lemma>távú</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>távú</lemma><mscat>[Afp-sn]</mscat></msd>

</ana><anav>

<humor><lemma>távú</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>távú</lemma><mscat>[Afp-sn]</mscat></msd>

</anav></w>

</corr></choice>

Page 10: Korpuszok és adatbázisok

1 _ _ _ ELL ELL _ _ 0 0ROOT ROOT

2 Japánban Japán Japán N N SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none 1 1 OBL

OBL3 , , , , , _ _ 1 1

PUNCT PUNCT4 ahol ahol ahol R R SubPOS=r|Deg=none|Num=none|Per=none

SubPOS=r|Deg=none|Num=none|Per=none 9 9 TLOCY TLOCY5 1960-ban 1960 1960 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|

PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 9 9OBL OBL

6 közel közel közel R R SubPOS=x|Deg=none|Num=none|Per=noneSubPOS=x|Deg=none|Num=none|Per=none 7 7 MODE MODE

7 félmillió félmillió félmillió M M SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none 8 8

ATT ATT8 válást válás válás N N SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|

NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none 9 9 OBJOBJ

9 mondtak mond mond V V SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=nSubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n 1 1 ATT ATT

10 ki ki ki R R SubPOS=p|Deg=none|Num=none|Per=noneSubPOS=p|Deg=none|Num=none|Per=none 9 9 PREVERB PREVERB

11 , , , , , _ _ 9 9PUNCT PUNCT

12 1990-ben 1990 1990 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 1 1

OBL OBL13 már már már R R SubPOS=x|Deg=none|Num=none|Per=none

SubPOS=x|Deg=none|Num=none|Per=none 15 15 MODE MODE14 2,6 2,6 2,6 M M SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|

PerP=none|NumPd=none SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none 15 15NUM NUM

15 milliót millió millió M M SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none 1 1

OBJ OBJ16 . . . . . _ _ 0 0

PUNCT PUNCT

Page 11: Korpuszok és adatbázisok
Page 12: Korpuszok és adatbázisok

Shadow_Riders.txt

The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes 29-49.

Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts.

However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City.

Shadow_Riders.txt.annotation

NE_ORG 4 17NE_MISC 48 56NE_MISC 116 128MWE_COMPOUND_NOUN 129 141SENT_BOUND 170 175NE_ORG 294 307NE_MISC 394 407NE_MISC_SB 401 407MWE_LVC 527 537MWE_LVC_VERB 527 531MWE_LVC_NOUN 532 537NE_LOC 541 553NE_LOC 558 569NE_LOC_SB 565 569NE_ORG 576 589NE_PER 626 638NE_PER_SB 634 638NE_PER 691 702SENT_BOUND 794 803MWE_COMPOUND_NOUN 814 825MWE_COMPOUND_NOUN 855 872NE_MISC 873 897SENT_BOUND 994 1002

Page 13: Korpuszok és adatbázisok

Annotációs eszköz előnyei

• Grafikus kezelői felület

• Ember számára értelmezhetőbb

• Átláthatóbb

• Kisebb a hibázási arány

Page 14: Korpuszok és adatbázisok

A korpuszépítés folyamata

1. Szövegek gyűjtése, gépi előkészítése

2. Kézi annotálás– kettős jelölés – egyetértés aránya– egyszeres jelölés

3. Az eltérések feloldása, ellenőrzés– a kétféle annotáció közti eltérések

egyértelműsítése

4. Záró munkálatok– a korpusz végső formába hozása, formai hibák

javítása, a korpusz publikálása

Page 15: Korpuszok és adatbázisok

A korpuszok felhasználhatósága

• Referencia

• Viszonyítási pont

• (Gépi tanuló) algoritmusok tanítása

• Algoritmusok tesztelése

• Nyelvészeti adatok gyűjtése

Page 16: Korpuszok és adatbázisok

Angol nyelvű korpuszok• British National Corpus (BNC)• Wall Street Journal (WSJ)• Reuters

– ~100 millió szövegszó– dokumentumok, bekezdések határai

• Gigaword korpusz– 2 milliárd szó

• Penn TreeBank– 5 millió szövegszó– szófaji kód– szintaktikai elemzés (konstituensfa)

• Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika)…– néhány százezer szövegszó

Page 17: Korpuszok és adatbázisok

Magyar Nemzeti Szövegtár (MNSZ)

• 187,6 millió szövegszó• Sajtó, szépirodalom, tudományos,

hivatalos, személyes szövegek• Határon túli nyelvváltozatok is• Automatikus szótövezés és szófaji

elemzés• Gigaword verzió (1 milliárd

szövegszó) hamarosan elérhető…• http:/corpus.nytud.hu/mnsz

Page 18: Korpuszok és adatbázisok

Szeged (Dependencia) Treebank• 82 000 mondat• 1,5 millió szövegszó• 230 000 írásjel• 6 domén

– iskolai fogalmazások– számítógépes szövegek– irodalom– jogi szövegek– újságcikkek– üzleti rövidhírek

• Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek

• http://www.inf.u-szeged.hu/rgai/SzegedTreebank

Page 19: Korpuszok és adatbázisok

Webkorpusz• több mint 1,48 milliárd szó

(szűretlenül, illetve 589 millió megszűrt szó)

• jelenleg a legnagyobb magyar nyelvű korpusz

• 18 millió weboldal (.hu)

• http://mokk.bme.hu/resources/webcorpus

Page 20: Korpuszok és adatbázisok

Párhuzamos korpuszok• olyan két- vagy többnyelvű

korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek

• Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek

• Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás…

Page 21: Korpuszok és adatbázisok

Néhány párhuzamos korpusz

• Hansard: angol-francia

• 1984: közép- és kelet-európai nyelvek

• Hunglish: magyar-angol

• SzegedParalell: magyar-angol

• HunOr: magyar-orosz

Page 22: Korpuszok és adatbázisok

Szegedi korpuszok• Szeged Treebank• Szeged Dependencia Treebank• Magyar WordNet• Bizonytalanságra annotált korpuszok• Tulajdonnévkorpuszok• Lemmatizált tulajdonnevek• Többszavas kifejezések korpuszai• Jelentés-egyértelműsített korpusz• Kutatói adatok HTML korpusza• SzegedParalell• HunOr• Véleménydetekciós korpusz• Kulcsszókinyerési korpuszok• HunLearner

http://www.inf.u-szeged.hu/rgai/nlp_download