2016. április 18., elte sass bálint mta nyelvtudományi intézet … · 2016-04-18 ·...

29
Korpusznyelvészet 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet [email protected] 1/29

Upload: others

Post on 03-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Korpusznyelvészet2016. április 18., ELTE

Sass BálintMTA Nyelvtudományi Intézet

[email protected]

1/29

Page 2: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

http://nszt.nytud.hu/nszt.html

2/29

Page 3: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Mi mindent kell csinálni ahhoz,hogy sima szövegbol ilyen korpuszlekérdezofelület legyen?Ezt fogjuk most megnézni lépésrol lépésre.

Példa:/ Ám de viſzont hallá, hogy majd a’ Trójai vérböl /

3/29

Page 4: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

1.Az Mtsz építése

4/29

Page 5: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Karakterkódolás

1 karakter = 1 byte

kitûnõ és idõszerû

1 karakter > 1 byte: Unicode

helytakarékos kódolás: UTF-8

Hà c©tfÅ n találkozunk.

Megvan az egységes UTF-8 kódolású szövegünk.

é 3 o 3 ſ 3 ö 3

5/29

Page 6: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

XML

Kenjük a vajat

a késsel

a kenyérre.

6/29

Page 7: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

XML – tagek

<recept>

Kenjük a <hozzavalo>vajat</hozzavalo>

a <eszkoz>késsel</eszkoz>

a <hozzavalo>kenyérre</hozzavalo>.

</recept>

7/29

Page 8: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

XML – attribútumok

<recept nev="vajas kenyér">

Kenjük a <hozzavalo id="41">vajat</hozzavalo>

a <eszkoz id="5">késsel</eszkoz>

a <hozzavalo id="12">kenyérre</hozzavalo>.

</recept>

8/29

Page 9: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Mtsz XML<section><head>

<id>7021030</id><author>Baróti Szabó Dávid</author><wdate>1808</wdate>... egyéb adatok

</head><text>

<page><p>18</p><par>

Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok

</par>... további bekezdések

</page>... további oldalak

</text></section>

9/29

Page 10: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

TEI„The Text Encoding Initiative (TEI) is a consortiumwhich collectively develops and maintains a standardfor the representation of texts in digital form.”

KorpuszkezeloNoSketchEngine (NoSkE)https://nlp.fi.muni.cz/trac/noske

10/29

Page 11: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

NoSkE XML

<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">

<par>Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok

</par>... további bekezdések

</oldal>... további oldalak

</doc>

11/29

Page 12: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

NoSkE XML← XSLT←Mtsz XML

<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">

<par>Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok

</par>... további bekezdések

</oldal>... további oldalak

</doc>

12/29

Page 13: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Találatok idorendben

Hogy lehet a találatok ido szerinti rendezését megvalósítani?

1. Lekérdezés után az eredményt mindig rendezzük.2. Elore rendezzük és azt kérdezzük le.

Megoldás (erre is): XSLT

13/29

Page 14: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

„Tokenizálás”<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">

<par>Ámdeviſzonthallá<g/>,hogy...<br/>... további tokenek

</par>... további bekezdések

</oldal>... további oldalak

</doc>

14/29

Page 15: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

„XML+TAB” formátum<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">

<par>Ám ám KOTde de KOTviſzont viſzont KOThallá hall V.Ipf.S3.Def<g/>, , WPUNCThogy hogy KOT...<br/>... további tokenek

</par>... további bekezdések

</oldal>... további oldalak

</doc>

15/29

Page 16: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

2.Az Mtsz használata

16/29

Page 17: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Reguláris kifejezésekBizonyos tulajdonságú karaktersorozatok megadására.. tetszoleges karakter* a megelozo karakterbol 0 vagy több+ a megelozo karakterbol 1 vagy több? a megelozo karakterbol 0 vagy 1[ab] ’a’ vagy ’b’ karakter[ˆab] nem ’a’ és nem is ’b’ karakterr|s ’r’ vagy ’s’ reguláris kifejezés(..) egybefoglalás

Példák:1. alma 5. .*2. tejf.l 6. .*bb3. mentok? 7. alma|almá.*4. nélk[üuü]l 8. mondjá(to)?k

17/29

Page 18: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

CQL (Corpus Query Language)[..] egy tokenre vonatkozó megkötésekx="y" x attrib értéke legyen y – Mtsz: csak word attrib van

x!="y" x attrib értéke ne legyen y& és kapcsolat megkötések között

Példák:1. [] []2. [word="majd"]3. "majd"4. [word!="a.*"]5. []?6. [word="nem"] [word="kellett"] [word="volna"]? [word=".*ni"]

18/29

Page 19: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Mtsz példalekérdezés

Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!

19/29

Page 20: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Mtsz példalekérdezés

Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!

".*t" ".*..tt"

20/29

Page 21: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Mtsz példalekérdezés

Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!

".*t" ".*..tt"

[word=".*t"] [word=".*..tt" & word!="alatt" & word!="azelott"]

21/29

Page 22: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Diakrón vizsgálat: nélkül helyesírása

22/29

Page 23: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

3.Korpuszok

23/29

Page 24: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Korpuszok

MNSZ2 – elemzett, nagy méretu* körülültük, felszedegettük, elsimítottuk, végigcsináltuk

* forrásokban, fellegekben, falvakban, fejekben (bazi lassú)

* cél, csal, csaj, csel, dzsal

Mazsola – igék és bovítményekreprezentáció: A lány vállat vont→ ige=von alany=lány tárgy=váll

BUSZI – beszélt de írott... bizonyos dógokban � mmm tát, hogy ööö lustább annál, mint amilyennek elképzeltem, ...

Ómagyar korpusz – normalizálás, ómagyar morfológia

NKP (Nemzeti Korpuszportál)http://corpus.nytud.hu/nkp

24/29

Page 25: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

4.Korpuszvezérelt kutatás

25/29

Page 26: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Korpuszalapú és korpuszvezérelt

„A korpusz segédeszköz, ami empirikus adataival támogatja az intuí-ciót, mérhetové teszi a nyelvi jelenségeket, meglévo elméleteket bizo-nyít/cáfol.”

„A korpusz maga szolgáltatja az «elméletet», a nyelvész minden fel-tevés és elvárás nélkül fordul az adatokhoz. Minden következtetéstkizárólag korpuszmegfigyelésekbol von le.”

serendipity principle:lényeges jelenség véletlen felfedezése

pl.: Tognini-Bonelli: Corpus Linguistics at Work (2001)

26/29

Page 27: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Braille-rövidírás bovítése

ban/ben→ b (...

.

.

.

tt ...

.

.

.

t ...

.

.

.

tt tt→ ...

.

.

.

tt ) hoG→ h (...

.

.

.

tt t ...

.

.

.

tt t ...

.

.

.

t ttt→ ...

.

.

.

tt t )Alapötlet: a maximális rövidítési képességgel bíró ideális rövidírás a magyar nyelvkorpuszgyakorisági adatai alapján korpuszvezérelt módon, automatikusan kiala-kítható.Elv: a leheto leggyakoribb betukapcsolatokat kell a leheto legrövidebbre rövidíteni.

Eredmény: 33 új szabály

meg→mg (...

.

.

.

tt t ...

.

.

.

t t ...

.

.

.

tt tt→ ...

.

.

.

tt t ...

.

.

.

tt tt ) maGar→mG (...

.

.

.

tt t ...

.

.

.

t ...

.

.

.

t ttt ...

.

.

.

t ...

.

.

.

ttt t→ ...

.

.

.

tt t ...

.

.

.

t ttt )

Tanulság:A korpuszvezérelt módon létrehozott rendszer még úgy is kétszeres teljesítményreképes az intuíció illetve hagyomány talaján álló rendszerrel szemben, hogy máreleve jelentosen rövidített szövegen kell dolgoznia.

Ha valamit meglévo (korpuszgyakorisági) adatokból automatikusan származtatni tudunk,akkor nem érdemes intuitív megközelítést alkalmazni.

27/29

Page 28: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Igei szerkezetek felfedezése

vet [15728]vet -nAk VÉG-t [1463] vessen véget az eroszaknakvet SZEM-A-rA -t [805] hasonló diszkriminációkat vetnekaz albán hatóságok szemérevet -rA PILLANTÁS-t [708] vess egy pillantást a térképrevet -t [703] vetem a magotvet -rA -t [380] a humanista könyveket máglyára vetettékvet PAPÍR-rA -t [377] vesse papírra az új problémákatvet SZÁM-t -vAl [297] ez rossz fényt vet az edzok nevelomunkájáravet -rA FÉNY-t [267] vessünk számot eddigi politikánkkalvet -bA -t [252] a tó vizébe vetette magát

csóvál [1078]csóvál FEJ-A-t [754] csóválta a fejét

28/29

Page 29: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja

Korpusznyelvészet2016. április 18., ELTE

Sass BálintMTA Nyelvtudományi Intézet

[email protected]

29/29