bevezetés szöveg annotáció eszközök...
TRANSCRIPT
Bevezetés Szöveg Annotáció Eszközök Összegzés
Nyelvtechnológia - nyelvészeknekA korpusznyelvészettol a nyelvtechnológiáig
Váradi Tamás
MTA Nyelvtudományi Inté[email protected]
A 2006. november 30-án a Nyelvtudományi Intézetbentartott eloadás bovített változata
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Motiváció
Nyelvtechnológia – nyelvészeknek
nyelvészeknek - azaz nem informatikusoknaka nyelvtechnológiát az informatika hívta létreaz informatikában egyértelmuen igazolta magát
Vezérmotívum:Mennyi benne a nyelvészet?Mennyiben releváns a nyelvészet számára?Mit nyújt a nyelvészeknek?
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
A kihívás
A nyelvet a számítógép számára érthetové tenni
szövegek, szótárak, nyelvtanok — emberek készítikembereknekértésükhöz, alkalmazásukhoz nyelvi és világismeret kella számítógép számára mindezt expliciten meg kell adniaz igazi generatív vállalkozás
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemléleti különbség
Középpontban a beszéd (parole)Feladat: a nyelv visszafejtése (reverse engineering)nem „csak” a nyelv, hanem a nyelvhasználat(performancia)adatok és eljárások, algoritmusok — muködo rendszervégso soron az emberi beszédértés, beszédalkotásszimulálása
A robusztusság alapkövetelmény
a gond nem az adatok tömege, hanem „fésületlenségük”a szönyeg alá söprés nem megy
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemléleti különbség
Középpontban a beszéd (parole)Feladat: a nyelv visszafejtése (reverse engineering)nem „csak” a nyelv, hanem a nyelvhasználat(performancia)adatok és eljárások, algoritmusok — muködo rendszervégso soron az emberi beszédértés, beszédalkotásszimulálása
A robusztusság alapkövetelmény
a gond nem az adatok tömege, hanem „fésületlenségük”a szönyeg alá söprés nem megy
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemléleti különbség
Rapid megoldás mindenek felett
Terjedo paradigma: statisztikai nyelvi modellezéshttp://nlp.stanford.edu/links/statnlp.html
nyelvfüggetlen eljáráskiinduló adathalmaz ún. tanuló korpuszgépi tanuláshttp://en.wikipedia.org/wiki/Machine_learning
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Ki a korpusznyelvész?
Aki korpuszokat alkalmaz?
Korpuszt használni = független, külso adatokat alkalmaznia korpuszok használata egyre jobban beépül a nyelvészetigyakorlatbaettol még ki-ki megmarad francia, finnugor stb.nyelvésznek
Aki korpuszokat készít!A korpuszok készítése önálló szakma
A korpuszok megtervezéseösszeállításanyelvi elemzésemuködtetésekarbantartása
a korpusznyelvészet feladata
Bevezetés Szöveg Annotáció Eszközök Összegzés
Ki a korpusznyelvész?
Aki korpuszokat alkalmaz?
Korpuszt használni = független, külso adatokat alkalmaznia korpuszok használata egyre jobban beépül a nyelvészetigyakorlatbaettol még ki-ki megmarad francia, finnugor stb.nyelvésznek
Aki korpuszokat készít!A korpuszok készítése önálló szakma
A korpuszok megtervezéseösszeállításanyelvi elemzésemuködtetésekarbantartása
a korpusznyelvészet feladata
Bevezetés Szöveg Annotáció Eszközök Összegzés
Nem a Web a legjobb korpusz?
Miért nem?Teljesen bizonytalan eredetu (akár nem anyanyelvi)szövegekMéretét is legfeljebb becsülni lehet
Miért érdekes mégis?
Elképeszto tömegu szövegRendkivül gyorsan noA „legdemokratikusabb” médium: a beszélok mindeneddiginél szélesebb körét reprezentáljaBizonyos célokra így is jó, ahogy van (ld. a köv. táblázat)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Nem a Web a legjobb korpusz?
Miért nem?Teljesen bizonytalan eredetu (akár nem anyanyelvi)szövegekMéretét is legfeljebb becsülni lehet
Miért érdekes mégis?
Elképeszto tömegu szövegRendkivül gyorsan noA „legdemokratikusabb” médium: a beszélok mindeneddiginél szélesebb körét reprezentáljaBizonyos célokra így is jó, ahogy van (ld. a köv. táblázat)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Nem a Web a legjobb korpusz?
sports gear 1.220.000sporting gear 179.000
sports equipment 1.480.000sporting equipment 1.070.000
sports geer 73sporting geer 2
A „sportszer” szó lehetséges angol megfeleléseinekgyakorisága
Bevezetés Szöveg Annotáció Eszközök Összegzés
Nem a Web a legjobb korpusz? (folyt.)
KonklúzióGyors, elnagyolt mintavételBizonyos durva különbségekre jól használhatóAz elképesztoen nagy és rohamosan növekvo méretpáratlan elonyMeg kell tanulni kihasználni az elonyeit
Bevezetés Szöveg Annotáció Eszközök Összegzés
Mitol korpusz egy halom szöveg?
Korpusz <=> szövegarchívumKorpusz:
egységes elvek szerinti válogatásegységes kódolás
Bevezetés Szöveg Annotáció Eszközök Összegzés
Mitol korpusz egy halom szöveg?
Korpusz <=> szövegarchívumKorpusz:
egységes elvek szerinti válogatásegységes kódolás
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szöveg eredeti (HTML) alakban↓
elofeldolgozás↓
Csak szöveg↓
tokenizálás↓
Szöveg alapegységekre bontva↓
morfológiai elemzés↓
egyértelmusítés↓
Annotált szöveg
Bevezetés Szöveg Annotáció Eszközök Összegzés
MNSZ részlet 1
<?xml version="1.0" encoding="iso-8859-2" standalone="yes"?><text><!--beginning of orig--><!-- Digitalis Archivum ## /home2/projects/sulinet_ihm2003/corpus/src/muvek/bella/bella00502.iso-->
<div id="lit-dia-Bella_Istvan___Hetedik_kavics___1975.clean.1" type="konyv"><head><s><title type="konyvcim"><w LEMMA="Hetedik" CAT="Num" NOM>Hetedik</w><w LEMMA="kavics" CAT="N" NOM>kavics</w>
</title></s>
</head>
Bevezetés Szöveg Annotáció Eszközök Összegzés
MNSZ részlet 2
<poem><lg><l><w LEMMA=szanaszét" CAT="Adv">Szanaszét</w><w LEMMA="széled" CAT="V" e M 3>széledt</w><w LEMMA="ujj" CAT="N" e 1 INS PS i>ujjaimmal</w></l><l><w LEMMA="elveszett" CAT="MIB" NOM>elveszett</w><w LEMMA="koponya" CAT="N" e 1 NOM PS>koponyám</w><w LEMMA="most" CAT="Adv">most</w><w LEMMA="megkeres" CAT="V" e 1 T Pre>megkeresem</w><c lemma="," msd="WPUNCT" ctag="WPUNCT">,</c></l></lg>
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet pro és kontra
Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)
Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák
Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet pro és kontra
Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)
Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák
Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet pro és kontra
Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)
Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák
Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Néhány alapkérdés
A vizsgálandó adatok véges, zárt univerzumot alkotnak
pl. az 2006. okt. 23-án elhangzott összes rendorségirádióadás
kimerítoen lejegyezhetoa korpusz tartalmazza az ún. cél populációt
A vizsgálandó adatok véges, de túl nagy univerzumot alkotnak
az okt. 23-án elhangzott vagy leírt összes magyarmegnyilatkozás
elvileg véges, nagysága megbecsülhetogyakorlatilag rögzíthetetlena digitális kultúra terjedtével írásos része egyre nagyobbmértékben elérheto elektronikusana korpusz statisztikai minta
Bevezetés Szöveg Annotáció Eszközök Összegzés
Néhány alapkérdés
A vizsgálandó adatok véges, zárt univerzumot alkotnak
pl. az 2006. okt. 23-án elhangzott összes rendorségirádióadás
kimerítoen lejegyezhetoa korpusz tartalmazza az ún. cél populációt
A vizsgálandó adatok véges, de túl nagy univerzumot alkotnak
az okt. 23-án elhangzott vagy leírt összes magyarmegnyilatkozás
elvileg véges, nagysága megbecsülhetogyakorlatilag rögzíthetetlena digitális kultúra terjedtével írásos része egyre nagyobbmértékben elérheto elektronikusana korpusz statisztikai minta
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A korpusz mint minta
Mire legyen reprezentatív a korpusz?
a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról
a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan
Bevezetés Szöveg Annotáció Eszközök Összegzés
A mérheto adat
A sokaság szerepe
a korpusz megszámolhatóvá teszi az adatokata nagy méret kiegyenlíto szerepet játszikugyanakkor szinte kizárja a 100%-ospontosságot/adattisztaságot
A gyakoriság
új dimenziót nyit a nyelvelemzésbenfüggvénye a korpusz összetételének és méretének (mintaarányos-e a teljességgel?)szerepe a nyelvi kompetenciában növekvo mértékbenelismertaz emberi nyelvfeldolgozás modellezésében fontos szerep
Bevezetés Szöveg Annotáció Eszközök Összegzés
A mérheto adat
A sokaság szerepe
a korpusz megszámolhatóvá teszi az adatokata nagy méret kiegyenlíto szerepet játszikugyanakkor szinte kizárja a 100%-ospontosságot/adattisztaságot
A gyakoriság
új dimenziót nyit a nyelvelemzésbenfüggvénye a korpusz összetételének és méretének (mintaarányos-e a teljességgel?)szerepe a nyelvi kompetenciában növekvo mértékbenelismertaz emberi nyelvfeldolgozás modellezésében fontos szerep
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet és szociolingvisztika
Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés
Manapság (mega- és giga korpuszok)
hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira
Hiánycikk: homogén beszédközösséget megörökíto korpusz)
demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/
Jön: BUSZI
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet és szociolingvisztika
Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés
Manapság (mega- és giga korpuszok)
hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira
LDC
Hiánycikk: homogén beszédközösséget megörökíto korpusz)
demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/
Jön: BUSZI
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet és szociolingvisztika
Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés
Manapság (mega- és giga korpuszok)
hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira
Hiánycikk: homogén beszédközösséget megörökíto korpusz)
demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/
Jön: BUSZI
Bevezetés Szöveg Annotáció Eszközök Összegzés
Ritka kivételek
British National Corpus (BNC)www.natcorp.ox.ac.uk
10 %-nyi (10 m szó!) hanganyag demográfiai mintavételleladatközlokrol gondos szociológiai nyilvántartás
International Corpus of English (ICE-GB)www.ucl.ac.uk/english-usage/projects/ice-gb
500 szöveg (1 m szó) nagyobb része, 300(!) hanganyagminden mondat szintaktikai szerkezete kézzel annotálvaszintaktikai ágrajz és hallható hangfejlett keresési lehetoség a szintaktikai faszerkezetben
Bevezetés Szöveg Annotáció Eszközök Összegzés
Ritka kivételek
British National Corpus (BNC)www.natcorp.ox.ac.uk
10 %-nyi (10 m szó!) hanganyag demográfiai mintavételleladatközlokrol gondos szociológiai nyilvántartás
International Corpus of English (ICE-GB)www.ucl.ac.uk/english-usage/projects/ice-gb
500 szöveg (1 m szó) nagyobb része, 300(!) hanganyagminden mondat szintaktikai szerkezete kézzel annotálvaszintaktikai ágrajz és hallható hangfejlett keresési lehetoség a szintaktikai faszerkezetben
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpusznyelvészet és szövegnyelvészet
A nyelvi változatok vizsgálata
rétegnyelv, szaknyelv, genre, registerMilyen belso nyelvi jellemzok alapján határozhatók meg?Nagy korpuszon vizsgálható igazánHasznos visszacsatolás a korpusznyelvészet számára is
Bevezetés Szöveg Annotáció Eszközök Összegzés
Párhuzamos korpuszok
Forrásszöveg és annak fordítása
Fordítási megfelelok a mondatok szintjén illesztveillesztés a hunalign eszközzel:http://mokk.bme.hu/resources/hunalign
Nagy erokkel folyik kutatás a mondaton belüli egységekillesztéséreStatisztikai módszerekA statisztikai gépi fordítás óriási páruzamos korpusztigényelhttp://www.statmt.org/
Bevezetés Szöveg Annotáció Eszközök Összegzés
Többnyelvu korpuszokEurópai Parlamenthttp://logos.uio.no/opus/europarl.html
Acquis Communautaire - EU jogszabálygyujteményhttp://langtech.jrc.it/JRC-Acquis.html
Multext-East korpusz és lexikai adatbázishttp://nl.ijs.si/ME/V3/
Magyar-angol korpuszokHunglish korpuszszotar.mokk.bme.hu/hunglish/search/corpus
Acquis Communautaire - EU jogszabálygyujteményhttp://langtech.jrc.it/JRC-Acquis.html
Orwell korpuszhttp://corpus.nytud.hu/orwell
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Az annotáció szerepe
Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni
Két lehetséges megvalósítás
Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)
Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Lexikai elemzés
Morfológia
Mára már három teljesköru rendszerHUMOR – MorphoLogic KftHUNMORPH – BME MOKKElekfi-rendszer – MTA NYTI
Lexikai adatbázisigei vonzatkeret adatbázis
kb. 30 ezer igei keret, felszini esetek, szemantikai jegyek,egyedi lexikai elemek is
névszói adatbázisév végére kb. 100 ezer névszó nyelvtani, szemantikaijegyekkel kódolva
Bevezetés Szöveg Annotáció Eszközök Összegzés
Lexikai elemzés
Morfológia
Mára már három teljesköru rendszerHUMOR – MorphoLogic KftHUNMORPH – BME MOKKElekfi-rendszer – MTA NYTI
Lexikai adatbázisigei vonzatkeret adatbázis
kb. 30 ezer igei keret, felszini esetek, szemantikai jegyek,egyedi lexikai elemek is
névszói adatbázisév végére kb. 100 ezer névszó nyelvtani, szemantikaijegyekkel kódolva
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szintaktikai elemzés
ElemzokEgyelore részleges eredmények
METAMORPHO – MorfoLogik KftHUNPARS – BME MOKKNP, AP elemzo, tagmondat felismero – MTA NYTI
Szintaktikai adatbázis (treebank)www.inf.u-szeged.hu/projectdirs/hlt/corpus2.htm
Szeged korpusz1.200.000 szövegszó hat nyelvi változatbólkézzel szerkesztett szintaktikai annotáció
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szintaktikai elemzés
ElemzokEgyelore részleges eredmények
METAMORPHO – MorfoLogik KftHUNPARS – BME MOKKNP, AP elemzo, tagmondat felismero – MTA NYTI
Szintaktikai adatbázis (treebank)www.inf.u-szeged.hu/projectdirs/hlt/corpus2.htm
Szeged korpusz1.200.000 szövegszó hat nyelvi változatbólkézzel szerkesztett szintaktikai annotáció
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemantikai elemzés
WordnetHierarchikus lexikai adatbázis (George Miller, Princeton)Mentális lexikon modelljeEuroWordNet, BalkaNet
Magyar Wordnet
40 000 szavas magyar változatJövo év közepéreInterlingual Index (ILI) – átjárás a többi Wordnetváltozatokhoz
PWN
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemantikai elemzés
WordnetHierarchikus lexikai adatbázis (George Miller, Princeton)Mentális lexikon modelljeEuroWordNet, BalkaNet
Magyar Wordnet
40 000 szavas magyar változatJövo év közepéreInterlingual Index (ILI) – átjárás a többi Wordnetváltozatokhoz
HWN
Bevezetés Szöveg Annotáció Eszközök Összegzés
Szemantikai annotáció
Névkifejezések annotációjaTulajdonnév kifejezések - osztályba sorolva
személy-, intézmény-, földrajzi nevek stb.dátum, pénz, mennyiség kifejezések
szövegekben tömegesen fordulnak eloHUNNER projekt (MOKK, Szeged, NYTI)
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
XML pro és kontra
Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok
Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú
Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpuszkezelo eszközök
Barátságos, személyi használatra szóló eszközökWORDSMITH www.lexically.net/wordsmith
MONOCONC www.athel.com/mono.html
PARACONC www.athel.com/para.html
Ipari méretu eszközökXAIRA www.oucs.ox.ac.uk/rts/xaira/
BONITO nlp.fi.muni.cz/projects/bonito/
IMS CORPUS WORKBENCH
www.ims.uni-stuttgart.de/projekte/CorpusWorkbench
Bevezetés Szöveg Annotáció Eszközök Összegzés
Korpuszkezelo eszközök
Barátságos, személyi használatra szóló eszközökWORDSMITH www.lexically.net/wordsmith
MONOCONC www.athel.com/mono.html
PARACONC www.athel.com/para.html
Ipari méretu eszközökXAIRA www.oucs.ox.ac.uk/rts/xaira/
BONITO nlp.fi.muni.cz/projects/bonito/
IMS CORPUS WORKBENCH
www.ims.uni-stuttgart.de/projekte/CorpusWorkbench
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
CLaRK - XML szerkeszto és elemzo
http://www.bultreebank.org/clark/index.html
ingyenes xml szerkeszto eszközlépcsozetes, reguláris grammatikákvéges állapotú technológiapárhuzamos korpusz kezelésére is alkalmastestre szabható, jól kezelheto felület
Bevezetés Szöveg Annotáció Eszközök Összegzés
Vázlat1 Bevezetés
MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet
2 SzövegKorpusztervezésKorpusznyelvészet és társterületei
3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia
4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer
5 Összegzés
Bevezetés Szöveg Annotáció Eszközök Összegzés
NooJ - végesállapotú keretrendszer
Háttérelvek: Maurice Gross, LADL (eros kapcsolat Harriselveivel)lokális grammatika – a lokális függoségekre épülo lexikálisgrammatikasok rokonság a konstrukciós grammatikával:lexikon és grammatika egybemosódása,erosen lexikális meghatározottság stb.Max Silberztein INTEX majd NOOJ szoftver eszköz
Bevezetés Szöveg Annotáció Eszközök Összegzés
NooJ - végesállapotú keretrendszer
Korpuszkezelo eszközgyors, könnyu kezelésfelszini alakok és komplex grammatikai részrendszerekegyaránt lekérdezhetok
Grammatika-fejleszto eszközteljesköru morfológiakomoly lexikon, típusba sorolt jegyrendszerrelbovítheto, gazdagítható szótári komponenslépcsozetesen futtatható lokális grammatikákfejlett grammatikai eszközkészlet
lexikai szurés, jegy egyeztetés, jegy örökítés
Bevezetés Szöveg Annotáció Eszközök Összegzés
NooJ - végesállapotú keretrendszer
Integrált rendszer
az eszköz nyelvfüggetlenakár nulláról felépíthetünk egy grammatikátminden egységesen véges állapotú transzducerkéntmuködikgyors, robusztuskönnyen kezelheto
lexikon és morfológia szövegfájl-ban szerkeszthetonyelvtanok gráfok formájában, intuitív felületen készíthetok
www.nooj4nlp.net
Bevezetés Szöveg Annotáció Eszközök Összegzés
Magyar változat
Az alap infrastruktúra
az ÉKSz. szókészletének teljesköru ragozása80 ezer címszó – kb. 130 m szóalakoptimalizálás még hátravanindulhat a magyar nyelvtanfejleszto munka!
Érdeklodo partnereket keresünk!corpus.nytud.hu/NooJ
Bevezetés Szöveg Annotáció Eszközök Összegzés
Magyar változat
Az alap infrastruktúra
az ÉKSz. szókészletének teljesköru ragozása80 ezer címszó – kb. 130 m szóalakoptimalizálás még hátravanindulhat a magyar nyelvtanfejleszto munka!
Érdeklodo partnereket keresünk!corpus.nytud.hu/NooJ
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Összegzés
A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni
Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények
Bevezetés Szöveg Annotáció Eszközök Összegzés
Köszönöm a figyelmet!corpus.nytud.hu/people/varadi/talks/nyelvtec.pdf