označevanje korpusov png slovenistika ii. letnik 2006
DESCRIPTION
Označevanje korpusov PNG Slovenistika II. letnik 2006. 7.4.2006. Pregled predavanja. Ravni označevanja Označevalne tehnike Oznake korpusa FIDA. Označevanje. besedil o analiz iramo na določeni jezikovni ravni rezultat analize zapišemo v korpus, t.j. korpus označimo - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/1.jpg)
Označevanje korpusov
PNG SlovenistikaII. letnik 2006
7.4.20067.4.2006
![Page 2: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/2.jpg)
Pregled predavanja1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA
![Page 3: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/3.jpg)
Označevanje besedilbesedilo o analizanaliziramoiramo na določeni na določeni
jezikovni ravnijezikovni ravni rezultat analize zapišemo v korpus, t.j. rezultat analize zapišemo v korpus, t.j.
korpus označimokorpus označimo tak korpus je nato primeren za nadaljno, tak korpus je nato primeren za nadaljno,
bolj poglobljeno obravnavobolj poglobljeno obravnavo ljudje lahko iščejo (tudi) po pripisanih ljudje lahko iščejo (tudi) po pripisanih
oznakahoznakah računalniki lahko oznake uporabijo za računalniki lahko oznake uporabijo za
nadaljne procesiranjnadaljne procesiranjee
![Page 4: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/4.jpg)
Ravni označevanja označujemo lahko praktično karkoli kar je označujemo lahko praktično karkoli kar je
koristno za neko aplikacijokoristno za neko aplikacijo delitev po ravneh jezikoslovne obravnave:delitev po ravneh jezikoslovne obravnave:
oblikoslovjeoblikoslovje leksikaleksika skladnjaskladnja semantikasemantika
primeri: primeri: 1.1. oblikoslovno označevanjeoblikoslovno označevanje2.2. lematizacijalematizacija3.3. lluščenje poimenovanih entitetuščenje poimenovanih entitet4.4. pprevedba kazalkrevedba kazalk5.5. sskladenjsko označevanjekladenjsko označevanje
![Page 5: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/5.jpg)
Oblikoslovno označevanje vsaki besedi v besedilu pripišemo njene vsaki besedi v besedilu pripišemo njene
oblikoslovne lastnosti, npr. samostalnik oblikoslovne lastnosti, npr. samostalnik moškega spola ednine, v orodnikumoškega spola ednine, v orodniku
oblikoslovne oblikoslovne lastnosti solastnosti so odvisn odvisnee od od besedne oblike in njenega konteksta:besedne oblike in njenega konteksta:HotelHotel[V][V] je popust pri plačilu računa za je popust pri plačilu računa za hotelhotel[N][N]..
![Page 6: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/6.jpg)
Lematizacija in krnjenje lema besede je njena osnovna oblika, npr. lema besede je njena osnovna oblika, npr.
mize mize miza mizahodil hodil hoditi hoditinočem nočem ? ?čl.čl. ? ?
lema nima jezikoslovnega pomena, pač pa je lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besedekonvencionalna neoznačena oblika besede
kot pri oblikoslovnem označevanju, je lema določena kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:šele skozi kontekst:hotela hotela hotel hotel ali ali hotetihotetisedel sedel sedeti sedeti ali ali sestisesti
krnenje ohrani samo osnovo besede:krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotela, hotelskega, … hotel hotelmize, miza, mizarstvo mize, miza, mizarstvo miz (mizarstv?) miz (mizarstv?)
krnenje najprej razvito za angleščino (kjer večinoma krnenje najprej razvito za angleščino (kjer večinoma lema=krn)lema=krn)
krnenje je bolj uporabno za zajemanje in luščenje krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction) informacij (information retrieval and extraction)
![Page 7: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/7.jpg)
Luščenje poimenovanih entitetNamed Entity ExtractionNamed Entity Extraction (NER) (NER): identifikacija in : identifikacija in
kategorizacija fraz, ki označujejo “entitete”kategorizacija fraz, ki označujejo “entitete” lastna imena: ljudje, organizacije, geografska lastna imena: ljudje, organizacije, geografska
imena (mesta, države, reke,…)imena (mesta, države, reke,…) številski izrazi (številski izrazi (22.320,34; 22,320.34; dvajset22.320,34; 22,320.34; dvajset)) količinekoličine::
procentiprocenti ( (%, procentov%, procentov)), valute, valute ( (SIT, $SIT, $)), teža, teža (kg, (kg, mm22) )
datumi in časidatumi in časi: : 22 januarja, 45 n.š., 23:14, 11PM22 januarja, 45 n.š., 23:14, 11PM naslovinaslovi:: poštni, email, www poštni, email, www tudi imena zdravil, genov, ladij, bibliografske tudi imena zdravil, genov, ladij, bibliografske
enote, …enote, …
![Page 8: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/8.jpg)
Kje se NER uporablja izredno pomembno za zajemanje izredno pomembno za zajemanje
in luščenje informacij (Information in luščenje informacij (Information Retrieval and Extraction): kdo, kaj, Retrieval and Extraction): kdo, kaj, kje, kdaj, kolikokje, kdaj, koliko
tekmovanje MUC-7 (Message tekmovanje MUC-7 (Message Understanding Conferences, 1997, Understanding Conferences, 1997, ZDA)ZDA)
![Page 9: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/9.jpg)
Primer uporabe: sledenje po entitetah in ontologiji: http://www.ontotext.com/kim
![Page 10: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/10.jpg)
Problemi v NER
variacije: variacije: John Smith, Mr Smith, JohnJohn Smith, Mr Smith, John dvoumnost: dvoumnost:
John Smith John Smith (podjetje ali oseba)(podjetje ali oseba) May (oseba ali mesec) May (oseba ali mesec) Washington (oseba ali kraj) Washington (oseba ali kraj) 1945 (datum ali čas) 1945 (datum ali čas)
dvoumnost z navadnimi besedamidvoumnost z navadnimi besedami
![Page 11: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/11.jpg)
Prevedba kazalkAnaphora resolution: določitev referenta Anaphora resolution: določitev referenta
kazalk, npr. kazalk, npr. TThe queenhe queen is not here yet, but is not here yet, but sheshe is expected to arrive soon. is expected to arrive soon.
she:she: anafora; anafora; the queen: the queen: antecedentantecedentV slovenščini dodatni problemi zaradi V slovenščini dodatni problemi zaradi
izpuščanja kazalk:izpuščanja kazalk:Pop zvezdnica Pop zvezdnica Madonna Madonna je objavila datume je objavila datume svoje prihajajoče turneje “Confessions”. V svoje prihajajoče turneje “Confessions”. V Evropi bo Evropi bo svojsvoj prvi koncert turneje imela v prvi koncert turneje imela v Cardiffu 30. julija, prav tako Cardiffu 30. julija, prav tako bo nastopilabo nastopila… …
![Page 12: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/12.jpg)
Skladenjsko označevanje predavanje 19.5.206predavanje 19.5.206 stavke (povedi) označujemo s skadenjskimi stavke (povedi) označujemo s skadenjskimi
relacijamirelacijami se razmeroma malo uporablja v jezikovnih se razmeroma malo uporablja v jezikovnih
tehnologijah: preveč napak, preveč dvoumnosti, tehnologijah: preveč napak, preveč dvoumnosti, prepočasiprepočasi
namesto tega se uporablja plitke metode, npr. namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi)“NP chunking” (samostalniški kosi)
kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)
![Page 13: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/13.jpg)
Druge oznake terminitermini pomensko označevanje pomensko označevanje (glass(glass11, glass, glass22, …) , …) večjezični korpusi: večjezični korpusi: stavčna poravnava stavčna poravnava
vzporednih korpusovvzporednih korpusov, , poravnava poravnava prevodnih ekvivalentovprevodnih ekvivalentov
govorjeni korpusi: poravnava transkripcije govorjeni korpusi: poravnava transkripcije s signaloms signalom
……
![Page 14: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/14.jpg)
1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA
![Page 15: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/15.jpg)
Ročno označevanje s pomočjo urejevalnika ekspert (jezikoslovec) s pomočjo urejevalnika ekspert (jezikoslovec)
označuje korpusoznačuje korpus potrebna je natančna definicija “gramatike”, potrebna je natančna definicija “gramatike”,
t.j. nabora dovoljenih kategorij oz. relacij t.j. nabora dovoljenih kategorij oz. relacij dobrodošlo je preverjanje: formalno, vsebinskodobrodošlo je preverjanje: formalno, vsebinsko problem posebej akuten, ko je več problem posebej akuten, ko je več
označevalcev: izdelava priročnika, vzporedno označevalcev: izdelava priročnika, vzporedno označevanjeoznačevanje
za nekatera področja (semantično za nekatera področja (semantično označevanje) je ujemanje med različnimi označevanje) je ujemanje med različnimi označevalci < 70%označevalci < 70%
![Page 16: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/16.jpg)
Strojno označevanje1.1. z ročno napisanimi praviliz ročno napisanimi pravili2.2. s strojnim učenjem, na osnovi s strojnim učenjem, na osnovi
ročno označene učne množiceročno označene učne množice3.3. s strojim učenjem, na osnovi s strojim učenjem, na osnovi
neoznačene učne množiceneoznačene učne množice
(pogosta kombinacija strojnega in (pogosta kombinacija strojnega in ročnega označevanja, v več korakih)ročnega označevanja, v več korakih)
![Page 17: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/17.jpg)
Natančnost in pokritje[Simulacijski model][Simulacijski model] [terorističnega delovanja][terorističnega delovanja] razvijamo skupaj s partnerjem razvijamo skupaj s partnerjem [Guardiaris za [Guardiaris za naročnika]naročnika] [Oddelek za raziskave in simulacije[Oddelek za raziskave in simulacije] ] na na [Ministrstvu za obrambo RS][Ministrstvu za obrambo RS]..
dejanski najdenidejanski najdeni
izpuščeni pravilniizpuščeni pravilni napačni napačni
natačnost = pravilni/najdeni x 100%
pokritje = pravilni/dejanski x 100%
natančnost in pokritje sta obratno sorazmerna
mera F = geometrična sredina natančnosti in pokritja
![Page 18: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/18.jpg)
Ročno napisana pravila programi, ki delajo s pomočjo ročno programi, ki delajo s pomočjo ročno
napisanih pravil napisanih pravil (jezikoslovec/računalničar)(jezikoslovec/računalničar)
programi zahtevajo zelo formalna programi zahtevajo zelo formalna pravila, omejena glede na izbrano pravila, omejena glede na izbrano teorijo/formalizem/implementacijoteorijo/formalizem/implementacijo
problemi: problemi: pokritje, krhkost, dvoumnost, hitrostpokritje, krhkost, dvoumnost, hitrost
![Page 19: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/19.jpg)
Vodeno učenje (supervised learning) (supervised learning) program se uči na osnovi program se uči na osnovi
ročno označenih podatkovročno označenih podatkov večina programov uporablja statistične večina programov uporablja statistične
metode (maksimizirajo verjetnost)metode (maksimizirajo verjetnost) tudi tudi metode t.i. strojnega učenja:metode t.i. strojnega učenja:
program se uči pravila program se uči pravila prednostiprednosti pred statističnimi metodami pred statističnimi metodami: :
pravila so (do neke mere) razumljivapravila so (do neke mere) razumljiva slabostslabostii: :
bolj zamudno učenje, mogoče tudi uporababolj zamudno učenje, mogoče tudi uporaba primeri: primeri:
1.1. oblikoslovno označevanjeoblikoslovno označevanje2.2. lematizacija CLOGlematizacija CLOG3.3. lematizacija RDRlematizacija RDR
![Page 20: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/20.jpg)
Primer statističnega označevanja: oblikoslovno označevanjePProgram TnT (Trigrams and tags):rogram TnT (Trigrams and tags):iščeišče Vmip3s--nVmip3s--nnajboljnajbolj RgsRgsverjetnoverjetno AfpnsnAfpnsnzaporedjezaporedje NcnsnNcnsnoblikoslovnihoblikoslovnih AfpfpgAfpfpgoznakoznak NcfpgNcfpggledeglede RgpRgpnana SpsaSpsabesedebesede NcfpaNcfpa
![Page 21: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/21.jpg)
Delovanje n-gramskih označevalnikovDva vira znanja, naučena iz označenega korpusa:Dva vira znanja, naučena iz označenega korpusa: leksikon: kaj so možne oblikoslovne oznake leksikon: kaj so možne oblikoslovne oznake
neke besede?neke besede?besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18
kontekst: katera kontekst: katera od možnih oznak besede je od možnih oznak besede je najbolj verjetna glede na sosednje oznake?najbolj verjetna glede na sosednje oznake?
seznam trojk oblikoslovnih oznak s frekvencami:seznam trojk oblikoslovnih oznak s frekvencami:Ncfsg 1375 Ncfsg 1375
Vcip3s--n 54 Vcip3s--n 54 Vcps-smaVcps-sma 4 4 Afpmsnn Afpmsnn 1 1 Vmps-smaVmps-sma 1111Z uporabo Viterbijevega algoritma izračuna Z uporabo Viterbijevega algoritma izračuna
najbolj verjetno zaporedje oznaknajbolj verjetno zaporedje oznakUpošteva se samo lokalni kontekst!Upošteva se samo lokalni kontekst!
![Page 22: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/22.jpg)
Primer razdvoumljanja
prislprisl tožtož zz
začetekzačetek
samsam
pridprid
imenimen
rodrod
xx
yy koneckonec
Leks
ikon
Leks
ikon
n-gramin-grami
samsam
tožtož zz
beseda1 beseda2 beseda3beseda1 beseda2 beseda3
0.030.03
0.03 0.03 0.91 0.91 0.450.45 0.560.56
0.04 0.14 0.8 0.04 0.14 0.8 0.32 0.32
0.770.77 0.430.43
0.10.1 0.010.01
0.55 0.710.55 0.71
0.20.2 0.4 0.4 0.020.02
0.70.7 0.1 0.1 0.880.88
0.10.1 0.5 0.5 0.1 0.1
![Page 23: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/23.jpg)
Primer strojnega učenja: lematizacija s CLOG program dobi učno množico za vsako oblikoslovno oznakoprogram dobi učno množico za vsako oblikoslovno oznako
posebej posebej (predpostavimo predhodno oblikoslovno označevanje)(predpostavimo predhodno oblikoslovno označevanje) če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi
lemalema edina informacija, ki jo ima program o besedi, edina informacija, ki jo ima program o besedi, poleg njene poleg njene
oblikoslovne oznake oblikoslovne oznake je njena oblika (končnica)je njena oblika (končnica) učna množica je sestavljena iz parov besedna oblika/lema:učna množica je sestavljena iz parov besedna oblika/lema:
Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]). Ncfsg([n,o,s,u],[n,o,s]).
![Page 24: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/24.jpg)
Pravila CLOG pravila so tipa X-priponapravila so tipa X-pripona11 X-pripona X-pripona22 pravila so urejena od specifičnih k splošnimpravila so urejena od specifičnih k splošnim program pravilno lematizira vse besede iz učne množnice (razen program pravilno lematizira vse besede iz učne množnice (razen
dvoumnih (sedel = sesti/sedeti), poudarek je na neznanihdvoumnih (sedel = sesti/sedeti), poudarek je na neznanih odločitveni seznam za lematizacijo samostalnikov ženskega spola v odločitveni seznam za lematizacijo samostalnikov ženskega spola v
rodilniku:rodilniku: Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[e],[a]),!.Ncfsg(A,B):-mate(A,B,[e],[a]),!.
![Page 25: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/25.jpg)
Lematizator RDR Ripple Down Rules: drugačen pristop k učenju
odločitvenih seznamov pravilo RDR:
if -V then 0to0 because of [BRESKEV, POSTAVITEV]except if -HTEV then 0toA because of [ZAHTEV]
ta lematizator ne upošteva oblikoslovnih oznak, pač pa se odloča samo na osnovi končnice:
bolje ker je potrebno za lematizacijo manj znanja, s čimer tudi odpade vir napak
slabše ker je znanje o oblikoslovni kategoriji besedne oblike nujno za dobro lematizacijo:zagledala / zagledati, pedala / pedalo, FIDA+ *edala&~#2s*&~#2g* = 0022490.0000004 “Skratka , eden od mnogih mojih intervjujev v stilu srečnasemkajbisesprenevedala.”
![Page 26: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/26.jpg)
Učenje brez vodenja strogo statistične metodestrogo statistične metode
(Clustering, Maximim Entropy, Minimum Description Length) (Clustering, Maximim Entropy, Minimum Description Length) primer je identifikacija kolokacij (besednih zvez)primer je identifikacija kolokacij (besednih zvez) poišči vse besede, ki se bolj pogosto kot je poišči vse besede, ki se bolj pogosto kot je
običajno pojavljajo skupajobičajno pojavljajo skupaj statistične formule; problem so zelo redke statistične formule; problem so zelo redke
((ŠepetalecŠepetalec ubija ubija) in zelo pogoste besede () in zelo pogoste besede (je je rekelrekel) )
iskanje kolokatorjev v orodju Wordsmith:iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besedepričakovano pojavljajo v bližini ključne besede
![Page 27: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/27.jpg)
1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA
![Page 28: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/28.jpg)
Oblikoslovne oznake oznaka podaja oblikoskladenjsko oznaka podaja oblikoskladenjsko
funkcijo besede v besedilufunkcijo besede v besedilu oznake najprej razvite za angleščino:oznake najprej razvite za angleščino:
glavni problem je ločiti med glavni problem je ločiti med besednimi vrstami (runbesednimi vrstami (run[v][v] / run / run[[NN]]))
revno oblikoslovje revno oblikoslovje malo malo različnih oznak, 20—100različnih oznak, 20—100
![Page 29: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/29.jpg)
BNC BASIC TAGSET AJ0 Adjective (general or positive) (e.g. good, old,
beautiful) AJC Comparative adjective (e.g. better, older) AJS Superlative adjective (e.g. best, oldest) AT0 Article (e.g. the, a, an, no) …… CJC Coordinating conjunction (e.g. and, or, but) CJS Subordinating conjunction (e.g. although, when) CJT The subordinating conjunction that CRD Cardinal number (e.g. one, 3, fifty-five, 3609) NN0 Common noun, neutral for number (e.g. aircraft,
data) NN1 Singular common noun (e.g. pencil, goose, time) NN2 Plural common noun (e.g. pencils, geese, times) NP0 Proper noun (e.g. London, Michael, Mars, IBM) ORD Ordinal numeral (e.g. first, sixth, 77th, last) ……
![Page 30: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/30.jpg)
Nabori oznak za oblikoslovno bogate jezike besedne oblike vsebujejo mnogo več besedne oblike vsebujejo mnogo več
informacije: spol, število, sklon, živost, določnostinformacije: spol, število, sklon, živost, določnost primer zaimkov:primer zaimkov:
osebni, svojilni, povratni…osebni, svojilni, povratni… pridevniški, samostalniškipridevniški, samostalniški 3 števila, 3 spol3 števila, 3 spolii, 6 sklonov, 6 sklonov spol in število “svojine” …spol in število “svojine” … > 1000 različnih oznak> 1000 različnih oznak
pri razdvoumljanju veliko več problemov z pri razdvoumljanju veliko več problemov z oblikoslovnimoblikoslovnimii podatki kot pa z besedno vrsto podatki kot pa z besedno vrsto
![Page 31: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/31.jpg)
Nabori oznak za slovenščino nabor ZRC SAZU, http://bos.zrc-sazu.si/ nabor ZRC SAZU, http://bos.zrc-sazu.si/
+ sledi slovenski slovnicisledi slovenski slovnici+ okrajšave čim bolj mnemonične okrajšave čim bolj mnemonične + z njim ročno označen velik korpus (1M besed)z njim ročno označen velik korpus (1M besed)- nabor oznak ni bil vnaprej določennabor oznak ni bil vnaprej določen- oznake razlikujejo nemotivirane kategorije (tipi lastnih oznake razlikujejo nemotivirane kategorije (tipi lastnih
imen)imen)- označeni korpus ni dostopen za prenosoznačeni korpus ni dostopen za prenos
nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ + upošteva mednarodne standardeupošteva mednarodne standarde+ oznake je možno mehanično razstavljati oznake je možno mehanično razstavljati + z njim strojno označen velik korpus (FIDA, 100M besed)z njim strojno označen velik korpus (FIDA, 100M besed)+ ročno označeni korpus prosto dostopen (100k besed)ročno označeni korpus prosto dostopen (100k besed)- izpušča nekatere motivirane kategorije (povedkovnik, izpušča nekatere motivirane kategorije (povedkovnik,
besedna vrsta okrajšave)besedna vrsta okrajšave)- skop priročnikskop priročnik
npr. npr. Pže1, E5Pže1, E5 proti proti Afpfsn, SpslAfpfsn, Spsl
![Page 32: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/32.jpg)
MULTEXT-East oblikoslovne specifikacije dostopne na dostopne na
http://nl.ijs.si/ME/V3/msd/http://nl.ijs.si/ME/V3/msd/ verzija 3, 2004-05-10 verzija 3, 2004-05-10 sestavljene iz uvoda, skupnih tabel, sestavljene iz uvoda, skupnih tabel,
in poglavij za posamezne jezikein poglavij za posamezne jezike originalno v LaTeX, izvedeni formati originalno v LaTeX, izvedeni formati
v HTML, PDF, XMLv HTML, PDF, XML
![Page 33: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/33.jpg)
Osnovni namen specifikacij MULTEXT-EastDoločijo: Določijo: 1.1. katere oblikoslovne oznake so katere oblikoslovne oznake so
dovoljene za posamezne jezike,dovoljene za posamezne jezike,2.2. kaj pomenijo:kaj pomenijo:
Vmip3d--n = Vmip3d--n = PoS:Verb, Type:main, VForm:indicative, PoS:Verb, Type:main, VForm:indicative, Tense:present, Person:third, Number:dual, Tense:present, Person:third, Number:dual, Gender:-, Voice:-, Negative:noGender:-, Voice:-, Negative:no
3.3. in še kaj..in še kaj..
![Page 34: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/34.jpg)
Skupne tabele specifikacij
![Page 35: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/35.jpg)
Nabor slovenskih oznak v ročno označenem korpusu v ročno označenem korpusu
MULTEXT-East je prisotnih 1023 MULTEXT-East je prisotnih 1023 različnih oznakrazličnih oznak
v oblikoslovnem leksikonu MULTEXT-v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083East jih je prisotnih 2083
oznake z angleško razlago dostopne oznake z angleško razlago dostopne v v
msd-sl.txtmsd-sl.txt
![Page 36: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/36.jpg)
Specifikacije: poglavje za slovenščino
![Page 37: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/37.jpg)
Lokalizacija Afcfda = Pkpzdt Afcfda = Pkpzdt Afcfda = Adjective qualificative Afcfda = Adjective qualificative
comparative feminine dual comparative feminine dual accusative accusative
Pkpzdt = Pridevnik kakovostni Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik primernik ženski dvojina tožilnik
![Page 38: Označevanje korpusov PNG Slovenistika II. letnik 2006](https://reader031.vdocuments.pub/reader031/viewer/2022020201/568155c6550346895dc39a8c/html5/thumbnails/38.jpg)
Oznake korpusa FIDA oznake MULTEXT-East, prevedene v oznake MULTEXT-East, prevedene v
slovenščino se uporabljajo v korpusu FIDAslovenščino se uporabljajo v korpusu FIDA v FIDA za vsako besedo prisotne vse v FIDA za vsako besedo prisotne vse
možne oblike za to besedno oblikomožne oblike za to besedno obliko 2271 različnih oznak2271 različnih oznak tabela en-sl oznak s slovenskimi tabela en-sl oznak s slovenskimi
razlagami dostopna na msdFIDA-sl.txtrazlagami dostopna na msdFIDA-sl.txt tabela z razlagami je dostopna tudi na tabela z razlagami je dostopna tudi na
straneh FIDA+straneh FIDA+