Transcript
Page 1: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Označevanje korpusov

PNG SlovenistikaII. letnik 2006

7.4.20067.4.2006

Page 2: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Pregled predavanja1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 3: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Označevanje besedilbesedilo o analizanaliziramoiramo na določeni na določeni

jezikovni ravnijezikovni ravni rezultat analize zapišemo v korpus, t.j. rezultat analize zapišemo v korpus, t.j.

korpus označimokorpus označimo tak korpus je nato primeren za nadaljno, tak korpus je nato primeren za nadaljno,

bolj poglobljeno obravnavobolj poglobljeno obravnavo ljudje lahko iščejo (tudi) po pripisanih ljudje lahko iščejo (tudi) po pripisanih

oznakahoznakah računalniki lahko oznake uporabijo za računalniki lahko oznake uporabijo za

nadaljne procesiranjnadaljne procesiranjee

Page 4: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ravni označevanja označujemo lahko praktično karkoli kar je označujemo lahko praktično karkoli kar je

koristno za neko aplikacijokoristno za neko aplikacijo delitev po ravneh jezikoslovne obravnave:delitev po ravneh jezikoslovne obravnave:

oblikoslovjeoblikoslovje leksikaleksika skladnjaskladnja semantikasemantika

primeri: primeri: 1.1. oblikoslovno označevanjeoblikoslovno označevanje2.2. lematizacijalematizacija3.3. lluščenje poimenovanih entitetuščenje poimenovanih entitet4.4. pprevedba kazalkrevedba kazalk5.5. sskladenjsko označevanjekladenjsko označevanje

Page 5: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oblikoslovno označevanje vsaki besedi v besedilu pripišemo njene vsaki besedi v besedilu pripišemo njene

oblikoslovne lastnosti, npr. samostalnik oblikoslovne lastnosti, npr. samostalnik moškega spola ednine, v orodnikumoškega spola ednine, v orodniku

oblikoslovne oblikoslovne lastnosti solastnosti so odvisn odvisnee od od besedne oblike in njenega konteksta:besedne oblike in njenega konteksta:HotelHotel[V][V] je popust pri plačilu računa za je popust pri plačilu računa za hotelhotel[N][N]..

Page 6: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Lematizacija in krnjenje lema besede je njena osnovna oblika, npr. lema besede je njena osnovna oblika, npr.

mize mize miza mizahodil hodil hoditi hoditinočem nočem ? ?čl.čl. ? ?

lema nima jezikoslovnega pomena, pač pa je lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besedekonvencionalna neoznačena oblika besede

kot pri oblikoslovnem označevanju, je lema določena kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:šele skozi kontekst:hotela hotela hotel hotel ali ali hotetihotetisedel sedel sedeti sedeti ali ali sestisesti

krnenje ohrani samo osnovo besede:krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotela, hotelskega, … hotel hotelmize, miza, mizarstvo mize, miza, mizarstvo miz (mizarstv?) miz (mizarstv?)

krnenje najprej razvito za angleščino (kjer večinoma krnenje najprej razvito za angleščino (kjer večinoma lema=krn)lema=krn)

krnenje je bolj uporabno za zajemanje in luščenje krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction) informacij (information retrieval and extraction)

Page 7: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Luščenje poimenovanih entitetNamed Entity ExtractionNamed Entity Extraction (NER) (NER): identifikacija in : identifikacija in

kategorizacija fraz, ki označujejo “entitete”kategorizacija fraz, ki označujejo “entitete” lastna imena: ljudje, organizacije, geografska lastna imena: ljudje, organizacije, geografska

imena (mesta, države, reke,…)imena (mesta, države, reke,…) številski izrazi (številski izrazi (22.320,34; 22,320.34; dvajset22.320,34; 22,320.34; dvajset)) količinekoličine::

procentiprocenti ( (%, procentov%, procentov)), valute, valute ( (SIT, $SIT, $)), teža, teža (kg, (kg, mm22) )

datumi in časidatumi in časi: : 22 januarja, 45 n.š., 23:14, 11PM22 januarja, 45 n.š., 23:14, 11PM naslovinaslovi:: poštni, email, www poštni, email, www tudi imena zdravil, genov, ladij, bibliografske tudi imena zdravil, genov, ladij, bibliografske

enote, …enote, …

Page 8: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Kje se NER uporablja izredno pomembno za zajemanje izredno pomembno za zajemanje

in luščenje informacij (Information in luščenje informacij (Information Retrieval and Extraction): kdo, kaj, Retrieval and Extraction): kdo, kaj, kje, kdaj, kolikokje, kdaj, koliko

tekmovanje MUC-7 (Message tekmovanje MUC-7 (Message Understanding Conferences, 1997, Understanding Conferences, 1997, ZDA)ZDA)

Page 9: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer uporabe: sledenje po entitetah in ontologiji: http://www.ontotext.com/kim

Page 10: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Problemi v NER

variacije: variacije: John Smith, Mr Smith, JohnJohn Smith, Mr Smith, John dvoumnost: dvoumnost:

John Smith John Smith (podjetje ali oseba)(podjetje ali oseba) May (oseba ali mesec) May (oseba ali mesec) Washington (oseba ali kraj) Washington (oseba ali kraj) 1945 (datum ali čas) 1945 (datum ali čas)

dvoumnost z navadnimi besedamidvoumnost z navadnimi besedami

Page 11: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Prevedba kazalkAnaphora resolution: določitev referenta Anaphora resolution: določitev referenta

kazalk, npr. kazalk, npr. TThe queenhe queen is not here yet, but is not here yet, but sheshe is expected to arrive soon. is expected to arrive soon.

she:she: anafora; anafora; the queen: the queen: antecedentantecedentV slovenščini dodatni problemi zaradi V slovenščini dodatni problemi zaradi

izpuščanja kazalk:izpuščanja kazalk:Pop zvezdnica Pop zvezdnica Madonna Madonna je objavila datume je objavila datume svoje prihajajoče turneje “Confessions”. V svoje prihajajoče turneje “Confessions”. V Evropi bo Evropi bo svojsvoj prvi koncert turneje imela v prvi koncert turneje imela v Cardiffu 30. julija, prav tako Cardiffu 30. julija, prav tako bo nastopilabo nastopila… …

Page 12: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Skladenjsko označevanje predavanje 19.5.206predavanje 19.5.206 stavke (povedi) označujemo s skadenjskimi stavke (povedi) označujemo s skadenjskimi

relacijamirelacijami se razmeroma malo uporablja v jezikovnih se razmeroma malo uporablja v jezikovnih

tehnologijah: preveč napak, preveč dvoumnosti, tehnologijah: preveč napak, preveč dvoumnosti, prepočasiprepočasi

namesto tega se uporablja plitke metode, npr. namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi)“NP chunking” (samostalniški kosi)

kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)

Page 13: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Druge oznake terminitermini pomensko označevanje pomensko označevanje (glass(glass11, glass, glass22, …) , …) večjezični korpusi: večjezični korpusi: stavčna poravnava stavčna poravnava

vzporednih korpusovvzporednih korpusov, , poravnava poravnava prevodnih ekvivalentovprevodnih ekvivalentov

govorjeni korpusi: poravnava transkripcije govorjeni korpusi: poravnava transkripcije s signaloms signalom

……

Page 14: Označevanje korpusov PNG  Slovenistika II. letnik 2006

1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 15: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ročno označevanje s pomočjo urejevalnika ekspert (jezikoslovec) s pomočjo urejevalnika ekspert (jezikoslovec)

označuje korpusoznačuje korpus potrebna je natančna definicija “gramatike”, potrebna je natančna definicija “gramatike”,

t.j. nabora dovoljenih kategorij oz. relacij t.j. nabora dovoljenih kategorij oz. relacij dobrodošlo je preverjanje: formalno, vsebinskodobrodošlo je preverjanje: formalno, vsebinsko problem posebej akuten, ko je več problem posebej akuten, ko je več

označevalcev: izdelava priročnika, vzporedno označevalcev: izdelava priročnika, vzporedno označevanjeoznačevanje

za nekatera področja (semantično za nekatera področja (semantično označevanje) je ujemanje med različnimi označevanje) je ujemanje med različnimi označevalci < 70%označevalci < 70%

Page 16: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Strojno označevanje1.1. z ročno napisanimi praviliz ročno napisanimi pravili2.2. s strojnim učenjem, na osnovi s strojnim učenjem, na osnovi

ročno označene učne množiceročno označene učne množice3.3. s strojim učenjem, na osnovi s strojim učenjem, na osnovi

neoznačene učne množiceneoznačene učne množice

(pogosta kombinacija strojnega in (pogosta kombinacija strojnega in ročnega označevanja, v več korakih)ročnega označevanja, v več korakih)

Page 17: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Natančnost in pokritje[Simulacijski model][Simulacijski model] [terorističnega delovanja][terorističnega delovanja] razvijamo skupaj s partnerjem razvijamo skupaj s partnerjem [Guardiaris za [Guardiaris za naročnika]naročnika] [Oddelek za raziskave in simulacije[Oddelek za raziskave in simulacije] ] na na [Ministrstvu za obrambo RS][Ministrstvu za obrambo RS]..

dejanski najdenidejanski najdeni

izpuščeni pravilniizpuščeni pravilni napačni napačni

natačnost = pravilni/najdeni x 100%

pokritje = pravilni/dejanski x 100%

natančnost in pokritje sta obratno sorazmerna

mera F = geometrična sredina natančnosti in pokritja

Page 18: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ročno napisana pravila programi, ki delajo s pomočjo ročno programi, ki delajo s pomočjo ročno

napisanih pravil napisanih pravil (jezikoslovec/računalničar)(jezikoslovec/računalničar)

programi zahtevajo zelo formalna programi zahtevajo zelo formalna pravila, omejena glede na izbrano pravila, omejena glede na izbrano teorijo/formalizem/implementacijoteorijo/formalizem/implementacijo

problemi: problemi: pokritje, krhkost, dvoumnost, hitrostpokritje, krhkost, dvoumnost, hitrost

Page 19: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Vodeno učenje (supervised learning) (supervised learning) program se uči na osnovi program se uči na osnovi

ročno označenih podatkovročno označenih podatkov večina programov uporablja statistične večina programov uporablja statistične

metode (maksimizirajo verjetnost)metode (maksimizirajo verjetnost) tudi tudi metode t.i. strojnega učenja:metode t.i. strojnega učenja:

program se uči pravila program se uči pravila prednostiprednosti pred statističnimi metodami pred statističnimi metodami: :

pravila so (do neke mere) razumljivapravila so (do neke mere) razumljiva slabostslabostii: :

bolj zamudno učenje, mogoče tudi uporababolj zamudno učenje, mogoče tudi uporaba primeri: primeri:

1.1. oblikoslovno označevanjeoblikoslovno označevanje2.2. lematizacija CLOGlematizacija CLOG3.3. lematizacija RDRlematizacija RDR

Page 20: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer statističnega označevanja: oblikoslovno označevanjePProgram TnT (Trigrams and tags):rogram TnT (Trigrams and tags):iščeišče Vmip3s--nVmip3s--nnajboljnajbolj RgsRgsverjetnoverjetno AfpnsnAfpnsnzaporedjezaporedje NcnsnNcnsnoblikoslovnihoblikoslovnih AfpfpgAfpfpgoznakoznak NcfpgNcfpggledeglede RgpRgpnana SpsaSpsabesedebesede NcfpaNcfpa

Page 21: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Delovanje n-gramskih označevalnikovDva vira znanja, naučena iz označenega korpusa:Dva vira znanja, naučena iz označenega korpusa: leksikon: kaj so možne oblikoslovne oznake leksikon: kaj so možne oblikoslovne oznake

neke besede?neke besede?besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18

kontekst: katera kontekst: katera od možnih oznak besede je od možnih oznak besede je najbolj verjetna glede na sosednje oznake?najbolj verjetna glede na sosednje oznake?

seznam trojk oblikoslovnih oznak s frekvencami:seznam trojk oblikoslovnih oznak s frekvencami:Ncfsg 1375 Ncfsg 1375

Vcip3s--n 54 Vcip3s--n 54 Vcps-smaVcps-sma 4 4 Afpmsnn Afpmsnn 1 1 Vmps-smaVmps-sma 1111Z uporabo Viterbijevega algoritma izračuna Z uporabo Viterbijevega algoritma izračuna

najbolj verjetno zaporedje oznaknajbolj verjetno zaporedje oznakUpošteva se samo lokalni kontekst!Upošteva se samo lokalni kontekst!

Page 22: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer razdvoumljanja

prislprisl tožtož zz

začetekzačetek

samsam

pridprid

imenimen

rodrod

xx

yy koneckonec

Leks

ikon

Leks

ikon

n-gramin-grami

samsam

tožtož zz

beseda1 beseda2 beseda3beseda1 beseda2 beseda3

0.030.03

0.03 0.03 0.91 0.91 0.450.45 0.560.56

0.04 0.14 0.8 0.04 0.14 0.8 0.32 0.32

0.770.77 0.430.43

0.10.1 0.010.01

0.55 0.710.55 0.71

0.20.2 0.4 0.4 0.020.02

0.70.7 0.1 0.1 0.880.88

0.10.1 0.5 0.5 0.1 0.1

Page 23: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer strojnega učenja: lematizacija s CLOG program dobi učno množico za vsako oblikoslovno oznakoprogram dobi učno množico za vsako oblikoslovno oznako

posebej posebej (predpostavimo predhodno oblikoslovno označevanje)(predpostavimo predhodno oblikoslovno označevanje) če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi

lemalema edina informacija, ki jo ima program o besedi, edina informacija, ki jo ima program o besedi, poleg njene poleg njene

oblikoslovne oznake oblikoslovne oznake je njena oblika (končnica)je njena oblika (končnica) učna množica je sestavljena iz parov besedna oblika/lema:učna množica je sestavljena iz parov besedna oblika/lema:

Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]). Ncfsg([n,o,s,u],[n,o,s]).

Page 24: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Pravila CLOG pravila so tipa X-priponapravila so tipa X-pripona11 X-pripona X-pripona22 pravila so urejena od specifičnih k splošnimpravila so urejena od specifičnih k splošnim program pravilno lematizira vse besede iz učne množnice (razen program pravilno lematizira vse besede iz učne množnice (razen

dvoumnih (sedel = sesti/sedeti), poudarek je na neznanihdvoumnih (sedel = sesti/sedeti), poudarek je na neznanih odločitveni seznam za lematizacijo samostalnikov ženskega spola v odločitveni seznam za lematizacijo samostalnikov ženskega spola v

rodilniku:rodilniku: Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[e],[a]),!.Ncfsg(A,B):-mate(A,B,[e],[a]),!.

Page 25: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Lematizator RDR Ripple Down Rules: drugačen pristop k učenju

odločitvenih seznamov pravilo RDR:

if -V then 0to0 because of [BRESKEV, POSTAVITEV]except if -HTEV then 0toA because of [ZAHTEV]

ta lematizator ne upošteva oblikoslovnih oznak, pač pa se odloča samo na osnovi končnice:

bolje ker je potrebno za lematizacijo manj znanja, s čimer tudi odpade vir napak

slabše ker je znanje o oblikoslovni kategoriji besedne oblike nujno za dobro lematizacijo:zagledala / zagledati, pedala / pedalo, FIDA+ *edala&~#2s*&~#2g* = 0022490.0000004 “Skratka , eden od mnogih mojih intervjujev v stilu srečnasemkajbisesprenevedala.”

Page 26: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Učenje brez vodenja strogo statistične metodestrogo statistične metode

(Clustering, Maximim Entropy, Minimum Description Length) (Clustering, Maximim Entropy, Minimum Description Length) primer je identifikacija kolokacij (besednih zvez)primer je identifikacija kolokacij (besednih zvez) poišči vse besede, ki se bolj pogosto kot je poišči vse besede, ki se bolj pogosto kot je

običajno pojavljajo skupajobičajno pojavljajo skupaj statistične formule; problem so zelo redke statistične formule; problem so zelo redke

((ŠepetalecŠepetalec ubija ubija) in zelo pogoste besede () in zelo pogoste besede (je je rekelrekel) )

iskanje kolokatorjev v orodju Wordsmith:iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besedepričakovano pojavljajo v bližini ključne besede

Page 27: Označevanje korpusov PNG  Slovenistika II. letnik 2006

1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 28: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oblikoslovne oznake oznaka podaja oblikoskladenjsko oznaka podaja oblikoskladenjsko

funkcijo besede v besedilufunkcijo besede v besedilu oznake najprej razvite za angleščino:oznake najprej razvite za angleščino:

glavni problem je ločiti med glavni problem je ločiti med besednimi vrstami (runbesednimi vrstami (run[v][v] / run / run[[NN]]))

revno oblikoslovje revno oblikoslovje malo malo različnih oznak, 20—100različnih oznak, 20—100

Page 29: Označevanje korpusov PNG  Slovenistika II. letnik 2006

BNC BASIC TAGSET AJ0 Adjective (general or positive) (e.g. good, old,

beautiful) AJC Comparative adjective (e.g. better, older) AJS Superlative adjective (e.g. best, oldest) AT0 Article (e.g. the, a, an, no) …… CJC Coordinating conjunction (e.g. and, or, but) CJS Subordinating conjunction (e.g. although, when) CJT The subordinating conjunction that CRD Cardinal number (e.g. one, 3, fifty-five, 3609) NN0 Common noun, neutral for number (e.g. aircraft,

data) NN1 Singular common noun (e.g. pencil, goose, time) NN2 Plural common noun (e.g. pencils, geese, times) NP0 Proper noun (e.g. London, Michael, Mars, IBM) ORD Ordinal numeral (e.g. first, sixth, 77th, last) ……

Page 30: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabori oznak za oblikoslovno bogate jezike besedne oblike vsebujejo mnogo več besedne oblike vsebujejo mnogo več

informacije: spol, število, sklon, živost, določnostinformacije: spol, število, sklon, živost, določnost primer zaimkov:primer zaimkov:

osebni, svojilni, povratni…osebni, svojilni, povratni… pridevniški, samostalniškipridevniški, samostalniški 3 števila, 3 spol3 števila, 3 spolii, 6 sklonov, 6 sklonov spol in število “svojine” …spol in število “svojine” … > 1000 različnih oznak> 1000 različnih oznak

pri razdvoumljanju veliko več problemov z pri razdvoumljanju veliko več problemov z oblikoslovnimoblikoslovnimii podatki kot pa z besedno vrsto podatki kot pa z besedno vrsto

Page 31: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabori oznak za slovenščino nabor ZRC SAZU, http://bos.zrc-sazu.si/ nabor ZRC SAZU, http://bos.zrc-sazu.si/

+ sledi slovenski slovnicisledi slovenski slovnici+ okrajšave čim bolj mnemonične okrajšave čim bolj mnemonične + z njim ročno označen velik korpus (1M besed)z njim ročno označen velik korpus (1M besed)- nabor oznak ni bil vnaprej določennabor oznak ni bil vnaprej določen- oznake razlikujejo nemotivirane kategorije (tipi lastnih oznake razlikujejo nemotivirane kategorije (tipi lastnih

imen)imen)- označeni korpus ni dostopen za prenosoznačeni korpus ni dostopen za prenos

nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ + upošteva mednarodne standardeupošteva mednarodne standarde+ oznake je možno mehanično razstavljati oznake je možno mehanično razstavljati + z njim strojno označen velik korpus (FIDA, 100M besed)z njim strojno označen velik korpus (FIDA, 100M besed)+ ročno označeni korpus prosto dostopen (100k besed)ročno označeni korpus prosto dostopen (100k besed)- izpušča nekatere motivirane kategorije (povedkovnik, izpušča nekatere motivirane kategorije (povedkovnik,

besedna vrsta okrajšave)besedna vrsta okrajšave)- skop priročnikskop priročnik

npr. npr. Pže1, E5Pže1, E5 proti proti Afpfsn, SpslAfpfsn, Spsl

Page 32: Označevanje korpusov PNG  Slovenistika II. letnik 2006

MULTEXT-East oblikoslovne specifikacije dostopne na dostopne na

http://nl.ijs.si/ME/V3/msd/http://nl.ijs.si/ME/V3/msd/ verzija 3, 2004-05-10 verzija 3, 2004-05-10 sestavljene iz uvoda, skupnih tabel, sestavljene iz uvoda, skupnih tabel,

in poglavij za posamezne jezikein poglavij za posamezne jezike originalno v LaTeX, izvedeni formati originalno v LaTeX, izvedeni formati

v HTML, PDF, XMLv HTML, PDF, XML

Page 33: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Osnovni namen specifikacij MULTEXT-EastDoločijo: Določijo: 1.1. katere oblikoslovne oznake so katere oblikoslovne oznake so

dovoljene za posamezne jezike,dovoljene za posamezne jezike,2.2. kaj pomenijo:kaj pomenijo:

Vmip3d--n = Vmip3d--n = PoS:Verb, Type:main, VForm:indicative, PoS:Verb, Type:main, VForm:indicative, Tense:present, Person:third, Number:dual, Tense:present, Person:third, Number:dual, Gender:-, Voice:-, Negative:noGender:-, Voice:-, Negative:no

3.3. in še kaj..in še kaj..

Page 34: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Skupne tabele specifikacij

Page 35: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabor slovenskih oznak v ročno označenem korpusu v ročno označenem korpusu

MULTEXT-East je prisotnih 1023 MULTEXT-East je prisotnih 1023 različnih oznakrazličnih oznak

v oblikoslovnem leksikonu MULTEXT-v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083East jih je prisotnih 2083

oznake z angleško razlago dostopne oznake z angleško razlago dostopne v v

msd-sl.txtmsd-sl.txt

Page 36: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Specifikacije: poglavje za slovenščino

Page 37: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Lokalizacija Afcfda = Pkpzdt Afcfda = Pkpzdt Afcfda = Adjective qualificative Afcfda = Adjective qualificative

comparative feminine dual comparative feminine dual accusative accusative

Pkpzdt = Pridevnik kakovostni Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik primernik ženski dvojina tožilnik

Page 38: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oznake korpusa FIDA oznake MULTEXT-East, prevedene v oznake MULTEXT-East, prevedene v

slovenščino se uporabljajo v korpusu FIDAslovenščino se uporabljajo v korpusu FIDA v FIDA za vsako besedo prisotne vse v FIDA za vsako besedo prisotne vse

možne oblike za to besedno oblikomožne oblike za to besedno obliko 2271 različnih oznak2271 različnih oznak tabela en-sl oznak s slovenskimi tabela en-sl oznak s slovenskimi

razlagami dostopna na msdFIDA-sl.txtrazlagami dostopna na msdFIDA-sl.txt tabela z razlagami je dostopna tudi na tabela z razlagami je dostopna tudi na

straneh FIDA+straneh FIDA+


Top Related