Download - Ozna čevanje korpusa AH l ib
OznaOznačevanje čevanje korpusa korpusa AHAHllibib
Tomaž ErjavecTomaž ErjavecOdsek za Odsek za tehnologije znanjatehnologije znanjaInstitutInstitut “ “Jožef Jožef StefanStefan””[email protected]@ijs.si, i, httphttp://nl.ijs.si/et/://nl.ijs.si/et/
Graz, 2006-05-10Graz, 2006-05-10
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
UrnikUrnik
09:00 - 10:0009:00 - 10:00uvod, shema pretvorbeuvod, shema pretvorbe
10:00 - 11:00 10:00 - 11:00 predstavitev na primerihpredstavitev na primerih
11:00 - 13:00 11:00 - 13:00 praktipraktiččno delono delo
13:00 - kosilo13:00 - kosilo ??14:00 - 14:00 - ……
nadaljevanje nadaljevanje praktipraktiččnnegaega del delaa
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
UvodUvod
1.1. ozadjeozadje
2.2. postopek pretvorbepostopek pretvorbe
3.3. pretvorba v XML/HTMLpretvorba v XML/HTML
4.4. označevanje neznanih besedoznačevanje neznanih besed
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
CiljiCilji
Idealna končna različica korpusa:Idealna končna različica korpusa:1.1. primerna za internetno branje, s primerna za internetno branje, s
povezavami na faksimile povezavami na faksimile --> HTML (brez napak in oblikovan)--> HTML (brez napak in oblikovan)
2.2. jezikoslovno dostopna, torej preko jezikoslovno dostopna, torej preko konkordančnika, z lematiziranimi konkordančnika, z lematiziranimi besednimi oblikami besednimi oblikami --> --> baza konkordanbaza konkordančnika (jezikovna čnika (jezikovna analiza)analiza)
3.3. zapisana v zapisana v standardni standardni oblikiobliki--> XML/TEI--> XML/TEI
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Standardi zapisaStandardi zapisa
zapis mora biti prenosljiv med zapis mora biti prenosljiv med računalniškimi platformami in aplikacijami računalniškimi platformami in aplikacijami in odporen na tehnološke spremembein odporen na tehnološke spremembe
XMLXML: eXtended Markup Language: splošen : eXtended Markup Language: splošen (meta)jezik za zapis digitalnih podatkov(meta)jezik za zapis digitalnih podatkov
TEITEI: Text Encoding Initiative:: Text Encoding Initiative:TEI P4 Guidelines: tip dokumentov XMLTEI P4 Guidelines: tip dokumentov XMLformalno določi nabore elementov in jih formalno določi nabore elementov in jih dokumentiradokumentira
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Dokument XMLDokument XML
<<pesempesem>> <<naslovnaslov>Uvod.</>Uvod.</naslovnaslov>> <<kiticakitica>> <<vv>Dvigni se! ukawz mi reče.</>Dvigni se! ukawz mi reče.</vv>> <<vv>Srce pade mi v oblasti</>Srce pade mi v oblasti</vv>> <<vv>Silne, prej neznane strasti,</>Silne, prej neznane strasti,</vv>> <<vv>Ki ko >Ki ko žživi ogenj peče.</ivi ogenj peče.</vv>> </</kiticakitica>> <<kiticakitica>> <<vv>>ČČut se zlije mi v besede. -</ut se zlije mi v besede. -</vv>> <<vv>Preč so črne bolečine,</>Preč so črne bolečine,</vv>> <<vv>Strast občutkov divjih >Strast občutkov divjih
mine,</mine,</vv>> <<vv>Jasen mir se v prsi vsede.</>Jasen mir se v prsi vsede.</vv>> </</kiticakitica>></</pesempesem>>
dokument = dokument = besedilo + besedilo + oznakeoznake
element = element = začetna oznaka + začetna oznaka + vsebina + vsebina + končna oznakakončna oznaka
element vsebuje element vsebuje besedilo ali besedilo ali elemente ali elemente ali oboje (ali nič)oboje (ali nič)
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
TEITEI
Text Encoding InitiativeText Encoding Initiative GuidelinesGuidelines določi določi nabore elementov nabore elementov in jih in jih
dokumentiradokumentiranpr. <p>, <note>, <head>, <div>npr. <p>, <note>, <head>, <div>
dolodoloči kako naj se elementi med či kako naj se elementi med seboj gnezdijoseboj gnezdijonpr. da je <p> znotraj <div> npr. da je <p> znotraj <div> dovoljen, obratno pa nedovoljen, obratno pa ne
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Jezikovna analiza v TEIJezikovna analiza v TEI
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Končna vsebina baze Končna vsebina baze AHlibAHlibVsaka knjiga:Vsaka knjiga: shranjena v standardnem zapisu shranjena v standardnem zapisu XML/TEIXML/TEI
– zapis vsebuje strukturne elemente (poglavja, zapis vsebuje strukturne elemente (poglavja, opombe, tujejezične citate…)opombe, tujejezične citate…)
– zapis vsebuje, za vsako pojavnico (besedo v zapis vsebuje, za vsako pojavnico (besedo v besedilu) njeno lemobesedilu) njeno lemo
shranjena tudi v izpisu v shranjena tudi v izpisu v HTMLHTML, ki je , ki je avtomatsko izveden iz TEI (t.i. stil XSLT)avtomatsko izveden iz TEI (t.i. stil XSLT)
povezana s svojim povezana s svojim faksimilfaksimilomom (trenutno - več ali manj - samo na nivoju (trenutno - več ali manj - samo na nivoju celotne celotne knjigknjige v formatu e v formatu PDFPDF, kasneje , kasneje verjetno verjetno po stranehpo straneh ali celo grafi ali celo grafičnih čnih elementih)elementih)
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Primer digitalne Primer digitalne knjige: Brižinski knjige: Brižinski spomenikispomeniki projekt Elektronske izdaje slovenskega projekt Elektronske izdaje slovenskega
slovstvaslovstva ZRC SAZU (Matija Ogrin)ZRC SAZU (Matija Ogrin) + IJS + IJS vse izdaje zapisane v XML/TEIvse izdaje zapisane v XML/TEI kompleksen izveden izpis v HTMLkompleksen izveden izpis v HTML e-BS, dosedaj najbolj zahtevna izdaja e-BS, dosedaj najbolj zahtevna izdaja
projektaprojekta trenutno v delutrenutno v delu povezave: navzkrižne, faksimile, govor, povezave: navzkrižne, faksimile, govor,
WikipediaWikipedia……demodemo
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Primer konkodančnikaPrimer konkodančnika
portal nl2.ijs.si:portal nl2.ijs.si: eno in dvo-jezične konkordance v eno in dvo-jezične konkordance v
več formatihveč formatih posamezni korpusi oblikoslovno posamezni korpusi oblikoslovno
označeni in lematiziranioznačeni in lematizirani največji korpus 2x5 milijonov največji korpus 2x5 milijonov
besed: vzporedni angl.-slov. korpus besed: vzporedni angl.-slov. korpus SVEZ-IJSSVEZ-IJS
……demodemo
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Koraki pretvorbeKoraki pretvorbe vv AHlibAHlib1.1. Digitalni zapis faksimila + Digitalni zapis faksimila + OCROCR2.2. korekture besedilakorekture besedila3.3. pretvorba iz RTF v TEIpretvorba iz RTF v TEI
1.1. avtomatskaavtomatska2.2. korekture strukture v RTFkorekture strukture v RTF
4.4. pretvorba iz TEI v HTMLpretvorba iz TEI v HTML5.5. jezikovna analiza zapisa TEIjezikovna analiza zapisa TEI
1.1. avtomatskaavtomatska2.2. korekture napakkorekture napak
… … ((vnos v knjižnicovnos v knjižnico in konkordančnik) in konkordančnik)
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
KomplikacijaKomplikacija
Rezultat avtomatske pretvorbe Rezultat avtomatske pretvorbe dostikrat odkrije napake v prejšnjih dostikrat odkrije napake v prejšnjih stopnjah ročnih korekcij:stopnjah ročnih korekcij:
HTML pokaže napake v strukturi RTFHTML pokaže napake v strukturi RTF lematizacija pokaže pomanjkljive lematizacija pokaže pomanjkljive
korekturekorekture
--> obdelave se morajo izvajati --> obdelave se morajo izvajati cikličnociklično
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Shema pretvorbeShema pretvorbe
ročne korekcije se izvajajo na lastnem ročne korekcije se izvajajo na lastnem računalniku v orodjih računalniku v orodjih MS Word, MS ExcelMS Word, MS Excel
avtomatske pretvorbe & označevanje se avtomatske pretvorbe & označevanje se izvajajo preko spletnega vmesnika Ahlib izvajajo preko spletnega vmesnika Ahlib http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/
vmesnik pričakuje datoteko vmesnik pričakuje datoteko ..zipzip z z (največ) (največ) eno knjigoeno knjigo
vrne obdelano besedilovrne obdelano besedilo isto besedilo lahko obdelujemo poljubnokrat, isto besedilo lahko obdelujemo poljubnokrat,
da preverimo uspešnost korekcijda preverimo uspešnost korekcij vrnjeno besedilo na koncu(?) deponiramo v vrnjeno besedilo na koncu(?) deponiramo v
glavno bazo projektaglavno bazo projekta
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Koraki avtomatske Koraki avtomatske obdelaveobdelaveOsnovni:Osnovni:1.1. pretvorba RTF v TEIpretvorba RTF v TEI2.2. pretvorba TEI v HTMLpretvorba TEI v HTMLJezikoslovni:Jezikoslovni:1.1. lematizacija TEIlematizacija TEI2.2. generiranje konkordanc neznanih generiranje konkordanc neznanih
besedbesed3.3. lem. z upoštevanjem pregledanih 2lem. z upoštevanjem pregledanih 24.4. (generiranje polnih konkordanc)(generiranje polnih konkordanc)5.5. ((lem. z upoštevanjem pregledanih 4))((lem. z upoštevanjem pregledanih 4))
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Koraki v ročni Koraki v ročni korekturikorekturi1.1. WordWord: : korektura RTF, da dobimo korektura RTF, da dobimo
pravilno strukturno označeni TEI (HTML)pravilno strukturno označeni TEI (HTML)2.2. ExcelExcel: : korekcija lem iz konkordanc korekcija lem iz konkordanc
neznanih besedneznanih besed3.3. ((Excel: Excel: korekcija polnih konkordanc)korekcija polnih konkordanc)
Računalniška podporaRačunalniška podpora na stre na strežniku:žniku:1.1. narejeno (še par manjših popravkov)narejeno (še par manjših popravkov)2.2. delovna verzijadelovna verzija3.3. v deluv delu
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
1. Pretvorba iz RTF v 1. Pretvorba iz RTF v TEITEI RTF služi RTF služi samosamo kot vsebinska in oblikovna kot vsebinska in oblikovna
predloga za zapis TEI: ne diplomatični, predloga za zapis TEI: ne diplomatični, temveč kritični prepis!temveč kritični prepis!
ime datoteke je pomembno, saj služi za ime datoteke je pomembno, saj služi za povezovanje s faksimili povezovanje s faksimili
RTF mora vsebovati RTF mora vsebovati – besedilobesedilo– sloge definirane v predlogisloge definirane v predlogi– prelome strani za poravnavo s faksimilomprelome strani za poravnavo s faksimilom
na tej osnovi se v TEI zapišejo ustrezni na tej osnovi se v TEI zapišejo ustrezni elementi, npr. elementi, npr. <p>, <note>, <foreign><p>, <note>, <foreign>
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Pretvorba iz TEI v Pretvorba iz TEI v HTMLHTML oblika HTML primerna za branjeoblika HTML primerna za branje posamezni elementi barvno označeniposamezni elementi barvno označeni avtomatsko generirano kazalo po avtomatsko generirano kazalo po
poglavjih in stranehpoglavjih in straneh služi kot kontrola za uspešnost pretvorbesluži kot kontrola za uspešnost pretvorbe šele ko je HTML v redu, je v redu tudi RTF!šele ko je HTML v redu, je v redu tudi RTF! trenutni HTML mišljen za lektorje, ne kot trenutni HTML mišljen za lektorje, ne kot
končna oblika (pripombe na uporabnost končna oblika (pripombe na uporabnost dobrodošle)dobrodošle)
……glej glej http://nl.ijs.si/e-zrc/http://nl.ijs.si/e-zrc/doc/primeri/doc/primeri/
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
2. Jezikovna analiza2. Jezikovna analiza
analiza sestoji iz:analiza sestoji iz:1.1. segmentacije na pojavnice (besede, ločila) in segmentacije na pojavnice (besede, ločila) in
povedipovedi
2.2. oblikoslovnega označevanjaoblikoslovnega označevanja
3.3. lematizacijelematizacije
avtomatske metode analize skozi avtomatske metode analize skozi strojno učenje: statistični strojno učenje: statistični označevalnikoznačevalnik (totale) (totale)
uspešnost lematizacije za sodobno uspešnost lematizacije za sodobno slovenščino slovenščino ~~95%95%
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Napake avtomatske Napake avtomatske analizeanalize1.1. Segmentacija: Segmentacija:
večina napak v vhoduvečina napak v vhodu … … on,ki … --> popraviti v RTFon,ki … --> popraviti v RTF
napake zaradi kraticnapake zaradi kratic (popravljati?) (popravljati?) druge napake (ni predvideno)druge napake (ni predvideno)
2.2. Oblikoslovno označevanjeOblikoslovno označevanje povzroči večino napak v lematizacijipovzroči večino napak v lematizaciji popraviti za prvih 100 (ali več?)popraviti za prvih 100 (ali več?)
3.3. Lematizacija:Lematizacija:1.1. neznane besedeneznane besede2.2. dvoumnost dvoumnost
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Neznane besedeNeznane besede
natančnost lematizacije dosti natančnost lematizacije dosti manjša kot za znane besedemanjša kot za znane besede
imena, starinske besede oz. imena, starinske besede oz. oblike besed, spremenjena oblike besed, spremenjena abecedaabeceda
kako določiti lemo?kako določiti lemo?(Pleteršnik, forum, konkordance)(Pleteršnik, forum, konkordance)
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Problem dvoumnostProblem dvoumnost
homonimija (znanih) besednih oblikhomonimija (znanih) besednih oblik npr. npr. hotela --> hotetihotela --> hoteti||hotelhotel pravilna interpretacija odvisna od pravilna interpretacija odvisna od
kontekstakonteksta npr. npr. HotelHotela[a[VV]] stasta iti iti domov.domov. napaka označevalnika povzroči napako napaka označevalnika povzroči napako
lematizacije:lematizacije:HotelHotela[*N]a[*N] --> --> [*[*hotelhotel]]
včasih težko celo za človeka:včasih težko celo za človeka:Sedel je. Sedel je. [[?sesti?sesti]] [[?sedeti?sedeti]]
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Korekcije neznanih Korekcije neznanih besedebesede vmesniku se pošlje knjigovmesniku se pošlje knjigo izbere izbere se se opcijo za neznane besedeopcijo za neznane besede vmesnik vrne konkordance neznanih vmesnik vrne konkordance neznanih
besed besed v knjigiv knjigi
konkordance se odpre z Excelkonkordance se odpre z Excel dva formata:dva formata:
– XML za Office 2003 XML za Office 2003 PProfessionalrofessional– tabela, za navaden Exceltabela, za navaden Excel
……glej glej http://nl.ijs.si/e-zrc/http://nl.ijs.si/e-zrc/doc/primeri/doc/primeri/
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
PopravljanjePopravljanje
konkordance se pregleda in popravi:konkordance se pregleda in popravi:– originalni RTForiginalni RTF, v primeru slabe lekture , v primeru slabe lekture – napačne leme v napačne leme v konkordancahkonkordancah
pozor: leme so lahko dvoumnepozor: leme so lahko dvoumne vmesniku se pošilja knjigo + leksikon vmesniku se pošilja knjigo + leksikon
pregledanih, dokler pregledanih, dokler vse besede nvse besede nisoiso ppregledaneregledane
popravki se lahko (naj se) izvajajo po popravki se lahko (naj se) izvajajo po delihdelih
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Dodajanje leksikona Dodajanje leksikona označevalnikuoznačevalniku konkordance (leksikone) konkordance (leksikone)
pregledanih neznanih besed se pregledanih neznanih besed se tudi deponira na strežniktudi deponira na strežnik
s tem postanejo nove besedne s tem postanejo nove besedne oblike s svojimi lemami dostopne oblike s svojimi lemami dostopne za avtomatsko označevanje za avtomatsko označevanje ostalih knjigostalih knjig
potrebna previdnost, da ne potrebna previdnost, da ne deponiramo nekaj, česar nočemo!deponiramo nekaj, česar nočemo!
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Korekcija konkordancKorekcija konkordanc
popravljamo napake, ko izbrana lema sicer popravljamo napake, ko izbrana lema sicer obstaja, a ni pravilna za pojavnicoobstaja, a ni pravilna za pojavnico
postopek podoben kot pri korekcija neznanih postopek podoben kot pri korekcija neznanih besedbesed
strežnika vrne konkordance (leksikon) vseh strežnika vrne konkordance (leksikon) vseh besed v besedilubesed v besedilu
pregledamo vse lemepregledamo vse leme še v deluše v delu problemi: velikost datoteke Excel, oblika problemi: velikost datoteke Excel, oblika
zapisa v TEI, deponiranje rezultatazapisa v TEI, deponiranje rezultata boljše označevanje..boljše označevanje.. naslednje šolanje!naslednje šolanje!
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
DemonstracijaDemonstracija
1.1. spletni strežnikspletni strežnik
2.2. popravki besedila (Word) popravki besedila (Word)
3.3. popravki leksikona (Excel)popravki leksikona (Excel)
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
httphttp://nl.ijs.si/ahlib/://nl.ijs.si/ahlib/
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Prenos podatkovPrenos podatkov
podamo eno ali več datotek združenih v podamo eno ali več datotek združenih v eno datoteko .zipeno datoteko .zip
zato potrebujemo WinZip, bolje WinRARzato potrebujemo WinZip, bolje WinRAR zahtevamo neposredno želeno datotekozahtevamo neposredno želeno datoteko zahtevamo komprimirano mapo z zahtevamo komprimirano mapo z
želenimi datotekami (.tgz)želenimi datotekami (.tgz) deponiramo jezikoslovne popravke deponiramo jezikoslovne popravke
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Imena datotekImena datotek
Shema poimenovanja:Shema poimenovanja: xxxxxxxx.pdf .pdf faksimilefaksimile xxxx.rtfxxxx.rtf digitalni vir besediladigitalni vir besedila xxxx.tei.xmlxxxx.tei.xml besedilo za bazobesedilo za bazo xxxx.tei.htmlxxxx.tei.html besedilo za gledatbesedilo za gledat xxxx-unk.xls.xmlxxxx-unk.xls.xml konkordance neznanih besed v XML konkordance neznanih besed v XML
(Excel) (Excel) xxxx-unk.xls.txtxxxx-unk.xls.txtkonkordance neznanih besed v tabeli (Excel) konkordance neznanih besed v tabeli (Excel) ((xxxx-lex.xls.txtxxxx-lex.xls.txt leksikon neznanih besed v tabeli leksikon neznanih besed v tabeli
(Excel)(Excel))) xxxx-all.(N).xls.xml:xxxx-all.(N).xls.xml: polne konkordance v XML (Excel) polne konkordance v XML (Excel)
Pozor:Pozor: ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-ime xxxx.rtf ima lahko tudi dodan zaznamek, npr. xxxx-
korekt.rtfkorekt.rtf strežnik rahlo preimenuje nekatere datoteke, npr.strežnik rahlo preimenuje nekatere datoteke, npr.
#22411#roza jelodvorska#22411#roza jelodvorska v v X22411Xroza_jelodvorskaX22411Xroza_jelodvorska
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Praktične vajePraktične vaje
Strežnik: Strežnik: http://nl.ijs.si/ahlib/http://nl.ijs.si/ahlib/
(že obdelani) primeri:(že obdelani) primeri: lokalnolokalno testna datoteka: testna datoteka: ###000AHlib tst-et.zip###000AHlib tst-et.zip
http://nl.ijs.si/ahlib/doc/primerihttp://nl.ijs.si/ahlib/doc/primeri//
AHLib / AHLib / GrazGraz UniUni10 maj 200610 maj 2006
Tomaž ErjavecTomaž Erjavec
Odprta vprašanjaOdprta vprašanja
deponiranje besedil v bazodeponiranje besedil v bazo prilagoditev avtomatskega prilagoditev avtomatskega
označevanja za AHliboznačevanja za AHlib dinamika korekturdinamika korektur