dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku
DESCRIPTION
Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku. Michal Laclavík , Marek Ciglan Ústav In f ormatiky SAV. Obsah. Kto sa zaoberá slovenčinou? Lematizácia a stemming Motiv ácia Lematizácia Stemming Dostupné nástroje pre Slovenčinu - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/1.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 1
Dostupné zdroje a výzvy pre počítačové spracovanie Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazykuinformačných zdrojov v slovenskom jazyku
Michal Laclavík, Marek Ciglan
Ústav Informatiky SAV
![Page 2: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/2.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 2
Obsah
• Kto sa zaoberá slovenčinou?• Lematizácia a stemming
– Motivácia– Lematizácia– Stemming– Dostupné nástroje pre Slovenčinu
• Slovenčina v nástrojoch projektu NAZOU
![Page 3: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/3.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 3
Kto sa zaoberá slovenčinou?
• Slovenský jazykovedný ústav Ľ. Štúra SAV (JULS)– V minulosti - Laboratórium počítačovej lingvistiky na
Pedagogickej Fakulte UK - pokračovanie na JULS– korpus slovenského jazyka
• špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe a spracováva na vedecko-výskumné a učebné ciele
• Lingvisti - významy a funkcie slov• V rámci korpusu práca aj na morfológii a lematizácii (R.
Garabík )
![Page 4: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/4.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 4
Kto sa zaoberá slovenčinou?
• Lingvistická dielňa na FEI TU, Košice– Morfológia– tvorba databázy slov slovenského jazyka
• UPJŠ Košice– indexovací a fulltextový engine ktorý využíva aj dáta
zo slovenského slovníka – zapracovanie ďalších zdrojov - slovník cudzích slov
• seminár SLOVKO - International Seminar -Computer Treatment of Slavic and East European Languages– ( SLOVKO 2007 - October 25 – 27 2007 )
![Page 5: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/5.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 5
Kto sa zaoberá slovenčinou?
• Iné– Forma s.r.o.
• spell check pre produkty Microsoftu• produkty na fulltextové vyhľadávanie v slovenčine
– http://www.zbierka.sk/
– sk-spell • open source spell check (napr. v OpenOffice)• anglicko-slovenský slovník • synonymický slovník
![Page 6: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/6.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 6
Lematizácia a stemming
• Motivácia:– Meniaci sa tvar slova – nevýhodou pri počítačovom
spracovaní– Potreba pracovať s rôznymi tvarmi slova ako s
jediným tokenom– Lematizácia a stemming - pri indexácii a vyhľadávaní
• Redukcia slovníka• Zvyšuje recall (vyhľadávanie identifikuje aj dokumenty s
rôznymi tvarmi slov zadaných užívateľom na vstupe)
![Page 7: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/7.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 7
Lematizácia a stemming
• Lematizácia:– základný tvar slova – Napr. lama pre angl. „GO“ zahŕňa aj „go, goes, went,
gone, going “– Realizácia na základe slovníka– WordNet – výkladový slovník angl. jazyka, umožňuje
aj lematizáciu
– Problém: keď vstupné slovo nie je v slovníku
![Page 8: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/8.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 8
Lematizácia a stemming
• Stemming:– „koreň slova“ – Redukcia morfologických variant slova na spoločný
koreň– Stem (koreň) nemusí byť platným prvkom jazyka
• slovo: destabilized ; stem: stabil
– Stemming – realizovaný algoritmicky– Stemmer dodá výstup na každý vstup
– Porterov stemovací algoritmus pre anglický jazyk
![Page 9: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/9.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 9
Lematizácia a stemming
• Dostupné nástroje pre Slovenčinu:– Využitie dát z ispll-u– Lematizátor vyvíjaný na JULS SAV (R. Garabík );
dostupná betaverzia
– Stemmer: • Základ stemmer-u vhodného pre slovanské jazyky (Leo
Galambos)• poľský jazyk – Stempel, Lametyzator
• ? Slovenský stemmer
![Page 10: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/10.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 10
Slovenčina v nástrojoch projektu NAZOU
• potreba ekvivalentu Porterovho algoritmu pre slovenčinu – stemmer– Indexovacie nástroje, Ontea, Erid
• Potreba využitia synonymického slovníka• nástroj ktorý identifikuje zdroj v slovenskom
jazyku (sľubné výsledky – tím z FIIT)
![Page 11: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/11.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 11
Kódovanie dokumentov v slovenčine
• Technický problém:– Rôzne kódovania (win-1250, ISO-8859-2 alebo UTF)– špeciálne HTML značky začínajúce „&#“. – Texty písané bez diakritiky (bežná komunikácia
emailom)
![Page 12: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku](https://reader036.vdocuments.pub/reader036/viewer/2022081506/5681401e550346895dab7451/html5/thumbnails/12.jpg)
WIKT 2006 Bratislava, 28-29 november 2006 12
Ďakujem za pozornosť