named entity recognition s učením na slovenské mená
DESCRIPTION
Named entity recognition s učením na slovenské mená. Michal Jesenský Vyhľadávanie Informácií 2010 /2011. Zadanie , moti vácia. Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu - PowerPoint PPT PresentationTRANSCRIPT
Named entity recognition s učením na slovenské
menáMichal Jesenský
Vyhľadávanie Informácií2010/2011
Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu
Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy
Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná
Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov
Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie
Zadanie, motivácia
Stanford Named Entity Recognizer (NER)◦ http://nlp.stanford.edu/software/CRF-NER.shtml
YooName◦ http://yooname.wordpress.com/
OpenCalais◦ http://www.opencalais.com/
Podobné riešenia
Vytvorenie sloveského korpusu◦ Získanie zoznamu slovenských mien zo slovenského
kalendára http://calendar.zoznam.sk/ ◦ Získanie 200 riadkov textu pre každé meno zo
stránky http://www.korpus.sk/ ◦ Použitie regulárnych výrazov pre spracovanie
riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. Výsledok okolo 113000 riadkov s otagovanými menami
◦ Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde Výsledok okolo 96000 riadkov s otagovanými menami
Postup práce
Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator)
Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator)
Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie
Nutnosť vygenerovať model sentence detectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach
Postup práce pokr.
Softvér
Softvér pokr.
Vytvorené modely majú dobrú presnosť (precission)◦ Trénovacie dáta max 92%, min 82%◦ Testovacie dáta max 92%, min 79%
Ale neoznačia veľké množstvo entít (recall)◦ Trénovacie dáta max 64 %, min 13%◦ Testovacie dáta max 46%, min 14%
Vyhodnotenie