named entity recognition s učením na slovenské mená

8
Named entity recognition s učením na slovenské mená Michal Jesenský Vyhľadávanie Informácií 2010/2011

Upload: danyl

Post on 04-Jan-2016

38 views

Category:

Documents


5 download

DESCRIPTION

Named entity recognition s učením na slovenské mená. Michal Jesenský Vyhľadávanie Informácií 2010 /2011. Zadanie , moti vácia. Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Named entity recognition  s učením na slovenské mená

Named entity recognition s učením na slovenské

menáMichal Jesenský

Vyhľadávanie Informácií2010/2011

Page 2: Named entity recognition  s učením na slovenské mená

Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu

Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy

Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná

Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov

Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie

Zadanie, motivácia

Page 3: Named entity recognition  s učením na slovenské mená

Stanford Named Entity Recognizer (NER)◦ http://nlp.stanford.edu/software/CRF-NER.shtml

YooName◦ http://yooname.wordpress.com/

OpenCalais◦ http://www.opencalais.com/

Podobné riešenia

Page 4: Named entity recognition  s učením na slovenské mená

Vytvorenie sloveského korpusu◦ Získanie zoznamu slovenských mien zo slovenského

kalendára http://calendar.zoznam.sk/ ◦ Získanie 200 riadkov textu pre každé meno zo

stránky http://www.korpus.sk/ ◦ Použitie regulárnych výrazov pre spracovanie

riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. Výsledok okolo 113000 riadkov s otagovanými menami

◦ Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde Výsledok okolo 96000 riadkov s otagovanými menami

Postup práce

Page 5: Named entity recognition  s učením na slovenské mená

Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator)

Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator)

Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie

Nutnosť vygenerovať model sentence detectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach

Postup práce pokr.

Page 6: Named entity recognition  s učením na slovenské mená

Softvér

Page 7: Named entity recognition  s učením na slovenské mená

Softvér pokr.

Page 8: Named entity recognition  s učením na slovenské mená

Vytvorené modely majú dobrú presnosť (precission)◦ Trénovacie dáta max 92%, min 82%◦ Testovacie dáta max 92%, min 79%

Ale neoznačia veľké množstvo entít (recall)◦ Trénovacie dáta max 64 %, min 13%◦ Testovacie dáta max 46%, min 14%

Vyhodnotenie