miháltz márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

6
Miháltz Márton [email protected] MTA NYTI Nyelvtechnológiai Osztály

Upload: zoltan-varju

Post on 04-Jul-2015

901 views

Category:

Technology


1 download

DESCRIPTION

A novemberi NLP meetup diái

TRANSCRIPT

Page 1: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

Miháltz Márton [email protected]

MTA NYTI Nyelvtechnológiai Osztály

Page 2: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

!  Input szöveg: tokenizált, morfológiailag elemzett (hunmorph), szófajcímkékkel ellátott (hunpos)

!  Output: egyetlen szótő + morf.elemzés minden tokenhez

Elképesztő ADJ 5 elképesztő/ADJ elképeszt/VERB[IMPERF_PART]/ADJ el/PREV+képeszt/VERB[IMPERF_PART]/ADJ elképeszt/VERB[IMPERF_PART]/ADJ el/PREV+képeszt/VERB[IMPERF_PART]/ADJ

pofátlanság NOUN 6 pofátlan/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofátlan/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN

amit NOUN<CAS<ACC>> 5 ami/NOUN<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>>

Page 3: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

!  Hundisambig ◦  Rejtett Markov-modell, hunmorph kimenet használja ◦  Nincs forráskód, nincs dokumentáció ◦  Sokszor inkonzisztens, nehezen parse-olható output ◦  Összes képzőtől megfosztott tövet adja vissza

!  Hunstem ◦  Heurisztikák: hunmorph szótő+elemzés kiválasztása hunpos

címke alapján !  Elemzések szűrése PoS-címkével !  Minimális összetételszám, képzésszám !  leghosszabb lemma; felszíni alakhoz leginkább hasonló kapitalizációjú lemma !  Lemma = lemma az elemzésből (összetételekkel) vagy felszíni alak ha nincs

◦  Kivételszótár: ismeretlen alak (% wildcard) => szótő; !  Trie implementációval

Page 4: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

!  Hunmorph morfológiai elemző (morpdb.hu lexikon) kiegészítése új, ismeretlen szavakkal ◦  Tetszőleges alakban felismerhetők legyenek ◦  Ne kelljen érteni morphdb.hu formalizmushoz

!  Lista: ismeretlen szótő + ismert, analóg szótő (azonos paradigma, szófaj(ok)) ◦  Leíró feature-ök automatikus hozzárendelése:

új .lexicon fájl generálása ◦  Kompilálás (hunlex) korábbi + új .lexicon fájlok

=> .aff, .dic fájlok

Page 5: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

!  Huntoken kiegészítése, javítása ◦  Pl. adaptáció SM (Facebook) nyelvhasználathoz

!  Huntoken + elő- és utófeldolgozó fv.-ek (python) ◦  Bővíthető listák: helyettesítések, reg.kif. v. exact match

!  Ugyan+olyan => ugyanolyan !  Asszem=> azt+hiszem !  ejj+ => uj ◦  Python utasítások, pl.

!  URL-ek felismerése és egyben tartása !  “egyik.másik” => [egyik, másik] !  egyik..... másik => [egyik, …, másik]

Page 6: Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

Eszközök elérhetők: github.com/mmihaltz/trendminer-hunlp

Köszönöm a figyelmet!