tulajdonnév felismerés
DESCRIPTION
Tulajdonnév felismerés. 2010.febr. 16. Tulajdonnév felismerés. Közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith. Mi egy tulajdonnév?. Magyar Helyesírási kézikönyv: tulajdonnév pl: Magyar Nemzeti Bank - PowerPoint PPT PresentationTRANSCRIPT
Tulajdonnév felismerés
2010.febr. 16
Tulajdonnév felismerés
Közvetlen alkalmazásai is vannak.
Fontos részfeladat:
• információkinyerés alapegységei
• gépi fordítás: Kovács János -> John Smith
Mi egy tulajdonnév?• Magyar Helyesírási kézikönyv:
tulajdonnév pl: Magyar Nemzeti Bankköznév pl: asztal, alma, bank? File Transfer Protocol, Blootouth, BUX ? Botond étteremNincs egzakt szabály ennek eldöntésre!
• named entity: „a szövegnek egy olyan eleme, amely a világ valamely entitására unikusan referál”[email protected] is egy NE
Tulajdonnév a HLT-ben „Előre definiált osztályokba tartozó
tokensorozatok felismerése és klasszifikálása”.Az osztályokat egy tanítóhalmaz manuális
annotációjával „definiálják”.Például: helynevek, személynevek, szervezetek,
e-mail címek
Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például e-mail címek
A klasszifikáció nehézségeiFelismerés (viszonylag) egyszerű feladat
Nyílt halmaz, nem fedhető le szótárakkal!
Gyakran a szövegkörnyezet dönti el a jelentést
pl.: Ford személy, repülőtér, vállalat vagy márkanév?
Szintaktikai információkból kell szemantikai döntéseket meghozni.
Gépi tanulási megközelítések
Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne.
Milyen jellemzőkkel írhatóak le az osztályok?
Két különböző megközelítés:– Token alapú klasszifikáció– Szekvencia jelölés
Jellemzőkészlet• Ortográfiai jellemzők
kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám
• Gyakorisági adatokkis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok,
gyakoriság
• Szövegkörnyezet infotrigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició
• Kifejezés-szintű infomegelőző tokenek címkéi, zárójelben/idézőjelben van,
reguláris kifejezések
• Egyértelmű szavak szótáratanuló adatbázisból összegyűjtve, betegségek nevei
• Trigger szótárakkeresztnevek, kórházformák, országok, városok
Token szintű osztályozásAz egyes tokeneket klasszifikáljuk.
A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé:
pl: elöző szó kisbetűs-e
Kérdés: megadhatjuk-e a környezet osztálycímkéit?
Általában szükség van egy utófeldolgozó lépésre:
MagyarORG NemzetiLOC BankORG Rt.ORG
Szekvenciális modellekCél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést.
P(T|x) : címkeeloszlás a jellemzőtér felett
x: {kisbetűs, gyakori, zárójelben van}
T: {nem tulajdonnév, szervezet, helység}
P(Tt|Tt-1) : átmenet-valószínűségek
P(helység|szervezet)=0.0001
Ezeket a tanuló adatbázis alapján becsüljük.
Viterbi algoritmus
Alkalmazási területek• Magyar gazdasági rövidhírek elemzése
• Angol újsághírek elemzése
• Orvosi kórlapok anonimizálása
• Lényegében ugyanaz a modell működik:– angolra és magyarra– Két teljesen más feladatra (domainre)
Kiértékelési metrikaCsak a tulajdonnév osztályokra számoljuk.Precízió: Amit C-nek jelölünk az hány esetben CLefedettség: Az összes C-ből hányat találtunk
meg.Fβ=1 a precízió és a lefedettség harmonikus
közepe
MagyarORG NemzetiLOC BankORG Rt.ORG
Frázis szintű metrika Token szintűP_tokenORG=3/3 R_tokenORG=3/4P_frázisORG=0/2 R_frázisORG=0/1
SzegedNE korpusz• 200 ezer szövegszó
• Gazdasági rövidhírek (NewsML)
• Személynév, Szervezet, Hely és Egyéb
• 15 ezer tulajdonnév
• A korpusz és magyar tulajdonnévtrigger-listák letölthetőek
Eredmények a SzegedNE korpuszon
Első statisztikai tulajdonnév-felismerő modell magyar nyelvre
Fβ=1
Szervezet 95,84%
Személy 94,67%
Hely 95,07%
Egyéb 85,96%
mindösszesen 94,77%
CoNLL 2003 adatbázis• A tulajdonnév-felismerés
legfontosabb nemzetközi referencia adatbázisa
• 200+50 ezer szövegszó• Angol nyelvű újsághírek
– gazdaság, sport, politika témában
• Személynév, Szervezet, Hely és Egyéb• Ez szolgált mintául a SzegedNE
korpuszhoz
Eredmények angol nyelvre
egyéni
Szervezet 84,53%Személy 93,55%Hely 92,90%Egyéb 79,67%mindösszesen 89,02%
hibrid
88,32%96,27%93,43%82,29%91,41%
Orvosi rekordok feldolgozása
Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb
körben (kórházak)Adatok gyűjtése, statisztikák készítéseKutatómunka elősegítéseA feladatok nagy része automatizálható
Ehhez azonban a személyes információkat el kell távolítani, pontosabban
le kell őket generált egyedekre cserélni!
AnonimizálásCél: PHI-k azonosítása és osztályozása a
zárójelentésekben– 8 különböző kategória (sok mindent lefed):
PATIENT, DOCTOR, HOSPITAL, LOCATION, ID, PHONE, DATE, AGE (csak ha 90 év feletti)
–Ezek pont a klasszikus named entity osztályok!
Anonimizálás vs De-identifikáció
A felhasznált adatbázis• I2B2 nemzetközi nyílt verseny• 671 címkézett orvosi zárójelentés
– (400 ezer token, tartalmaz strukturált részeket is)
• Kiértékelés 206 ismeretlen zárójelentésen
• Orvosi nyelvi feldolgozás„A/P: 64 yo M known CAD, s/p CABG and PCI in '03presents w NSTEMI in settin of EKG changes s/p cardiaccath and ETT MIBI positive for diffuse disease w mildreversibility in PDA territory cw 100% lesion in SVG.”
• Anonimizált adatbázis
Kiértékelés (Fβ=1)
Token Phrase
NON-PHI 99.88
PATIENT 97.27 96.72
DOCTOR 97.41 95.52
HOSPITAL 95.54 94.17
ID 99.29 99.13
DATE 99.44 99.17
PHONE 89.61 91.07
LOCATION 67.82 56.70
AGE 100.0 100.0
overall 99.75 96.79
A rendszer adaptálása a három feladatra
• Szótárak (keresztnevek, cégformák stb.) cseréje angolra
• Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re
• A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)
A jellemzők jellemzői • Próbáltunk POS és szintaktikai kódokat
használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert
• Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok)
• Csak felszíni információk felhasználásával elérhető versenyképes eredmény!
A jellemzők hatása az anonimizálás feladatnál
1. Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi
2. Ortográfiai jellemzők3. Gyakorisági adatok4. Struktúra információ5. Reguláris kifejezések6. Helység szótárak (országok,
városok)7. Mondat pozíció8. Idézőjelek / Zárójelek között9. Keresztnevek10. Nem-NE listák