it3 4 2 4 2 1
DESCRIPTION
TRANSCRIPT
Számítógépes szövegelemzés
IT3-BT, 2007. május 11
BehatárolásA számítógépes szövegelemzés• strukturálatlan információkat elemez (mint pl. e-
mail-ek, dokumentumok), hogy • adatokat (pl. tényállításokat) és metaadatokat (pl.
kategorizálás) nyerjen ki belőlük• különböző (pl. nyelvi vagy statisztikai) technikák-
kal.
Pontosítás• csak szöveg és (előfeldolgozás után) beszéd elemzése• strukturálatlan = nehezen feldolgozható struktúrákat tartalma-zóKizárás• helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök• szövegek készítését segítő eszközök• gépi fordító rendszerek
Tézis
A számítógépes szövegelemzés
• beintegrálódik a vállalatok üzleti intelligen-cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe,
• kiterjeszti az informatika lehetőségeit új al-kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek,
• általában is növelni fogja az ember-gép kap-csolat hatékonyságát.
Kapcsolódó technológiák• Tartalomkezelés (Content Management)• Ismeretkezelés (Knowledge Management)• Keresés (Search)• Üzleti intelligencia (Business Intelligence)
– adatbányászat– adatintegráció
A szavakon túl (de azok segítségével)– fogalmak (tezauruszok, taxonómiák, ontológiák)
és – tartalmi (nemcsak felszínes) kapcsolódásaik
azonosítása a szövegben.
Szövegelérés és-előkészítés
Tartalomelemzés
A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű-sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel
A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.)
Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e
Információ-bővítés és -integrálás
Információ-átalakítás és -megjelenítés
Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása
A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése.
Jelentési egységek
Elemi jelentésstruktúrák
Bővített jelentésstruktúra
Kontextusinformáció taxonómia vagy ontológia formájában
Háttérinformáció objektumokról struktúrált forrásokból
A használati kontextus leírása taxonómia vagy ontológia formájában
Szakontológiák
1
2
3
Szótárak,nyelvi ontológiák
Morfológiai elemzés
Szintaktikai elemzés
Szemantikai elemzés
Tárolás,prezentáció
A tartalmi elemzés megközelítései• Nyelvi megközelítés
– Kiindulás: a teljes szöveg– Technika: szintaktikai és nyelvi-szemantikai elemzés
• Tematikus megközelítés– Kiindulás: a szöveg összes „lényeges” szava– Technika: gyakoriság- és kollokációelemzés
• Ontológiai megközelítés– Kiindulás: az ontológia, mint kontextus– Technika: illesztés az ontológiához, gyakoriság- és
kollokációelemzés, kontextusalapú szemantikai elemzés
WordNetCél
– a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása,
– támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat
Megközelítés– A szavakat szinonímacsoportokba (synset)
szervezi– rövid, általános meghatározásokat ad rájuk,– rögzíti a szinonímacsoportok közti jelentéshordozó
(szemantikus) kapcsolatokat.
nyelvek köztimegfeleltés
(ILI)
felső szintű
ontológia
holland wordnet
hol-landBC
alapfogalmak(BC)
spanyol wordnet
spa-nyolBC
…
(fiets, rijkwiel)
hipernima
…
(bicicleta, velocipedo)
hipernima
(bicycle, bike)
ekvivalensekvivalens
EuroWordNet – a nyelvek összekapcsolása
Lokális nyelvtanok
• Kontextusspecifikus nyelvtani elemzés
• Mottó: „Nem kell mindent megérteni”– … gyakran az is elég, ha azt megértjük, amire
kiváncsiak vagyunk.
• Különböző nyelvtanok különböző témakörökre, pl.:– Oksági viszonyok– Személyek közti kapcsolatok– Üzleti viszonyok
Szövegelemzés (TA) és BI-technológiák
• TA -> BI– Eddig feldolgozatlan információkör bevonása
• BI -> TA– Adatbázis és adattárház, mint háttértudás
• Információintegráció– a szövegek mögötti háttértudás aktvizálásának
rugalmas eszköze– Névkifejezések (pl. tulajdonevek, azonosítók)
mögötti objektumok felismerése
• Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten
egy csoportot alkotó dokumentumok határát fekete vonal jelzi
dokumentumokösszetartozásának mértékét színek mutatják:
piros – magassárga - közepeskék - alacsony
a dokumentumok csoportosítása jellemző szavaik szerint történik
a dokumentumokat fehér pontok jelölik
Megjelenítés „önszervező háló”-val
Várható fejlődés
2007
2012
2017
integrálódás az üzleti intelligencia eszközeivel
magyar szintaktikai elemző
nyelvi tudású internetkereső
szövegértő és tanuló rendszerek
szövegelemzés mindennapi környezetben
morfológiai elemzés
WordNet
terjedőben
nyelvi és szakontológiák
együttes alkalmazása
speciális grammatikákvállalati használatban
tematikus elemzés
belső rendszer
moduláris feldolgozó alrendszer
asszociatív memória-alrendszer
külső objektum jelsorozat
kereső modul
vezérlőmodul
hosszú távúmemória
közbenső memória
rövid távúmemória
felismerő-generáló
modul
érzékelő modul
tároló modul
elemző modul
jelentés
ideigleneskialakult
Számítógépes szövegértés felé
Web 2.0 térhódítása
Web, mint korpusz
Webes keresésfinomodása
Szövegmennyiség további növekedése
Szövegelemzésfejlődése
Tárolókapacitásoknövekedése
Számítási kapacitásoknövekedése
Nyelvtechnológiákfejlődése
Szemantikus Web–
Adatintegráció fejlődése
Szakontológiák stabilizálódása
+
OCR fejlődése
Technológiai tényezők
Ügyfélkapcsolatkezelés
finomodása
Szövegelemzésfejlődése
Biztonsági kérdésekelőtérbe kerülése
Élettudományokbeépülése a
mindennapokba
–
Személyiségjogiaggályok
felmerüléseNemzetbiztonság,
terrorelhárítás
BankbiztonságRéspiacokszámának
növekedése
Rendészeti feladatok
Globálisszolgáltatási
igényekGéntechnológia
alkalmazása
Gyógyászati diagnosztika
fejlődése
Gazdasági tényezők
Szövegelemzésfejlődése
Közszolgáltatásokelektronizálása
Internet tömeges,aktív használata
–
Innovációs készséghiánya
Web 2.0 terjedése
Sávszélességjelentős
növekedése
Társadalmi tényezők
Hatások
• Társadalom– Papírmunka további visszaszorulása – Soknyelvűség fenntarthatósága– Hatékonyabb ember-gép kommunikáció
• Gazdaság– Teljeskörű információkezelés (felé)
• Technológia– Gépi fordítás tökéletesedése– Multimodális adatelemzés elősegítése
Hazai szereplők
• MTA Nyelvtudományi Intézete (NYTI),
• Morphologic Kft.
• Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs).
• BME Média Oktatási és Kutató Központ (MOKK)
• Alkalmazott Logikai Laboratórium Kft. (ALL)
• Signum Kft.
Hazai fejlesztések
• Magyar Wordnet
• Magyar NooJ
• Nyelvfüggetlen tulajdonnévfelismerés
• Alkamazások:– Egészségügy (+ pszichológia)– Üzleti információk
Hazai tényezők és hatások
• Fejlesztéspolitika: – csak magunkra számíthatunk
• általános és specifikus magyar nyelvi elemzők, • magyar nyelvi ontológiák, • jó minőségű nyelvi annotációt tartalmazó, magyar
szövegkorpuszok • szakontológiák magyar nyelvi változatai
• Nyilt forráskódú alaptechnológia: – lenni vagy nem lenni?