it3 4 2 4 2 1

21
Számítógépes szövegelemzés IT3-BT, 2007. május 11

Upload: project-it3

Post on 05-Dec-2014

1.465 views

Category:

Technology


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: It3 4 2 4 2 1

Számítógépes szövegelemzés

IT3-BT, 2007. május 11

Page 2: It3 4 2 4 2 1

BehatárolásA számítógépes szövegelemzés• strukturálatlan információkat elemez (mint pl. e-

mail-ek, dokumentumok), hogy • adatokat (pl. tényállításokat) és metaadatokat (pl.

kategorizálás) nyerjen ki belőlük• különböző (pl. nyelvi vagy statisztikai) technikák-

kal.

Pontosítás• csak szöveg és (előfeldolgozás után) beszéd elemzése• strukturálatlan = nehezen feldolgozható struktúrákat tartalma-zóKizárás• helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök• szövegek készítését segítő eszközök• gépi fordító rendszerek

Page 3: It3 4 2 4 2 1

Tézis

A számítógépes szövegelemzés

• beintegrálódik a vállalatok üzleti intelligen-cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe,

• kiterjeszti az informatika lehetőségeit új al-kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek,

• általában is növelni fogja az ember-gép kap-csolat hatékonyságát.

Page 4: It3 4 2 4 2 1

Kapcsolódó technológiák• Tartalomkezelés (Content Management)• Ismeretkezelés (Knowledge Management)• Keresés (Search)• Üzleti intelligencia (Business Intelligence)

– adatbányászat– adatintegráció

A szavakon túl (de azok segítségével)– fogalmak (tezauruszok, taxonómiák, ontológiák)

és – tartalmi (nemcsak felszínes) kapcsolódásaik

azonosítása a szövegben.

Page 5: It3 4 2 4 2 1

Szövegelérés és-előkészítés

Tartalomelemzés

A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű-sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel

A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.)

Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e

Információ-bővítés és -integrálás

Információ-átalakítás és -megjelenítés

Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása

A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése.

Jelentési egységek

Elemi jelentésstruktúrák

Bővített jelentésstruktúra

Kontextusinformáció taxonómia vagy ontológia formájában

Háttérinformáció objektumokról struktúrált forrásokból

A használati kontextus leírása taxonómia vagy ontológia formájában

Szakontológiák

1

2

3

Szótárak,nyelvi ontológiák

Morfológiai elemzés

Szintaktikai elemzés

Szemantikai elemzés

Tárolás,prezentáció

Page 6: It3 4 2 4 2 1

A tartalmi elemzés megközelítései• Nyelvi megközelítés

– Kiindulás: a teljes szöveg– Technika: szintaktikai és nyelvi-szemantikai elemzés

• Tematikus megközelítés– Kiindulás: a szöveg összes „lényeges” szava– Technika: gyakoriság- és kollokációelemzés

• Ontológiai megközelítés– Kiindulás: az ontológia, mint kontextus– Technika: illesztés az ontológiához, gyakoriság- és

kollokációelemzés, kontextusalapú szemantikai elemzés

Page 7: It3 4 2 4 2 1

WordNetCél

– a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása,

– támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat

Megközelítés– A szavakat szinonímacsoportokba (synset)

szervezi– rövid, általános meghatározásokat ad rájuk,– rögzíti a szinonímacsoportok közti jelentéshordozó

(szemantikus) kapcsolatokat.

Page 8: It3 4 2 4 2 1

nyelvek köztimegfeleltés

(ILI)

felső szintű

ontológia

holland wordnet

hol-landBC

alapfogalmak(BC)

spanyol wordnet

spa-nyolBC

(fiets, rijkwiel)

hipernima

(bicicleta, velocipedo)

hipernima

(bicycle, bike)

ekvivalensekvivalens

EuroWordNet – a nyelvek összekapcsolása

Page 9: It3 4 2 4 2 1
Page 10: It3 4 2 4 2 1

Lokális nyelvtanok

• Kontextusspecifikus nyelvtani elemzés

• Mottó: „Nem kell mindent megérteni”– … gyakran az is elég, ha azt megértjük, amire

kiváncsiak vagyunk.

• Különböző nyelvtanok különböző témakörökre, pl.:– Oksági viszonyok– Személyek közti kapcsolatok– Üzleti viszonyok

Page 11: It3 4 2 4 2 1

Szövegelemzés (TA) és BI-technológiák

• TA -> BI– Eddig feldolgozatlan információkör bevonása

• BI -> TA– Adatbázis és adattárház, mint háttértudás

• Információintegráció– a szövegek mögötti háttértudás aktvizálásának

rugalmas eszköze– Névkifejezések (pl. tulajdonevek, azonosítók)

mögötti objektumok felismerése

• Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten

Page 12: It3 4 2 4 2 1

egy csoportot alkotó dokumentumok határát fekete vonal jelzi

dokumentumokösszetartozásának mértékét színek mutatják:

piros – magassárga - közepeskék - alacsony

a dokumentumok csoportosítása jellemző szavaik szerint történik

a dokumentumokat fehér pontok jelölik

Megjelenítés „önszervező háló”-val

Page 13: It3 4 2 4 2 1

Várható fejlődés

2007

2012

2017

integrálódás az üzleti intelligencia eszközeivel

magyar szintaktikai elemző

nyelvi tudású internetkereső

szövegértő és tanuló rendszerek

szövegelemzés mindennapi környezetben

morfológiai elemzés

WordNet

terjedőben

nyelvi és szakontológiák

együttes alkalmazása

speciális grammatikákvállalati használatban

tematikus elemzés

Page 14: It3 4 2 4 2 1

belső rendszer

moduláris feldolgozó alrendszer

asszociatív memória-alrendszer

külső objektum jelsorozat

kereső modul

vezérlőmodul

hosszú távúmemória

közbenső memória

rövid távúmemória

felismerő-generáló

modul

érzékelő modul

tároló modul

elemző modul

jelentés

ideigleneskialakult

Számítógépes szövegértés felé

Page 15: It3 4 2 4 2 1

Web 2.0 térhódítása

Web, mint korpusz

Webes keresésfinomodása

Szövegmennyiség további növekedése

Szövegelemzésfejlődése

Tárolókapacitásoknövekedése

Számítási kapacitásoknövekedése

Nyelvtechnológiákfejlődése

Szemantikus Web–

Adatintegráció fejlődése

Szakontológiák stabilizálódása

+

OCR fejlődése

Technológiai tényezők

Page 16: It3 4 2 4 2 1

Ügyfélkapcsolatkezelés

finomodása

Szövegelemzésfejlődése

Biztonsági kérdésekelőtérbe kerülése

Élettudományokbeépülése a

mindennapokba

Személyiségjogiaggályok

felmerüléseNemzetbiztonság,

terrorelhárítás

BankbiztonságRéspiacokszámának

növekedése

Rendészeti feladatok

Globálisszolgáltatási

igényekGéntechnológia

alkalmazása

Gyógyászati diagnosztika

fejlődése

Gazdasági tényezők

Page 17: It3 4 2 4 2 1

Szövegelemzésfejlődése

Közszolgáltatásokelektronizálása

Internet tömeges,aktív használata

Innovációs készséghiánya

Web 2.0 terjedése

Sávszélességjelentős

növekedése

Társadalmi tényezők

Page 18: It3 4 2 4 2 1

Hatások

• Társadalom– Papírmunka további visszaszorulása – Soknyelvűség fenntarthatósága– Hatékonyabb ember-gép kommunikáció

• Gazdaság– Teljeskörű információkezelés (felé)

• Technológia– Gépi fordítás tökéletesedése– Multimodális adatelemzés elősegítése

Page 19: It3 4 2 4 2 1

Hazai szereplők

• MTA Nyelvtudományi Intézete (NYTI),

• Morphologic Kft.

• Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs).

• BME Média Oktatási és Kutató Központ (MOKK)

• Alkalmazott Logikai Laboratórium Kft. (ALL)

• Signum Kft.

Page 20: It3 4 2 4 2 1

Hazai fejlesztések

• Magyar Wordnet

• Magyar NooJ

• Nyelvfüggetlen tulajdonnévfelismerés

• Alkamazások:– Egészségügy (+ pszichológia)– Üzleti információk

Page 21: It3 4 2 4 2 1

Hazai tényezők és hatások

• Fejlesztéspolitika: – csak magunkra számíthatunk

• általános és specifikus magyar nyelvi elemzők, • magyar nyelvi ontológiák, • jó minőségű nyelvi annotációt tartalmazó, magyar

szövegkorpuszok • szakontológiák magyar nyelvi változatai

• Nyilt forráskódú alaptechnológia: – lenni vagy nem lenni?