it3 4 2 4 2 1

Post on 05-Dec-2014

1.465 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Számítógépes szövegelemzés

IT3-BT, 2007. május 11

BehatárolásA számítógépes szövegelemzés• strukturálatlan információkat elemez (mint pl. e-

mail-ek, dokumentumok), hogy • adatokat (pl. tényállításokat) és metaadatokat (pl.

kategorizálás) nyerjen ki belőlük• különböző (pl. nyelvi vagy statisztikai) technikák-

kal.

Pontosítás• csak szöveg és (előfeldolgozás után) beszéd elemzése• strukturálatlan = nehezen feldolgozható struktúrákat tartalma-zóKizárás• helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök• szövegek készítését segítő eszközök• gépi fordító rendszerek

Tézis

A számítógépes szövegelemzés

• beintegrálódik a vállalatok üzleti intelligen-cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe,

• kiterjeszti az informatika lehetőségeit új al-kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek,

• általában is növelni fogja az ember-gép kap-csolat hatékonyságát.

Kapcsolódó technológiák• Tartalomkezelés (Content Management)• Ismeretkezelés (Knowledge Management)• Keresés (Search)• Üzleti intelligencia (Business Intelligence)

– adatbányászat– adatintegráció

A szavakon túl (de azok segítségével)– fogalmak (tezauruszok, taxonómiák, ontológiák)

és – tartalmi (nemcsak felszínes) kapcsolódásaik

azonosítása a szövegben.

Szövegelérés és-előkészítés

Tartalomelemzés

A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű-sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel

A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.)

Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e

Információ-bővítés és -integrálás

Információ-átalakítás és -megjelenítés

Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása

A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése.

Jelentési egységek

Elemi jelentésstruktúrák

Bővített jelentésstruktúra

Kontextusinformáció taxonómia vagy ontológia formájában

Háttérinformáció objektumokról struktúrált forrásokból

A használati kontextus leírása taxonómia vagy ontológia formájában

Szakontológiák

1

2

3

Szótárak,nyelvi ontológiák

Morfológiai elemzés

Szintaktikai elemzés

Szemantikai elemzés

Tárolás,prezentáció

A tartalmi elemzés megközelítései• Nyelvi megközelítés

– Kiindulás: a teljes szöveg– Technika: szintaktikai és nyelvi-szemantikai elemzés

• Tematikus megközelítés– Kiindulás: a szöveg összes „lényeges” szava– Technika: gyakoriság- és kollokációelemzés

• Ontológiai megközelítés– Kiindulás: az ontológia, mint kontextus– Technika: illesztés az ontológiához, gyakoriság- és

kollokációelemzés, kontextusalapú szemantikai elemzés

WordNetCél

– a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása,

– támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat

Megközelítés– A szavakat szinonímacsoportokba (synset)

szervezi– rövid, általános meghatározásokat ad rájuk,– rögzíti a szinonímacsoportok közti jelentéshordozó

(szemantikus) kapcsolatokat.

nyelvek köztimegfeleltés

(ILI)

felső szintű

ontológia

holland wordnet

hol-landBC

alapfogalmak(BC)

spanyol wordnet

spa-nyolBC

(fiets, rijkwiel)

hipernima

(bicicleta, velocipedo)

hipernima

(bicycle, bike)

ekvivalensekvivalens

EuroWordNet – a nyelvek összekapcsolása

Lokális nyelvtanok

• Kontextusspecifikus nyelvtani elemzés

• Mottó: „Nem kell mindent megérteni”– … gyakran az is elég, ha azt megértjük, amire

kiváncsiak vagyunk.

• Különböző nyelvtanok különböző témakörökre, pl.:– Oksági viszonyok– Személyek közti kapcsolatok– Üzleti viszonyok

Szövegelemzés (TA) és BI-technológiák

• TA -> BI– Eddig feldolgozatlan információkör bevonása

• BI -> TA– Adatbázis és adattárház, mint háttértudás

• Információintegráció– a szövegek mögötti háttértudás aktvizálásának

rugalmas eszköze– Névkifejezések (pl. tulajdonevek, azonosítók)

mögötti objektumok felismerése

• Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten

egy csoportot alkotó dokumentumok határát fekete vonal jelzi

dokumentumokösszetartozásának mértékét színek mutatják:

piros – magassárga - közepeskék - alacsony

a dokumentumok csoportosítása jellemző szavaik szerint történik

a dokumentumokat fehér pontok jelölik

Megjelenítés „önszervező háló”-val

Várható fejlődés

2007

2012

2017

integrálódás az üzleti intelligencia eszközeivel

magyar szintaktikai elemző

nyelvi tudású internetkereső

szövegértő és tanuló rendszerek

szövegelemzés mindennapi környezetben

morfológiai elemzés

WordNet

terjedőben

nyelvi és szakontológiák

együttes alkalmazása

speciális grammatikákvállalati használatban

tematikus elemzés

belső rendszer

moduláris feldolgozó alrendszer

asszociatív memória-alrendszer

külső objektum jelsorozat

kereső modul

vezérlőmodul

hosszú távúmemória

közbenső memória

rövid távúmemória

felismerő-generáló

modul

érzékelő modul

tároló modul

elemző modul

jelentés

ideigleneskialakult

Számítógépes szövegértés felé

Web 2.0 térhódítása

Web, mint korpusz

Webes keresésfinomodása

Szövegmennyiség további növekedése

Szövegelemzésfejlődése

Tárolókapacitásoknövekedése

Számítási kapacitásoknövekedése

Nyelvtechnológiákfejlődése

Szemantikus Web–

Adatintegráció fejlődése

Szakontológiák stabilizálódása

+

OCR fejlődése

Technológiai tényezők

Ügyfélkapcsolatkezelés

finomodása

Szövegelemzésfejlődése

Biztonsági kérdésekelőtérbe kerülése

Élettudományokbeépülése a

mindennapokba

Személyiségjogiaggályok

felmerüléseNemzetbiztonság,

terrorelhárítás

BankbiztonságRéspiacokszámának

növekedése

Rendészeti feladatok

Globálisszolgáltatási

igényekGéntechnológia

alkalmazása

Gyógyászati diagnosztika

fejlődése

Gazdasági tényezők

Szövegelemzésfejlődése

Közszolgáltatásokelektronizálása

Internet tömeges,aktív használata

Innovációs készséghiánya

Web 2.0 terjedése

Sávszélességjelentős

növekedése

Társadalmi tényezők

Hatások

• Társadalom– Papírmunka további visszaszorulása – Soknyelvűség fenntarthatósága– Hatékonyabb ember-gép kommunikáció

• Gazdaság– Teljeskörű információkezelés (felé)

• Technológia– Gépi fordítás tökéletesedése– Multimodális adatelemzés elősegítése

Hazai szereplők

• MTA Nyelvtudományi Intézete (NYTI),

• Morphologic Kft.

• Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs).

• BME Média Oktatási és Kutató Központ (MOKK)

• Alkalmazott Logikai Laboratórium Kft. (ALL)

• Signum Kft.

Hazai fejlesztések

• Magyar Wordnet

• Magyar NooJ

• Nyelvfüggetlen tulajdonnévfelismerés

• Alkamazások:– Egészségügy (+ pszichológia)– Üzleti információk

Hazai tényezők és hatások

• Fejlesztéspolitika: – csak magunkra számíthatunk

• általános és specifikus magyar nyelvi elemzők, • magyar nyelvi ontológiák, • jó minőségű nyelvi annotációt tartalmazó, magyar

szövegkorpuszok • szakontológiák magyar nyelvi változatai

• Nyilt forráskódú alaptechnológia: – lenni vagy nem lenni?

top related