neticle bce om_preso_20121113

Post on 21-Jun-2015

982 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Neticle presentation on opinion-mining at Corvinus University of Budapest on November 13th, 2012.

TRANSCRIPT

www.neticle.huBudapest, 2012.11.13.

Automatikus véleményelemzés

Neticle Technologies

Szekeres Péter, vezető kutató

peter.szekeres@neticle.hu

tel.: +36 70 7016488

www.neticle.hu

www.neticle.huBudapest, 2012.11.13.

A véleményelemzés vagy sentiment analysis célja olyan algoritmusok kialakítása, melyek számszerűsítik különböző szövegek véleménypolaritását valamilyen pozitív-negatív skálán.

www.neticle.huBudapest, 2012.11.13.

A véleményelemzés számítástudományból menedzsment eszközzé nőtte ki magát.

(Liu, 2011)

www.neticle.huBudapest, 2012.11.13.

Mire lehet használni?

Összehasonlítás versenytársakkal

Kampányok, események hatásainak vizsgálata

Automatikus értesítések (erősen negatív tartalmak esetén)

Fő ellenző és fő támogató felhasználók azonosítása

Fő ellenző és fő támogató weboldalak

Ad-hoc elemzések végrehajtása

www.neticle.huBudapest, 2012.11.13.

Magyar szereplők

NeticleWebLib

MorphoLogic

OpinHu

www.neticle.huBudapest, 2012.11.13.

Radian6

www.neticle.huBudapest, 2012.11.13.

Data mining

Text mining

NLP

Machine learning

www.neticle.huBudapest, 2012.11.13.

Magyar nyelvű szövegek automatikus feldolgozásának nehézségei

www.neticle.huBudapest, 2012.11.13.

Utóragozás sisak, reggel, folyamod

Tikk (2007) szerint egy főnévnek akár 1400, melléknévnek akár 2700 alakja lehet

www.neticle.huBudapest, 2012.11.13.

Hunglish kifejezések

júzerrel, lájkol, szisztem, deployol

www.neticle.huBudapest, 2012.11.13.

Szleng és webes szleng

lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg

www.neticle.huBudapest, 2012.11.13.

Tagadás

Tagadószavakkal és tiltószavakkal (például: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen),

Fosztóképzők (például: -atlan, -etlen, -mentes)

www.neticle.huBudapest, 2012.11.13.

Beviteli eszköz miatti sajátosságok

Karakterkódolási nehézségek

www.neticle.huBudapest, 2012.11.13.

Szótövezés vs. lemmatizálás

www.neticle.huBudapest, 2012.11.13.

Szint Levágandó Példa

0.Nincs

levágás-

1. Ragok Többes szám első személy ragja: Fizetünk -> Fizet

2.Ragok és

jelekTöbbes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet

3.

Ragok, jelek és képzők

Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet

Igenévi képző: Fizetendő -> Fizet

4.

Ragok, jelek, képzők és igekötők

Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk-> Fizet

Igenévi képző: Fizetendő -> FizetIgekötő: Megfizet -> Fizet

www.neticle.huBudapest, 2012.11.13.

Szótövezési módszerek

Algoritmikus, nyelvspecifikus transzformációs szabályok

Szavakat és szótöveiket alkalmazó szótárak alkalmazása

www.neticle.huBudapest, 2012.11.13.

Szótár alapú szótövezés Szabály alapú szótövezés

Teljesítmény Lassú Gyors

PontosságElméletileg 100%-os

pontosságot is elérhetKivételszótár bevezetésével

meglehetősen pontos

Skálázhatóság

Csak azokra szóalakokra működik, amelyek szerepelnek a szótárakban.

Új szavak esetén elég csak a kivételszótárakat bővíteni, azt is csak szükség esetén

Kivételes, rendhagyó esetek kezelése

Kivételek, rendhagyó esetek hatékony kezelése

Kivételek nehézkes kezelése

Kivétel szótárak bevezetésével történik

NyelvfüggőségNyelvfüggetlen megoldás Nyelvfüggő megoldás, jelentős

nyelvspecifikus ismereteket igényel

Bővíthetőség, fejleszthetőség

Egyszerű bővíthetőség Nehézkes bővíthetőség

MegvalósításFáradságos szótárépítésFolyamatos karbantartás

Bonyolult szabályrendszer építés

www.neticle.huBudapest, 2012.11.13.

HunStem

Tordai Anna

Neticle szótövezője

Példák magyar nyelvű szótövezésre

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

Raglevágó pontosságának alakulása

Raglevágó pontossága

átlagosan: 89,67%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627

Szószám

www.neticle.huBudapest, 2012.11.13.

Véleményelemzési kihívások

www.neticle.huBudapest, 2012.11.13.

Tényező Leírás Szövegbányászati

feladat

Feladat nehézsé

ge

Cél entitás Amire a vélemény vonatkozik, például: iPhone

Névelem azonosítás

Nehéz

Aspektus, attribútum

A cél entitás tulajdonsága vagy részeleme, amire a vélemény vonatkozik.

Információkinyerés

Nehéz

Vélemény Maga a - többnyire szubjektív - vélemény

Véleménykinyerés

Könnyű

Forrás Az a személy (felhasználó) aki megfogalmazta a véleményt

Információkinyerési és névelem azonosítási feladat

Nehéz

Idő A vélemény megjelenésének/keletkezésének ideje

Információkinyerési és névelem azonosítási feladat

Nehéz

www.neticle.huBudapest, 2012.11.13.

A megfelelő szövegegység meghatározása

www.neticle.huBudapest, 2012.11.13.

A cél entitás azonosítása

www.neticle.huBudapest, 2012.11.13.

Nézőpontok

„Google részvények ára szárnyal ma”

www.neticle.huBudapest, 2012.11.13.

Szakterületi szótárspecializáció

www.neticle.huBudapest, 2012.11.13.

Tipikus előfeldolgozási folyamat

Dokumentum beolvasása

Speciális karakterkódolások kezelése

Dokumentum feldarabolás

Stopszavak kiszűrése

Többféle írásmód egyértelműsítése

Szavak kisbetűssé alakítása

A szavak szótövezése

Dokumentum felbontása karakter n-grammokra/szavakra/szó n-grammokra

Vektortérmodell kialakítása

www.neticle.huBudapest, 2012.11.13.

Véleményelemzési módszerek

www.neticle.huBudapest, 2012.11.13.

Felügyelt gépi tanulással megvalósított véleménymérési módszerek

SVM naiv Bayes

Legközelebb szomszéd módszer

www.neticle.huBudapest, 2012.11.13.

Kétszintű osztályozás és tanítóhalmaz alapján scoring rendszer kialakítása

www.neticle.huBudapest, 2012.11.13.

Véleménymérés döntési fákkal

www.neticle.huBudapest, 2012.11.13.

Felügyeletlen gépi tanulással megvalósított véleménymérés

Szemantikus véleményorientáció megállapítása szinonima szótárra

Szemantikus véleményorientáció megállapítása PMI módszerrel

www.neticle.huBudapest, 2012.11.13.

Gépi tanulás nélküli módszerek

www.neticle.huBudapest, 2012.11.13.

A Neticle szótár alapú módszere

Véleményszó szótár

Vélemény kifejezés szótár

Véleményerősség szótár

Véleménymódosító szótár

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

Ki Hogyan Nyelv Accuracy

Pang et al (2002)

SVM algoritmussal unigrammok felhasználásával IMDB weboldal filmkritikáinak elemzése angol 82,90%

Pang et al (2004)

Szubjektivitás osztályozással majd Naiv Bayes módszerrel megvalósított hierarchikus osztályozással IMDB weboldal filmkritikáinak elemzése angol 86,40%

Hatzivassiloglu és

McKeown(Szaszkó et al,2009 alapján)

Szótár alapú módszerrel a szövegekben lévő melléknevek orientációja alapján becsülték meg dokumentumok orientációját angol 78%

Neticle

Szótár alapú módszerrel weboldalak szövegének véleményelemzése magyar 80,48%

www.neticle.huBudapest, 2012.11.13.

Ki Hogyan Nyelv Accuracy

Berend és Farkas (2008)

C4.5 döntési fa algoritmussal kombinált fórum válaszolási gráfmegoldással népszavazásról alkotott vélemények osztályozása magyar 71,76%

Szaszkó et al (2009)

240 magyar nyelvű filmkritika pozitív negatív osztályozása ún. robosztus kockázat minimalizálás elven alapuló osztályozással. magyar 76%

Baseline pontosság

Ha minden mondatot, a leggyakoribb, a semleges kategóriába sorolunk magyar 58,71%

NeticleSzótár alapú módszerrel weboldalak

szövegének véleményelemzése magyar 80,48%

www.neticle.huBudapest, 2012.11.13.

www.neticle.huBudapest, 2012.11.13.

Érdeklődőknek ajánlott:

Tikk, D. [2007]: Szövegbányászat, Typotex Elektronikus Kiadó Kft, Budapest

Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San Francisco, USA. (letölthető:, utoljára letöltve: http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf, 2012. április 19-én)

Miháltz Márton [2010]: OpinHu: online szövegek többnyelvű véleményelemzése, VII. Magyar Számítógépes Nyelvészeti Konferencia

Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander, 2008.

top related