Download - Neticle bce om_preso_20121113
www.neticle.huBudapest, 2012.11.13.
Automatikus véleményelemzés
Neticle Technologies
Szekeres Péter, vezető kutató
tel.: +36 70 7016488
www.neticle.hu
www.neticle.huBudapest, 2012.11.13.
A véleményelemzés vagy sentiment analysis célja olyan algoritmusok kialakítása, melyek számszerűsítik különböző szövegek véleménypolaritását valamilyen pozitív-negatív skálán.
www.neticle.huBudapest, 2012.11.13.
A véleményelemzés számítástudományból menedzsment eszközzé nőtte ki magát.
(Liu, 2011)
www.neticle.huBudapest, 2012.11.13.
Mire lehet használni?
Összehasonlítás versenytársakkal
Kampányok, események hatásainak vizsgálata
Automatikus értesítések (erősen negatív tartalmak esetén)
Fő ellenző és fő támogató felhasználók azonosítása
Fő ellenző és fő támogató weboldalak
Ad-hoc elemzések végrehajtása
www.neticle.huBudapest, 2012.11.13.
Magyar szereplők
NeticleWebLib
MorphoLogic
OpinHu
www.neticle.huBudapest, 2012.11.13.
Radian6
www.neticle.huBudapest, 2012.11.13.
Data mining
Text mining
NLP
Machine learning
www.neticle.huBudapest, 2012.11.13.
Magyar nyelvű szövegek automatikus feldolgozásának nehézségei
www.neticle.huBudapest, 2012.11.13.
Utóragozás sisak, reggel, folyamod
Tikk (2007) szerint egy főnévnek akár 1400, melléknévnek akár 2700 alakja lehet
www.neticle.huBudapest, 2012.11.13.
Hunglish kifejezések
júzerrel, lájkol, szisztem, deployol
www.neticle.huBudapest, 2012.11.13.
Szleng és webes szleng
lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg
www.neticle.huBudapest, 2012.11.13.
Tagadás
Tagadószavakkal és tiltószavakkal (például: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen),
Fosztóképzők (például: -atlan, -etlen, -mentes)
www.neticle.huBudapest, 2012.11.13.
Beviteli eszköz miatti sajátosságok
Karakterkódolási nehézségek
www.neticle.huBudapest, 2012.11.13.
Szótövezés vs. lemmatizálás
www.neticle.huBudapest, 2012.11.13.
Szint Levágandó Példa
0.Nincs
levágás-
1. Ragok Többes szám első személy ragja: Fizetünk -> Fizet
2.Ragok és
jelekTöbbes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet
3.
Ragok, jelek és képzők
Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet
Igenévi képző: Fizetendő -> Fizet
4.
Ragok, jelek, képzők és igekötők
Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk-> Fizet
Igenévi képző: Fizetendő -> FizetIgekötő: Megfizet -> Fizet
www.neticle.huBudapest, 2012.11.13.
Szótövezési módszerek
Algoritmikus, nyelvspecifikus transzformációs szabályok
Szavakat és szótöveiket alkalmazó szótárak alkalmazása
www.neticle.huBudapest, 2012.11.13.
Szótár alapú szótövezés Szabály alapú szótövezés
Teljesítmény Lassú Gyors
PontosságElméletileg 100%-os
pontosságot is elérhetKivételszótár bevezetésével
meglehetősen pontos
Skálázhatóság
Csak azokra szóalakokra működik, amelyek szerepelnek a szótárakban.
Új szavak esetén elég csak a kivételszótárakat bővíteni, azt is csak szükség esetén
Kivételes, rendhagyó esetek kezelése
Kivételek, rendhagyó esetek hatékony kezelése
Kivételek nehézkes kezelése
Kivétel szótárak bevezetésével történik
NyelvfüggőségNyelvfüggetlen megoldás Nyelvfüggő megoldás, jelentős
nyelvspecifikus ismereteket igényel
Bővíthetőség, fejleszthetőség
Egyszerű bővíthetőség Nehézkes bővíthetőség
MegvalósításFáradságos szótárépítésFolyamatos karbantartás
Bonyolult szabályrendszer építés
www.neticle.huBudapest, 2012.11.13.
HunStem
Tordai Anna
Neticle szótövezője
Példák magyar nyelvű szótövezésre
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
Raglevágó pontosságának alakulása
Raglevágó pontossága
átlagosan: 89,67%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627
Szószám
www.neticle.huBudapest, 2012.11.13.
Véleményelemzési kihívások
www.neticle.huBudapest, 2012.11.13.
Tényező Leírás Szövegbányászati
feladat
Feladat nehézsé
ge
Cél entitás Amire a vélemény vonatkozik, például: iPhone
Névelem azonosítás
Nehéz
Aspektus, attribútum
A cél entitás tulajdonsága vagy részeleme, amire a vélemény vonatkozik.
Információkinyerés
Nehéz
Vélemény Maga a - többnyire szubjektív - vélemény
Véleménykinyerés
Könnyű
Forrás Az a személy (felhasználó) aki megfogalmazta a véleményt
Információkinyerési és névelem azonosítási feladat
Nehéz
Idő A vélemény megjelenésének/keletkezésének ideje
Információkinyerési és névelem azonosítási feladat
Nehéz
www.neticle.huBudapest, 2012.11.13.
A megfelelő szövegegység meghatározása
www.neticle.huBudapest, 2012.11.13.
A cél entitás azonosítása
www.neticle.huBudapest, 2012.11.13.
Nézőpontok
„Google részvények ára szárnyal ma”
www.neticle.huBudapest, 2012.11.13.
Szakterületi szótárspecializáció
www.neticle.huBudapest, 2012.11.13.
Tipikus előfeldolgozási folyamat
Dokumentum beolvasása
Speciális karakterkódolások kezelése
Dokumentum feldarabolás
Stopszavak kiszűrése
Többféle írásmód egyértelműsítése
Szavak kisbetűssé alakítása
A szavak szótövezése
Dokumentum felbontása karakter n-grammokra/szavakra/szó n-grammokra
Vektortérmodell kialakítása
www.neticle.huBudapest, 2012.11.13.
Véleményelemzési módszerek
www.neticle.huBudapest, 2012.11.13.
Felügyelt gépi tanulással megvalósított véleménymérési módszerek
SVM naiv Bayes
Legközelebb szomszéd módszer
www.neticle.huBudapest, 2012.11.13.
Kétszintű osztályozás és tanítóhalmaz alapján scoring rendszer kialakítása
www.neticle.huBudapest, 2012.11.13.
Véleménymérés döntési fákkal
www.neticle.huBudapest, 2012.11.13.
Felügyeletlen gépi tanulással megvalósított véleménymérés
Szemantikus véleményorientáció megállapítása szinonima szótárra
Szemantikus véleményorientáció megállapítása PMI módszerrel
www.neticle.huBudapest, 2012.11.13.
Gépi tanulás nélküli módszerek
www.neticle.huBudapest, 2012.11.13.
A Neticle szótár alapú módszere
Véleményszó szótár
Vélemény kifejezés szótár
Véleményerősség szótár
Véleménymódosító szótár
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
Ki Hogyan Nyelv Accuracy
Pang et al (2002)
SVM algoritmussal unigrammok felhasználásával IMDB weboldal filmkritikáinak elemzése angol 82,90%
Pang et al (2004)
Szubjektivitás osztályozással majd Naiv Bayes módszerrel megvalósított hierarchikus osztályozással IMDB weboldal filmkritikáinak elemzése angol 86,40%
Hatzivassiloglu és
McKeown(Szaszkó et al,2009 alapján)
Szótár alapú módszerrel a szövegekben lévő melléknevek orientációja alapján becsülték meg dokumentumok orientációját angol 78%
Neticle
Szótár alapú módszerrel weboldalak szövegének véleményelemzése magyar 80,48%
www.neticle.huBudapest, 2012.11.13.
Ki Hogyan Nyelv Accuracy
Berend és Farkas (2008)
C4.5 döntési fa algoritmussal kombinált fórum válaszolási gráfmegoldással népszavazásról alkotott vélemények osztályozása magyar 71,76%
Szaszkó et al (2009)
240 magyar nyelvű filmkritika pozitív negatív osztályozása ún. robosztus kockázat minimalizálás elven alapuló osztályozással. magyar 76%
Baseline pontosság
Ha minden mondatot, a leggyakoribb, a semleges kategóriába sorolunk magyar 58,71%
NeticleSzótár alapú módszerrel weboldalak
szövegének véleményelemzése magyar 80,48%
www.neticle.huBudapest, 2012.11.13.
www.neticle.huBudapest, 2012.11.13.
Érdeklődőknek ajánlott:
Tikk, D. [2007]: Szövegbányászat, Typotex Elektronikus Kiadó Kft, Budapest
Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San Francisco, USA. (letölthető:, utoljára letöltve: http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf, 2012. április 19-én)
Miháltz Márton [2010]: OpinHu: online szövegek többnyelvű véleményelemzése, VII. Magyar Számítógépes Nyelvészeti Konferencia
Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander, 2008.