de tartalomelemzés 2014_10_14
DESCRIPTION
A digitális bölcsészet kurzuson tartott tartalomelemzés előadásom diái.TRANSCRIPT
TartalomelemzésVarjú Zoltán, Precognox
2014. 10.14
@zoltanvarju
Szógyakoriság RT és elmlítések
Mit árul el rólam a Twitter? Férfi
Harmincas
Minimum középiskolai végzettség
Big Five – nyitottság, extrovertált, analitikus
Tartalomelemzés
A szógyakorisági vizsgálatokkal valós trendekre következtethetünk
Leírhatunk jelenségeket
Predikciókat tehetünk
Miért számoljunk szavakat?
Túl sok tartalom keletkezik
Nem tudunk mindent elolvasni
Filter bubble
Objektivitás hiánya
Egyszerű szógyakoriságR-index, Google Ngram, GoogleTrends
R-index The Economist/
EIU
„recession” gyakorisága az FT és WSJ lapokban
GoogleNgramViewer• https://books.google.c
om/ngrams
• Google Bookskorpuszon alapul
• Nyilvánosan elérhető API-n keresztül, ill. le is tölthető
GoogleTrends http://www.google.co.h
u/trends/
A keresési kifejezések idősorait akár meg is jeleníti nekünk
Lehetőség van területi szűrésre is
Magyar R-index Index.hu cikkek
KSH GDP adatok
Nielsen fogyasztói bizalmi index
GoogleTrendsadatok és Nielsen index
Wikipedia havi oldalletöltések és Nielsen index
Összkép
Szentiment
Szentiment- és emócióelemzésDrawin és a nyelvtechnológia találkozása
Szentimentelemzésvagy polaritásmérés
Példák a Neticle(http://www.neticle.hu/) rendszeréből
Szentimentelemzés
Negatív szótár Pozitív szótár
Szentimentelemzés
Shifterek: Pl. „ez nagyon jó” vs „ez nagyon nem jó”
Irónia „No, jól megcsinálták ezt a telót!”
Scoring: „A kijelző nagyon jó, ellenben a hang lehetne jobb is”
Target: „A Samsung nagyon gyors, ellenben az Apple sokkal szebb telefonokat gyárt.”
Emócióelemzés Darwing: The
Expression of Emotions in Man and Animals (1872)
6 alapvető érzelemnek biológiai alapjai vannak
Ekman és az emóciók Bánat
Düh
Félelem
Meglepődés
Öröm
Undor
Emóciószótárak
A tökéletes rap sláger nyomábanLexikai diverzitás, szentiment- és emócióelemzés
Lexikai diverzitásType/
Tokenarány
Szentiment
Emóciók -bánat
Emóciók -düh
Emóciók -meglepődés
Mi a különbség a szentiment és az emóció között?
A kategóriák függetlenek egymástól
Az egyes kategóriák között nincs korreláció általában, de
Pozitív és a öröm értékek között +0.78
Negatív és düh értékek között +0.65
Bánat és lexikai diverzitás
Félelem és lexikai diverzitás
Undor és lexikai diverzitás
Predikció
Főpolgármester-jelöltek a Twitteren
Jelenbecslés 1.NFSZ nyilvántartott álláskeresők 2013
Jelenbecslés 2.A Jobmonitor keresési adatai (az y tengelyen nem véletlenül maradtak le a számok)
Jelenbecslés 3. ha 1%-kal nő a jobmonitoros
keresések mértéke, 44,17%-kal csökken a nyilvántartott álláskeresők száma
jelezni tudta a januári-februári tendenciabeli változást
megerősíti a Google Trendsirodalom azon megállapítását, hogy a keresésekkel kiegészített modellek előbb előrejelzik a trendbeli változásokat
http://precognox.hu/
http://kereses.blog.hu/
http://www.meetup.com/Hungarian-nlp/