de tartalomelemzés 2014_10_14

38
Tartalomelemzés Varjú Zoltán, Precognox 2014. 10.14

Upload: zoltan-varju

Post on 04-Jul-2015

914 views

Category:

Technology


0 download

DESCRIPTION

A digitális bölcsészet kurzuson tartott tartalomelemzés előadásom diái.

TRANSCRIPT

Page 1: De tartalomelemzés 2014_10_14

TartalomelemzésVarjú Zoltán, Precognox

2014. 10.14

Page 2: De tartalomelemzés 2014_10_14

@zoltanvarju

Szógyakoriság RT és elmlítések

Page 3: De tartalomelemzés 2014_10_14

Mit árul el rólam a Twitter? Férfi

Harmincas

Minimum középiskolai végzettség

Big Five – nyitottság, extrovertált, analitikus

Page 4: De tartalomelemzés 2014_10_14

Tartalomelemzés

A szógyakorisági vizsgálatokkal valós trendekre következtethetünk

Leírhatunk jelenségeket

Predikciókat tehetünk

Page 5: De tartalomelemzés 2014_10_14

Miért számoljunk szavakat?

Túl sok tartalom keletkezik

Nem tudunk mindent elolvasni

Filter bubble

Objektivitás hiánya

Page 6: De tartalomelemzés 2014_10_14

Egyszerű szógyakoriságR-index, Google Ngram, GoogleTrends

Page 7: De tartalomelemzés 2014_10_14

R-index The Economist/

EIU

„recession” gyakorisága az FT és WSJ lapokban

Page 8: De tartalomelemzés 2014_10_14

GoogleNgramViewer• https://books.google.c

om/ngrams

• Google Bookskorpuszon alapul

• Nyilvánosan elérhető API-n keresztül, ill. le is tölthető

Page 9: De tartalomelemzés 2014_10_14

GoogleTrends http://www.google.co.h

u/trends/

A keresési kifejezések idősorait akár meg is jeleníti nekünk

Lehetőség van területi szűrésre is

Page 10: De tartalomelemzés 2014_10_14

Magyar R-index Index.hu cikkek

KSH GDP adatok

Nielsen fogyasztói bizalmi index

Page 11: De tartalomelemzés 2014_10_14

GoogleTrendsadatok és Nielsen index

Page 12: De tartalomelemzés 2014_10_14

Wikipedia havi oldalletöltések és Nielsen index

Page 13: De tartalomelemzés 2014_10_14

Összkép

Page 14: De tartalomelemzés 2014_10_14

Szentiment

Page 15: De tartalomelemzés 2014_10_14

Szentiment- és emócióelemzésDrawin és a nyelvtechnológia találkozása

Page 16: De tartalomelemzés 2014_10_14

Szentimentelemzésvagy polaritásmérés

Példák a Neticle(http://www.neticle.hu/) rendszeréből

Page 17: De tartalomelemzés 2014_10_14

Szentimentelemzés

Negatív szótár Pozitív szótár

Page 18: De tartalomelemzés 2014_10_14

Szentimentelemzés

Shifterek: Pl. „ez nagyon jó” vs „ez nagyon nem jó”

Irónia „No, jól megcsinálták ezt a telót!”

Scoring: „A kijelző nagyon jó, ellenben a hang lehetne jobb is”

Target: „A Samsung nagyon gyors, ellenben az Apple sokkal szebb telefonokat gyárt.”

Page 19: De tartalomelemzés 2014_10_14

Emócióelemzés Darwing: The

Expression of Emotions in Man and Animals (1872)

6 alapvető érzelemnek biológiai alapjai vannak

Page 20: De tartalomelemzés 2014_10_14

Ekman és az emóciók Bánat

Düh

Félelem

Meglepődés

Öröm

Undor

Page 21: De tartalomelemzés 2014_10_14

Emóciószótárak

Page 22: De tartalomelemzés 2014_10_14

A tökéletes rap sláger nyomábanLexikai diverzitás, szentiment- és emócióelemzés

Page 23: De tartalomelemzés 2014_10_14

Lexikai diverzitásType/

Tokenarány

Page 24: De tartalomelemzés 2014_10_14

Szentiment

Page 25: De tartalomelemzés 2014_10_14

Emóciók -bánat

Page 26: De tartalomelemzés 2014_10_14

Emóciók -düh

Page 27: De tartalomelemzés 2014_10_14

Emóciók -meglepődés

Page 28: De tartalomelemzés 2014_10_14

Mi a különbség a szentiment és az emóció között?

Page 29: De tartalomelemzés 2014_10_14

A kategóriák függetlenek egymástól

Az egyes kategóriák között nincs korreláció általában, de

Pozitív és a öröm értékek között +0.78

Negatív és düh értékek között +0.65

Page 30: De tartalomelemzés 2014_10_14

Bánat és lexikai diverzitás

Page 31: De tartalomelemzés 2014_10_14

Félelem és lexikai diverzitás

Page 32: De tartalomelemzés 2014_10_14

Undor és lexikai diverzitás

Page 33: De tartalomelemzés 2014_10_14

Predikció

Page 34: De tartalomelemzés 2014_10_14

Főpolgármester-jelöltek a Twitteren

Page 35: De tartalomelemzés 2014_10_14

Jelenbecslés 1.NFSZ nyilvántartott álláskeresők 2013

Page 36: De tartalomelemzés 2014_10_14

Jelenbecslés 2.A Jobmonitor keresési adatai (az y tengelyen nem véletlenül maradtak le a számok)

Page 37: De tartalomelemzés 2014_10_14

Jelenbecslés 3. ha 1%-kal nő a jobmonitoros

keresések mértéke, 44,17%-kal csökken a nyilvántartott álláskeresők száma

jelezni tudta a januári-februári tendenciabeli változást

megerősíti a Google Trendsirodalom azon megállapítását, hogy a keresésekkel kiegészített modellek előbb előrejelzik a trendbeli változásokat

Page 38: De tartalomelemzés 2014_10_14

http://precognox.hu/

http://kereses.blog.hu/

http://www.meetup.com/Hungarian-nlp/