tweet analysis with text mining algorithms

8
Il mondo Enel visto da Twitter. Tweet Analysis e Topic Extraction. Andrea Capozio 26 marzo 2014 Questo lavoro si pone l’obiettivo di analizzare e comprendere le tematiche trattate sul social network Twitter riguardanti il gruppo Enel. I risultati di seguito riportati sono stati realizzati mediante tecniche di Text Mining, utilizzando il software statistico R 1 . Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster 1 R` e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1

Upload: andrea-capozio

Post on 19-Jun-2015

627 views

Category:

Data & Analytics


8 download

DESCRIPTION

Tweet Analysis through Text Mining Algoritms like clustering and hashtag analysis. Geolocalization of the tweets on the world map using R Language.

TRANSCRIPT

Page 1: Tweet Analysis with Text Mining Algorithms

Il mondo Enel visto da Twitter.Tweet Analysis e Topic Extraction.

Andrea Capozio

26 marzo 2014

Questo lavoro si pone l’obiettivo di analizzare e comprendere le tematichetrattate sul social network Twitter riguardanti il gruppo Enel.I risultati di seguito riportati sono stati realizzati mediante tecniche di TextMining, utilizzando il software statistico R 1.

Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster

1R e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approccidi tipo statistico. http://www.r-project.org

1

Page 2: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

1 La collezione di datiI dati di partenza della seguente analisi sono costituiti da 237 tweet in lingua italiana,ottenuti mediante le API2 di Twitter. Il periodo temporale considerato va dal 01-01-2014al 15-03-2014.

E’ interessante iniziare l’analisi in oggetto osservando la provenienza geografica deitweet in esame (Figura 1). Per ciascun tweet, laddove disponibili, sono state analizzatele rispettive coordinate geografiche (latitudine e longitudine) e mediante l’ausilio delleAPI di Google Maps e stato possibile assegnare ad un tweet una posizione sulla cartina;tuttavia per piu della meta dei tweet non e stato possibile disporre di questo tipo diinformazione.

La maggior parte di essi ha origine in Italia (57 tweet), in particolare nelle regionicentrali e del nord Italia (da notare la scarsa presenza di tweet meridionali); tuttaviaoccorre segnalare la presenza di alcuni tweet di origine straniera, provenienti in particolaredalla Germania, dalla Tanzania, dagli USA e dalla Russia.

Figura 1: Origine dei Tweet Enel nel mondo.

2Le API messe a disposizione da Twitter consentono di interrogare il servizio di micro-blogging convarie modalita per recuperare insiemi di tweet immessi dagli utenti. Per questa analisi si e fatto usodella search API, ricercando i tweet contenenti l’hashtag #Enel.

2

Page 3: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

1.1 Analisi EsplorativaPer evitare che le analisi compiute possano essere inficiate dalla rumorosita dei dati,come prima operazione, i tweet sono stati opportunamente elaborati. In particolare, perognuno di essi, si e provveduto a:

• esprimere tutte le parole solo con caratteri minuscoli;

• rimuovere le stopwords3;

• rimuovere la punteggiatura;

• rimuovere eventuali numeri;

• rimuovere eventuali spazi in eccesso.

1.2 Analisi della word cloudAl fine di valutare con facilita i termini maggiormente ricorrenti, e stata realizzata unaword cloud dell’insieme dei tweet precedentemente elaborato. Una word cloud e unarappresentazione grafica di dati testuali, usata in particolare per la visualizzazione diparole chiave sul web o di testo in forma libera. Le modalita di visualizzazione di unaword cloud variano a seconda della particolare necessita.

Il criterio adottato in questo elaborato consente una rapida visione dei termini mag-giormente frequenti in un testo: viene dapprima assegnata una dimensione al font per larappresentazione di ciascuna parola in maniera direttamente proporzionale alla frequenzadella stessa; successivamente i termini vengono collocati, a partire dal centro della cloud,seguendo l’ordine decrescente delle frequenze.

La word cloud estratta dal corpus di tweet e mostrata in Figura 2; analizzandola epossibile notare subito la presenza maggioritaria di termini afferenti il mondo del businessEnel quali energia, rinnovabili, geotermia, zolfo. Continuando l’analisi si puo osservare lapresenza di numerosi termini economici miliardi, risultati, euro, produttivita, dividendoche indicano l’utilizzo di Twitter come mezzo di diffusione di news economiche relativeall’azienda.

Un’ampia classe di parole inoltre si riferisce ad avvenimenti legati al mondo Enel nonassociabili al lato economico o produttivo. In particolare sono numerosi i riferimenti alladispersione di polvere di carbone a Brindisi e al relativo processo (in corso nel periodoconsiderato). I termini maggiormente significativi sono: carbone, digos, processo, brindisi.

Infine occorre segnalare la significativa presenza di termini legati ad alcune partnershipdi Enel, come ad esempio quella con il celebre programma televisivo Masterchef che havisto lo svolgimento di eventi in alcuni Punto Enel (Firenze, Milano, Torino).

3Termini che ricorrono spesso in una lingua come ad esempio gli articoli, le preposizioni e le congiunzioni.

3

Page 4: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

Figura 2: Word cloud relativa all’hashtag #Enel.

2 Analisi dei TopicA seguito della precedente analisi introduttiva, il passo successivo riguarda lo studio degliargomenti maggiormente discussi nei tweet in esame.

Per questo tipo di studio sono stati seguiti due modalita: la prima consiste nell’analisidegli hashtag4 presenti nei tweet in esame; la seconda modalita e basata invece su unatecnica di clustering applicata all’insieme di tweet.

2.1 Analisi degli HashtagConsiderato il limite di 140 caratteri per un singolo tweet, e sorta la necessita di esprimereconcetti o eventi nel modo piu breve e conciso possibile ma al tempo stesso esplicativo echiaro. A tale scopo (ma anche altri5) e stato introdotto l’utilizzo degli hashtag: mediantequesto strumento, chi scrive un tweet indica in maniera esplicita ed essenziale l’argomentodi cui desidera parlare, facendo cosı economia dei caratteri a disposizione.

Mediante tale approccio, basato su questa peculiarita di Twitter, e stato possibiledeterminare immediatamente gli argomenti che vengono associati ad Enel. Una voltaestratti dalla collezione gli hashtag che concorrono con l’hashtag #Enel, ci si e avvalsinuovamente di una word cloud per la loro rappresentazione (Figura 3).

4Parole o combinazioni di parole concatenate precedute dal simbolo cancelletto #.5Ad esempio, inserendo un hashtag in un tweet, si crea un collegamento ipertestuale verso tutti i tweet

che contengono il medesimo tag.

4

Page 5: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

Figura 3: Word Cloud Co-Hashtag Enel

Spiccano hashtag legati all’argomento carbone a Brindisi. In particolare risulta assaisignificativa l’associazione di questo evento al caso analogo che ha coinvolto la TirrenoPower a Vado Ligure. Si notano infatti gli hashtag #processo, #siamotuttiparteoffesa,#noalcarbone, #brindisi, #denuncia, #tirrenopower. In seconda istanza si rilevanohashtag afferenti il lato produttivo di Enel: #carbone, #biomasse, #efficienzaenergetica,#rinnovabili. Infine si osserva la presenza di hashtag riferiti alla partecipazione dipersonaggi dello show televisivo Masterchef ad eventi organizzati in vari Punto Enel(#cracco, #milano) e alla partnership di Enel con il museo Macro di Roma (#macro,#flaviabarca).

2.2 Analisi dei ClusterIl secondo approccio considerato per lo studio dei topic consiste nell’utilizzo di unalgoritmo di clustering gerarchico di tipo bottom up6. A differenza dell’analisi perhashtag, nella quale si sfrutta uno strumento nativo del mondo Twitter (Sezione 2.1), ilclustering si configura come una metodologia classica per questo tipo di studi.

6Si intende un clustering di tipo agglomerativo. Si parte dall’assunzione che ogni elemento costituiscaun cluster a se; successivamente i singoli cluster vengono fusi ricorsivamente in cluster piu grandisecondo criteri di similiturdine inizialmente stabiliti.

5

Page 6: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

Tipicamente i risultati di clustering gerarchico sono visualizzati mediante una rappre-sentazione ad albero detta appunto dendrogramma.

Figura 4: Dendrogramma estratto dai Tweet Enel

Ciascuna foglia dell’albero corrisponde ad un singolo elemento dell’insieme considerato;risalendo l’albero alcune foglie iniziano a fondersi in rami fino ad arrivare alla radicedell’albero. Prima avviene la fusione tra due gruppi (due foglie, una foglia e un ramooppure due rami), allora maggiore e la similitudine tra di essi (secondo la metricastabilita inizialmente). Il livello gerarchico dei cluster e indicato sull’asse delle ordinatedel dendrogramma, mentre sull’asse delle ascisse e misurata la distanza logica tra icluster seconda la metrica utilizzata. Una volta costruito l’albero, l’ultimo passo consistenell’identificare i cluster. A seconda del numero di cluster desiderato, si stabilisce unaquota sull’asse delle ordinate e si traccia una linea orizzontale passante per essa, cosıfacendo i gruppi di osservazioni sotto di essa costituiscono i cluster7.

Il dendrogramma estratto e mostrato nella Figura 4. Nel nostro caso la quota sull’assedelle ordinate e stata scelta al fine di ottenere 3 cluster, rappresentati dai rettangoli rossi

7Tale operazione puo essere eseguita piu volte al fine di ottenere una divisione ottimale. Talvolta puorisultare semplice stabilire l’altezza della linea da tracciare, individuando ad occhio il giusto numerodi cluster, mentre a volte tale scelta non e cosı semplice.

6

Page 7: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

in figura.

Anche con questo approccio vengono riscontrati aspetti economici-produttivi a confermadi un utilizzo informativo del Social Network per divulgare risultati legati all’attivita diEnel.

Nuovamente vengono messe in evidenza la questione carbone nello stabilimento Eneldi Brindisi (e il riferimento al caso analogo della Tirreno Power di Vado Ligure) e lapartnership tra Enel e Masterchef in vari Punto Enel d’Italia.

Un aspetto non rilevato nell’analisi mediante hashtag e l’utilizzo di Twitter per ladiffusione di notizie legate alle opportunita di assunzione.

2.3 OsservazioniA seguito dell’analisi esplorativa delle frequenze delle singole parole presenti nei dati inesame (Sezione 1.2) erano gia emerse alcune caratteristiche riguardanti la natura deitweet (finanziaria, produttiva, attualita, commenti) e i due approcci precedentementeseguiti (hashtag e clustering) hanno confermato in pieno queste tendenze. Data lanatura dei dati in questione (messaggi di breve lunghezza), l’analisi degli hashtag sirivela estremamente competitiva con gli algoritmi di clustering (altamente performantisu un testo strutturato); infatti entrambi gli approcci delineano gli stessi tre topicprincipali: la partnership Enel-Masterchef, la questione carbone a Brindisi e i risultatieconomici-produttivi di Enel.

Le differenze tra i due approcci sono principalmente due: a differenza del cluster, congli hashtag viene sottolineata la partnership tra il Macro di Roma ed Enel; d’altra parteil cluster pone l’accento sulle opportunita di lavoro e assunzioni nell’azienda.

3 ConclusioniAlla luce di questa analisi e possibile concludere che i tweet riguardanti l’Enel presentanomolteplici nature; in particolare si segnalano tweet in larga parte riguardanti vari eventiattinenti l’Enel (processi penali, partnership) e tweet a stampo economico-energetico. Unaspetto da non sottovalutare e la possibile diffusione di opinioni e associazioni negativelegate al nome Enel; a tal proposito risulta emblematico l’accostamento di Enel allaTirreno Power per la questione carbone a Brindisi. Ed altrettanto significativa e lapredilezione dei classici mezzi di informazione da parte di Enel per tale argomento, adiscapito di nuovi canali quali i Social Network come Twitter.

Considerato il carattere multinazionale dell’azienda (in parte gia emerso nel corsodell’analisi), un’ulteriore analisi potrebbe essere quella di analizzare i tweet legati almondo Enel in lingua spagnola e inglese, al fine di integrare in modo completo quantofatto in questo elaborato.

7

Page 8: Tweet Analysis with Text Mining Algorithms

Enel e Twitter

Riferimenti bibliografici[1] G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical

Learning: with Applications in R. Springer Texts in Statistics.

[2] J. Adler (2012). R in a Nutshell: A Desktop Quick Reference. O’Reilly (2nd Edition).

[3] M. A. Russell (2011). Mining the Social Web: Analyzing Data from Facebook,Twitter, LinkedIn and other Social Media Site. O’Reilly.

8