text mining analysis: ipotesi operativa

8
Text Mining - ipotesi di analisi 10 ottobre 2015 TEXT MINING Dal 26 al 30 settembre 2015 Bologna ha ospitato la fiera internazionale della Ceramica per l’Architettura e l’arredo (cersaie.it). Ho seguito su Twitter l’evento e mi sono chiesto quali fossero gli argomenti che gli utenti hanno trattato in rete. In un week-end ho prelevato i dati con NodeXL utilizzando come key l’hashtag uciale #cersaie2015. Arco temporale 25 settembre - 3 ottobre. Questi i Valori: 997 vertici per oltre 21000 relazioni generate [Follows 15.642, Mentions 3.281, RT 117, Tweet 2.042] L’andamento dei post è tipico di un evento di nicchia come quello in esame: il 44% del volume è stato prodotto negli ultimi due giorni dell’evento, con una coda lunga “a morire” successivamente. Altro elemento che si evince è l’assenza di una campagna di teasing, a conferma della settorialità del tema. Come gli hashtag possono guidarci nelle conversazioni Twitter: il canale utilizzato per le conversazioni #Cersaie2015

Upload: camillo-di-tullio

Post on 28-Jan-2018

524 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

TEXT MINING

Dal 26 al 30 settembre 2015 Bologna ha ospitato la fiera internazionale della Ceramica per l’Architettura e l’arredo (cersaie.it). Ho seguito su Twitter l’evento e

mi sono chiesto quali fossero gli argomenti che gli utenti hanno trattato in rete.

In un week-end ho prelevato i dati con NodeXL utilizzando come key l’hashtag ufficiale #cersaie2015. Arco temporale 25 settembre - 3 ottobre. Questi i Valori:

• 997 vertici per oltre 21000 relazioni generate [Follows 15.642, Mentions 3.281, RT 117, Tweet 2.042]

L’andamento dei post è tipico di un evento di nicchia come quello in esame: il 44% del volume è stato prodotto negli ultimi due giorni dell’evento, con una coda lunga “a morire” successivamente. Altro elemento che si evince è l’assenza di una campagna di teasing, a conferma della settorialità del tema.

Come gli hashtag possono guidarci nelle conversazioni

Twitter: il canale utilizzato per le conversazioni #Cersaie2015

Page 2: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

Quali gli argomenti maggiormente trattati? La hit degli hashtag utilizzati durante l’evento può fornire una idea molto grezza di quanto le discussioni hanno trattato, ma non rappresentano una reale evidenza degli argomenti.

Una risposta può fornircela l’applicazione del coefficiente di Gini: tale indicatore offre una misura della concentrazione di v a r i a b i l i q u a n t i t a t i v e , restituendo la misura della e t e r o g e n e i t à d i u n a distribuzione statistica a partire da l l e f requenze ad essa associata. Il range si muove tra 0 - 1 [0= equidistribuzione 1= concentrazione]

Lavorando sui 21 hashtag identificati e sulle relative frequenze, otteniamo un valore dell’indicatore pari a 0,67 che denota una relativa concentrazione delle conversazioni attorno ad alcuni hashtag. Quello con concentrazione maggiore è #design

Selezionamo, quindi, tutte le conversazioni che #design - all’interno del flusso madre #cersaie2015 - ha generato e le andiamo ad analizzare per cercare di scoprire i trend argomentativi che le conversazioni hanno determinato.

Prima di procedere, effettuiamo una ulteriore analisi per capire le relazioni che intercorrono tra tutti gli hashtag all’interno del flusso principale [#cersaie21015] e qui abbiamo ulteriore conferma di quanto il coefficiente di GINI ci ha mostrato.

#Cersaie2015 - elenco degli hashtag maggiormente utilizzati

“Coefficiente di GINI come punto di partenza di una hashtag analysis“

#Cersaie2015 - Curva di Lorenz

Page 3: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

L’analisi delle conversazioni #design attraverso l’indice di Zipf restituisce il grafico che interpola frequenza delle parole (numero di parole e le volte che sono utilizzate) e il rango, cioè la sequenza con cui le parole vengono utilizzate (la posizione delle parole all’interno della frase). Il grafico mostra come esista un gran numero di parole di piccole

dimensioni, un numero medio di parole di medie dimensioni ed un piccolo numero di parole di dimensioni grandi, la pendenza con la quale il fenomeno si presenta rappresenta quanto velocemente si presenta questa diminuzione. In una struttura lessicale ci sono sempre due tipologie di famiglie di parole:

• poche parole molto frequenti (articolo, preposizioni, congiunzioni etc.)

• molte parole a bassa frequenza: sono parole “piene” (es. verbi, nomi) molto informative sul contenuto di un documento (nel nostro caso di una conversazione).

Ordinando per tipologia di parole piene, ecco un primo segnale: il verbo con maggiore frequenza è dire.

Page 4: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

L’insight che viene fuori è abbastanza i n te ressan te : una conve rsaz ione pe r “reinventare” l’interno dei treni Frecciarossa. Non sto qui ad analizzare Reach ed impressions (non è oggetto di questa ricerca), ma la cosa interessante è come un ambiente stimolante come quello di una fiera, possa essere interpretato come un moodwall.

Il secondo verbo maggiormente utilizzato tra le parole a bassa frequenza è presentare, per certi versi un classico in una fiera. Analizzandola non sono presenti volumi importanti: solo tweet che non hanno avuto una eco in termini di coinvolgimento (RT).

Proseguiamo quindi l’analisi individuando i cluster (metodo Reinert) che le conversazioni formano: ogni cluster rappresenta una tematica che può essere descritta

#Cersaie2015 - Concordanza verbo dire

#Cersaie2015 - Cluster identificati

Page 5: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

m a p p a n d o i c l u s t e r s u utilizzando l’alberatura di d istr ibuzione, appaiono evidenti le connessioni tra le varie istanze.

P e r a v e r e c o n f e r m a , utilizziamo il test ChiQuadro per avere conferma sulla distribuzione di probabilità sulle variabile aleatorie dei temi trattati.

La graficizzazione del test ChiQuadro conferma quanto anticipato dall’alberatura di d ist r ibuz ione, fornendo ulteriori indicazioni sulle conversazioni: l ’hashtag i d e n t i fi c a t o a t t r a v e r s o l’indicatore di Gini, è il nodo dal quale si d ipanano le conversaz ion i , fino a comprendere la quasi totalità delle conversazioni prodotte.

In base a queste indicazioni andiamo ad analizzare le singole conversazioni per identificate i trend che, nell’ambito della ceramica, sono stati evidenziati dagli operato del settore.

#Cersaie2015 - Test ChiQuadro

Page 6: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

Due gli elementi che emergono:

• L’elemento del la “sartorial i tà” , del la produzione fit for user appare più volte come elemento qualificante, in particolare modo nell’ambito dei rivestimenti a parete.

• L’elemento della creatività in termini di “reinventare” lo status quo, nel suo significato più allagato (non solo mi abito domus).

I trend individuati forniscono spunti ai brand sia in termini di argomenti da trattare ma, soprattutto, in termini di prodotto e servizio. La Sartorialità, oltre a descrivere la più ovvia declinazione in termini di personalizzazione, sta ad indicare - per me che non sono un tecnico del settore - la capacità di poter esprimere personalità attraverso le varie caratteristiche della materia: manualità ed innovazione viaggiano quindi a stretto contatto per poter competere in modo significativo in questo settore: innovazione a tutto campo in un mercato fortemente caratterizzato dalla natura industriale ed automatica dei processi produttivi.

Page 7: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

L’aspetto creativo, la capacità di reinventarsi viene espressa al meglio da Porcelanosa che, con le sue maioliche dalle forme 3D e dai colori “out of the box” segna un interessante cambio di passo interpretando al meglio la “voglia di colore”

Creatività espressa anche intervenendo sui tagli per restituire mosaici (per pavimenti e rivestimenti) freschi e fuori dal comune.

Il fattore tagli è l’aspetto più nuovo che si porta necessariamente dietro un ulteriore fattore tecnico: lo spessore.

Appare evidente, quindi, come l’aspetto creativo possa incidere sulla flessibilità del processo produttivo.

Page 8: Text mining analysis: ipotesi operativa

Text Mining - ipotesi di analisi 10 ottobre 2015

Per concludere l’analisi di text mining restituisce alcuni insight per i brand che vogliono leggere il proprio mercato attraverso i big data:

• analizzare e classificare molte conversazioni

• approccio semantico per estrarre conoscenza dai dati

• guidare il monitoraggio delle conversazioni