analisi statistica di dati testuali - homepage |...

Analisi statistica di dati testuali

Prof.ssa D. Fioredistella Iezzi Università di Roma “Tor Vergata”

[email protected]

Studi quantitativi sulla lingua

Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni Novanta la crescente diffusione dei software per l’analisi dei testi ha impresso una notevole accelerazione all’uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.

L’analisi automatica di testi

•  L’analisi automatica di testi è costituita da un insieme di tecniche automatiche o semi-automatiche, supportate da specifici software, per la descrizione e l’analisi di dati testuali.

•  I DATI TESTUALI sono informazioni su fenomeni espressi mediante “PAROLE”.

•  Le FONTI TESTUALI sono, quindi, interviste, domande aperte di un questionario, resoconti di un focus group, discorsi politici, materiale tratto da Internet, documenti e molto altro.

Origini

•  I primi approcci verso un’analisi quantitativa in ambito linguistico, risalgono agli anni ’50 e ’60 con gli studi Guiraud (1954, 1960), Herdan (1964)

•  Nel corso degli anni ’70 e ’80 (Benzécri, 1977; 1982), alla definizione della statistica testuale basata sull’analisi di forme grafiche e di segmenti ripetuti (Lebart e Salem, 1984; Lebart et al., 1998). Allo stesso tempo, sono stati sviluppati indici e misurazioni di statistica linguistica e statistica lessicale con le proposte di Muller (1977), Tournier (1980, 1985a, 1985b) Lafon (1980, 1981).

•  Più recentemente, la crescente disponibilità di risorse linguistiche informatizzate e la crescente diffusione dei testi consultabili on-line, quindi, direttamente analizzabili, ha ulteriormente rivoluzionato criteri e tecniche in quest’ambito.

Gli sviluppi

Le soluzioni trovate non si fondano su strumenti statistici, ma scaturiscono da una stretta multidisciplinarità che associa a questi, con uguale importanza, strumenti informatici e linguistici, soprattutto nell’area, nota oggi in letteratura, con il termine di Text Mining (TM).

•  TEXT MINING o Text Data Mining (TM o TDM) è l’estensione del Data Mining tradizionale su dati testuali non strutturati.

•  Obiettivo principale del TM è l’estrazione di informazione rilevante da dati non strutturati che risiedono in documenti.

Alcune fonti di TM •  e-mail

–  Le e-mail sono la forma più ricca dal punto di vista informativo e più semplice da analizzare. E’ il mezzo attraverso cui le persone comunicano all’interno ed all’esterno di aziende ed organizzazioni. Possono essere analizzate sia le e-mail interne ad una organizzazione sia quelle ricevute dall’esterno od inviate all’esterno dell’organizzazione.

•  Opinion surveys –  Spesso le opinion surveys sono analizzate con cura nella parte

codificata, dove è prevista la risposta: SI, NO, o numerica. Sono invece analizzate in maniera superficiale nella parte testuale, ove si raccolgono le risposte in testo libero alle domande aperte.

•  Newsgroups, Chatlines, Mailing Lists –  Importanti e ricche fonti di informazione dato che riguardano i

temi più disparati, dai consumi alla politica. Il problema con questo tipo di informazione è che l’informazione pertinente è all’interno di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio spesso gergale. Grazie al text mining queste affermazioni/opinioni possono essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.

Metodi più utilizzati dal Text Mining

n  Information Retrieval n  L'indicizzazione e il recupero di documenti testuali

n  Information Extraction n  Estrazione di informazione parziale da un testo

n  Web Mining n  Indicizzazione, recupero di documenti e estrazione di

informazioni dal web

n  Clustering n  Raccolta di documenti simili

Information Retrieval

•  Se disponiamo di: –  Una fonte di documen. testuali –  Mediante una query di .po

testuale

IR System

Query E.g. Spam / Text

Documents source

•  Otteniamo:

•  Un insieme (ordinato) di documenti che hanno una rilevanza rispetto alla query Ranked

Documents

Document Documen

t Document

Applicazioni

•  Le tecniche di text mining sono applicabili a qualsiasi ambito di indagine

•  In generale trovano applicazione tutte le volte che siamo di fronte a grandi quantità di dati e abbiamo l'esigenza di conoscerne il contenuto.

PERCORSI PER RIELABORARE I TESTI

1. Approccio classico: strutturazione dei concetti ex ante o ex post.

2. Approccio moderno: codifica diretta di unità testuali elementari

METODO MODERNO

Studia corpora di grandi dimensioni, ossia quando risulta indispensabile un’analisi in modalità automatica (Bolasco, 1999)

In questa logica, il corpus è solo una successione di caratteri: lettere dell’alfabeto, spazi e punteggiatura.

L’unità statistica prende il nome di unità testuale e la parola rappresenta l’unità “più naturale” del corpus (Tuzzi, 2005).

… senza dimenticare che le domande da rivolgere alla statistica devono essere comparative

Le fasi di un processo di TM a)  Definizione degli obiettivi e

acquisizione dei documenti; b)  Codifica dei dati; c)  Estrazione delle informazioni. La fase a riguarda il soggetto che

intende avviare la ricerca, quelle b. e c. lo statistico

La codifica

Per codifica si intende la costruzione del processo che porta dal documento alla matrice dati da analizzare. Si estrinseca in due momenti:

1.  La scelta delle unità di analisi; 2.  Il sistema di pesi da adottare. Le fasi della codifica sono assimilabili alla fase di

pulizia dei dati tipica di ogni analisi statistica su dati di tipo numerico.

La scelta delle unità

È necessario definire regole che permettano di isolare dal corpus le unità da analizzare.

Il CORPUS è un insieme di testi confrontabili tra di loro e appartenenti ad uno stesso contesto

La parola (word)

Una parola è una sequenza di caratteri alfabetici delimitata da due separatori.

L'insieme dei separatori deve essere convenzionalmente definito come un insieme di caratteri. Sono, generalmente, utilizzati come separatori: lo spazio bianco (blank), la punteggiatura (, : . ; ? !), le virgolette, i trattini (-/|), le parentesi ([{}]) e i caratteri speciali (# @ $ % ° & ^ * < >).

La parola…

La parola rappresenta un’entità dotata di senso, ottenuta dalla disaggregazione dei testi in particelle elementari

Oggetti linguistici che costituiscono il lessico e sono raccolti nel dizionario.

Una parola può denotare: un oggetto (sostantivo), un’azione o uno stato (verbo), una qualità (aggettivo, avverbio), una relazione (preposizione).

Nel seguito, per semplicità, si indica con il termine parola l’unità di analisi del testo, qualunque essa sia. Va osservato che a seconda degli obiettivi dell’analisi questa unità lessicale può essere una forma grafica, un lemma, un poliforme o una "forma testuale", ossia un’unità di tipo misto in grado di catturare al meglio i contenuti presenti nel testo.

Alcuni termini tecnici

Una sequenza di PAROLE forma una frase. Le FRASI, messe in sequenza, costituiscono un testo. Un TESTO non è una somma di frasi, ma un insieme di frammenti di discorso, i cui elementi (“parole”) sono chiamate OCCORRENZE (word token).

L’Occorrenza è una “parola” che ricorre in un testo.

Il numero totale di occorrenze determina la dimensione o lunghezza del corpus (T).

L’insieme delle parole distinte (forme grafiche o word type) determina l’ampiezza del vocabolario (V), che analiticamente può essere espresso nel seguente modo: V1+V2+...+Vn= V.

Dove V1 rappresenta la somma di hapax, V2 le forme che si ripertono due volte…

Corpus, testi, frammenti

Criterio di raggruppamento

Gruppo1

Gruppo2

Testo 2 Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla Blabla bla, bla bla blabla, bla bla, bla… Bla bla bla bla

Testo 1 Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla Blabla bla, bla bla blabla, bla bla, bla… Bla bla bla bla

Frammento

Gruppo3

La forma grafica

La forma grafica è l’unità elementare del linguaggio e come tale può essere considerata un’unità statistica.

Le forme grafiche non consentono di individuare, ad esempio, la presenza di sinonimi o antonimi, in particolare questi ultimi se espressi per anteposizione alla forma di una particella con valore di negazione.

Una forma grafica è:

Reinert (1988) suggerisce di utilizzare “unità minimali di senso” come sequenze di caratteri aventi un significato autonomo. Questa procedura permette di ridurre le ambiguità tra forme omonimie e poliformi.

•  semplice: una forma grafica (una parola: tempo);

•  composta: insieme di due forme semplici, costituenti un’unità di senso (es: tempo libero, governo ombra, cassa integrazione,…);

•  complessa: insieme più di due forme semplici, costituenti un’unità di senso (carta di credito, …).

PAROLE VUOTE E PIENE Sono vuote le parole che non sono portatrici di

significato autonomo quali per esempio, <e>, <di>, <da>, <il>... (dette anche stop word), in quanto elementi necessari alla costruzione della frase; oppure sono parole strumentali con funzioni grammaticali e/o sintattiche (<hanno>, <questo>, <perché>,<non>, <tuttavia>),.

Si considerano, al contrario, “parole piene” gli aggettivi, i sostantivi, i verbi e gli avverbi, in quanto termini che hanno un senso in sé (si veda a tal proposito il riquadro sulla parola);

le parole più frequenti celano in sé molti usi e, quindi, molti significati, per esempio la parola <fine> come nome può voler dire termine, obiettivo e scopo, come aggettivo può significare raffinato o sottile

Parole e ambiguità

Un aspetto rilevante dei dati testuali è che una parola (grafia) può avere più di un significato, quindi, bisogna trovare un modo per eliminare l’ambiguità della grafia. Una procedura utilizzata per disambiguare i termini è il processo di lemmatizzazione, ossia quel processo di riconoscimento della categoria grammaticale di una parola, che produce la riconduzione della forma grafica al lemma di appartenenza.

Un LEMMA è pienamente definito dalla coppia di informazioni <vocabolo, categoria grammaticale>, ma comunemente per lemma si intende la forma canonica con cui una parola è presente in un dizionario della lingua. Ad esempio, le occorrenze <legge> e <leggevano> sono due forme grafiche distinte, due flessioni appartenenti allo stesso lemma: il verbo <leggere>.

Scelta delle unità di analisi: la normalizzazione

Scelta delle unità: analisi lessicale


Dove L è la lunghezza del segmento, fsegm la frequenza del segmento selezionato in un documento, ffgi è la frequenza del segmento nel corpus, P è il numero di parole piene che compone il segmento

Il sistema di pesi Per analizzare automaticamente un insieme di documenti si ricorre

alla loro trasformazione in vettori. Un generico documento/vettore j può essere così rappresentato:

!

dj = w1j , w2j , ..., wij , ..., wpj[ ]Dove wij è espressione dell’importanza dell’i-esima forma grafica

nel j-esimo documento in termini di documento informativo (i=1,…,p e j=1,…,q) nel caso in cui la base documentaria sia costituita da p parole differenti in q parole differenti.

Sistema di pesi più diffusi: A) BOOLEANO, in cui wij assume valore 1 se la forma i è presente

nel documento j-esimo e 0 altrimenti;

B) FREQUENTISTA, in cui wij è uguale a nij, frequenza della forma grafica i nel documento j. Questo approccio è molto diffuso e chiamato schema di ponderazione Bag-of-Word (BOW).

C) FREQUENTISTA NORMALIZZATO, in cui wij=nij/max(nj), com max nj la frequenza della parola più presente all’interno del documento j;

D) TF/IDF (TERM FREQUENCY/INVERSE DOCUMENT FREQUENCY), proposto per risolvere i problemi di Information Retrivial da Salton Buckley (1988), in cui

Dove q è il numero totale dei documenti e qi è il numero dei documenti in cui è presente la forma grafica i.

!

wij =nij

max nj( )log

qqi

Lo schema booleano

La scelta dei pesi

L’Analisi lessico-testuale

A)  Linguistiche: misurano la ricchezza del vocabolario utilizzato

B)  Statistiche: visualizzano ed consentono di interpretare il fenomeno. I metodi statistici più utilizzati rientrano nell’ambito delle tecniche di statistica multivariate di tipo esplorativo. Il motivo è che in genere si ricerca la struttura latente sottostante al testo in esame tramite una riduzione di dimensionalità dello spazio di rappresentazione delle variabili linguistiche o dei documenti

LA RICCHEZZA LESSICALE: ALCUNI INDICI

•  Estensione lessicale RL=V/N dove V l’ampiezza del vocabolario e N numero totale di parole nel testo.

•  Percentuale di hapax:

•  Frequenza media generale:

•  Coefficiente G (di Guiraud):

NVG =!

V1V"

# $

%

& ' (100

!

NV

LA DIMENSIONE DEL CORPUS E IL VOCABOLARIO

•  La somma delle occorrenze di ciascuna forma determina la dimensione o lunghezza del corpus (N), l’insieme delle parole distinte tra loro (forme grafiche) individua il vocabolario del corpus.

•  L’ampiezza del vocabolario (V) e quella del testo (T) sono le seguenti:

∑=

=+++=max

1max21 ...

f

if iVVVVV ∑

=

×=max

1

f

iiVT i

dove Vi è il numero di parole diverse che appaiono i volte

Grandi dimensioni (!?)

Un tempo (circa 10 anni fa)… Oltre 100mila occorrenze à corpus di grandi dimensioni Oltre 500mila occorrenze à lessico Oggi… Si lavora con corpora contenenti milioni di occorrenze Semplificazione statistica: Empiricamente si è verificato che se

TTR (V/N) < 20% %hapax (V1/V) < 50%

il corpus è “trattabile” con questi metodi

Legge di Zipf

Il rango di una parola (r ): posizione occupata da una parola in un ordinamento di frequenza decrescente

Legge di Zipf

Le parole di un vocabolario si distribuiscono in maniera che la frequenza (f) e il rango ( r) di una parola sono inversamente proporzionali: f(r)=c/ra

dove c è una costante e a è un indice della ricchezza lessicale.

La legge di Zipf espressa in scala logaritmica assume una forma lineare e diventa: log(f)=log(c)+a*log(r).

a rappresenta il coefficiente angolare •  In un famoso studio Zift ha esaminato l'Ulysse di Joyce (vocabolario composto da

260.000 occorrenze):

•  al rango 10 corrispondeva la frequenza 2653




Il diagramma di Pareto

Estrazione del linguaggio peculiare tramite il confronto

con il lessico standard Per individuare un linguaggio specifico tramite un lessico

standard, bisogna scegliere un modello lessicale di riferimento. Il confronto del vocabolario del corpus con il modello di linguaggio standard genera due parti: l'insieme delle parole in comune e l'insieme di parole che risultano essere originali rispetto al modello. Le unità di linguaggio peculiare si desumono dal confronto rispetto al sovra o sottoutilizzo delle parole in comune fra i lessici.

Lo scarto standardizzato

Una misura utilizzata per estrarre il linguaggio caratteristico è lo scarto standardizzato:

dove fi è il numero di occorrenze normalizzate della i-esima parola nel corpus e fi* il corrispondente valore del lessico assunto nel modello .

Estrazione del linguaggio peculiare con il metodo delle specificità

Il termine specificità indica se e quando una parola è tipica o specifica di un sub-testo. L’indice z degli scarti standardizzati può essere utilizzato come un test. Se si assume che il corpus è una popolazione e ogni sua parte (testi) è un campione, il modello distributivo di riferimento per valutare in termini probabilistici il numero di occorrenze di una parola presenti in un campione è la distribuzione ipergeometrica. Sotto particolari condizioni (frequenze assolute osservate non inferiori ad una certa soglia) può essere approssimata ad una distribuzione normale. In pratica, fissato un valore soglia minimo sul numero di occorrenze di una parola, il calcolo delle specificità avviene attraverso il confronto con un valore test che confronta la frequenza relativa di una parola nella parte, con la frequenza relativa nel corpus totale.

Distribuzione ipergeometrica

Matrici di dati (1/3)

Matrici “frammenti x forme

FORME TESTUALI VARIABILI CATEGORIALI

1 2 3 !. j !. V(s)

FRAMMENTI

di è sono !. 11/9 !. perché A B C D

1 1 1 0 !. 0 !. 0 1 3 5 2

2 1 0 1 !. 1 !. 0 2 1 3 1

!.. !. !. !. !. !. !. !. !. !. !. !.

i 0 1 1 !. 1 !. 1 2 3 2 2

!. !. !. !. !. !. !. !. !. !. !. !.

n 1 1 0 !. 0 !. 0 1 3 1 2


PARTI DEL CORPUS (SUB-TESTI)

FORME TESTUALI 1 2 !.. j !! p

1 di 82 35 !.. 61 !.. 90

2 è 58 62 !.. 59 !.. 41

3 sono 44 87 !.. 48 !.. 75

!.. !.. !.. !.. !.. !.. !..

i casa 32 59 !.. 38 !.. 42

!.. !.. !.. !.. !.. !.. !..

V(s) perché 18 25 !.. 29 !.. 21

matrice “forme x parti”


casa auto possedere vita denaro amore salute casa 1 0 0 1 1 1 1 auto 0 1 1 1 0 0 0 possedere 0 1 1 0 0 0 0 vita 1 1 0 1 1 1 0 denaro 1 0 0 1 1 1 1 amore 1 0 0 1 1 1 0 salute 1 0 0 0 1 0 1

matrice “forma x forma”: è una matrice di prossimità

Requisiti per l’applicazione di statistiche su testi

a) la comparabilità dei testi; b) la disponibilità di una o più caratteristiche da associare a ciascun

frammento (ad esempio il genere o l’età dell'autore o la data o la testata di un articolo di giornale);

c) le dimensioni del testo: è necessario disporre di testi sufficientemente lunghi (minimo 20.000 parole o occorrenze) che rendano vantaggioso il ricorso a tecniche automatiche di analisi.

I software finalizzati all'analisi semi-automatica mediante tecniche statistiche e lessicali (i più noti sono SPAD, Sphinx, Alceste, Lexico, Wordmapper, Taltac e Tlab).

ESEMPIO

Consideriamo il seguente frammento: "Una volta un re disse alla sua serva raccontami una storia e la storia incominciò".

ESEMPIO

chi ha denti non ha pane e chi ha pane non ha denti1 2 3 4 5 6 7 8 9 10 11 12 13 occorrenze1 2 3 4 2 5 6 1 2 5 4 2 3 forme grafiche

forma grafica

frequenza

ha 4chi 2denti 2non 2pane 2e 1

Vocabolario del proverbio.

La dimensione del N corpus è 13;

La dimensione del vocabolario V(N) è 6

Come posso lavorare?

OCCORRENZE: numero di volte in cui una parola appare nel corso del testo.

FORMA GRAFICA: Parola nella sua grafia originale (forma flessa assunta nel discorso dal corrispondente lemma): esempio PARLAVO.

LEMMA: Forma canonica corrispondente all’entrata del termine del dizionario, che rappresenta tutte le flessioni con cui quella unità lessicale può presentarsi nel discorso: esempio PARLARE.

TEMA: Famiglia lessicale di tutti i lemmi derivati da una medesima radice: esempio PARL>(parlare, parlato, parlottante, parlamentare,…)

Una filiera ideale per l’analisi automatica del testo

A) Preparazione del testo;

B) Analisi lessicale;

C) Estrazione di informazioni;

D) Analisi testuale.

IL PERCORSO DI ANALISI TESTUALE

1.  normalizzazione; 2.  codifica; 3.  selezione delle unità d’analisi più

interessanti;

4.  analisi statistica.

NORMALIZZAZIONE

Una serie di operazioni di standardizzazione del testo, effettuata sulle grafie attraverso il riconoscimento di nomi propri (persone, società, celebrità), toponimi, sigle, date, numeri (telefonici,prezzi, valute), percentuali, così come individuazione di locuzioni, di tipo avverbiale (in modo, per esempio), aggettivale (di massa, in via di sviluppo), o nominale (identificanti entità ricorrenti: per esempio, Capo dello Stato, Presidente del Consiglio, carta di credito).

LE OPERAZIONI PRELIMINARI

La codifica può essere raggruppata almeno nelle seguenti 3 classi:

per forme grafiche;

Per segmenti ripetuti;

Per lemmi.

Fasi di controllo della procedura di normalizzazione

•  Eliminazione di errori (di tipo ortografico o causati dalla presenza di caratteri speciali);

•  Scelta dei separatori; •  Eliminazione delle maiuscole non rilevanti;

•  Armonizzazione di scritture; •  Controllo di apostrofi ed accenti.

SELEZIONE DELLE UNITA’ TESTUALI PIU’ INTERESSANTI

•  Soglia di frequenza •  Linguaggio peculiare •  Forme specifiche •  Gerarchizzazione

Strategie di selezione

a) estrazione del linguaggio peculiare (rispetto ad un

modello di riferimento); b) estrazione delle forme specifiche (stabilire quali sono le

forme che caratterizzano un gruppo rispetto a tutti gli altri)

c) gerarchizzazione

i) forme tematiche (peculiari?); ii) forme specifiche; iii) forme esclusive; iv) forme lessicalizzate

Analisi di testi in SPAD

Percorso tipico

In genere il punto di partenza è l'analisi delle parole diverse che compongono il corpus, ordinate per valori decrescenti di frequenza (vocabolario). Tra le parole ad alta frequenza di un vocabolario, oltre a quelle di contenuto strumentale (di, e, che, per, etc.), poco informative e generalmente presenti in tutti i testi, ci si imbatte subito nelle cosiddette “parole tema”, che proprio per via della loro elevata frequenza consentono di cogliere immediatamente gli argomenti principali del testo.

I passi di analisi che consentono di descrivere in modo semi automatico il contenuto di un testo sono i seguenti:

analisi dei segmenti ripetuti; analisi delle co-occorrenze; analisi delle parole caratteristiche; analisi del linguaggio peculiare; analisi delle parole con caratteristiche grammaticali omogenee; analisi delle concordanze; analisi delle corrispondenze lessicali.