analisi statistica di dati testuali - homepage |...
TRANSCRIPT
Analisi statistica di dati testuali
Prof.ssa D. Fioredistella Iezzi Università di Roma “Tor Vergata”
Studi quantitativi sulla lingua
Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni Novanta la crescente diffusione dei software per l’analisi dei testi ha impresso una notevole accelerazione all’uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.
L’analisi automatica di testi
• L’analisi automatica di testi è costituita da un insieme di tecniche automatiche o semi-automatiche, supportate da specifici software, per la descrizione e l’analisi di dati testuali.
• I DATI TESTUALI sono informazioni su fenomeni espressi mediante “PAROLE”.
• Le FONTI TESTUALI sono, quindi, interviste, domande aperte di un questionario, resoconti di un focus group, discorsi politici, materiale tratto da Internet, documenti e molto altro.
Origini
• I primi approcci verso un’analisi quantitativa in ambito linguistico, risalgono agli anni ’50 e ’60 con gli studi Guiraud (1954, 1960), Herdan (1964)
• Nel corso degli anni ’70 e ’80 (Benzécri, 1977; 1982), alla definizione della statistica testuale basata sull’analisi di forme grafiche e di segmenti ripetuti (Lebart e Salem, 1984; Lebart et al., 1998). Allo stesso tempo, sono stati sviluppati indici e misurazioni di statistica linguistica e statistica lessicale con le proposte di Muller (1977), Tournier (1980, 1985a, 1985b) Lafon (1980, 1981).
• Più recentemente, la crescente disponibilità di risorse linguistiche informatizzate e la crescente diffusione dei testi consultabili on-line, quindi, direttamente analizzabili, ha ulteriormente rivoluzionato criteri e tecniche in quest’ambito.
Gli sviluppi
Le soluzioni trovate non si fondano su strumenti statistici, ma scaturiscono da una stretta multidisciplinarità che associa a questi, con uguale importanza, strumenti informatici e linguistici, soprattutto nell’area, nota oggi in letteratura, con il termine di Text Mining (TM).
• TEXT MINING o Text Data Mining (TM o TDM) è l’estensione del Data Mining tradizionale su dati testuali non strutturati.
• Obiettivo principale del TM è l’estrazione di informazione rilevante da dati non strutturati che risiedono in documenti.
Alcune fonti di TM • e-mail
– Le e-mail sono la forma più ricca dal punto di vista informativo e più semplice da analizzare. E’ il mezzo attraverso cui le persone comunicano all’interno ed all’esterno di aziende ed organizzazioni. Possono essere analizzate sia le e-mail interne ad una organizzazione sia quelle ricevute dall’esterno od inviate all’esterno dell’organizzazione.
• Opinion surveys – Spesso le opinion surveys sono analizzate con cura nella parte
codificata, dove è prevista la risposta: SI, NO, o numerica. Sono invece analizzate in maniera superficiale nella parte testuale, ove si raccolgono le risposte in testo libero alle domande aperte.
• Newsgroups, Chatlines, Mailing Lists – Importanti e ricche fonti di informazione dato che riguardano i
temi più disparati, dai consumi alla politica. Il problema con questo tipo di informazione è che l’informazione pertinente è all’interno di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio spesso gergale. Grazie al text mining queste affermazioni/opinioni possono essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.
Metodi più utilizzati dal Text Mining
n Information Retrieval n L'indicizzazione e il recupero di documenti testuali
n Information Extraction n Estrazione di informazione parziale da un testo
n Web Mining n Indicizzazione, recupero di documenti e estrazione di
informazioni dal web
n Clustering n Raccolta di documenti simili
Information Retrieval
• Se disponiamo di: – Una fonte di documen. testuali – Mediante una query di .po
testuale
IR System
Query E.g. Spam / Text
Documents source
• Otteniamo:
• Un insieme (ordinato) di documenti che hanno una rilevanza rispetto alla query Ranked
Documents
Document Documen
t Document
Applicazioni
• Le tecniche di text mining sono applicabili a qualsiasi ambito di indagine
• In generale trovano applicazione tutte le volte che siamo di fronte a grandi quantità di dati e abbiamo l'esigenza di conoscerne il contenuto.
PERCORSI PER RIELABORARE I TESTI
1. Approccio classico: strutturazione dei concetti ex ante o ex post.
2. Approccio moderno: codifica diretta di unità testuali elementari
METODO MODERNO
Studia corpora di grandi dimensioni, ossia quando risulta indispensabile un’analisi in modalità automatica (Bolasco, 1999)
In questa logica, il corpus è solo una successione di caratteri: lettere dell’alfabeto, spazi e punteggiatura.
L’unità statistica prende il nome di unità testuale e la parola rappresenta l’unità “più naturale” del corpus (Tuzzi, 2005).
… senza dimenticare che le domande da rivolgere alla statistica devono essere comparative
Le fasi di un processo di TM a) Definizione degli obiettivi e
acquisizione dei documenti; b) Codifica dei dati; c) Estrazione delle informazioni. La fase a riguarda il soggetto che
intende avviare la ricerca, quelle b. e c. lo statistico
La codifica
Per codifica si intende la costruzione del processo che porta dal documento alla matrice dati da analizzare. Si estrinseca in due momenti:
1. La scelta delle unità di analisi; 2. Il sistema di pesi da adottare. Le fasi della codifica sono assimilabili alla fase di
pulizia dei dati tipica di ogni analisi statistica su dati di tipo numerico.
La scelta delle unità
È necessario definire regole che permettano di isolare dal corpus le unità da analizzare.
Il CORPUS è un insieme di testi confrontabili tra di loro e appartenenti ad uno stesso contesto
La parola (word)
Una parola è una sequenza di caratteri alfabetici delimitata da due separatori.
L'insieme dei separatori deve essere convenzionalmente definito come un insieme di caratteri. Sono, generalmente, utilizzati come separatori: lo spazio bianco (blank), la punteggiatura (, : . ; ? !), le virgolette, i trattini (-/|), le parentesi ([{}]) e i caratteri speciali (# @ $ % ° & ^ * < >).
La parola…
La parola rappresenta un’entità dotata di senso, ottenuta dalla disaggregazione dei testi in particelle elementari
Oggetti linguistici che costituiscono il lessico e sono raccolti nel dizionario.
Una parola può denotare: un oggetto (sostantivo), un’azione o uno stato (verbo), una qualità (aggettivo, avverbio), una relazione (preposizione).
Nel seguito, per semplicità, si indica con il termine parola l’unità di analisi del testo, qualunque essa sia. Va osservato che a seconda degli obiettivi dell’analisi questa unità lessicale può essere una forma grafica, un lemma, un poliforme o una "forma testuale", ossia un’unità di tipo misto in grado di catturare al meglio i contenuti presenti nel testo.
Alcuni termini tecnici
Una sequenza di PAROLE forma una frase. Le FRASI, messe in sequenza, costituiscono un testo. Un TESTO non è una somma di frasi, ma un insieme di frammenti di discorso, i cui elementi (“parole”) sono chiamate OCCORRENZE (word token).
L’Occorrenza è una “parola” che ricorre in un testo.
Il numero totale di occorrenze determina la dimensione o lunghezza del corpus (T).
L’insieme delle parole distinte (forme grafiche o word type) determina l’ampiezza del vocabolario (V), che analiticamente può essere espresso nel seguente modo: V1+V2+...+Vn= V.
Dove V1 rappresenta la somma di hapax, V2 le forme che si ripertono due volte…
Corpus, testi, frammenti
Criterio di raggruppamento
Gruppo1
Gruppo2
Testo 2 Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla Blabla bla, bla bla blabla, bla bla, bla… Bla bla bla bla
Testo 1 Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla Blabla bla, bla bla blabla, bla bla, bla… Bla bla bla bla
Frammento
Gruppo3
La forma grafica
La forma grafica è l’unità elementare del linguaggio e come tale può essere considerata un’unità statistica.
Le forme grafiche non consentono di individuare, ad esempio, la presenza di sinonimi o antonimi, in particolare questi ultimi se espressi per anteposizione alla forma di una particella con valore di negazione.
Una forma grafica è:
Reinert (1988) suggerisce di utilizzare “unità minimali di senso” come sequenze di caratteri aventi un significato autonomo. Questa procedura permette di ridurre le ambiguità tra forme omonimie e poliformi.
• semplice: una forma grafica (una parola: tempo);
• composta: insieme di due forme semplici, costituenti un’unità di senso (es: tempo libero, governo ombra, cassa integrazione,…);
• complessa: insieme più di due forme semplici, costituenti un’unità di senso (carta di credito, …).
PAROLE VUOTE E PIENE Sono vuote le parole che non sono portatrici di
significato autonomo quali per esempio, <e>, <di>, <da>, <il>... (dette anche stop word), in quanto elementi necessari alla costruzione della frase; oppure sono parole strumentali con funzioni grammaticali e/o sintattiche (<hanno>, <questo>, <perché>,<non>, <tuttavia>),.
Si considerano, al contrario, “parole piene” gli aggettivi, i sostantivi, i verbi e gli avverbi, in quanto termini che hanno un senso in sé (si veda a tal proposito il riquadro sulla parola);
le parole più frequenti celano in sé molti usi e, quindi, molti significati, per esempio la parola <fine> come nome può voler dire termine, obiettivo e scopo, come aggettivo può significare raffinato o sottile
Parole e ambiguità
Un aspetto rilevante dei dati testuali è che una parola (grafia) può avere più di un significato, quindi, bisogna trovare un modo per eliminare l’ambiguità della grafia. Una procedura utilizzata per disambiguare i termini è il processo di lemmatizzazione, ossia quel processo di riconoscimento della categoria grammaticale di una parola, che produce la riconduzione della forma grafica al lemma di appartenenza.
Un LEMMA è pienamente definito dalla coppia di informazioni <vocabolo, categoria grammaticale>, ma comunemente per lemma si intende la forma canonica con cui una parola è presente in un dizionario della lingua. Ad esempio, le occorrenze <legge> e <leggevano> sono due forme grafiche distinte, due flessioni appartenenti allo stesso lemma: il verbo <leggere>.
Scelta delle unità di analisi: la normalizzazione
Scelta delle unità: analisi lessicale
Scelta delle unità: analisi lessicale
Dove L è la lunghezza del segmento, fsegm la frequenza del segmento selezionato in un documento, ffgi è la frequenza del segmento nel corpus, P è il numero di parole piene che compone il segmento
Scelta delle unità: analisi lessicale
Scelta delle unità: analisi lessicale
Il sistema di pesi Per analizzare automaticamente un insieme di documenti si ricorre
alla loro trasformazione in vettori. Un generico documento/vettore j può essere così rappresentato:
!
dj = w1j , w2j , ..., wij , ..., wpj[ ]Dove wij è espressione dell’importanza dell’i-esima forma grafica
nel j-esimo documento in termini di documento informativo (i=1,…,p e j=1,…,q) nel caso in cui la base documentaria sia costituita da p parole differenti in q parole differenti.
Sistema di pesi più diffusi: A) BOOLEANO, in cui wij assume valore 1 se la forma i è presente
nel documento j-esimo e 0 altrimenti;
B) FREQUENTISTA, in cui wij è uguale a nij, frequenza della forma grafica i nel documento j. Questo approccio è molto diffuso e chiamato schema di ponderazione Bag-of-Word (BOW).
C) FREQUENTISTA NORMALIZZATO, in cui wij=nij/max(nj), com max nj la frequenza della parola più presente all’interno del documento j;
D) TF/IDF (TERM FREQUENCY/INVERSE DOCUMENT FREQUENCY), proposto per risolvere i problemi di Information Retrivial da Salton Buckley (1988), in cui
Dove q è il numero totale dei documenti e qi è il numero dei documenti in cui è presente la forma grafica i.
!
wij =nij
max nj( )log
qqi
Lo schema booleano
La scelta dei pesi
La scelta dei pesi
La scelta dei pesi
L’Analisi lessico-testuale
A) Linguistiche: misurano la ricchezza del vocabolario utilizzato
B) Statistiche: visualizzano ed consentono di interpretare il fenomeno. I metodi statistici più utilizzati rientrano nell’ambito delle tecniche di statistica multivariate di tipo esplorativo. Il motivo è che in genere si ricerca la struttura latente sottostante al testo in esame tramite una riduzione di dimensionalità dello spazio di rappresentazione delle variabili linguistiche o dei documenti
LA RICCHEZZA LESSICALE: ALCUNI INDICI
• Estensione lessicale RL=V/N dove V l’ampiezza del vocabolario e N numero totale di parole nel testo.
• Percentuale di hapax:
• Frequenza media generale:
• Coefficiente G (di Guiraud):
NVG =!
V1V"
# $
%
& ' (100
!
NV
LA DIMENSIONE DEL CORPUS E IL VOCABOLARIO
• La somma delle occorrenze di ciascuna forma determina la dimensione o lunghezza del corpus (N), l’insieme delle parole distinte tra loro (forme grafiche) individua il vocabolario del corpus.
• L’ampiezza del vocabolario (V) e quella del testo (T) sono le seguenti:
∑=
=+++=max
1max21 ...
f
if iVVVVV ∑
=
×=max
1
f
iiVT i
dove Vi è il numero di parole diverse che appaiono i volte
Grandi dimensioni (!?)
Un tempo (circa 10 anni fa)… Oltre 100mila occorrenze à corpus di grandi dimensioni Oltre 500mila occorrenze à lessico Oggi… Si lavora con corpora contenenti milioni di occorrenze Semplificazione statistica: Empiricamente si è verificato che se
TTR (V/N) < 20% %hapax (V1/V) < 50%
il corpus è “trattabile” con questi metodi
Legge di Zipf
Il rango di una parola (r ): posizione occupata da una parola in un ordinamento di frequenza decrescente
Legge di Zipf
Le parole di un vocabolario si distribuiscono in maniera che la frequenza (f) e il rango ( r) di una parola sono inversamente proporzionali: f(r)=c/ra
dove c è una costante e a è un indice della ricchezza lessicale.
La legge di Zipf espressa in scala logaritmica assume una forma lineare e diventa: log(f)=log(c)+a*log(r).
a rappresenta il coefficiente angolare • In un famoso studio Zift ha esaminato l'Ulysse di Joyce (vocabolario composto da
260.000 occorrenze):
• al rango 10 corrispondeva la frequenza 2653
• al rango 100 corrispondeva la frequenza 265
• al rango 1000 corrispondeva la frequenza 26
• al rango 10000 corrispondeva la frequenza 2
Il diagramma di Pareto
Estrazione del linguaggio peculiare tramite il confronto
con il lessico standard Per individuare un linguaggio specifico tramite un lessico
standard, bisogna scegliere un modello lessicale di riferimento. Il confronto del vocabolario del corpus con il modello di linguaggio standard genera due parti: l'insieme delle parole in comune e l'insieme di parole che risultano essere originali rispetto al modello. Le unità di linguaggio peculiare si desumono dal confronto rispetto al sovra o sottoutilizzo delle parole in comune fra i lessici.
Lo scarto standardizzato
Una misura utilizzata per estrarre il linguaggio caratteristico è lo scarto standardizzato:
dove fi è il numero di occorrenze normalizzate della i-esima parola nel corpus e fi* il corrispondente valore del lessico assunto nel modello .
Estrazione del linguaggio peculiare con il metodo delle specificità
Il termine specificità indica se e quando una parola è tipica o specifica di un sub-testo. L’indice z degli scarti standardizzati può essere utilizzato come un test. Se si assume che il corpus è una popolazione e ogni sua parte (testi) è un campione, il modello distributivo di riferimento per valutare in termini probabilistici il numero di occorrenze di una parola presenti in un campione è la distribuzione ipergeometrica. Sotto particolari condizioni (frequenze assolute osservate non inferiori ad una certa soglia) può essere approssimata ad una distribuzione normale. In pratica, fissato un valore soglia minimo sul numero di occorrenze di una parola, il calcolo delle specificità avviene attraverso il confronto con un valore test che confronta la frequenza relativa di una parola nella parte, con la frequenza relativa nel corpus totale.
Distribuzione ipergeometrica
Matrici di dati (1/3)
Matrici “frammenti x forme
FORME TESTUALI VARIABILI CATEGORIALI
1 2 3 !. j !. V(s)
FRAMMENTI
di è sono !. 11/9 !. perché A B C D
1 1 1 0 !. 0 !. 0 1 3 5 2
2 1 0 1 !. 1 !. 0 2 1 3 1
!.. !. !. !. !. !. !. !. !. !. !. !.
i 0 1 1 !. 1 !. 1 2 3 2 2
!. !. !. !. !. !. !. !. !. !. !. !.
n 1 1 0 !. 0 !. 0 1 3 1 2
Matrici di dati (2/3)
PARTI DEL CORPUS (SUB-TESTI)
FORME TESTUALI 1 2 !.. j !! p
1 di 82 35 !.. 61 !.. 90
2 è 58 62 !.. 59 !.. 41
3 sono 44 87 !.. 48 !.. 75
!.. !.. !.. !.. !.. !.. !..
i casa 32 59 !.. 38 !.. 42
!.. !.. !.. !.. !.. !.. !..
V(s) perché 18 25 !.. 29 !.. 21
matrice “forme x parti”
Matrici di dati (3/3)
casa auto possedere vita denaro amore salute casa 1 0 0 1 1 1 1 auto 0 1 1 1 0 0 0 possedere 0 1 1 0 0 0 0 vita 1 1 0 1 1 1 0 denaro 1 0 0 1 1 1 1 amore 1 0 0 1 1 1 0 salute 1 0 0 0 1 0 1
matrice “forma x forma”: è una matrice di prossimità
Requisiti per l’applicazione di statistiche su testi
a) la comparabilità dei testi; b) la disponibilità di una o più caratteristiche da associare a ciascun
frammento (ad esempio il genere o l’età dell'autore o la data o la testata di un articolo di giornale);
c) le dimensioni del testo: è necessario disporre di testi sufficientemente lunghi (minimo 20.000 parole o occorrenze) che rendano vantaggioso il ricorso a tecniche automatiche di analisi.
I software finalizzati all'analisi semi-automatica mediante tecniche statistiche e lessicali (i più noti sono SPAD, Sphinx, Alceste, Lexico, Wordmapper, Taltac e Tlab).
ESEMPIO
Consideriamo il seguente frammento: "Una volta un re disse alla sua serva raccontami una storia e la storia incominciò".
ESEMPIO
chi ha denti non ha pane e chi ha pane non ha denti1 2 3 4 5 6 7 8 9 10 11 12 13 occorrenze1 2 3 4 2 5 6 1 2 5 4 2 3 forme grafiche
forma grafica
frequenza
ha 4chi 2denti 2non 2pane 2e 1
Vocabolario del proverbio.
La dimensione del N corpus è 13;
La dimensione del vocabolario V(N) è 6
Come posso lavorare?
OCCORRENZE: numero di volte in cui una parola appare nel corso del testo.
FORMA GRAFICA: Parola nella sua grafia originale (forma flessa assunta nel discorso dal corrispondente lemma): esempio PARLAVO.
LEMMA: Forma canonica corrispondente all’entrata del termine del dizionario, che rappresenta tutte le flessioni con cui quella unità lessicale può presentarsi nel discorso: esempio PARLARE.
TEMA: Famiglia lessicale di tutti i lemmi derivati da una medesima radice: esempio PARL>(parlare, parlato, parlottante, parlamentare,…)
Una filiera ideale per l’analisi automatica del testo
A) Preparazione del testo;
B) Analisi lessicale;
C) Estrazione di informazioni;
D) Analisi testuale.
IL PERCORSO DI ANALISI TESTUALE
1. normalizzazione; 2. codifica; 3. selezione delle unità d’analisi più
interessanti;
4. analisi statistica.
NORMALIZZAZIONE
Una serie di operazioni di standardizzazione del testo, effettuata sulle grafie attraverso il riconoscimento di nomi propri (persone, società, celebrità), toponimi, sigle, date, numeri (telefonici,prezzi, valute), percentuali, così come individuazione di locuzioni, di tipo avverbiale (in modo, per esempio), aggettivale (di massa, in via di sviluppo), o nominale (identificanti entità ricorrenti: per esempio, Capo dello Stato, Presidente del Consiglio, carta di credito).
LE OPERAZIONI PRELIMINARI
La codifica può essere raggruppata almeno nelle seguenti 3 classi:
per forme grafiche;
Per segmenti ripetuti;
Per lemmi.
Fasi di controllo della procedura di normalizzazione
• Eliminazione di errori (di tipo ortografico o causati dalla presenza di caratteri speciali);
• Scelta dei separatori; • Eliminazione delle maiuscole non rilevanti;
• Armonizzazione di scritture; • Controllo di apostrofi ed accenti.
SELEZIONE DELLE UNITA’ TESTUALI PIU’ INTERESSANTI
• Soglia di frequenza • Linguaggio peculiare • Forme specifiche • Gerarchizzazione
Strategie di selezione
a) estrazione del linguaggio peculiare (rispetto ad un
modello di riferimento); b) estrazione delle forme specifiche (stabilire quali sono le
forme che caratterizzano un gruppo rispetto a tutti gli altri)
c) gerarchizzazione
i) forme tematiche (peculiari?); ii) forme specifiche; iii) forme esclusive; iv) forme lessicalizzate
Analisi di testi in SPAD
Percorso tipico
In genere il punto di partenza è l'analisi delle parole diverse che compongono il corpus, ordinate per valori decrescenti di frequenza (vocabolario). Tra le parole ad alta frequenza di un vocabolario, oltre a quelle di contenuto strumentale (di, e, che, per, etc.), poco informative e generalmente presenti in tutti i testi, ci si imbatte subito nelle cosiddette “parole tema”, che proprio per via della loro elevata frequenza consentono di cogliere immediatamente gli argomenti principali del testo.
I passi di analisi che consentono di descrivere in modo semi automatico il contenuto di un testo sono i seguenti:
analisi dei segmenti ripetuti; analisi delle co-occorrenze; analisi delle parole caratteristiche; analisi del linguaggio peculiare; analisi delle parole con caratteristiche grammaticali omogenee; analisi delle concordanze; analisi delle corrispondenze lessicali.