analisi statistica di dati testuali - homepage |...

62
Analisi statistica di dati testuali Prof.ssa D. Fioredistella Iezzi Università di Roma Tor Vergata[email protected]

Upload: vuongthuan

Post on 19-Jul-2018

234 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Analisi statistica di dati testuali

Prof.ssa D. Fioredistella Iezzi Università di Roma “Tor Vergata”

[email protected]  

Page 2: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Studi quantitativi sulla lingua

 Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni Novanta la crescente diffusione dei software per l’analisi dei testi ha impresso una notevole accelerazione all’uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.

Page 3: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

L’analisi automatica di testi

•  L’analisi automatica di testi è costituita da un insieme di tecniche automatiche o semi-automatiche, supportate da specifici software, per la descrizione e l’analisi di dati testuali.

•  I DATI TESTUALI sono informazioni su fenomeni espressi mediante “PAROLE”.

•  Le FONTI TESTUALI sono, quindi, interviste, domande aperte di un questionario, resoconti di un focus group, discorsi politici, materiale tratto da Internet, documenti e molto altro.

 

 

Page 4: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Origini

•  I primi approcci verso un’analisi quantitativa in ambito linguistico, risalgono agli anni ’50 e ’60 con gli studi Guiraud (1954, 1960), Herdan (1964)

•  Nel corso degli anni ’70 e ’80 (Benzécri, 1977; 1982), alla definizione della statistica testuale basata sull’analisi di forme grafiche e di segmenti ripetuti (Lebart e Salem, 1984; Lebart et al., 1998). Allo stesso tempo, sono stati sviluppati indici e misurazioni di statistica linguistica e statistica lessicale con le proposte di Muller (1977), Tournier (1980, 1985a, 1985b) Lafon (1980, 1981).

•  Più recentemente, la crescente disponibilità di risorse linguistiche informatizzate e la crescente diffusione dei testi consultabili on-line, quindi, direttamente analizzabili, ha ulteriormente rivoluzionato criteri e tecniche in quest’ambito.

   

Page 5: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Gli sviluppi

Le soluzioni trovate non si fondano su strumenti statistici, ma scaturiscono da una stretta multidisciplinarità che associa a questi, con uguale importanza, strumenti informatici e linguistici, soprattutto nell’area, nota oggi in letteratura, con il termine di Text Mining (TM).

•  TEXT MINING o Text Data Mining (TM o TDM) è l’estensione del Data Mining tradizionale su dati testuali non strutturati.

•  Obiettivo principale del TM è l’estrazione di informazione rilevante da dati non strutturati che risiedono in documenti.

Page 6: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Alcune fonti di TM •  e-mail

–  Le e-mail sono la forma più ricca dal punto di vista informativo e più semplice da analizzare. E’ il mezzo attraverso cui le persone comunicano all’interno ed all’esterno di aziende ed organizzazioni. Possono essere analizzate sia le e-mail interne ad una organizzazione sia quelle ricevute dall’esterno od inviate all’esterno dell’organizzazione.

•  Opinion surveys –  Spesso le opinion surveys sono analizzate con cura nella parte

codificata, dove è prevista la risposta: SI, NO, o numerica. Sono invece analizzate in maniera superficiale nella parte testuale, ove si raccolgono le risposte in testo libero alle domande aperte.

•  Newsgroups, Chatlines, Mailing Lists –  Importanti e ricche fonti di informazione dato che riguardano i

temi più disparati, dai consumi alla politica. Il problema con questo tipo di informazione è che l’informazione pertinente è all’interno di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio spesso gergale. Grazie al text mining queste affermazioni/opinioni possono essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.

Page 7: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Metodi più utilizzati dal Text Mining

n  Information Retrieval n  L'indicizzazione e il recupero di documenti testuali

n  Information Extraction n  Estrazione di informazione parziale da un testo

n  Web Mining n  Indicizzazione, recupero di documenti e estrazione di

informazioni dal web

n  Clustering n  Raccolta di documenti simili

Page 8: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Information Retrieval

•  Se  disponiamo  di:  –  Una  fonte  di  documen.  testuali  –  Mediante  una  query  di  .po  

testuale  

IR System

Query E.g. Spam / Text

Documents source

•  Otteniamo:

•  Un insieme (ordinato) di documenti che hanno una rilevanza rispetto alla query Ranked

Documents

Document Documen

t Document

Page 9: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Applicazioni

•  Le tecniche di text mining sono applicabili a qualsiasi ambito di indagine

•  In generale trovano applicazione tutte le volte che siamo di fronte a grandi quantità di dati e abbiamo l'esigenza di conoscerne il contenuto.    

Page 10: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

PERCORSI PER RIELABORARE I TESTI

1. Approccio classico: strutturazione dei concetti ex ante o ex post.

2. Approccio moderno: codifica diretta di unità testuali elementari

Page 11: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

METODO MODERNO

Studia corpora di grandi dimensioni, ossia quando risulta indispensabile un’analisi in modalità automatica (Bolasco, 1999)

In questa logica, il corpus è solo una successione di caratteri: lettere dell’alfabeto, spazi e punteggiatura.

L’unità statistica prende il nome di unità testuale e la parola rappresenta l’unità “più naturale” del corpus (Tuzzi, 2005).

… senza dimenticare che le domande da rivolgere alla statistica devono essere comparative

 

Page 12: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Le fasi di un processo di TM a)  Definizione degli obiettivi e

acquisizione dei documenti; b)  Codifica dei dati; c)  Estrazione delle informazioni. La fase a riguarda il soggetto che

intende avviare la ricerca, quelle b. e c. lo statistico

Page 13: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel
Page 14: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La codifica

Per codifica si intende la costruzione del processo che porta dal documento alla matrice dati da analizzare. Si estrinseca in due momenti:

1.  La scelta delle unità di analisi; 2.  Il sistema di pesi da adottare. Le fasi della codifica sono assimilabili alla fase di

pulizia dei dati tipica di ogni analisi statistica su dati di tipo numerico.

Page 15: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel
Page 16: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La scelta delle unità

È necessario definire regole che permettano di isolare dal corpus le unità da analizzare.

Il CORPUS è un insieme di testi confrontabili tra di loro e appartenenti ad uno stesso contesto

Page 17: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La parola (word)

Una parola è una sequenza di caratteri alfabetici delimitata da due separatori.

L'insieme dei separatori deve essere convenzionalmente definito come un insieme di caratteri. Sono, generalmente, utilizzati come separatori: lo spazio bianco (blank), la punteggiatura (, : . ; ? !), le virgolette, i trattini (-/|), le parentesi ([{}]) e i caratteri speciali (# @ $ % ° & ^ * < >).

Page 18: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La parola…

La parola rappresenta un’entità dotata di senso, ottenuta dalla disaggregazione dei testi in particelle elementari

Oggetti linguistici che costituiscono il lessico e sono raccolti nel dizionario.

Una parola può denotare: un oggetto (sostantivo), un’azione o uno stato (verbo), una qualità (aggettivo, avverbio), una relazione (preposizione).

Nel seguito, per semplicità, si indica con il termine parola l’unità di analisi del testo, qualunque essa sia. Va osservato che a seconda degli obiettivi dell’analisi questa unità lessicale può essere una forma grafica, un lemma, un poliforme o una "forma testuale", ossia un’unità di tipo misto in grado di catturare al meglio i contenuti presenti nel testo.

Page 19: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Alcuni termini tecnici

Una sequenza di PAROLE forma una frase. Le FRASI, messe in sequenza, costituiscono un testo. Un TESTO non è una somma di frasi, ma un insieme di frammenti di discorso, i cui elementi (“parole”) sono chiamate OCCORRENZE (word token).

L’Occorrenza è una “parola” che ricorre in un testo. 

Il numero totale di occorrenze determina la dimensione o lunghezza del corpus (T).

L’insieme delle parole distinte (forme grafiche o word type) determina l’ampiezza del vocabolario (V), che analiticamente può essere espresso nel seguente modo: V1+V2+...+Vn= V.

Dove V1 rappresenta la somma di hapax, V2 le forme che si ripertono due volte…          

Page 20: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Corpus, testi, frammenti

Criterio di raggruppamento

Gruppo1

Gruppo2

Testo 2   Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla   Blabla bla, bla bla blabla, bla bla, bla…   Bla bla bla bla

Testo 1   Secondo me, le credenze per cui … Bla bla blablabla, bla bla, bla. Bla bla bla blablabla, bla bla, bla. bla bla, bla…Bla   Blabla bla, bla bla blabla, bla bla, bla…   Bla bla bla bla

 

Frammento

Gruppo3

Page 21: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La forma grafica

La forma grafica è l’unità elementare del linguaggio e come tale può essere considerata un’unità statistica.

Le forme grafiche non consentono di individuare, ad esempio, la presenza di sinonimi o antonimi, in particolare questi ultimi se espressi per anteposizione alla forma di una particella con valore di negazione.

Page 22: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Una forma grafica è:

Reinert (1988) suggerisce di utilizzare “unità minimali di senso” come sequenze di caratteri aventi un significato autonomo. Questa procedura permette di ridurre le ambiguità tra forme omonimie e poliformi.

•  semplice: una forma grafica (una parola: tempo);

•  composta: insieme di due forme semplici, costituenti un’unità di senso (es: tempo libero, governo ombra, cassa integrazione,…);

•  complessa: insieme più di due forme semplici, costituenti un’unità di senso (carta di credito, …).

Page 23: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

PAROLE VUOTE E PIENE Sono vuote le parole che non sono portatrici di

significato autonomo quali per esempio, <e>, <di>, <da>, <il>... (dette anche stop word), in quanto elementi necessari alla costruzione della frase; oppure sono parole strumentali con funzioni grammaticali e/o sintattiche (<hanno>, <questo>, <perché>,<non>, <tuttavia>),.

Si considerano, al contrario, “parole piene” gli aggettivi, i sostantivi, i verbi e gli avverbi, in quanto termini che hanno un senso in sé (si veda a tal proposito il riquadro sulla parola);

le parole più frequenti celano in sé molti usi e, quindi, molti significati, per esempio la parola <fine> come nome può voler dire termine, obiettivo e scopo, come aggettivo può significare raffinato o sottile

Page 24: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Parole e ambiguità

Un aspetto rilevante dei dati testuali è che una parola (grafia) può avere più di un significato, quindi, bisogna trovare un modo per eliminare l’ambiguità della grafia. Una procedura utilizzata per disambiguare i termini è il processo di lemmatizzazione, ossia quel processo di riconoscimento della categoria grammaticale di una parola, che produce la riconduzione della forma grafica al lemma di appartenenza.

Un LEMMA è pienamente definito dalla coppia di informazioni <vocabolo, categoria grammaticale>, ma comunemente per lemma si intende la forma canonica con cui una parola è presente in un dizionario della lingua. Ad esempio, le occorrenze <legge> e <leggevano> sono due forme grafiche distinte, due flessioni appartenenti allo stesso lemma: il verbo <leggere>.

Page 25: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Scelta delle unità di analisi: la normalizzazione

Page 26: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Scelta delle unità: analisi lessicale

Page 27: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Scelta delle unità: analisi lessicale  

Dove L è la lunghezza del segmento, fsegm la frequenza del segmento selezionato in un documento, ffgi è la frequenza del segmento nel corpus, P è il numero di parole piene che compone il segmento

Page 28: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Scelta delle unità: analisi lessicale  

Page 29: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Scelta delle unità: analisi lessicale  

Page 30: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Il sistema di pesi Per analizzare automaticamente un insieme di documenti si ricorre

alla loro trasformazione in vettori. Un generico documento/vettore j può essere così rappresentato:

!

dj = w1j , w2j , ..., wij , ..., wpj[ ]Dove wij è espressione dell’importanza dell’i-esima forma grafica

nel j-esimo documento in termini di documento informativo (i=1,…,p e j=1,…,q) nel caso in cui la base documentaria sia costituita da p parole differenti in q parole differenti.

Page 31: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Sistema di pesi più diffusi: A) BOOLEANO, in cui wij assume valore 1 se la forma i è presente

nel documento j-esimo e 0 altrimenti;

B) FREQUENTISTA, in cui wij è uguale a nij, frequenza della forma grafica i nel documento j. Questo approccio è molto diffuso e chiamato schema di ponderazione Bag-of-Word (BOW).

C) FREQUENTISTA NORMALIZZATO, in cui wij=nij/max(nj), com max nj la frequenza della parola più presente all’interno del documento j;

D) TF/IDF (TERM FREQUENCY/INVERSE DOCUMENT FREQUENCY), proposto per risolvere i problemi di Information Retrivial da Salton Buckley (1988), in cui

Dove q è il numero totale dei documenti e qi è il numero dei documenti in cui è presente la forma grafica i.  

!

wij =nij

max nj( )log

qqi

Page 32: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Lo schema booleano

Page 33: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La scelta dei pesi

Page 34: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La scelta dei pesi  

Page 35: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

La scelta dei pesi  

Page 36: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

L’Analisi lessico-testuale

A)  Linguistiche: misurano la ricchezza del vocabolario utilizzato

B)  Statistiche: visualizzano ed consentono di interpretare il fenomeno. I metodi statistici più utilizzati rientrano nell’ambito delle tecniche di statistica multivariate di tipo esplorativo. Il motivo è che in genere si ricerca la struttura latente sottostante al testo in esame tramite una riduzione di dimensionalità dello spazio di rappresentazione delle variabili linguistiche o dei documenti

Page 37: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

LA RICCHEZZA LESSICALE: ALCUNI INDICI

•  Estensione lessicale RL=V/N dove V l’ampiezza del vocabolario e N numero totale di parole nel testo.

•  Percentuale di hapax:

•  Frequenza media generale:

•  Coefficiente G (di Guiraud):

 

NVG =!

V1V"

# $

%

& ' (100

!

NV

Page 38: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

LA DIMENSIONE DEL CORPUS E IL VOCABOLARIO

•  La somma delle occorrenze di ciascuna forma determina la dimensione o lunghezza del corpus (N), l’insieme delle parole distinte tra loro (forme grafiche) individua il vocabolario del corpus.

•  L’ampiezza del vocabolario (V) e quella del testo (T) sono le seguenti:

∑=

=+++=max

1max21 ...

f

if iVVVVV ∑

=

×=max

1

f

iiVT i

dove Vi è il numero di parole diverse che appaiono i volte

Page 39: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Grandi dimensioni (!?)

Un tempo (circa 10 anni fa)… Oltre 100mila occorrenze à corpus di grandi dimensioni Oltre 500mila occorrenze à lessico Oggi… Si lavora con corpora contenenti milioni di occorrenze Semplificazione statistica: Empiricamente si è verificato che se

TTR (V/N) < 20% %hapax (V1/V) < 50%

il corpus è “trattabile” con questi metodi

Page 40: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Legge di Zipf

Il rango di una parola (r ): posizione occupata da una parola in un ordinamento di frequenza decrescente

Page 41: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Legge di Zipf

Le parole di un vocabolario si distribuiscono in maniera che la frequenza (f) e il rango ( r) di una parola sono inversamente proporzionali: f(r)=c/ra

dove c è una costante e a è un indice della ricchezza lessicale.

La legge di Zipf espressa in scala logaritmica assume una forma lineare e diventa: log(f)=log(c)+a*log(r).

a rappresenta il coefficiente angolare •  In un famoso studio Zift ha esaminato l'Ulysse di Joyce (vocabolario composto da

260.000 occorrenze):

•  al rango 10 corrispondeva la frequenza 2653

•  al rango 100 corrispondeva la frequenza 265

•  al rango 1000 corrispondeva la frequenza 26

•  al rango 10000 corrispondeva la frequenza 2

Page 42: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Il diagramma di Pareto

Page 43: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Estrazione del linguaggio peculiare tramite il confronto

con il lessico standard Per individuare un linguaggio specifico tramite un lessico

standard, bisogna scegliere un modello lessicale di riferimento. Il confronto del vocabolario del corpus con il modello di linguaggio standard genera due parti: l'insieme delle parole in comune e l'insieme di parole che risultano essere originali rispetto al modello. Le unità di linguaggio peculiare si desumono dal confronto rispetto al sovra o sottoutilizzo delle parole in comune fra i lessici.  

Page 44: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Lo scarto standardizzato

Una misura utilizzata per estrarre il linguaggio caratteristico è lo scarto standardizzato:

dove fi è il numero di occorrenze normalizzate della i-esima parola nel corpus e fi* il corrispondente valore del lessico assunto nel modello .

 

Page 45: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Estrazione del linguaggio peculiare con il metodo delle specificità

Il termine specificità indica se e quando una parola è tipica o specifica di un sub-testo. L’indice z degli scarti standardizzati può essere utilizzato come un test. Se si assume che il corpus è una popolazione e ogni sua parte (testi) è un campione, il modello distributivo di riferimento per valutare in termini probabilistici il numero di occorrenze di una parola presenti in un campione è la distribuzione ipergeometrica. Sotto particolari condizioni (frequenze assolute osservate non inferiori ad una certa soglia) può essere approssimata ad una distribuzione normale. In pratica, fissato un valore soglia minimo sul numero di occorrenze di una parola, il calcolo delle specificità avviene attraverso il confronto con un valore test che confronta la frequenza relativa di una parola nella parte, con la frequenza relativa nel corpus totale.

Page 46: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Distribuzione ipergeometrica

Page 47: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Matrici di dati (1/3)

Matrici “frammenti x forme

FORME TESTUALI VARIABILI CATEGORIALI

1 2 3 !. j !. V(s)

FRAMMENTI

di è sono !. 11/9 !. perché A B C D

1 1 1 0 !. 0 !. 0 1 3 5 2

2 1 0 1 !. 1 !. 0 2 1 3 1

!.. !. !. !. !. !. !. !. !. !. !. !.

i 0 1 1 !. 1 !. 1 2 3 2 2

!. !. !. !. !. !. !. !. !. !. !. !.

n 1 1 0 !. 0 !. 0 1 3 1 2

Page 48: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Matrici di dati (2/3)  

PARTI DEL CORPUS (SUB-TESTI)

FORME TESTUALI 1 2 !.. j !! p

1 di 82 35 !.. 61 !.. 90

2 è 58 62 !.. 59 !.. 41

3 sono 44 87 !.. 48 !.. 75

!.. !.. !.. !.. !.. !.. !..

i casa 32 59 !.. 38 !.. 42

!.. !.. !.. !.. !.. !.. !..

V(s) perché 18 25 !.. 29 !.. 21

matrice “forme x parti”

Page 49: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Matrici di dati (3/3)  

casa auto possedere vita denaro amore salute casa 1 0 0 1 1 1 1 auto 0 1 1 1 0 0 0 possedere 0 1 1 0 0 0 0 vita 1 1 0 1 1 1 0 denaro 1 0 0 1 1 1 1 amore 1 0 0 1 1 1 0 salute 1 0 0 0 1 0 1

matrice “forma x forma”: è una matrice di prossimità

Page 50: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Requisiti per l’applicazione di statistiche su testi

a) la comparabilità dei testi; b) la disponibilità di una o più caratteristiche da associare a ciascun

frammento (ad esempio il genere o l’età dell'autore o la data o la testata di un articolo di giornale);

c) le dimensioni del testo: è necessario disporre di testi sufficientemente lunghi (minimo 20.000 parole o occorrenze) che rendano vantaggioso il ricorso a tecniche automatiche di analisi.

I software finalizzati all'analisi semi-automatica mediante tecniche statistiche e lessicali (i più noti sono SPAD, Sphinx, Alceste, Lexico, Wordmapper, Taltac e Tlab).

Page 51: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

ESEMPIO

Consideriamo il seguente frammento: "Una volta un re disse alla sua serva raccontami una storia e la storia incominciò".

     

Page 52: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

ESEMPIO  

chi ha denti non ha pane e chi ha pane non ha denti1 2 3 4 5 6 7 8 9 10 11 12 13 occorrenze1 2 3 4 2 5 6 1 2 5 4 2 3 forme grafiche

forma grafica

frequenza

ha 4chi 2denti 2non 2pane 2e 1

Vocabolario del proverbio.

La dimensione del N corpus è 13;

La dimensione del vocabolario V(N) è 6

Page 53: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Come posso lavorare?

OCCORRENZE: numero di volte in cui una parola appare nel corso del testo.

FORMA GRAFICA: Parola nella sua grafia originale (forma flessa assunta nel discorso dal corrispondente lemma): esempio PARLAVO.

LEMMA: Forma canonica corrispondente all’entrata del termine del dizionario, che rappresenta tutte le flessioni con cui quella unità lessicale può presentarsi nel discorso: esempio PARLARE.

TEMA: Famiglia lessicale di tutti i lemmi derivati da una medesima radice: esempio PARL>(parlare, parlato, parlottante, parlamentare,…)

Page 54: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Una filiera ideale per l’analisi automatica del testo

A) Preparazione del testo;

B) Analisi lessicale;

C) Estrazione di informazioni;

D) Analisi testuale.

Page 55: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

IL PERCORSO DI ANALISI TESTUALE

1.  normalizzazione; 2.  codifica; 3.  selezione delle unità d’analisi più

interessanti;

4.  analisi statistica.

Page 56: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

NORMALIZZAZIONE

   Una serie di operazioni di standardizzazione del testo, effettuata sulle grafie attraverso il riconoscimento di nomi propri (persone, società, celebrità), toponimi, sigle, date, numeri (telefonici,prezzi, valute), percentuali, così come individuazione di locuzioni, di tipo avverbiale (in modo, per esempio), aggettivale (di massa, in via di sviluppo), o nominale (identificanti entità ricorrenti: per esempio, Capo dello Stato, Presidente del Consiglio, carta di credito).

Page 57: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

LE OPERAZIONI PRELIMINARI

La codifica può essere raggruppata almeno nelle seguenti 3 classi:

per forme grafiche;

Per segmenti ripetuti;

Per lemmi.

Page 58: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Fasi di controllo della procedura di normalizzazione

•  Eliminazione di errori (di tipo ortografico o causati dalla presenza di caratteri speciali);

•  Scelta dei separatori; •  Eliminazione delle maiuscole non rilevanti;

•  Armonizzazione di scritture; •  Controllo di apostrofi ed accenti.

Page 59: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

SELEZIONE DELLE UNITA’ TESTUALI PIU’ INTERESSANTI

•  Soglia di frequenza •  Linguaggio peculiare •  Forme specifiche •  Gerarchizzazione

Page 60: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Strategie di selezione

a) estrazione del linguaggio peculiare (rispetto ad un

modello di riferimento);   b) estrazione delle forme specifiche (stabilire quali sono le

forme che caratterizzano un gruppo rispetto a tutti gli altri)

c) gerarchizzazione  

i) forme tematiche (peculiari?); ii) forme specifiche; iii) forme esclusive; iv) forme lessicalizzate

Page 61: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Analisi di testi in SPAD

Page 62: Analisi statistica di dati testuali - Homepage | DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39157/Analisi_di_dati... · ij assume valore 1 se la forma i è presente nel

Percorso tipico

In genere il punto di partenza è l'analisi delle parole diverse che compongono il corpus, ordinate per valori decrescenti di frequenza (vocabolario). Tra le parole ad alta frequenza di un vocabolario, oltre a quelle di contenuto strumentale (di, e, che, per, etc.), poco informative e generalmente presenti in tutti i testi, ci si imbatte subito nelle cosiddette “parole tema”, che proprio per via della loro elevata frequenza consentono di cogliere immediatamente gli argomenti principali del testo.

I passi di analisi che consentono di descrivere in modo semi automatico il contenuto di un testo sono i seguenti:

analisi dei segmenti ripetuti; analisi delle co-occorrenze; analisi delle parole caratteristiche; analisi del linguaggio peculiare; analisi delle parole con caratteristiche grammaticali omogenee; analisi delle concordanze; analisi delle corrispondenze lessicali.