analisi statistica di dati testuali: il software...

26
Analisi statistica di dati testuali: il software SPAD Prof.ssa D. Fioredistella Iezzi Università di Roma Tor Vergata[email protected]

Upload: hoanghuong

Post on 19-Jul-2018

241 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Analisi statistica di dati testuali: il software SPAD

Prof.ssa D. Fioredistella Iezzi

Università di Roma “Tor Vergata”

[email protected]

Page 2: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

SPAD

Page 3: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di
Page 4: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Procedure testuali in SPAD MOTS: Creazione di un vocabolario di parole

SEGME: segmenti ripetuti;

VOSPEC: analisi specificità

TALEX: tabelle lessicali;

CORBIT: analisi delle corrispondenze lessicali;

TEXMU: esportare una base

CORDA: analisi delle concordanze

Page 5: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Creare un dataset per l’avvio delle analisi

Possiamo importare dati di tipo:

- ASCII;

- SAS;

- ODBC (Access, Excel,…);

- Testuali.

Dobbiamo creare un file con estensione *.sba (BASE)

Page 6: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Come deve essere strutturato un file testuale

Possiamo distinguere quattro tipo di importazione: 1. Dati numerici e testuali nella stessa scheda

2. Dati numerici e testuali in due schede separate

3. Dati testuali in un formato specifico

4. Utilizzare l’opzione QUESTION, dopo importazione in SPAD, tutte le variabili classificate come TEXTE con l’opzione QUESTION saranno convertite in variabili testuali.

Page 7: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

1. Dati numerici e testuali nella stessa scheda

•  Dal Menu Base – Importer – Importation fichier

ASCII – Per importare dati alfanumerici fissi o delimitati da un qualche separatore.

•  Menu Base – Importer – Importation ODBC – Per importare tutta la banca dati

•  In queste interfacce di importazione si dispone di una variabile classificata come « Variable textuelle » che qualifica un dato testuale.

Page 8: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

2. Dati numerici e testuali in due schede separate

•  Per creare una base numerica, importiamo i dati numerici da file SAS e SPSS.

•  Per creare una base testuale, possiamo importare dati testuali dalle opzioni ASCII e ODBC (ad eccezione di SAS e SPSS).

•  Con la giustapposizione (juxtapose) in seguitopossiamo unire i due file (Dal menu Outil – Juxtaposition per creare la base finale).

Page 9: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

3. Dati testuali in un formato specifico

•  Ciacuna unità statistica è individuata da i seguenti caratteri speciali: ---- (4 meno in colonne). I 4 caratteri speciali sono seguito da un identificativo numerico dell’unità.

•  Per ciascuna unità, ciascuna risposta è separata da ( più) ++++ (separatori di domande).

•  Una risposta mancante è registata con i separatori speciali, ma il contenuto rimane in bianco.

•  La fine della scheda è marcata da un altro carattere speciale: ==== (4 segni di uguale) in colonna da 1 a 4.

•  ESEMPIO: enqT.txt

Page 10: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

ESEMPIO: Monster.it

•  Il campione degli annunci preso in esame da questo studio è stato selezionato dal sito monster.it

•  Nel sito vengono offerti sia ai candidati che alle aziende servizi innovativi e personalizzati, con lo scopo di facilitare l’incontro tra domanda e offerta di lavoro; il database degli annunci è navigabile per settore, per area geografica, tipo di lavoro o parola chiave; ogni giorno gli annunci vengono aggiornati con nuove offerte di lavoro. Per i candidati è sufficiente registrarsi, compilare il proprio profilo professionale, e allegare il curriculum vitae.

•  Il servizio è simile ad un motore di ricerca dove, una volta registrato, è sufficiente che l’utente inserisca il proprio “nome” e la propria “password” per vedere immediatamente tutti gli annunci proposti dalle aziende.

Page 11: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

DATI TESTUALI

I dati presi in considerazione riguardano 202 annunci di lavoro inseriti sul web da altrettante aziende appartenenti al settore dell’Information Technology. In particolare, da questi sono state isolate tutte le proposizioni riguardanti le competenze richieste. Si è quindi proceduto al trattamento del testo, al fine di eliminare gli errori ortografici. Il corpus originario è costituito da 1210 forme semplici per un totale di 5132 occorrenze.

Page 12: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di
Page 13: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di
Page 14: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Editor della base annunci.sba

Page 15: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Attenzione! Se creiamo una base da dati testuali abbiamo bisogno di creare almeno una variabile continua, altrimenti SPAD non riesce ad aprire una filiera di lavoro

Page 16: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Dall’editor aggiungiamo una variabile continua e una nominale (possiamo copiare

ed incollare le etichette numeriche)

Page 17: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Pre-processing: creazione di un vocabolario

Page 18: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

FASE 1 Bisogna selezionare SI e dare un nome alla filiera

PRIMO OUTPUT: MOTS.xls CREATION DU VOCABULAIRE DES MOTS BILAN DE LA CREATION DU VOCABULAIRE DES MOTS NOMBRE TOTAL DE REPONSES: 202 NOMBRE TOTAL DE MOTS : 24842 NOMBRE DE MOTS DISTINCTS: 3712 POURCENTAGE DE MOTS DISTINCTS: 14.9

Page 19: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Successivamente abbiamo costruito un corpus più limitato, ponendo una soglia minima di 10 occorrenze: ciò ha dato origine ad un corpus di 87 forme semplici per un totale di 2943 occorrenze. Sulla base di quest’ultimo si è provveduto ad identificare i segmenti ripetuti, secondo i seguenti criteri: la lunghezza massima (n° di forme semplici componenti il segmento) è stata posta pari a 3, così come la soglia minima di occorrenze dei segmenti stessi. Il numero totale di segmenti individuati è 126, per un totale di occorrenze pari a 1432.

Page 20: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Eliminiamo le forme con frequenza <10

Page 21: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Creazione di un filtro logico

Cliccare su “supprimer

Page 22: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Vocabolario iniziale: 3712 parole Numero Forme selezionate: 3294

Page 23: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

•  La base di partenza per l’analisi effettuata, costituita dal totale degli annunci, delle forme semplici e di segmenti ripetuti, è costituita dai 193 annunci (n° di linee) e da 214 variabili, di cui 87 forme semplici e 126 segmenti ripetuti, poste in colonna.

•  Dopo una prima analisi, si è ritenuto opportuno considerare uno degli annunci come “individuo” non attivo ai fini all’analisi, in quanto eccessivamente “pesante” in termini di contributo alla formazione del primo asse fattoriale: ciò rendeva la rappresentazione sul piano troppo appiattita e orientata dall’annuncio in questione.

•  Sulla base costruita è stata effettuata un’analisi delle corrispondenze semplici.

Page 24: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di
Page 25: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di
Page 26: Analisi statistica di dati testuali: il software SPADdidattica.uniroma2.it/assets/uploads/corsi/39157/ES_TM_in_SPAD.pdf · Se creiamo una base da dati testuali abbiamo bisogno di

Conclusioni

•  Emerge quindi un identikit professionale complesso, in cui alle specifiche competenze sono associate conoscenze e abilità trasversali.

•  Il primo piano fattoriale ottenuto dall’AC può essere orientato secondo due direttrici: la prima (asse orizzontale) è data dal binomio “trasversalità – peculiarità” rispetto al settore preso in considerazione (IT).

•  La seconda è invece ind i v i duata da l la contrapposizione tra specificità e genericità nel contenuto delle conoscenze/abilità richieste al candidato.