analisi statistica di dati testuali: il software...

Post on 19-Jul-2018

241 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Analisi statistica di dati testuali: il software SPAD

Prof.ssa D. Fioredistella Iezzi

Università di Roma “Tor Vergata”

stella.iezzi@uniroma2.it

SPAD

Procedure testuali in SPAD MOTS: Creazione di un vocabolario di parole

SEGME: segmenti ripetuti;

VOSPEC: analisi specificità

TALEX: tabelle lessicali;

CORBIT: analisi delle corrispondenze lessicali;

TEXMU: esportare una base

CORDA: analisi delle concordanze

Creare un dataset per l’avvio delle analisi

Possiamo importare dati di tipo:

- ASCII;

- SAS;

- ODBC (Access, Excel,…);

- Testuali.

Dobbiamo creare un file con estensione *.sba (BASE)

Come deve essere strutturato un file testuale

Possiamo distinguere quattro tipo di importazione: 1. Dati numerici e testuali nella stessa scheda

2. Dati numerici e testuali in due schede separate

3. Dati testuali in un formato specifico

4. Utilizzare l’opzione QUESTION, dopo importazione in SPAD, tutte le variabili classificate come TEXTE con l’opzione QUESTION saranno convertite in variabili testuali.

1. Dati numerici e testuali nella stessa scheda

•  Dal Menu Base – Importer – Importation fichier

ASCII – Per importare dati alfanumerici fissi o delimitati da un qualche separatore.

•  Menu Base – Importer – Importation ODBC – Per importare tutta la banca dati

•  In queste interfacce di importazione si dispone di una variabile classificata come « Variable textuelle » che qualifica un dato testuale.

2. Dati numerici e testuali in due schede separate

•  Per creare una base numerica, importiamo i dati numerici da file SAS e SPSS.

•  Per creare una base testuale, possiamo importare dati testuali dalle opzioni ASCII e ODBC (ad eccezione di SAS e SPSS).

•  Con la giustapposizione (juxtapose) in seguitopossiamo unire i due file (Dal menu Outil – Juxtaposition per creare la base finale).

3. Dati testuali in un formato specifico

•  Ciacuna unità statistica è individuata da i seguenti caratteri speciali: ---- (4 meno in colonne). I 4 caratteri speciali sono seguito da un identificativo numerico dell’unità.

•  Per ciascuna unità, ciascuna risposta è separata da ( più) ++++ (separatori di domande).

•  Una risposta mancante è registata con i separatori speciali, ma il contenuto rimane in bianco.

•  La fine della scheda è marcata da un altro carattere speciale: ==== (4 segni di uguale) in colonna da 1 a 4.

•  ESEMPIO: enqT.txt

ESEMPIO: Monster.it

•  Il campione degli annunci preso in esame da questo studio è stato selezionato dal sito monster.it

•  Nel sito vengono offerti sia ai candidati che alle aziende servizi innovativi e personalizzati, con lo scopo di facilitare l’incontro tra domanda e offerta di lavoro; il database degli annunci è navigabile per settore, per area geografica, tipo di lavoro o parola chiave; ogni giorno gli annunci vengono aggiornati con nuove offerte di lavoro. Per i candidati è sufficiente registrarsi, compilare il proprio profilo professionale, e allegare il curriculum vitae.

•  Il servizio è simile ad un motore di ricerca dove, una volta registrato, è sufficiente che l’utente inserisca il proprio “nome” e la propria “password” per vedere immediatamente tutti gli annunci proposti dalle aziende.

DATI TESTUALI

I dati presi in considerazione riguardano 202 annunci di lavoro inseriti sul web da altrettante aziende appartenenti al settore dell’Information Technology. In particolare, da questi sono state isolate tutte le proposizioni riguardanti le competenze richieste. Si è quindi proceduto al trattamento del testo, al fine di eliminare gli errori ortografici. Il corpus originario è costituito da 1210 forme semplici per un totale di 5132 occorrenze.

Editor della base annunci.sba

Attenzione! Se creiamo una base da dati testuali abbiamo bisogno di creare almeno una variabile continua, altrimenti SPAD non riesce ad aprire una filiera di lavoro

Dall’editor aggiungiamo una variabile continua e una nominale (possiamo copiare

ed incollare le etichette numeriche)

Pre-processing: creazione di un vocabolario

FASE 1 Bisogna selezionare SI e dare un nome alla filiera

PRIMO OUTPUT: MOTS.xls CREATION DU VOCABULAIRE DES MOTS BILAN DE LA CREATION DU VOCABULAIRE DES MOTS NOMBRE TOTAL DE REPONSES: 202 NOMBRE TOTAL DE MOTS : 24842 NOMBRE DE MOTS DISTINCTS: 3712 POURCENTAGE DE MOTS DISTINCTS: 14.9

Successivamente abbiamo costruito un corpus più limitato, ponendo una soglia minima di 10 occorrenze: ciò ha dato origine ad un corpus di 87 forme semplici per un totale di 2943 occorrenze. Sulla base di quest’ultimo si è provveduto ad identificare i segmenti ripetuti, secondo i seguenti criteri: la lunghezza massima (n° di forme semplici componenti il segmento) è stata posta pari a 3, così come la soglia minima di occorrenze dei segmenti stessi. Il numero totale di segmenti individuati è 126, per un totale di occorrenze pari a 1432.

Eliminiamo le forme con frequenza <10

Creazione di un filtro logico

Cliccare su “supprimer

Vocabolario iniziale: 3712 parole Numero Forme selezionate: 3294

•  La base di partenza per l’analisi effettuata, costituita dal totale degli annunci, delle forme semplici e di segmenti ripetuti, è costituita dai 193 annunci (n° di linee) e da 214 variabili, di cui 87 forme semplici e 126 segmenti ripetuti, poste in colonna.

•  Dopo una prima analisi, si è ritenuto opportuno considerare uno degli annunci come “individuo” non attivo ai fini all’analisi, in quanto eccessivamente “pesante” in termini di contributo alla formazione del primo asse fattoriale: ciò rendeva la rappresentazione sul piano troppo appiattita e orientata dall’annuncio in questione.

•  Sulla base costruita è stata effettuata un’analisi delle corrispondenze semplici.

Conclusioni

•  Emerge quindi un identikit professionale complesso, in cui alle specifiche competenze sono associate conoscenze e abilità trasversali.

•  Il primo piano fattoriale ottenuto dall’AC può essere orientato secondo due direttrici: la prima (asse orizzontale) è data dal binomio “trasversalità – peculiarità” rispetto al settore preso in considerazione (IT).

•  La seconda è invece ind i v i duata da l la contrapposizione tra specificità e genericità nel contenuto delle conoscenze/abilità richieste al candidato.

top related