f. fabbris - strumenti e metodologie per la qualità dei dati
TRANSCRIPT
1
Strumenti e metodologie per la qualità dei dati
Luigi FabbrisUniversità di Padova
Comstat
2
XI C
onferenza nazionale di statistica, 2013Outline
La qualità dei dati I nuovi contesti e le nuove tendenze nella
produzione di statistiche ufficiali La qualità dei dati traibili dai sistemi informativi
(le nuove anagrafi nazionali) Il ruolo dell’Istat – Sistan nel controllo della
qualità dei dati Il ruolo degli Uffici di Statistica nel controllo
della qualità dei dati di provenienza amministrativa
Alcune conclusioni
3
XI C
onferenza nazionale di statistica, 2013La qualità dei dati ufficiali
Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013):
Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni
Accuratezza: prossimità al valore veroTempestività: pubblicazione entro il tempo pre-
determinatoAccessibilità fisica e intellettuale (comprensibilità)Comparabilità nel tempo e tra domini di studioCoerenza tra misure del medesimo fenomeno
provenienti da diverse fonti e prodotte con metodi diversi
Errore di III tipo: prodotto corretto per l’obiettivo sbagliato
Errore di IV tipo: prodotto corretto, ma troppo in ritardo
Errore di I e II tipo
4
XI C
onferenza nazionale di statistica, 2013
La qualità statistica dei dati ufficiali
Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009):
Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni
Attendibilità: prossimità al valore vero, funzione di: Precisione campionaria Accuratezza della rilevazione e dell’elaborazione dei
datiTempestività: pubblicazione entro il tempo pre-
determinatoAccessibilità fisica e intellettuale (comprensibilità)Comparabilità nel tempo e tra domini di studio e
coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi (“armonizzazione”)
5
XI C
onferenza nazionale di statistica, 2013Il nuovo contesto
La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali:
Anagrafe nazionale della popolazione (delle famiglie)
Anagrafe nazionale delle abitazioni (numeri civici)
Anagrafe nazionale delle imprese (ASIA) Pertanto,
scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (“censimenti continui”) per confluenza di quelle locali,
scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di formazione delle statistiche ufficiali
Assume un ruolo ancora più importante il controllo della qualità dei dati
La confluenza delle anagrafi
This is a bias
This is a “hot point”
7
Che cosa interessa allo statistico ufficiale?
La qualità media dell’acqua alla foce o lungo la pianura (la qualità delle statistiche tratte dall’anagrafe nazionale)?
La qualità dell’acqua dei singoli affluenti (la qualità delle statistiche a livello locale)?
Scoprire “hot point” inquinanti (le fonti locali i cui errori possono minare l’attendibilità delle statistiche nazionali)?
La presenza di coccodrilli nell’acqua stagnante (i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati)?
SI
Forse
SI
SI
Sistema di assicurazione qualità
Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente)
Alla sorgente (Sistan: un sistema di “chiuse” attraverso le quali passa/non passa l’acqua)
ISTAT(controllo periodico)
• Revisione metodologica
• Metadati e buone prassi
• Interventi sulle fonti locali?SISTAN
(auto-controllo,controllo su richiesta)
9
XI C
onferenza nazionale di statistica, 2013
Il controllo continuo della qualità
Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK)
Periodicità: ogni anno, oppure ogni due anni Obiettivi:
Valutazione della qualità di statistiche “di riferimento” in dati domini di studio
Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali
Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche l’accuratezza locale, campionando più intensamente le fonti che, si ipotizza (in base ai dati noti), danno tassi d’errore più alti (“hot points”)
10
XI C
onferenza nazionale di statistica, 2013
Il sistema di controllo locale
Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero:
Essere pochi e di riconosciuta autorità, soprattutto nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dell’Interno, oppure CCIAA)
Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni)
Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dall’UdS, di comprenderne la qualità e di farla comprendere
Sentirsi parte del Sistema statistico nazionale
11
XI C
onferenza nazionale di statistica, 2013
I metadati Sono dati di quadro sul metodo e sui tempi di
produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sull’esito della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità
L’Eurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per l’accesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.)
Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche
12
XI C
onferenza nazionale di statistica, 2013
La formazione delle fonti dei dati
Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati
Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione all’attività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato
Review (self, peer, user); peer review: forme di valutazione reciproche tra produttori di dati; user review: sistema di raccolta delle osservazioni sui dati da parte degli utenti
Applicare il manuale di metadati, le buone pratiche
13
XI C
onferenza nazionale di statistica, 2013La diffusione delle informazioni sulla qualità
Interna al sistema: il sistema deve mantenere la sua credibilità complessiva
Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio
Gestione dei metadati (v. FBI, http://www.fbi.gov/about-us/cjis/ucr/data_quality_guidelines) finalizzata al raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …)
Periodicità: 3-5 anni
14
XI C
onferenza nazionale di statistica, 2013
Problemi del sistema di controllo
1. L’integrazione tra fonti di origine amministrativa permette di scoprire incoerenze (inconsistency) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale?
2. Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. L’integrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza l’informazione sull’incompletezza?
3. Che fare dei lotti con tanti errori?4. La scoperta di errori si può tradurre in metadati
(“warning”). Come si può tradurre in suggerimenti per buone pratiche?
15
XI C
onferenza nazionale di statistica, 2013
Risorse necessarie
Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio.
Il controllo della qualità richiede indagini interne (svolte dall’Istat stesso o da un ente esterno)
La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS
16
XI C
onferenza nazionale di statistica, 2013Concludendo….
La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello nazionale
I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti
Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan
Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema specifico
Ringrazioper l’attenzione