Problemi di copertura e gestione della qualità dei
dati in Whip
Roberto Quaranta *
*contatti http://sites.carloalberto.org/quaranta/
Problemi di copertura e gestione della qualità dei dati in Whip
WHIP è una banca dati di storie lavorative. Permette di studiare i fenomeni socio-economici legati al mercato del lavoro.
45%
20%
15%
20%
Rientro immediato 2-6 mesi
7-12 mesi Più di un anno
Tempi di rientro nell’occupazione dipendenteItalia
Transizioni tra lavoro dipendente e altre gestioni
Individui sopra i 50 anni
Transizioni tra lavoro dipendente e altre gestioni
Individui sopra i 50 anni
0
2
4
6
8
10
12
14
16
1990 1991 1992 1993 1994 1995 1996
Dipendente Mobilità e disoccupazione Autonomo Pensione
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Gwt Tass Tsep Gwt pop standard
Turnover, tassi di associazione, separazione
e gwt negli anni
Turnover, tassi di associazione, separazione
e gwt negli anni
Per far questo è importante affrontare e definire il tipo di copertura e la gestione della qualità dei dati
• definire bene di chi e di quali storie lavorative stiamo parlando
• garantire un’informazione coerente e allo stesso tempo che permetta un utilizzo agevole da parte del ricercatore
I dati che permettono la costruzione di WHIP sono di natura amministrativa e provengono dall’INPS. I dati che ci vengono forniti non sono raccolti per scopi di ricerca ma per scopi gestionali e amministrativi.
Chi è presente è definito per legge, le leggi possono cambiare. Le informazioni contenute sono stabilite da normative, circolari... Non tutte le informazioni raccolte servono agli scopi amministrativi e gestionali
WHIP da dove nasce...WHIP da dove nasce...La fonte originaria dei dati è costituita dagli archivi amministrativi dell’Inps, dai quali viene estratto un ampio campione casuale di record (1/90).
le informazioni presenti riguardano gli individui che nell’arco della loro vita lavorativa e di pensionamento hanno avuto rapporti con Inps.
… perché hanno versato contributi per la pensione… perché percepiscono delle prestazioni pensionistiche (trattamenti diretti, assegni di invalidità …) e non pensionistiche (sussidio di disoccupazione, mobilità …)
La fonte originaria dei dati è costituita dagli archivi amministrativi dell’Inps, dai quali viene estratto un ampio campione casuale di record (1/90).
le informazioni presenti riguardano gli individui che nell’arco della loro vita lavorativa e di pensionamento hanno avuto rapporti con Inps.
… perché hanno versato contributi per la pensione… perché percepiscono delle prestazioni pensionistiche (trattamenti diretti, assegni di invalidità …) e non pensionistiche (sussidio di disoccupazione, mobilità …)
WHIP contiene...Adesso...• Episodi di lavoro parasubordinato• Episodi di disoccupazione (sussidiate)• Episodi di mobilità• Episodi di lavoro dipendente nel settore privato• Attività di lavoro autonomo (artigiano e commerciante)• Episodi di pensionamento erogate dall’Inps
In futuro...• Episodi di LSU (lavori socialmente utili)• CIG• Casellario delle pensioni
Mancano ...• Gli episodi lavorativi da dipendente pubblico• quasi tutti gli agricoli• Gli episodi lavorativi da liberi professionisti
dotati di una cassa previdenziale autonoma (notai, avvocati, ...)
La banca dati WHIP deve permettere di effettuare delle analisi socio-economiche, per fare questo si deve fare in modo che l’oggetto che si vuole studiare sia ben definito. La banca dati deve essere costruita da un campione rappresentativo dell’“oggetto” d’analisi.
Per fare questo si deve passare da una popolazione Inps ad una popolazione adatta ad indagini di tipo statistico – economico
si devono armonizzare le informazioniin particolare le informazioni che riguardano
i lavoratori dipendenti Perché non tutti presenti in INPSrestringendo il nostro interesse
al settore PRIVATO non agricolo.
Uniformiamo i dati prendendo solo alcuni settori (Ateco81). Non consideriamo:
Settore Agricolo e ...
91 Enti e aziende pubbliche 92 Servizi d'igiene pubblica ed amministrazione di cimiteri 93 Istruzione 95 Sanità e servizi veterinari 96 Altri servizi sociali
Pubblicazione rapporti di lavoro ricostruiti
Periodo 1985 – 1999
RL ricostruiti RL presenti in WHIP
702.125 544.219
Eliminati circa il 22%
Enti ed imprese con prestazioni pensionistiche alternative e/o sostitutive all’INPS
Ente presenti anche nell’INPS nel campo di osservazione
n. dipendenti (assicurati)
FS (ferrovie dello stato) NO SI 125.848 (31.12.95)
IPOST (istituto postelegrafonici) NO (SI solo contratti a tempo determinato)
SI 189.016 (31.12.95)
ANAS (confluita nella CTRS INPDAP dal 1996) NO, (Si solo i nuovi assunti dal 1997)
SI 9.261 (31.12.96)
INPGI (Giornalisti) SI - assicurati per fondi minori SI 11.019 (31.12.96)
INPDAI (dirigenti di aziende industriali) SI - assicurati per fondi minori SI 118.267 (31.12.96)
Fondo nazionale previdenza impiegati imprese di spedizione e agenzie marittime IPSMA)
SI - assicurati per fondi minori SI 40.356 (31.12.96)
ENPALS (lavoratori dello spettacolo) in parte assicurati per fondi minori
NO 155.500 (31.12.96)
Altri Enti di minore dimensione (*) NO SI 300 circa
ENPAIA, Ente naz. prev. Addetti impiegati agricoli
NO NO 31.611 (31.12.96)
ENAV, Ente nazionale di assistenza al volo NO, Si solo i nuovi assunti dal 1997, il resto Tesoro
SI 3.100 (31.12.97)
Fondo previdenza personale INA ? SI 681 (31.12.96)
INPDAP-INS (asilo e scuole elementari parificate)
NO NO 21.700 (31.12.96)
Documento ISTAT: “L'utilizzo dei dati INPS per la stima trimestrale del numero dei dipendenti, le retribuzioni, il costo del lavoro e le ore lavorate”
Gestione della qualità dei dati e successiva pubblicazione
Gestione della qualità dei dati e successiva pubblicazione
La gestione della qualità è eseguita in due fasi:
IN ENTRATA - ricezione e lavorazione dei dati si raccolgono:• informazioni sugli archivi e sulle variabili• informazioni normative e altro• informazioni sulle codifiche dei dati • individuazione dati mancanti e/o scorretti e gestiscono le
informazioni mancanti e quelle scorrette
IN USCITA - fase di pubblicazione• si ricodificano le informazioni, le informazioni mancanti e/o
scorrette• si integrano, si correggono o si evidenzia che l’informazione
è mancante
L’analisi di qualità dei dati ricevutie la ricodifica delle informazioni
L’analisi di qualità dei dati ricevutie la ricodifica delle informazioni
La procedura di costruzione di WHIP può esser vista come una scatola nera che prende in input gli archivi forniti da Inps, li elabora, e restituisce come risultato degli archivi che rispondono a finalità di analisi statistico-economica.
Le operazioni fondamentali della procedura sono:• La normalizzazione, pulizia e ricodifica• L'identificazione longitudinale delle imprese• L'identificazione longitudinale dei rapporti di lavoro• Il consolidamento dei record contributivi in dati annui dei rapporti di
lavoro
ricezione dei dati raccolta documentazione
analisi qualità dei dati
ricodifica delle informazioni
Archivi forniti da Inps
identificazione longitudinaledelle imprese
identificazione longitudinaledei rapporti di lavoro archivio di
storie lavorative
documentazioneon line
InputsInputs
OutputsOutputs
ricezione degli archivi sorgente
raccolta documentazione
analisi qualità dei dati
ricodifica delle informazioni
Le Istruzioni di compilazione dei moduli Inps
Le Circolari Inps
I CUD e la normativa
Personale INPS
Normalizzazione, pulizia e ricodifica
Codifica
Correzione
Ricodifica
L’analisi di qualità dei dati ricevutiricodifica delle informazioni
L’analisi di qualità dei dati ricevutiricodifica delle informazioni
Gestiamo:• valori mancanti• codici non riconosciuti
Gestiamo:• valori mancanti• codici non riconosciuti
archivi sorgentearchivi sorgente codifichecodifiche
Variabile: Qualifica Inps (originale)
Valori Frequenze % V. cumulati %ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ1 84074 54.63 84074 54.632 51767 33.64 135841 88.263 1529 0.99 137370 89.254 413 0.27 137783 89.525 7102 4.61 144885 94.146 722 0.47 145607 94.617 288 0.19 145895 94.798 252 0.16 146147 94.969 2 0.00 146149 94.96D 2 0.00 146151 94.96O 3681 2.39 149832 97.35R 106 0.07 149938 97.42S 1 0.00 149939 97.42T 1 0.00 149940 97.42W 829 0.54 150769 97.96X 3 0.00 150772 97.96Y 3136 2.04 153908 100.00 Valori missing 493
Esempi di correzione e ricodifica
Qualifica Inps (ricodificata)
codifica variabile, ricodifica e segnalazione informazioni mancanti e non corrette
Valori Frequenze % V. cumulati %
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 8454 5.49 153907 100.00
2 88477 57.49 88477 57.49
3 55445 36.02 143922 93.51
5 1531 0.99 145453 94.51
ood 1 0.00 153908 100.00
missing 493
Correzione mesi retribuiti - dicembrini
Tipo correzione N Tipo correzione N totale
1985 dicembrini 319 mm_retribuiti 577 896
1986 dicembrini 302 mm_retribuiti 708 1.010
1987 dicembrini 324 mm_retribuiti 1014 1.338
1988 dicembrini 361 mm_retribuiti 1319 1.680
1989 dicembrini 286 mm_retribuiti 1057 1.343
1990 dicembrini 330 mm_retribuiti 1466 1.796
1991 dicembrini 319 mm_retribuiti 1800 2.119
1992 dicembrini 248 mm_retribuiti 1271 1.519
1993 dicembrini 256 mm_retribuiti 1087 1.343
1994 dicembrini 210 mm_retribuiti 1983 2.193
1995 dicembrini 203 mm_retribuiti 2462 2.665
1996 dicembrini 185 mm_retribuiti 2816 3.001
1997 dicembrini 223 mm_retribuiti 3149 3.372
1998 dicembrini 183 mm_retribuiti 883 1.066
1999 dicembrini 207 mm_retribuiti 425 632
anno osservazioni imputazioni
1985 102504 140.6‰
1986 109522 138.8‰
1987 117866 195.6‰
1988 122306 180‰
1989 125941 109.8‰
1990 129447 128.2‰
1991 129071 111.2‰
1992 127273 112.8‰
1993 120075 124.6‰
1994 118772 123.8‰
1995 121203 122.6‰
1996 122346 131.2‰
1997 122523 112.4‰
1998 125272 133.8‰
1999 132009 114.8‰
Correzione codice contratto
anno osservazioni imputazioni
1985 102504 406.6‰
1986 109522 377.8‰
1987 117866 378.8‰
1988 122306 371.6‰
1989 125941 389.2‰
1990 129447 371.6‰
1991 129071 379.8‰
1992 127273 375.6‰
1993 120075 369.0‰
1994 118772 378.6‰
1995 121203 380.6‰
1996 122346 377.0‰
1997 122523 364.6‰
1998 125272 332.6‰
1999 132009 313.0‰
Correzione Inquadramento
Valori originali Frequenze ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
0 7 0.45 7 0.45 00 1 0.06 8 0.52 000 2 0.13 10 0.64 0000 1 0.06 11 0.71 0002 4 0.26 15 0.97 0003 5 0.32 20 1.29 0004 1 0.06 21 1.35 0007 1 0.06 22 1.42 001 11 0.71 33 2.13 002 4 0.26 37 2.38 07 1 0.06 101 6.51 1 51 3.29 152 9.79 1 / 3 0.19 155 9.99 1 L 1 0.06 156 10.05 10 2 0.13 158 10.18 11 3 0.19 161 10.37 1150 1 0.06 162 10.44 12 2 0.13 164 10.57 130 1 0.06 165 10.63 14 1 0.06 166 10.70 160 1 0.06 167 10.76 18 1 0.06 168 10.82 198 1 0.06 169 10.89 1^ 2 0.13 171 11.02 1^LI 1 0.06 172 11.08 2 375 24.16 547 35.24 2 GR 1 0.06 548 35.31 2 L 4 0.26 552 35.57 2 LI 3 0.19 555 35.76
Inquadramento: Situazione iniziale
ancora...
2 LV 1 0.06 556 35.82 2' 2 0.13 558 35.95 2'L. 1 0.06 559 36.02 2. 17 1.10 576 37.11 2.L 1 0.06 577 37.18 2/L 5 0.32 582 37.50 20 8 0.52 590 38.02 25 1 0.06 591 38.08 254 1 0.06 592 38.14 2B 1 0.06 593 38.21 2D 2 0.13 595 38.34 2L 38 2.45 633 40.79 2LIV 12 0.77 645 41.56 2O 1 0.06 646 41.62 2^ 3 0.19 649 41.82 2^L 3 0.19 652 42.01 D 8 0.52 1516 97.68 D2 1 0.06 1517 97.74 DIR 1 0.06 1518 97.81 DIR. 1 0.06 1519 97.87 DOM 1 0.06 1520 97.94 E/2 2 0.13 1522 98.07 EP 1 0.06 1523 98.13 II 2 0.13 1525 98.26 IM.5 1 0.06 1526 98.32 L 2 0.13 1528 98.45 L.2 3 0.19 1531 98.65 L.4 1 0.06 1532 98.71 L.DO 1 0.06 1533 98.78 L3 5 0.32 1538 99.10 L4 1 0.06 1539 99.16 L5 5 0.32 1544 99.48 L6 1 0.06 1545 99.55 LD 3 0.19 1548 99.74 LV3 1 0.06 1549 99.81 OP. 1 0.06 1550 99.87 QD 1 0.06 1551 99.94 V 1 0.06 1552 100.00
Risultato finale
Valori Frequenze % V. cumulati %ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ1 76 5.17 76 5.172 520 35.35 596 40.523 407 27.67 1003 68.184 180 12.24 1183 80.425 162 11.01 1345 91.436 66 4.49 1411 95.927 51 3.47 1462 100.00Missing 105
Correzione RetribuzioneNumero di correzioni fatte su ogni anno
o1m_1985 retribuzione 4
o1m_1986 retribuzione 2
o1m_1987 retribuzione 7
o1m_1988 retribuzione 1
o1m_1989 retribuzione 2
o1m_1990 retribuzione 1
o1m_1991 retribuzione 0
o1m_1992 retribuzione 0
o1m_1993 retribuzione 3
o1m_1994 retribuzione 1
o1m_1995 retribuzione 2
o1m_1996 retribuzione 0
o1m_1997 retribuzione 3
o1m_1998 retribuzione 202
o1m_1999 retribuzione 134
Sembrano poche correzioni
1997Variabile media Std Dev Maximumƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒcomp_correnti 22.118 21.349 1062.980comp_altre 3.514 6.025 641.240ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ1998Variabile media Std Dev Maximumƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒcomp_correnti 39.284 1.488.292 504.035.062comp_altre 6.702 130.853 16.836.674ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ1999Variabile media Std Dev Maximumƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒcomp_correnti 28.304 964.855 234.219.252comp_altre 4.665 293.959 117.575.969ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Correzione Retribuzione
L’analisi di qualità dei dati pubblicati L’analisi di qualità dei dati pubblicati
In fase di pubblicazione vengono eseguiti ulteriori controlli:
• sui dati mancanti
• sui dati scorretti
Anno Imputazioni
1986 0.02%
1987 0.02%
1988 0.06%
• Provincia di lavoro
... Correzioni meno consistenti
... e più consistenti:
anno osservazioni missing imputazioni
1985 102504 79.2‰ 140.6‰
1986 109522 77.8‰ 138.8‰
1987 117866 73.8‰ 195.6‰
1988 122306 67.6‰ 180.0‰
1989 125941 47.8‰ 109.8‰
1990 129447 67.8‰ 128.2‰
1991 129071 59.8‰ 111.2‰
1992 127273 62.8‰ 112.8‰
1993 120075 51.8‰ 124.6‰
1994 118772 41.4‰ 123.8‰
1995 121203 35.6‰ 122.6‰
1996 122346 41.0‰ 131.2‰
1997 122523 43.4‰ 112.4‰
1998 125272 30.4‰ 133.8‰
1999 132009 33.0‰ 114.8‰
Correzione codice contratto
anno osservazioni missing imputazioni
1985 102504 132.2‰ 406.6‰
1986 109522 131.0‰ 377.8‰
1987 117866 135.0‰ 378.8‰
1988 122306 119.8‰ 371.6‰
1989 125941 119.6‰ 389.2‰
1990 129447 121.4‰ 371.6‰
1991 129071 116.6‰ 379.8‰
1992 127273 112.6‰ 375.6‰
1993 120075 99.2‰ 369.0‰
1994 118772 86.2‰ 378.6‰
1995 121203 78.8‰ 380.6‰
1996 122346 85.6‰ 377.0‰
1997 122523 83.0‰ 364.6‰
1998 125272 70.2‰ 332.6‰
1999 132009 68.2‰ 313.0‰
Correzione Inquadramento
Serve per poter avere dati di impresa affidabili (e di conseguenza anche per poter identificare i rapporti di lavoro)
E’ necessaria perché WHIP ha una dimensione longitudinale che è ben superiore al numero di anni (cinque) per i quali l'Inps costruisce i record dell'Osservatorio delle Imprese, dal quale è estratto il campione oggetto di fornitura.
Tra edizioni successive dell'Osservatorio possono cambiare i codici identificativi delle imprese, e può cambiare la composizione stessa dell'impresa per scorpori, fusioni e altre trasformazioni societarie.
L'identificazione longitudinale delle imprese e delle trasformazioni
societarie
Non esistendo una relazione uno a uno tra gli episodi di contribuzione dichiarati e rapporti di lavoro instaurati dalla persona (la relazione è del tipo molti a molti).
Non è registrata esplicitamente una data di inizio del rapporto di lavoro, e la data di cessazione - seppur presente - è di qualità carente, sia in termini di valori missing che di valori scorretti
L'identificazione longitudinale dei rapporti di lavoro
Impatto della ricostruzione sulla identificazione dei rapporti di lavoro
Impatto della ricostruzione sulla identificazione dei rapporti di lavoro
Periodo 1985 - 1999
RL ricostruiti 702.125
Ricuciture 82.055 (almeno * 2 rl)
1 - passaggio diretti in un intervallo breve - 76% di cui il 40% nella stessa impresa, 10% nella stessa posizione, 50% è un flusso spurio
2 – uguale al 1 ma con intervallo maggiore senza altri rapporti di lavoro - 10% (il 99% nella stessa impresa)
3 - buchi dicembre-gennaio - 10% (il 99% nella stessa impresa)
4 - militari – 5% (il 99% nella stessa impresa)