il campionamento ocse pisa 03

12
Appendice 3 Il piano di campionamento italiano dell’indagine PISA 2003 di GIUSEPPE BOVE Università degli Studi Roma Tre Introduzione …………………………………………………………………… 288 La popolazione oggetto di indagine e la costruzione della lista delle scuole …………………………………… 289 La stratificazione delle scuole ……………………………………………… 290 Il dimensionamento dei campioni negli strati …………………………… 291 L’estrazione del campione delle scuole …………………………………… 293 Il contatto con le scuole e la selezione degli studenti del campione …… 294 Campione raggiunto con l’indagine ………………………………………… 294 La ponderazione e il calcolo dell’errore …………………………………… 295 Riferimenti bibliografici ……………………………………………………… 298

Upload: mbfreesdb

Post on 24-Sep-2015

3 views

Category:

Documents


0 download

DESCRIPTION

Il Campionamento OCSE Pisa 03

TRANSCRIPT

  • Appendice 3

    Il piano di campionamento italianodellindagine PISA 2003

    di GIUSEPPE BOVEUniversit degli Studi Roma Tre

    Introduzione 288La popolazione oggetto di indagine e

    la costruzione della lista delle scuole 289La stratificazione delle scuole 290Il dimensionamento dei campioni negli strati 291Lestrazione del campione delle scuole 293Il contatto con le scuole e la selezione degli studenti del campione 294Campione raggiunto con lindagine 294La ponderazione e il calcolo dellerrore 295Riferimenti bibliografici 298

  • INTRODUZIONE

    Il campione italiano dellindagine PISA 2003 un campione a due stadi stra-tificato. Le unit di primo stadio, stratificate ed estratte con probabilit varia-bili, sono le scuole italiane nelle quali sono presenti studenti quindicenni. Leunit di secondo stadio sono gli studenti quindicenni, estratti con probabilituguali in ciascuna scuola campione. Tali caratteristiche del disegno campio-nario sono stabilite dal Consorzio internazionale responsabile dellindaginedal punto di vista tecnico-scientifico che, attraverso lAustralian Council forEducational Research (ACER) e la societ WESTAT, supervisiona tutte le di-verse fasi applicative del campionamento. In particolare, stabilito che:

    in ogni paese il campione sia costituito da almeno 4.500 studenti di quin-dici anni estratti da un campione di almeno 150 scuole. Quando il singolopaese intende sovra-campionare alcuni sottogruppi della popolazione(come stato il caso per lItalia), la dimensione campionaria (scuole e stu-denti) viene opportunamente modificata per tener conto del diverso li-vello di precisione;

    le esclusioni di studenti dalla lista della popolazione obiettivo da cuiestrarre il campione non debbano superare nel complesso il limite del 5%,articolato nel modo seguente: limite del 2% per lesclusione di scuole perstudenti con disabilit; limite dello 0,5% per scuole estremamente picco-le o non accessibili; limite del 2,5% per le esclusioni previste di studenticon disabilit allinterno delle scuole;

    un tasso di risposta iniziale dell85% e dell80% si realizzi, rispettivamente,per le scuole e gli studenti. Quando le unit campionarie iniziali vengonorimpiazzate con sostituzioni i tassi di risposta richiesti vengono opportu-namente aumentati.

    Il Consorzio inoltre: controlla che siano individuate in modo appropriato letdegli studenti e il periodo dellindagine sul campo; verifica le esclusioni discuole e studenti operate preliminarmente nella fase di costituzione delle li-ste da cui vengono estratti i campioni; assiste nella definizione della stratifi-cazione e della dimensione campionaria; seleziona il campione di scuole; cal-cola i pesi campionari da utilizzare per scuole e studenti al fine di ottenerestime accurate; calcola indicatori di qualit e di comparabilit, ed altri dati diriferimento per ciascun paese.Il gruppo nazionale di ricerca propone il periodo di rilevazione (e di conse-guenza lintervallo di nascita degli studenti oggetto di indagine) e i livelli diesclusione per scuole e studenti, allinterno delle limitazioni precedente-mente richiamate. Tale gruppo, inoltre, costruisce la lista delle scuole con stu-denti quindicenni da cui estrarre il campione, propone una opportuna strati-ficazione delle scuole e la relativa dimensione campionaria, organizza e con-trolla lindagine sul campo e tiene cura della lista delle scuole campionate edelle relative sostituzioni. Procederemo nei prossimi paragrafi a descrivere le caratteristiche del cam-pione italiano dellindagine e i vari momenti che ne hanno caratterizzato lacostruzione, con particolare riferimento alle fasi che hanno coinvolto il grup-po di ricerca nazionale.

    288

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • LA POPOLAZIONE OGGETTO DI INDAGINE E LA COSTRUZIONEDELLA LISTA DELLE SCUOLE

    Come stato richiamato anche in precedenza, la popolazione obiettivo (o de-fined target population) dellindagine era costituita dagli studenti nati nel1987 e iscritti nellanno scolastico 2002-2003 nelle scuole italiane statali e nonstatali. Poich questo tipo di popolazione presente sia nella scuola secon-daria superiore che, in proporzione molto ridotta ma caratterizzata, in quellainferiore, stato necessario (anche in seguito alle richieste specifiche diACER e WESTAT) costruire la lista di entrambi i tipi di scuole. Nel Settembre del 2002, periodo in cui stato necessario costruire la listadelle scuole da cui estrarre il campione finale dellindagine, stato possibileottenere dal MIUR sia la lista delle scuole statali che quella delle non statali,comprendenti scuole secondarie inferiori e superiori. Per le scuole la coper-tura delle due liste risultava totale. Inoltre per la quasi totalit delle scuole(fanno eccezione 99 scuole superiori non statali) si disponeva dei dati riguar-danti il numero totale di studenti iscritti e il numero di studenti iscritti per an-no di corso. Non essendo presente, invece, la consistenza degli studenti peranno di nascita, stato necessario preliminarmente costruire una misura ap-prossimata delle consistenze di studenti quindicenni per ciascuna scuola (va-riabile ENR).

    Per le scuole in cui esiste un anno di corso in cui prevalentemente concen-trata la presenza di studenti quindicenni (modal grade), il Consorzio interna-zionale prevede la possibilit di utilizzare la consistenza degli studenti di ta-le anno come valore della variabile ENR. Per questo motivo, per le scuole me-die superiori statali e non statali si utilizzata a tale scopo linformazione de-gli iscritti alla classe seconda, costituita prevalentemente da studenti quindi-cenni che hanno effettuato il loro percorso scolastico con regolarit, ossia sen-za anticipi o ripetizioni di anni.

    Per le scuole medie inferiori, non essendo possibile applicare lo stesso me-todo descritto in precedenza, si percorsa una diversa strada. I dati disponi-bili presso il MIUR consentono di conoscere distintamente per regione la per-centuale di studenti quindicenni per ciascuno dei tre anni di corso della scuo-la media inferiore. Le percentuali dei tre anni di corso sono quindi state ap-plicate in ciascuna scuola media inferiore della lista, tenendo conto della ri-spettiva regione di appartenenza, ricavando in tal modo una misura appros-simata della consistenza di studenti quindicenni della scuola. Tali consisten-ze sono state utilizzate come valori della variabile ENR.

    Non sono state operate esclusioni a livello di scuole. Le esclusioni a livello distudenti, allinterno delle scuole, erano previste unicamente per gli studentiimpossibilitati a sostenere le prove a causa di disabilit funzionale, disabilitmentale o insufficiente padronanza della lingua (nel caso di studenti stranie-ri arrivati in Italia da meno di un anno) e, sulla base dei dati disponibili alMIUR, avrebbero dovuto essere pari allo 0,8% della popolazione obiettivo. Iltasso di esclusione risultato poi per il campione pari all1,5%, comunque in-feriore al tasso di esclusione massimo consentito a livello internazionale (perquesto tipo di motivi) che del 2,5%.

    289

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • LA STRATIFICAZIONE DELLE SCUOLE

    Come detto in precedenza il disegno di campionamento a due stadi strati-ficato. Al primo stadio le scuole sono state stratificate. La procedura di strati-ficazione stata tuttavia piuttosto articolata, a causa soprattutto della pre-senza delle scuole medie inferiori e in generale delle scuole di dimensioni ri-dotte (sotto la dimensione fissata dal TCS = Target Cluster Size di 35 studen-ti quindicenni). La presenza di scuole con pochi studenti quindicenni (1-3studenti) rischia di far crescere in modo eccessivo la dimensione del campio-ne in termini di numero di scuole, soprattutto quando ci sono un ampio nu-mero di strati per i quali si vogliono ottenere stime campionarie abbastanzaprecise. Si tenga conto inoltre che, per motivi legati al calcolo della variabi-lit delle stime, ogni strato dovr contenere almeno due scuole.

    Inizialmente le scuole erano state stratificate utilizzando le seguenti variabilidi stratificazione esplicita:

    AREA GEOGRAFICA (11 livelli) comprendenti 6 Regioni/Provincie e le 5 ma-cro-aree (Nord-Ovest, Nord-Est, Centro, Sud, Sud-Isole), con lobiettivo di ot-tenere stime affidabili sia per le 5 macroaree che per le 6 Regioni/Provincieautonome che hanno partecipato a PISA 2003 con campioni rappresentatividel proprio territorio. Piemonte-Nord-Ovest Lombardia-Nord Ovest Resto del Nord Ovest (Liguria e Valle dAosta) Veneto-Nord Est Trento-Nord-Est Bolzano-Nord Est Resto del Nord Est (Emilia Romagna, Friuli Venezia Giulia) Toscana-Centro Resto del Centro (Lazio, Marche, Umbria) Sud (Campania, Abruzzo, Molise, Puglia) Sud-Isole (Basilicata, Calabria, Sicilia, Sardegna)

    TIPO SCUOLA (2 livelli) Statali Non-statali

    PROGRAMMA (4 livelli + 1 solo per Bolzano) Licei Tecnici Professionali-Artistici Scuole medie inferiori Professionali non statali Bolzano (presente solo nellarea geografica di Bol-

    zano)

    Lutilizzo di tali variabili portava inizialmente alla determinazione di 88 stratiespliciti. La presenza in molti di questi strati di scuole di ridotte dimensionisuggeriva di procedere ad una diminuzione del numero di strati espliciti. In-fatti, in questi casi, il Consorzio internazionale della ricerca richiede di creareulteriori strati specifici per le scuole molto piccole (fino a 17 studenti quindi-cenni) o moderatamente piccole (tra 18 e 34 studenti quindicenni), al fine dirispettare le dimensioni per il campione (150 scuole x 35 studenti = 5.250 stu-denti).

    290

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • Per questo motivo il Consorzio internazionale ha suggerito di utilizzare ini-zialmente lArea geografica (11 livelli) come prima variabile di stratificazioneesplicita. Allinterno di ciascuna area stata quindi effettuata unanalisi se-condo la dimensione delle scuole, utilizzando le tre modalit very small (finoa 17 studenti quindicenni), moderately small (tra 18 e 34 studenti quindicen-ni) e large (35 studenti quindicenni e oltre). Uno strato di scuole very small stato creato solo quando linsieme di tali scuole ha rappresentato almeno l1%delle scuole dellarea geografica. Altrimenti queste sono state inglobate in uneventuale strato di scuole moderately small. Uno strato di scuole moderatelysmall stato creato solo quando linsieme di tali scuole ha rappresentato al-meno il 4% delle scuole dellarea geografica. Altrimenti queste sono state in-globate nello strato delle scuole large. Quando nessuna delle due preceden-ti condizioni stata riscontrata, per larea geografica non sono stati creati stra-ti di scuole very small o moderately small.

    Effettuata tale analisi della dimensione, per ciascuna area geografica lo stra-to delle scuole large stato ulteriormente suddiviso secondo le 3 modalitdella variabile programma (Licei, Tecnici, Professionali-Artistici), con lecce-zione delle aree di Trento e Bolzano, nelle quali le scuole large erano pochee tutte incluse nel campione.

    La procedura campionaria per PISA prevede inoltre di poter utilizzare varia-bili di stratificazione implicita che consentono di migliorare la precisione del-le stime e di ridurre lerrore dovuto alle sostituzioni delle unit campionarie.La variabile Tipo scuola (statali e non statali) stata quindi utilizzata con ta-le ruolo, cos come la variabile Programma negli strati delle scuole very smalle moderately small e in quelli delle scuole di Trento e Bolzano.

    Tale procedura ha portato alla definizione finale di 44 strati. Lallocazione delcampione di scuole negli strati viene descritto nel successivo paragrafo.

    IL DIMENSIONAMENTO DEI CAMPIONI NEGLI STRATI

    La creazione di strati di scuole very small e moderately small ha influenzatola determinazione della dimensione del campione, che ha dovuto contener-ne un adeguato numero. Al tempo stesso stato necessario evitare una pre-senza eccessiva di queste scuole poich esse hanno pochi studenti quindi-cenni, e quindi la loro selezione rende necessario aumentare il numero dellescuole da campionare al fine di mantenere la dimensione campionaria finalerichiesta per PISA (almeno 4.500 studenti).

    La determinazione della dimensione campionaria di ciascuno strato avve-nuta per fasi, come la procedura di stratificazione delineata nel precedenteparagrafo. Si determinata preliminarmente una dimensione campionaria iniziale perciascuna area geografica sulla base delle precedenti esperienze in tale cam-po di indagine e di considerazioni di carattere pratico. Tale dimensione sta-ta fissata pari a 50 scuole per le 6 aree geografiche in cui era necessario un so-vra-campionamento (Piemonte, Lombardia, Veneto, Bolzano, Trento, Tosca-na). Per le rimanenti 5 aree geografiche (Resto del Nord-Ovest, Resto delNord-Est, Resto del Centro, Sud, Sud-Isole) la dimensione campionaria ini-ziale stata determinata distribuendo le 150 scuole previste per il campionenazionale, proporzionalmente alla quota del totale nazionale della ENR (pari

    291

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • a 576.614 studenti) detenuta dallarea geografica. Ad esempio, per larea geo-grafica SUD la quota di ENR era pari a (141.648: 576.614)=0,2456 (circa il 25%).Di conseguenza la rispettiva dimensione campionaria iniziale era ottenuta co-me prodotto: 150 x 0,2456 = 36,8 arrotondato a 37 scuole. Analogamente sonostate ottenute le dimensioni campionarie iniziali per il Resto del Nord-Ovest(3 scuole), Resto del Nord-Est (10 scuole), Resto del Centro (20 scuole), Sud-Isole (32 scuole).

    A questo punto, per ciascuna area geografica, le precedenti dimensioni cam-pionarie iniziali sono state opportunamente aumentate in ragione della mag-giore o minore presenza di scuole very small e moderately small.

    Si calcolata preliminarmente la quota di ENR dellarea geografica relativa aciascuno dei tre strati (very small, moderately small e large) presenti in essa.Si ripartito tra gli strati il totale di studenti da selezionare, previsti sulla ba-se della dimensione campionaria iniziale dellarea, secondo le quote prece-dentemente determinate, ma con un decremento di circa il 50% per la per-centuale dello strato very small, a vantaggio degli strati moderately small elarge, il cui peso viene aumentato in ragione della met del peso percentua-le dello strato very small.

    Per avere il numero di scuole da estrarre in ciascuno strato si diviso lam-montare di studenti ottenuto, per 35 nel caso dello strato large, e per la di-mensione media per scuola della ENR nei rimanenti due strati very small emoderately small.

    Quando lo strato large stato suddiviso ulteriormente nei tre strati Licei,Tecnici, Professionali-Artistici, le scuole sono state ripartite tra essi propor-zionalmente alle rispettive quote di ENR.

    Infine, in tutti i casi in cui uno strato prevedesse una sola scuola campione ta-le numero stato aumentato a due scuole per necessit connesse alle stimedi variabilit.

    Riportiamo di seguito la distribuzione del campione previsto, in termini discuole e studenti, prima nelle 5 Ripartizioni geografiche del territorio na-zionale e poi nelle 6 Aree per le quali era previsto un sovra-campionamen-to.

    Tabella 1 Allocazione del campione nelle Ripartizioni geografiche

    292

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

    Ripartizione Numero di Scuole Numero di studenti

    nel campione Nord Ovest 140 3785 Nord Est 180 4652 Centro 88 2477 Sud 45 1327 Sud-Isole 40 1115 Totale Italia 493 13356

  • Tabella 2 Allocazione del campione nelle Aree sovra-campionate

    LESTRAZIONE DEL CAMPIONE DELLE SCUOLE

    Lestrazione delle scuole avvenuta indipendentemente in ciascuno dei 44strati. A ciascuna scuola dello strato si assegnata preliminarmente una mi-sura di ampiezza (MOS) basata sulla variabile ENR, pari al TCS=35 per lescuole che avevano valori della ENR fino a 35 studenti, e uguale alla ENR ne-gli altri casi. Questo, insieme alla creazione di strati specifici, ha assicuratouna buona rappresentativit degli studenti delle scuole di dimensioni ridot-te. Il campione stato quindi estratto con probabilit proporzionali alla MOS.In letteratura tale campione denominato campione con probabilit propor-zionali alla dimensione.Preliminarmente allestrazione, la lista delle scuole dello strato stata ordi-nata secondo le modalit delle variabili di stratificazione implicita (statale-non statale e secondo il programma negli strati che lo richiedessero). Allin-terno di ciascuno strato implicito cos determinato, le scuole sono state ulte-riormente ordinate secondo la ENR, alternando lordinamento decrescente diuno strato a quello crescente del successivo. Questa procedura consente diridurre sia la distorsione dovuta alle eventuali sostituzioni che lerrore stan-dard delle stime campionarie. Preliminarmente allestrazione campionaria,allinterno di ciascuno strato esplicito, viene creata la variabile MOS cumula-ta per tener conto delle probabilit proporzionali alla dimensione delle scuo-le. La procedura di selezione delle scuole del campione di strato stata di tiposistematico, sulla base di un intervallo di campionamento dato dal rapportotra il totale della MOS dello strato e il numero di scuole da campionare in es-so. Successivamente viene calcolato il prodotto tra un numero casuale gene-rato da una distribuzione uniforme nellintervallo 0-1 e lintervallo di campio-namento. La prima scuola estratta quindi la prima, nellordinamento di stra-to, con la MOS cumulata uguale o maggiore del prodotto precedentementecalcolato; le successive sono ottenute in modo analogo, aggiungendo ognivolta un intervallo di campionamento al numero ottenuto al passo preceden-te. Tale procedura assicura le condizioni di proporzionalit alla dimensionedelle probabilit di inclusione precedentemente richiamate.Una volta determinate le scuole da campionare nello strato, per ciascuna diesse si determinano due scuole da utilizzare per eventuali sostituzioni sce-gliendo la scuola che precede e quella che segue la scuola selezionata nellalista ordinata delle scuole dello strato.Il Consorzio internazionale ha in questo modo estratto il campione delle 493scuole previste dal piano di campionamento e delle relative scuole da utiliz-zare per le sostituzioni, trasmettendone la lista al gruppo di ricerca italiano

    293

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

    Area Numero di Scuole Numero di studenti

    nel campione Piemonte 65 1755 Lombardia 65 1761 Veneto 66 1731 Trento 50 1158 Bolzano 50 1387 Toscana 63 1760

  • dellINVALSI. Questultimo ha quindi provveduto ad avviare i contatti con lescuole e a monitorarne la partecipazione, procedendo alle eventuali sostitu-zioni.

    IL CONTATTO CON LE SCUOLE E LA SELEZIONE DEGLI STUDENTIDEL CAMPIONE

    I contatti sono stati avviati nel mese di Dicembre del 2002, sia telefonicamen-te che con una lettera di richiesta di adesione da parte del MIUR. Soltanto 8delle scuole previste nel campione non hanno aderito allindagine e sono sta-te sostituite attraverso le riserve. Quindi ciascuna scuola del campione ha in-viato allINVALSI la lista degli studenti quindicenni iscritti ed il nome di un in-segnante responsabile dellorganizzazione e dello svolgimento dellindagine.Dalle liste predisposte in formato elettronico sono stati estratti con probabi-lit uguali i 35 studenti del campione, utilizzando un programma elettronicopredisposto dal Consorzio internazionale (KeyQuest). Quando la lista inviatadalla scuola conteneva un numero inferiore a 35 studenti quindicenni, questientravano tutti nel campione. Gli studenti selezionati di ogni scuola sono sta-ti trascritti su unapposita Student tracking form che stata inviata allinse-gnante referente, responsabile della somministrazione delle prove.

    Nel periodo di Febbraio gli insegnanti referenti hanno partecipato ad un pro-gramma di formazione che aveva lo scopo di garantire che la somministrazio-ne avvenisse in condizioni simili in tutte le scuole del campione nazionale.Parte essenziale della formazione era dedicata alla compilazione e allaggior-namento della Student tracking form. In particolare i referenti dovevano con-trollare i dati relativi agli studenti (classe di appartenenza e anno di nascita)e segnalare, utilizzando gli appositi codici, eventuali casi di esclusione dellaprova, facendo riferimento a una casistica strettamente definita (studenti por-tatori di alcuni tipi di handicap, studenti di madre lingua non italiana presentiin Italia da meno di un anno, studenti ritirati). In base agli aggiornamenti del-le Student tracking form di tutte le scuole sono stati predisposti i materiali diindagine da inviare alle scuole.

    La somministrazione delle prove sul campo stata svolta nel periodo di 5settimane che va dal 10 Marzo all11 Aprile 2003. Nel 10% circa delle scuoleselezionate stato effettuato un controllo della somministrazione da parte disette Project Quality Monitors (inviati dal Consorzio internazionale) che si so-no recati senza preavviso nelle scuole la mattina prevista per le prove.

    CAMPIONE RAGGIUNTO CON LINDAGINE

    Il campione effettivamente raggiunto rispecchia ampiamente gli standard fis-sati dal Consorzio internazionale e consente di ottenere stime attendibili a li-vello nazionale e per le aree geografiche previste dalla stratificazione, anchecon riferimento ai diversi tipi di istruzione.

    Il tasso di risposta iniziale delle scuole stato infatti del 98,3% (485 scuole su493 previste), ampiamente superiore al tasso richiesto dell85%. In seguito al-la sostituzione delle 8 scuole che hanno declinato linvito a partecipare, il tas-so di risposta salito al 100%. Dopo la raccolta delle liste di studenti quindi-cenni inviate dalle scuole, 85 scuole medie e 1 scuola superiore sono state

    294

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • escluse, in accordo con la normativa prevista dal Consorzio internazionale, inquanto in esse vi erano meno di 3 studenti quindicenni. Il campione raggiun-to di scuole quindi risultato di 407 unit, di cui 382 scuole secondarie su-periori e 25 scuole medie.

    Come richiamato nel secondo paragrafo, il tasso di esclusione relativo aglistudenti che non hanno potuto sostenere le prove a causa di disabilit fun-zionali, disabilit mentali o insufficiente padronanza della lingua (nel caso distudenti stranieri) stato dell1,5%, inferiore al tasso di esclusione massimodel 2,5% previsto dal Consorzio internazionale per questa tipologia di esclu-sioni. Il tasso di risposta degli studenti stato superiore al 90% e rispetta lecondizioni richieste che prevedono un limite inferiore dell80% per tale tasso.Nel 10% di casi mancanti sono da includere, oltre agli studenti con disabilit,anche quelli trasferiti o comunque ritirati al momento della somministrazione(2,8%), gli studenti assenti (circa il 5%) e quelli che si sono rifiutati di prende-re parte alla prova (0,4%). Nelle tabelle seguenti sono riportati i dati riguar-danti la partecipazione di scuole e studenti per macro-area geografica e perle Regioni/Province sovra-campionate.

    Tabella 3 Campione raggiunto nelle macro-aree geografiche

    Tabella 4 Campione raggiunto nelle Regioni/Province sovra-campionate

    LA PONDERAZIONE E IL CALCOLO DELLERRORE

    Nel piano di campionamento dellindagine PISA 2003, come abbiamo visto, leunit campionarie di primo stadio (le scuole) non hanno la stessa probabilitdi essere incluse nel campione finale dellindagine, e lo stesso vale per quel-le di secondo stadio (gli studenti quindicenni). Le scuole pi grandi hannouna maggiore probabilit di essere selezionate cos come gli studenti quin-dicenni selezionati nelle Regioni/Province sovra-campionate. A posterioridellestrazione campionaria tali probabilit possono essere influenzate, inol-tre, da effetti condizionanti quali dei differenti tassi di risposta. I dati tratti daciascuno studente che partecipa allindagine devono quindi essere opportu-

    295

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

    Ripartizione Numero di Scuole Numero di studenti

    previsti nel campione Numero di studenti che hanno svolto le prove

    Percentuale di copertura del campione studenti

    Nord Ovest 118 3692 3344 90,6 Nord Est 140 4545 4193 92,3 Centro 73 2371 2134 90,0 Sud 40 1273 1092 85,8 Sud-Isole 36 1086 920 84,7 Totale Italia 407 12967 11683 90,1

    Area Numero di Scuole Numero di studenti

    previsti nel campione Numero di studenti che hanno svolto le prove

    Percentuale di copertura del campione studenti

    Piemonte 57 1742 1568 90,0 Lombardia 52 1702 1547 90,9 Veneto 53 1697 1538 90,6 Trento 33 1122 1031 91,9 Bolzano 43 1362 1297 95,2 Toscana 52 1683 1509 89,7

  • namente ponderati per poter costruire stime attendibili delle quantit di in-teresse per lindagine (es. i punteggi nelle prove) e dei relativi errori cam-pionari.

    Il Consorzio internazionale, attraverso la WESTAT, ha calcolato i pesi campio-nari per tutti gli studenti del campione. Attraverso questi possibile opera-re il calcolo delle stime delle quantit di interesse e dei relativi errori stan-dard, nonch effettuare test di significativit coerenti con le caratteristichedel disegno campionario adottato.

    La determinazione del peso campionario influenzata da vari fattori:

    il sovra-campionamento di certi sottogruppi della popolazione (es. areegeografiche particolari) per motivi conoscitivi;

    il sotto-campionamento di certi sottogruppi della popolazione (es. scuolepiccole) per motivi di costo e tempo;

    il fatto che le informazioni riguardanti la dimensione delle unit di primostadio sono approssimate (es. scuole per cui i valori delle variabile ENRsono molto diversi dal numero di quindicenni effettivamente presenti almomento della somministrazione);

    non-risposte a livello delle unit di primo stadio (es. scuole che non han-no aderito e che non sono state sostituite);

    non-risposte a livello delle unit di secondo stadio (es. studenti assentinel giorno della somministrazione);

    riduzione di alcuni pesi eccessivamente elevati per ridurre la variabilitdelle stime;

    aggiustamenti dovuti alla rotazione del campione su alcune prove.

    La procedura utilizzata in PISA per la determinazione dei pesi campionari in accordo con i migliori standard internazionali per le indagini campionariedi tipo complesso, ed simile a quelle utilizzate in altre indagini educativeinternazionali quali IEA TIMSS, IEA CivEd, IEA PIRLS e IAEP.

    Il peso campionario finale che si associa a ciascuno studente risulta quindideterminato da due pesi base (quello derivante dalla probabilit di inclusio-ne della scuola e quello derivante dalla probabilit di selezione dello stu-dente allinterno della rispettiva scuola) e quattro fattori di aggiustamento. Seindichiamo con Wij il peso assegnato allo studente j nella scuola i, esso si puesprimere nella formula seguente:

    Wij = t2ij f1i f2i t1i w2ij w1i

    in cui:

    w1i il reciproco della probabilit di inclusione della scuola i; w2ij il reciproco della probabilit di selezione dello studente j allinterno

    della scuola i; f1i un fattore di aggiustamento per le non risposte a livello-scuola; f2i un fattore di aggiustamento per le non risposte a livello-studente per

    la scuola i; t1i un fattore di aggiustamento per ridurre i valori w1i eccessivamente ele-

    vati; t2ij un fattore di aggiustamento per ridurre i valori del prodotto dei pre-

    cedenti fattori della formula eccessivamente elevati.

    296

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

  • In PISA 2003, per il campione italiano, non stato necessario effettuare degliaggiustamenti per valori eccessivamente elevati attraverso i fattori t1i e t2ij.

    Nella precedente formula si comprende, almeno intuitivamente, che i valoriassunti dai fattori di aggiustamento dipendono dal particolare campione distudenti che sar selezionato. Ne consegue che i pesi campionari finali costi-tuiscono delle grandezze aleatorie (o casuali) caratterizzate da un certo livel-lo di variabilit. Poich la gran parte delle quantit di interesse che si voglio-no stimare con lindagine funzione di tali pesi e dei rispettivi valori osser-vati sugli studenti del campione, se ne deduce che il calcolo analitico deglierrori standard risulta caratterizzato da espressioni molto complesse, che va-riano da situazione a situazione. Nasce quindi lesigenza di utilizzare metodidi calcolo dellerrore che prescindano dalle complessit analitiche del parti-colare problema di stima, appena menzionate, e abbiano unapplicabilit ge-nerale.

    Per questo motivo nellindagine PISA la stima degli errori standard avvieneutilizzando una procedura di calcolo iterativa basata sulla replicazione delcampione, tecnica le cui propriet sono state analizzate in diverse pubblica-zioni scientifiche e studi empirici (cfr. ad esempio Wolter 1985, Cicchitelli,Herzel e Montanari 1992, Rust e Rao 1996, Brick, Morganstein e Valliant 2000).Si tratta di suddividere il campione in pi sottocampioni estratti con lo stes-so piano di campionamento previsto per il campione intero, effettuando perciascun sottocampione un stima della quantit di interesse. Un vantaggio ditale procedura che lespressione dello stimatore della varianza (quadratodellerrore standard) particolarmente semplice e non dipende dal partico-lare piano di campionamento adottato. Lespressione generale fornita nel-la seguente formula:

    in cui:

    il parametro da stimare (es. punteggio medio, percentuale, ecc.);

    il valore dello stimatore (stima campionaria) di basato sullinterocampione;

    (k) la stima campionaria di basata sulle osservazioni del k-esimo sot-tocampione replica;

    G il numero totale dei sottocampioni replica estratti; c una quantit che dipende dal particolare metodo di replicazione pre-

    scelto;

    v() la stima della varianza di .

    Il metodo di replicazione utilizzato in PISA una variante (metodo di Fay) diquello denominato delle replicazioni bilanciate ripetute (BRR), e consente diottenere stime degli errori standard che godono di importanti propriet sta-tistiche (cfr. ad esempio Judkins 1990).

    La stima degli errori standard per le stime di frequenze, percentuali, medie ealtre quantit di interesse per PISA 2003 deve quindi essere effettuata utiliz-

    297

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003

    v

    )( ) = c ( ) (k )

    k =1

    G ) )2

  • zando alcuni programmi di calcolo statistico di tipo specialistico (es. WesVar,Sudaan, Stata, Am, il modulo aggiuntivo Complex Samples distribuito daSPSS). invece sconsigliabile lutilizzo delle procedure di calcolo dei pro-grammi statistici di larga diffusione che, pur consentendo di ottenere stimecorrette delle quantit di interesse per PISA 2003, forniscono in genere stimenon corrette degli errori standard, che risultano spesso molto inferiori al va-lore reale.

    Le dimensioni dellerrore relativo (rapporto tra errore standard e stima cam-pionaria) in PISA 2003 sono piuttosto contenute e consentono di considerarele stime ottenute a livello nazionale largamente affidabili, sia per quanto ri-guarda le distribuzioni percentuali dei livelli delle scale (errore relativo ge-neralmente inferiore al 5% allinterno della scala, sugli estremi un po pi ele-vato e comunque al di sotto del 13%), che per quanto riguarda i rispettivi pun-teggi medi (errore relativo al di sotto dell1%). Questo significa, ad esempio,che una percentuale calcolata sul campione per un determinato livello di unascala si pu estendere con elevata fiducia allintera popolazione, con errori diapprossimazione (in difetto o in eccesso) inferiori al 2,4%. Per i punteggi me-di delle diverse scale, compresi tra 450 e 490, lerrore di approssimazione generalmente nellordine dei 6 punti. Considerazioni analoghe valgono per le6 regioni sovra-campionate e per le ripartizioni territoriali (Nord Ovest, NordEst, Centro, Sud, Sud Isole), per le quali lerrore relativo cresce ma si mantie-ne a livelli contenuti e comunque tali da consentire un ampio utilizzo dellestime ottenute. Infine, i livelli dellerrore relativo delle stime dei punteggimedi delle diverse scale per i vari tipi di programma (Licei, Tecnici, Profes-sionali), risultando anchessi contenuti, consentono di effettuare confronti trale tre tipologie scolastiche sia a livello nazionale che allinterno dei diversiambiti regionali. bene infine ricordare che i dati di PISA 2003 possono anche essere utilizza-ti per lanalisi di altre informazioni di sfondo concernenti gli studenti quindi-cenni (es. genere, tipologia scolastica di appartenenza, ecc.), ma che in taliambiti i livelli dellerrore devono essere verificati caso per caso attraverso lu-tilizzo dei programmi di calcolo di tipo specialistico sopra richiamati.

    RIFERIMENTI BIBLIOGRAFICI

    Brick, J.M., Morganstein, D., Valliant, R. (2000), Analysis of complex sample datausing replication, Westat, Rockville, USA.Cicchitelli, G., Herzel, A., Montanari, G.E. (1992), Il campionamento statistico, il Mu-lino, BolognaJudkins D. (1990), Fays method for variance estimation, Journal of Official Stati-stics, 6, 223-240.Rust, K.F., Rao, J.N.K. (1996), Variance estimation for complex survey using replicationtechniques, Survey Methods in Medical Research, 5, 283-310.Wolter, K. (1985), Introduction to variance estimation, Springer-Verlag, New York.

    298

    App

    endi

    ce 3

    . Il p

    iano

    di c

    ampi

    onam

    ento

    ital

    iano

    del

    lind

    agin

    e PI

    SA 2

    003