echantillonage et calculs de puissance pour une...
TRANSCRIPT
Echantillonage et
Calculs de Puissance pour une Evaluation d’Impact
Patrick Premand Banque Mondiale
Dakar (Sénégal) Mercredi, 2 octobre 2013
Points clés L’échantillonnage correspond au processus de tirage d’un échantillon d’unités
d’une population, afin d’estimer les caractéristiques de cette population
Les échantillons plus grands permettent d’estimer plus précisément les caractéristiques de la population
Une évaluation d’impact nécessite d’estimer la différence des indicateurs de résultats entre deux groupes (groupe de traitement et groupe témoin)
Des petits échantillons créent des risques de tirer des conclusions politiques erronées
Les calculs de puissance nous informent de la taille requise pour les échantillons. Des échantillons plus grands sont nécessaires pour estimer précisément un impact si nous nous attendons à un impact faible, ou si le programme génère des grappes,…
2
Tirer un échantillonn d’une population
Population à l’étude
L’échantillonnage correspond au processus de tirage d’un échantillon d’unités d’une population, afin d’estimer les caractéristiques de cette
population.
Echantillon
Inférer les caractéristiques de
la population à partir de l’échantillon
(e.g. taille moyenne
des enfants de 2 ans au Sénégal)
Comment sélectionner un échantillon ? Dans la pratique…
Définir la Population à l’étude Tous les enfants de 0 à 24 mois au Sénégal ? Tous les enfants de 0 à 24 mois qui sont allés à un centre de santé au cours du
dernier mois ? Définir une base d’échantillonnage : La liste la plus complète des unités de la population à l’étude qui puisse être
obtenue.
Définir une procédure d’échantillonnage (i.e. comment tirer un échantillon de la population) Une méthode d’échantillonnage probabiliste attribue une probabilité précise à
chaque unité à tirer (pour s’assurer que l’échantillon est représentatif) : e.g. échantillonnage aléatoire
Eviter l’échantillonnage de convenance
4
L’échantillonnage aléatoire ne suffit pas pour une EI
Non-participants Participants au
programme
Tirer un échantillon aléatoire à partir de deux groupes ne les rend pas comparables. L’échantillonnage aléatoire ne suffit pas pour une Evaluation d’Impact
Et si on tirait un échantillon de deux groupes différents ?
Randomisation Dans quel cas une randomisation génère-t-elle des groupes comparables ?
Témoin
Témoin
Afin d’obtenir 2 groupes aux caractéristiques équilibrées, la randomisation doit être réalisée sur un nombre suffisant d’unités.
Comment construire des échantillons suffisamment grands pour une évaluation d’impact ?
Combien de personnes/installations/unités devraient figurer dans l’échantillon de l’évaluation ?
Choisir une taille d’échantillon adéquate est essentiel
Arbitrage important entre coût et fiabilité des résultats.
Les calculs de puissance aident à décider de la taille de l’échantillon
7
Une évaluation d’impact consiste à mesurer la différence des indicateurs de résultats entre deux groupes
Un programme randomisé de nutrition améliore-t-il la nutrition des jeunes enfants ?
L’impact du program correspond à la différence entre l’état nutritionnel du groupe de traitement et celui du groupe de contrôle.
Comment en estimer l’impact ? Etape 1 : Mesurer les résultats du groupe de traitement Etape 2 : Mesurer les résultats du groupe témoin Etape 3 : Mesurer la différence des résultats entre les deux
groupes Et tester si cette différence est statistiquement différente de 0.
Quelle taille d’échantillon choisir pour le groupe de traitement et le groupe témoin ?
8
Les échantillons plus grands sont plus précis
Concevez la taille de l’échantillon comme la précision de notre outil de mesure : Plus nos observations sont nombreuses Plus notre “outil de mesure” sera précis Plus nous aurons confiance en les conclusions de notre évaluation
Exemple : complétez la phrase ci-dessous
9
J E
L I
M C
Les échantillons plus grands sont plus précis
Que se passe-t-il si on augmente le nombre d’ “observations” ?
10
J A E
E L T I N
D I M C T
Les petits échantillons sont source de risques pour les décisions politiques
Supposons qu’un programme a un impact positif sur ses bénéficiaires : • Si l’échantillon d’évaluation est trop petit, cet impact
positif risque de ne pas être détecté. • “Erreur de type 2” : Le risque de ne pas conclure que le
programme a un impact alors qu’il en a un. • Cela pourrait conduire à décider de la suppression du
programme, ce qui nuirait aux bénéficiaires et à la société Une évaluation d’impact est dite puissante si le risque de non
détection de l’impact réel du programme – autrement dit, le risque d’erreur de type 2 – est faible.
“Erreur de type 1” : Le risque de conclure qu’un impact purement fortuit est dû au programme
11
Comment choisir la taille de l’échantillon ?
Réponse courte : une formule affreuse
Concentrons-nous sur l’intuition qui sous-tend ces calculs de puissance
12
[ ])1(1)(4
2
22/
2
−+
+= H
Dzz
N ρσ βα
Intuition pour les calculs de puissance
Nous ne connaissons pas à l’avance l’impact de notre politique. Comment être sûr que nous pourrons le mesurer ? La précision a un prix : les échantillons plus grands sont
plus coûteux Ingrédients fondamentaux 1. Quel est l’impact minimum qui justifierait d’investir dans
le programme ? 2. Quelle est la variance de l’indicateur de résultat qui vous
intéresse ? 3. Le programme génére-t-il des grappes? 13
1er ingédient: Impact Minimal
1er ingrédient : Impact minimal du programme que l’on souhaite détecter
Question fondamentale de politique : quel est le niveau d’impact en-
dessous duquel un programme devrait être considéré un échec ?
Quel est l’objectif du programme ?
Faire décroître le taux d’enfants souffrant d’un retard de croissance de 5%, 20%, 50% ?
Plus la différence (ESPEREE) entre groupes de traitement & témoin sera
faible … … plus l’outil utilisé pour la détecter devra être précis
Plus l’échantillon devra être grand
14
Qui est le plus grand ? Détecter des différences moindres est plus difficile
15
Plus l’échantillon est grand plus l’outil de mesure est précis plus il est facile de détecter des effets plus petits Augmenter la taille de l’échantillon ≈ augmenter la précision (de l’outil de
mesure)
2ème Ingrédient: Variance de l’indicateur de Résultat (1)
Comment la variance de l’indicateur de résultat affecte-t-elle notre capacité à détecter un impact ? Exemple : Laquelle des deux populations (entourées) est plus grande ?
Combien d’observations de chaque cercle faut-il pour y répondre ?
16
2ème Ingrédient: Variance de l’indicateur de Résultat (2)
Exemple : quel groupe a les plus gros animaux en moyenne ? La comparaison est plus complexe, et nécessite plus
d’informations (i.e. un échantillon plus large) La réponse dépend desquels membres des groupes bleu et rouge sont
observés
17
2ème Elément: Variance des indicateurs de Résultats (3)
Dans quel cas l’impact est-il plus difficile à identifier ?
18
(écart-type faible)
(écart-type élevé)
3éme Ingrédient: Grappes
Le programme génère-t-il des grappes? A quel niveau les résultats sont-ils mesurés ? A quel niveau le programme est-il mis en œuvre ?
• Exemple d’un programme de nutrition : Impact mesuré au niveau de l’individu/enfant Mais le programme est mis en œuvre au niveau du village
Enjeux liés aux grappes : Les résultats des individus du même groupe sont susceptibles
d’être corrélés (corrélation intra-classe) Nécessite d’ajuster l’échantillon : En termes de puissance, il vaut
mieux ajouter 1 observation d’une nouvelle grappe, plutôt qu’1 observation d’une grappe existante
C’est le nombre de grappes qui déterminent en grand partie la taille ‘utile’ de l’échantillon (le nombre d’individus au sein des grappes importe moins)
19
Intuition pour les calculs de puissance
Autres facteurs 1. Multiples questions d’évaluation/ groupes
expérimentaux 2. Comparaison de l’impact entre des sous-
groupes 3. Taux de participation aux programmes (take-up) 4. Qualité des données 5. Paramètres statistiques (niveau de confiance,
puissance,…) 6. Choix de la méthode d’évaluation d’impact
20
Plus les questions sont nombreuses, plus l’échantillon doit être large…
Admettons que vous vous intéressiez à deux questions d’évaluation d’impact : Le programme de nutrition a-t-il un impact ? Le programme de nutrition devrait-il être complété par une campagne
d’information ?
L’évaluation d’impact s’articulera autour de 3 groupes (groupes de traitement multiples) : Gourpe témoin (groupe C) Groupe qui bénéficie du programme de nutrition seulement (groupe T1) Groupe qui bénéficie du programme de nutrition et de la campagne
d’information (groupe T2)
Une échantillon plus grand est nécessaire afin de realiser des comparaisons précises entre chaque groupe.
21
Récapitulatif des calculs de puissance
24
Eléments : Implication pour la Taille de l’Echantillon :
Les effets moindres que l’on souhaite détecter
Plus la taille de l’échantillon devra être
grande
Plus la variance sous-jacente est élevée
Plus le niveau de mise en oeuvre est élevé (grappes) et la corrélation des résultats au sein d’une grappe sont élevés
Plus on souhaite de confiance/précision (statistique)
Plus la nature des questions d’évaluation est complexe - Traitements multiples - Intérêt porté à la comparaison entre sous-groupes
Plus le taux de participation est faible
Plus les données sont mauvaises
Les méthodes non expérimentales d’évaluation d’impact nécessitent des échantillons plus larges!
Points clés L’échantillonnage correspond au processus de tirage d’un échantillon d’unités
d’une population, afin d’estimer les caractéristiques de cette population
Les échantillons plus grands permettent d’estimer plus précisément les caractéristiques de la population
Une évaluation d’impact nécessite d’estimer la différence des indicateurs de résultats entre deux groupes (groupe de traitement et groupe témoin)
Des petits échantillons créent des risques de tirer des conclusions politiques erronées
Les calculs de puissance nous informent de la taille requise pour les échantillons. Des échantillons plus grands sont nécessaires pour estimer précisément un impact si nous nous attendons à un impact faible, ou si le programme génère des grappes,…
25
Si jamais vous avez besoin d’effectuer des calculs de puissance
• Contactez un spécialiste d’échantillonnage… Les calculs peuvent être réalisés dans de nombreux logiciels de statistiques.
• En STATA, la commande clé est sampsi • Le logiciel OPTIMAL DESIGN est plus facile à utiliser. Il affiche les arbitrages visuellement :
26 Total number of clusters
Power
43 82 121 160 199
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0 = 0.050 n = 5
= 0.20,= 0.00= 0.20,= 0.05= 0.40,= 0.00= 0.40,= 0.05