chapitre 11 methodologie d’enquetesˆ · 2016-09-06 · chapitre 11 methodologie d’enquetesˆ...
TRANSCRIPT
Chapitre 11METHODOLOGIE D’ENQUETES
PLAN DU CHAPITRE 11
11.1 LE QUESTIONNAIRE
11.1.1 Qu’est-ce qu’un questionnaire ?
11.1.2 Etapes de la construction d’un questionnaire
11.1.3 Regles de base pour l’elaboration du questionnaire
11.1.4 Types de questions
11.1.5 Formulation des questions
11.1.6 Agencement du questionnaire
11.1.7 Les erreurs induites par le questionnaire
11.2 LA COLLECTE DES DONNEES
11.2.1 Modes de collecte les plus courants
11.2.2 Facteurs influencant le choix d’une methode de collecte
11.2.3 Travail a faire durant la collecte
11.2.4 Mesures a mettre en oeuvre pour ameliorer le taux de reponse
11.3 SOURCES D’ERREUR DANS UNE ENQUETE
11.3.1 Erreur de couverture
11.3.2 Erreur due a la non-reponse
11.3.3 Erreur d’echantillonnage
11.3.4 Erreur de mesure
1
11.1 LE QUESTIONNAIRE
11.1.1 Qu’est-ce qu’un questionnaire ?
• Un document redige contenant des questions et des informations
• Un moyen de communication
• Un outil a exploiter
11.1.2 Etapes de la construction d’un questionnaire
a) Definitions prealables
• Objectifs du questionnaire
• Population concernee
• Mode de consultation
b) Analyse exploratoire qualitative (definition des concepts, du voca-
bulaire, . . . )
c) Premieres versions du questionnaire
• Definir la structure
• Premiere formulation des questions
N.B.) Importance du travail en equipe, de la consultation de specialistes,
. . .
d) Enquete pilote
e) Version definitive du questionnaire
2
11.1.3 Regles de base pour l’elaboration du questionnaire
• Distinguer les categories d’information recherchees :
faits, connaissances, opinions, attitudes ou comportements, convic-
tions, motivations, . . .
• Pertinence et utilite des questions
• Motiver et faciliter la tache de l’enquete avant de simplifier celle
du charge d’etudes
• Souci d’objectivite (neutralite)
• Tenir compte du mode de consultation utilise (par enqueteur,
enquete postale, par telephone, . . . )
• Penser aux etapes ulterieures : depouillement, codification, saisie,
verifications, traitements, . . .
11.1.4 Types de questions
1) Renseignements signaletiques
2) Questions ouvertes
a) Exemple
Que pensez-vous de la maniere dont le cours est donne ?
N.B.) La question est suivie d’un espace delimite destine a recevoir la
reponse, fournie librement par l’enquete.
3
b) Utilisation
• Analyse exploratoire
• Analyse qualitative
• Formulation ”naturelle” d’un probleme
• Offre la possibilite d’exprimer tous les aspects d’une opinion,
d’une motivation, d’une conviction, d’une attitude, . . .
• Permet d’obtenir des donnees numeriques precises
c) Avantages
c.1) Pour l’enquete :
• Latitude dans le choix et la formulation des reponses
• Possibilite de diversite et de nuance
c.2) Pour l’enqueteur :
• Latitude dans la formulation de la question
• Utile quand on ne connaıt pas le champ des reponses possibles
ou qu’il est tres vaste
d) Inconvenients
c.1) Pour l’enquete :
• Risque de mauvaise comprehension des questions
• Possibilite de ne pas repondre completement
• Travail exigeant
c.2) Pour l’enqueteur :
• Travail plus important de saisie des reponses
• Plus grande difficulte de codage, analyse et interpretation
N.B.) Recours a des methodes d’analyse specifiques (analyse de
contenu, analyse de donnees textuelles, . . . )
4
3) Questions fermees
L’ensemble des reponses possibles est propose.
a) Types de questions fermees
a.1) Question dichotomique
Ex. : Possedez-vous un ordinateur ?
© Oui
© Non
a.2) Question a choix multiple a reponse unique
Ex. : Combien avez-vous d’enfants ?
© Zero
© Un
© Deux
© Trois ou plus
a.3) Question avec echelle d’evaluation
• Ex. : Quelle est votre opinion sur le ministre Untel ?
© Tres mauvaise
© Mauvaise
© Bonne
© Tres bonne
© Sans opinion
• Une telle echelle peut comporter ou non une case ”sans opinion”.
5
• Le nombre de modalites peut varier.
Ex. :
Les echelles d’evaluation permettent d’analyser a la fois le contenu et
l’intensite de l’attitude des repondants vis-a-vis d’un concept :
cf. echelles de semantique differentielle d’Osgood.
Extre- Tres Assez Ni l’un Assez Tres Extre-
mement ni l’autre mement
(-3) (-2) (-1) (0) (1) (2) (3)
Personnel Personnel
incompetent competent
Agences Agences
mal situees bien situees
Mauvais Bon
travail travail
6
a.4) Question avec reponses a cocher
Ex. : Quel moyen de transport avez-vous utilise hier ?
© Voiture
© Velo
© Autobus
© Tram
© Metro
© Train
© Avion
© Autre
N.B.) On peut dans ce cas cocher toutes les cases pertinentes.
7
a.5) Question avec classement
Il s’agit ici de donner un certain nombre de propositions et de demander
aux interroges de les classer par ordre de preference.
Ex. : Voici une liste de facons de preparer un examen de premiere
annee d’universite. Vous etes invites a les classer par ordre d’efficacite
en ecrivant 1 dans la case situee a cote de la methode que vous jugez
la plus efficace, puis 2 pour celle que vous jugez la plus efficace en
deuxieme lieu et ainsi de suite.
Etudier dans le livre de reference �
Etudier dans ses notes prises au cours �
Etudier dans les notes d’un autre etudiant �
Consulter un ou plusieurs ouvrages
a la bibliotheque �
Prendre un professeur particulier �
Chercher et resoudre les questions
des annees precedentes �
Etudier un seul chapitre
et compter sur la chance �
N.B.) On peut ne demander d’indiquer que les 3 ou 4 premieres
methodes choisies.
8
b) Avantages
b.1) Pour l’enquete :
• Facile a repondre, souvent rapide
• Plus anonyme
b.2) Pour l’enqueteur :
• Facilite de depouillement, de codage et d’analyse
• Moins couteux
• Reponses plus consistantes
• Peuvent servir de questions filtres
Ex. : Possedez-vous un ordinateur ?
© Oui
© Non
Si OUI : quand l’avez-vous achete ?
© Cette annee
© L’an passe
© Il y a deux ans
© Il y a trois ans
© Il y a quatre ans ou plus
Si NON : pensez-vous en acheter prochainement ?
© Oui
© Non
9
c) Inconvenients
• Risque de trop simplifier un probleme.
• Peut susciter une reponse non naturelle.
• Peut engendrer une reponse en l’absence de connaissance ou
d’opinion.
• Peut engendrer une reponse valorisante.
• Les modalites proposees peuvent amener des non-reponses (liste
non exhaustive, question delicate, . . . )
4) Questions semi-ouvertes (ou semi-fermees)
• Elles comportent des reponses proposees et offrent la possibilite
d’ajouter des reponses libres.
Ex. : Pourquoi suivez-vous cet enseignement ?
© Parce qu’il m’est impose dans un programme de cours
© Parce qu’il constitue un prealable a d’autres enseignements que
je souhaite suivre
© Parce que le sujet m’interesse
© Parce qu’il me permet d’ameliorer une formation
© Parce qu’il me permettra d’avoir une promotion dans ma pro-
fession
Autres raisons :
1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
• Caracteristiques :
– Utiles quand on ne maıtrise qu’une partie du champ des reponses
possibles.
– Plus faciles a manipuler que les questions ouvertes.
– Permet de diminuer les non-reponses pour absence d’exhaustivite.
5) Formulation des questions
• Il est bon d’anticiper les possibilites de non-reponses. En particu-
lier, il faut prevoir, explicitement ou non, la possibilite de dire ”je
ne sais pas”, ”je suis sans opinion” ou ”je refuse de repondre”.
Attention cependant a la tentation de se refugier dans ces ru-
briques.
• Le choix des mots utilises dans une question et sa formulation
sont importants.
11
11.1.5 Formulation des questions
L’objectif d’une question est d’obtenir une reponse traduisant exacte-
ment ou le plus fidelement possible une realite.
Il existe quelques consignes generales a respecter :
– Une question ne doit contenir qu’une et une seule idee.
– Elle doit etre simple (utiliser des mots simples du langage courant
parle).
– Elle doit etre claire et precise (choisir des mots qui ont une seule
signification et qui ne peuvent etre mal interpretes par l’enquete).
– Elle doit etre courte et directe (craindre les negations et surtout
ne pas utiliser de doubles negations).
– Elle doit etre lue (ou entendue) facilement.
– Elle ne doit pas suggerer une reponse particuliere.
– Elle ne doit pas comporter d’elements d’emotivite.
– Les questions ne doivent pas - dans la mesure du possible - contri-
buer a la production de non-reponses (manque d’exhaustivite,
questions delicates, . . . ).
12
11.1.6 Agencement du questionnaire
a) Introduction et demande de collaboration
Transparence de l’origine de l’enquete et des objectifs.
b) Renseignements d’identification
Nom, adresse, sexe, . . .
c) Premieres questions
Questions generales et simples, faciles a repondre. Il ne faut pas
rebuter la personne interrogee et lui faire renoncer a continuer.
d) Enchaınement des questions
1) Rassembler les questions par theme.
2) Les premieres questions d’un theme doivent etre suffisamment
larges pour que l’on soit certain que la population visee soit
incluse dans ce premier ensemble. Ensuite, par une serie de
questions plus precises, on definit une partition de ce dernier
et on delimite precisement la cible.
3) Intercaler entre les questions difficiles des questions plus fa-
ciles, dites questions ”de repos”.
4) Veiller a la coherence, aux liaisons entre themes, aux redon-
dances, aux controles.
5) Etre attentif a la longueur du questionnaire.
13
11.1.7 Les erreurs induites par le questionnaire
Nous considerons ici a la fois les erreurs reelles et les effets impliquant
des reponses ”incorrectes”, ”biaisees”.
a) Erreurs dues au questionnaire
1) Questions fermees avec liste de reponses non exhaustive.
2) Questions incomprehensibles.
3) Questions suggerant des reponses.
Ex. : Que preferez-vous de ces deux eventualites ?
© Que Monsieur X soit nomme president.
© Que la guerre civile eclate.
4) Effet de halo : influence d’une question sur la question sui-
vante.
Ex. :
– ”Pensez-vous que la grande criminalite soit en progression ?”
– ”Etes-vous favorable au retablissement de la peine de mort ?”
5) Biais de reponse sur liste : l’ordre de presentation des reponses
a une question fermee a un effet sur les reponses.
b) Erreurs dues a l’enquete
– Biais d’acquiescement :
Tendance a repondre ”oui” pour ne pas contrarier l’interlocu-
teur, ou ”d’accord” pour ne pas avoir a discuter
– Desir d’impressionner (reponse valorisante)
– Crainte d’etre mal juge
– Desir de se conformer a la norme sociale
– Refus d’etre implique
14
– Gene pour repondre
– Defaillances de la memoire
– Refus de repondre
– Desir de saboter l’enquete
– . . .
N.B.) Pour mieux apprecier la proportion de personnes qui possedent
une ”caracteristique delicate”, c’est-a-dire telle que certaines d’entre
elles n’osent pas (ou ne veulent pas) affirmer au grand jour qu’elles
possedent cette caracteristique, on peut recourir a une methode
de reponses aleatoires.
15
11.2 LA COLLECTE DES DONNEES
• Apres avoir defini la population pour laquelle on a besoin d’in-
formations et identifie ses unites, il faut definir une technique de
collecte des donnees en tenant compte des couts, des delais et de
l’existence ou non d’une base de sondage.
• L’etape de la collecte des donnees est une etape tres importante,
caracterisee par :
- elle est souvent la plus couteuse
- elle prend beaucoup de temps
- elle mobilise de grandes ressources humaines et materielles
- elle affecte directement la qualite des donnees
11.2.1 Modes de collecte les plus courants
a) Auto-denombrement
• L’information requise est fournie par le repondant qui complete
lui-meme le questionnaire.
• Avantages :
+ Bonne couverture
+ Cout moins eleve
+ Meilleure confidentialite
+ Plus de temps pour repondre (si necessaire)
16
• Desavantages :
− Taux de reponse faible
− Impersonnel
− Pas indique pour les analphabetes ou quasi-illettres
• Modes de livraison :
- mise a la poste / retour par la poste (fax)
- livraison par une personne / retour par la poste (fax)
- livraison par une personne / reprise par une personne
b) Entrevue personnelle
• L’information requise est obtenue par une visite personnelle au
lieu de residence (enquete sociale) ou au lieu de travail (enquete
entreprises).
• Avantages :
+ Taux de reponse eleve
+ Contact personnel avec le repondant
+ Permet de faire des observations
+ Permet la prise de mesures directes
• Desavantages :
− Cout eleve
− Formation des enqueteurs
− Deplacement des enqueteurs
17
c) Entrevue telephonique
• L’information requise est obtenue par un contact telephonique
avec le repondant.
• Avantages :
+ Permet un contact direct
+ Moins couteuse et plus rapide qu’une entrevue personnelle
+ Compromis entre une visite et la poste
+ Centralisee
• Desavantages :
− Pas d’informations visuelles
− Probleme eventuel de couverture de la population
(toutes les unites de la population sont-elles contactables par
telephone ? . . . )
− Formation des enqueteurs
− Confidentialite
− Taux de reponse inferieur a l’entrevue personnelle
• La composition d’un numero telephonique peut aboutir a :
- une residence
- une entreprise
- une institution
- une cabine telephonique
- un numero hors-service
- un probleme technique
18
- un signal ”occupe”
- une sonnerie sans reponse
⇒ Taux de succes : pourcentage de numeros de telephone com-
poses faisant partie de la population cible
• L’echantillon de numeros de telephone peut etre obtenu de differentes
manieres :
1) a partir de l’annuaire telephonique
Avantages :
+ Base de sondage facile d’acces
+ Taux de succes tres eleve
Desavantages :
− Peut demander beaucoup de temps (pour une enquete na-
tionale par exemple)
− Numeros non publies n’ont aucune chance d’etre selectionnes
2) par generation (composition) aleatoire de numeros de telephone
Permet de joindre des numeros confidentiels et de nouveaux
numeros
d) Mode mixte de collecte
Consiste a utiliser plusieurs methodes de collecte.
Ex. :
– Entrevue personnelle et telephonique
– Entrevue personnelle et auto-denombrement (recensement de la
population)
19
11.2.2 Facteurs influencant le choix d’une methode de collecte
- Objectifs de l’enquete
- Disponibilite des bases de sondage
- Caracteristiques de la population cible
- Complexite des concepts
- Nature des questions
- Qualite des donnees requise (taux de non-reponse)
- Cout
- Echeancier
- Ressources disponibles (facilite d’exploitation)
Tableau comparatif des principales methodes de collecte :
Entrevue Auto-
denombrement
personnelle telephonique poste/poste
cout eleve moyen faible
delais moyens courts longs
taux de eleve moyen a faible (tres)
reponse eleve
20
11.2.3 Travail a faire durant la collecte
• Identifier les membres de l’echantillon
• Depistage des unites de l’echantillon :
- necessaire pour suivre les unites qui demenagent, changent de
nom, etc.
- couteux mais requis pour la longitudinalite
- differencie les non-repondants des unites hors-champ
• Appliquer les procedures de collecte et de depouillement
• Controler la collecte :
- rapidite des retours
- rappels si necessaire
• Verification des reponses
21
11.2.4 Mesures a mettre en oeuvre pour ameliorer le taux de reponse
a) A l’etape de la conception
• Choisir une bonne methode de collecte
• Anticiper le taux de non-reponse
• Tester les questions
• Avoir un bon questionnaire
• Avoir une bonne base de sondage
• Lettres d’information sur l’enquete ou rapports sur les resultats de
l’enquete (a la suite de l’enquete)
b) A l’etape de la collecte
• Etablir un bon contact avec le repondant
• Susciter l’interet du repondant
• Bien former les intervieweurs
• Superviser adequatement le deroulement de la collecte
• Argent ou cadeaux
22
11.3 SOURCES D’ERREUR DANS UNE ENQUETE
Il existe, dans une enquete, de nombreuses sources d’erreur. Les prin-
cipales sont
– l’erreur de couverture
– l’erreur due a la non-reponse
– l’erreur d’echantillonnage
– l’erreur de mesure
11.3.1 Erreur de couverture
Elle est due au fait que certains individus dans la population ont une
probabilite nulle de figurer dans l’echantillon.
La population definie par la base de sondage ne coıncide pas avec la
population que l’on desire reellement etudier.
Ex. : usage de l’annuaire telephonique qui ne contient pas la liste des
numeros prives
Ex. : sous-denombrement, sur-denombrement ou doubles comptes ; in-
formation incorrecte dans la base de sondage (classification ou adresses
postales desuetes ou fausses, . . . )
23
11.3.2 Erreur due a la non-reponse
• Elle est presente si l’on ne peut pas realiser l’enquete aupres de tous
les individus de l’echantillon qui a ete constitue.
Causes :
refus, non-contact, inaptitude, invalidite de la reponse, destruction des
documents, . . .
• Il faut distinguer 2 categories de non-reponses :
a) les non-reponses partielles : non-reponses a certaines questions du
questionnaire. Elles peuvent etre dues a
- un refus de repondre
- une ignorance ou une incomprehension
- une question sautee par l’enqueteur
- des reponses supprimees parce qu’incoherentes, lors de la phase
de verification
b) les non-reponses integrales : non-reponses a l’entierete de l’enquete.
Elles peuvent etre dues a
- un refus de repondre
- une absence lors du passage de l’enqueteur
- une incapacite a repondre (langue, . . . )
- une incapacite a retracer une unite qui a demenage
- une perte du questionnaire
24
Le traitement des non-reponses integrales se pose differemment selon
que l’on se situe :
- dans une methode empirique (methode des quotas) ou l’on ne
possede pas d’information, en general, sur les non-repondants ;
- dans une methode aleatoire ou l’on connaıt le nombre et, parfois,
les causes des non-reponses ;
- dans un panel ou on a beaucoup d’informations sur les non-
repondants.
• De maniere specifique pour les panels, on a aussi
a) la non-reponse de vague : non-reponse integrale qui se produit a
une ou plusieurs vagues, mais pas de facon permanente.
Elle cree des ”trous” dans la serie de vagues.
Causes possibles :
- impossibilite de repondre pour une vague specifique (donnees
non disponibles, . . . )
- absence temporaire
b) l’erosion (ou attrition) : reduction de la taille du panel causee par
la non-reponse integrale chronique.
Causes possibles :
- augmentation du taux de non-reponse (refus categoriques,
. . . )
- difficulte a retracer les unites longitudinales (changements d’adresse,
fusion d’entreprises, . . . )
- pas de rotation au sein de l’echantillon (haut fardeau de reponse
au cours du temps pour l’enquete, . . . )
25
L’erosion peut souvent etre reduite en utilisant des incitatifs (ca-
deaux, . . . ) et en utilisant de la rotation au sein de l’echantillon.
L’erosion doit etre traitee avec soin a cause de biais potentiels si
la non-reponse est non-ignorable (cf. ci-dessous).
Les unites non repondantes sont souvent celles qui sont d’interet.
• On peut egalement classifier les non-reponses en
a) ignorables : le fait qu’une personne reponde ou non a une question
n’est pas relie a la reponse a cette question.
Ex. : On ne renvoie pas le questionnaire simplement par paresse.
b) non ignorables : tend a biaiser les resultats de l’enquete.
Ex. : Enquete sur la satisfaction des employes ou seuls les employes
non satisfaits renvoient le questionnaire.
• Effet des reponses manquantes : elles creent un biais qui depend
- du taux de non-reponse
- de l’ecart entre les comportements des repondants et des non-
repondants en ce qui concerne la variable etudiee (cf. non-reponse
non ignorable).
26
• Redressement pour non-reponses
a) Relance des non-repondants (methode de Hansen)
Parmi les n individus selectionnes pour l’echantillon, n1 ont repondu
au questionnaire et n2 n’ont pas repondu.
Parmi ces n2 non-repondants, on tire de facon equiprobable et sans
remise un sous-echantillon s′2 de taille n′2 = λn2 (0 < λ < 1), et on
s’arrange pour obtenir les reponses des n′2 individus reenquetes.
L’estimateur de Hansen est
yH =n1
ny1 +
n2
ny′2
ou
y aurait ete la moyenne de l’echantillon initial si celui-ci avait ete
complet
y1 est la moyenne parmi les n1 repondants (avant la relance)
y2 est la moyenne qui resulterait des observations aupres des n2
non-repondants ; y2 est inconnue mais peut etre approchee par
y′2, la moyenne parmi les n′2 individus qui ont repondu suite a la
relance.
L’etude des proprietes de yH prend en compte le fait que la procedure
repose sur 2 niveaux d’aleas :
1) n est fixe mais aleas sur le nombre n2 de non-repondants et sur
les individus qui seront non-repondants ;
2) n2 est connu au moment de la relance mais aleas sur les n′2 indi-
vidus qui seront selectionnes lors de cette relance.
On montre que
E(yH) = µ (non biais)
27
N.B.) On peut aussi etudier le cas de relances successives.
b) Methodes de redressement sur critere
Ces methodes permettent de reduire une partie du biais du aux non-
reponses en corrigeant les estimations de leurs deformations dues a
des sous-representations ou sur-representations de certaines classes
(strates) de la population.
Les donnees de l’echantillon observe sont triees a posteriori selon les
H modalites d’un critere dont on connaıt la repartition dans la popu-
lation :
wh =Nh
N(h=1,. . . ,H)
Ex. : critere=sexe - On connaıt la proportion d’hommes et de femmes
dans la population.
Pour chaque strate h, on note :
• n1h : nombre de reponses obtenues dans la strate h
• y1h : moyenne parmi les reponses obtenues dans la strate h
Hypothese : le critere de stratification n’est pas correle avec la variable
”Reponse - Non reponse”.
Dans ce cas, on prend comme estimateur ”redresse” (meme principe
que la post-stratification) :
yREDR =
H∑h=1
why1h
On montre que
E(yREDR) = µ (non biais)
28
Remarques :
• Dans ce type de methodes, on estime, classe par classe, le com-
portement des non-repondants grace a celui des repondants.
• On peut generaliser cette methode au cas de plusieurs criteres de
ponderation par l’utilisation d’algorithmes dits de redressement
sur criteres multiples.
• Imputation : forme de traitement de la non-reponse
- Souvent employee dans les enquetes a defaut de pouvoir recon-
tacter les non-repondants.
- On impute une valeur plausible a une donnee manquante.
- Evaluer diverses methodes d’imputation en se basant sur des donnees
reelles.
- Analyser les repercussions de l’imputation sur les estimations fi-
nales.
a) Methodes d’imputation pour la non-reponse integrale
• Consiste a assigner une valeur plausible a l’ensemble des variables
de la personne non repondante.
• Il existe plusieurs methodes d’imputation : le choix depend du
nombre de contraintes que l’on desire associer a la valeur imputee
de sorte qu’elle reflete le mieux possible la vraie valeur.
a.1) Imputation par la moyenne
- On remplace la valeur manquante par une moyenne cal-
culee a partir des unites repondantes.
29
- Ne peut pas etre appliquee dans le cas de variables quali-
tatives.
- Variante :
* Diviser prealablement l’ensemble des repondants en classes
d’imputation pour ensuite calculer les moyennes a l’interieur
de celles-ci.
* On doit savoir a quelle classe d’imputation appartient
chaque unite non repondante (difficile si l’information
est tiree de l’entrevue elle-meme).
a.2) ”Hot deck”
- Consiste a tirer au hasard un des repondants de l’echantillon
que l’on appelle alors un donneur ; les valeurs des variables
du donneur sont ensuite assignees a un non-repondant
donne.
- Particulierement utile parce qu’elle assigne automatique-
ment aux non-repondants des valeurs coherentes provenant
directement des repondants.
- Fonctionne autant pour les variables quantitatives que qua-
litatives.
- Peut s’employer a l’interieur des classes d’imputation.
a.3) ”Cold deck”
Elle differe du ”hot deck” par le fait qu’elle choisit le don-
neur au sein d’une source de donnees externe (Ex. : donnees
administratives ou enquetes precedentes)
30
a.4) Imputation multiple
- Consiste a imputer, pour un non-repondant donne, differentes
valeurs ; les estimations sont alors calculees en utilisant un
ou plusieurs des ensembles de donnees produits.
Ex. : plusieurs imputations par ”hot deck”
- Permet de mesurer la variabilite des estimations introduite
par l’utilisation de valeurs imputees.
- Peu employee en pratique, principalement a cause de la
multiplication des ensembles de donnees.
b) Methodes d’imputation pour la non-reponse partielle
• Consiste a assigner une valeur plausible aux variables ou la valeur
est manquante, sans modifier les variables qui possedent deja des
valeurs.
• Les methodes d’imputation pour le traitement de la non-reponse
integrale (imputation par la moyenne, ”hot deck”, ”cold deck”,
imputation multiple) peuvent etre utilisees.
Problemes :
Ces methodes ne tiennent pas compte de la valeur des variables
ou il y a eu reponse ; elles peuvent ainsi detruire les relations entre
les variables (structure des donnees).
b.1) Imputation deterministe (ou imputation par deduction)
S’applique lorsque l’on peut determiner sans aucune ambiguıte la
valeur des variables manquantes.
31
b.2) Imputation par le plus proche voisin
- Le donneur est choisi en prenant celui qui se trouve le plus
proche selon une distance calculee en utilisant une ou plusieurs
des variables connues.
- Preserve assez bien la structure des donnees puisque l’on choi-
sit le donneur ressemblant le plus a l’unite pour laquelle une
valeur doit etre imputee.
b.3) Imputation par modelisation
On estime la valeur de la variable manquante au moyen d’un
modele qui utilise les variables connues comme variables auxiliaires
explicatives ; pour estimer les valeurs des parametres du modele,
on utilise les donnees disponibles de l’ensemble des repondants.
(Ex. : modeles lineaires, modeles logit, probit, . . . )
Important ! !
Identifier dans les ensembles de donnees les variables ou il y a eu
imputation afin de bien tenir compte du fait qu’une partie des valeurs
proviennent non pas des unites interrogees mais d’une assignation par
imputation.
32
c) Imputation pour les panels
• Pour les panels, les methodes d’imputation doivent tenir compte
des donnees des vagues precedentes et suivantes, en plus de la
vague courante.
• Utiliser seulement les donnees de la vague courante peut creer des
changements (ou transitions) artificiels.
• Utiliser les donnees des vagues precedentes et suivantes seulement
peut sous-representer les changements.
• Methodes d’imputation utilisables :
- imputation par le plus proche voisin (imputation par donneur)
en utilisant les donnees des vagues precedentes, suivantes et
actuelle pour aider a trouver le donneur ;
- imputation par modelisation en utilisant des variables auxi-
liaires provenant des vagues precedentes, suivantes et actuelle.
• Exemple :
Valeurs pour i Vague 1 Vague 2 Vague 3
Ventes 10 000 ? 11 000
Profits 15 000 30 000 16 000
Moyenne 25 000 50 000 30 000
des ventes
- Imputation par la moyenne :
ventes imputees = 50 000
(pas plausible si comparees aux vagues 1 et 3)
33
- Imputation historique :
ventes imputees = 10 500
(pas plausible si comparees a la moyenne des ventes pour
la vague 2 et egalement si les profits sont correles avec les
ventes)
- Solutions utilisant les donnees des vagues precedentes, sui-
vantes et actuelle :
a) Modele 1 :
Ventes = α + β(moyenne des ventes) + erreur
= 5 000 + 0.2(moyenne des ventes) + erreur
(α et β sont estimes sur base des vagues precedentes et
suivantes)
⇒ ventes imputees = 5 000 + 0.2(50 000) = 15 000
b) Modele 2 :
Ventes = α + β(profits) + erreur
= -5 000 + profits + erreur
(α et β sont estimes sur base des vagues precedentes et
suivantes)
⇒ ventes imputees = -5 000 + 30 000 = 25 000
34
11.3.3 Erreur d’echantillonnage
Cette erreur a ete examinee dans les chapitres precedents.
11.3.4 Erreur de mesure
Elle provient des inexactitudes des reponses enregistrees. Les princi-
pales causes de cette erreur sont :
a) l’effet induit par l’enqueteur sur les reponses des enquetes.
b) l’erreur due aux repondants : incapacite de repondre aux ques-
tions (defaillances de la memoire, oublis, . . . ), manque de sincerite
(crainte des ennuis, desir d’impressionner favorablement, desir de
valorisation, reponses pour ne pas paraıtre ignorant, gene pour
repondre, reponses conformes au ”modele” social, . . . ), . . .
c) l’erreur due aux defauts du questionnaire ou de l’instrument de
mesure.
Erreurs dans la conception du questionnaire :
- Difficultes de vocabulaire
- Incomprehension ou mauvaise comprehension du sens des ques-
tions
- Questionnaire trop long
Ce a quoi il faut faire attention :
- Les concepts utilises doivent satisfaire les objectifs de l’enquete
et permettre d’obtenir des reponses claires et coherentes.
- Si le concept est deja employe par une autre enquete, on tache
alors d’utiliser le meme concept, la meme designation et la
meme definition.
35
Remarques :
- Importance d’une etude qualitative prealable (entretiens en
profondeur, . . . ) pour connaıtre le vocabulaire, les themes em-
ployes par les interviewes.
- Importance du pre-test du questionnaire.
- Une fois l’enquete effectuee, il est parfois possible de valider
les concepts et les questions par des entrevues detaillees sur le
terrain aupres d’un echantillon de repondants ; on verifie alors
si le repondant a bien compris le questionnaire et a bien fourni
une information exacte (etude cognitive).
d) l’erreur de saisie (transcription imprecise des reponses, . . . ) et de
traitement.
Cette erreur est liee a la manipulation des questionnaires et a
l’usage de mauvaises techniques de traitement.
36