so00am11-enquetes-quantitatives-et.html support de cours
TRANSCRIPT
1
Méthodologie : Enquêtes quantitatives et statistiques descriptives SO00AM11 - Année universitaire 2010/2011
COURS MAGISTRAUX : L. CHARTON Personnes dont les noms de famille commencent par A-K : → Lundi de 14h00 à 16h00 → Amphi 2 : 13/09 - 20/09 - 27/09 - 4/10 - 11/10 - 18/10 Personnes dont les noms de famille commencent par L-Z → Mercredi de 18h00 à 20h00→ Amphi 4 : 15/09 - 22/09 - 29/09 - 6/10 – 13/10 – 20/10
TRAVAUX DIRIGES (1H30/SEMAINE) : M. ANSELM, P. GILLIG, V. JOURDAN, H. POLESI, E. TROMBIK
EVALUATION A LA 1ERE SESSION : • Etudiant-e-s en formation initiale (« spécialistes non dispensés »),
2 notes : 1 écrit en milieu de semestre en TD et 1 écrit en fin de semestre horaire CM (1h30) Note finale = moyenne des 2 notes
• Etudiant-e-s dispensé-e-s : 1 écrit en fin de semestre horaire CM (1h30) A-K → Lundi 13/12/09 de 14h00 à 16h00 → Amphi 2 L-Z → Mercredi 15/12/08 de 18h00 à 20h00→ Amphi 4
EVALUATION A LA 2EME SESSION (si échec 1ère session : le même examen pour toutes et tous) : • 1 examen de rattrapage sous forme d’un examen final (lorsque la moyenne à l’UE4 et la note en statistique du 1er
semestre sont inférieures à 10) SITE WEB : http://sspsd.u-strasbg.fr/SO00AM11-Enquetes-quantitatives-et.html Support de cours + Dossier des énoncés des exercices des TD - à télécharger
PLAN DU COURS : I. Pourquoi quantifier ? II. Les méthodes quantitatives et la statistique III. Choix des méthodes et des variables IV. Collecte des données : les méthodes d’échantillonnage V. L’organisation et le traitement des données : tableaux et graphiques
VI. Analyse des données et interprétation des résultats
REFERENCES BIBLIOGRAPHIQUES : BERTHIER N. (2000), Les techniques d’enquête. Méthode et exercices corrigés, Collection « Cursus sociologie », Paris : Armand Colin,
122p. BLOSS T. et GROSSETTI M. (1999), Introduction aux méthodes statistiques en Sociologie, Collection « Le sociologue », Paris : PUF,
224p. BOURSIN J. L. (1991), Comprendre la statistique descriptive, « Cursus sociologie », Paris : Armand Colin, 168p. DROESBEKE J. J. (1997), Eléments de statistiques, Collection « Statistique et mathématiques appliquées », Bruxelles : Éd. de l'université
de Bruxelles / Paris : Ellipses, 510p. (3ème édition). FOX W. (1999), Statistiques sociales, Laval : Presses de l’Université de Laval, 374p. GOLDFARB B. et PARDOUX C. (1998), Introduction à la méthode statistique. Gestion. Economie, Collection « Ecu sup », Paris : Dunod,
368p. (4ème édition). GRENON G. et VIAU S. (1999), Méthodes quantitatives en sciences humaines. Volume 1 : De l’échantillon vers la population,
Montréal : éd. Gaëtan Morin, 349p. KLATZMANN J. (1992), Attention, statistiques ! : comment en déjouer les pièges, Collection « Cahiers Libres. Essais », Paris : La
Découverte, 248p. (2ème édition). PY B. (1990), Statistiques descriptives, Paris : Economica, 341p. ROSENTAL C. et MURPHY C. (2001), Introduction aux méthodes quantitatives en sciences sociales, Collection « Psycho sup », Paris :
Dunod, 176p. TRUDEL R. et ANTONIUS R. (1991), Méthodes quantitatives appliquées aux sciences humaines, Montréal, éd. De la Chenelière inc.,
545p.
2
I. Pourquoi quantifier ?
1. Les buts de la quantification
1.1 Décrire avec « précision »
1.2 Définir des concepts et les rendre opérationnels
1.3 Dépasser le sens commun
1.4 Faire des comparaisons
1.5 Pouvoir généraliser
2. Les limites de la quantification
2.1 Les difficultés de la mesure
2.2 Les difficultés de l’interprétation
3. Les étapes de la démarche scientifique
Source : Trudel R. et Antonius R. (1991)
Problématique
Formulation des hypothèses
Vérification
Choix des méthodes
Observation/Démarche
Organisations et traitements des données
Analyse et interprétation des résultats
Généralisation
Reformulation des hypothèses
3
II. Les méthodes quantitatives et la statistique
Correspondance entre les étapes de la méthode scientifique, des méthodes quantitatives et de la statistique
La démarche scientifique La démarche générale des méthodes quantitatives
Source : Tableau adapté de Trudel R. et Antonius R. (1991)
Problématique
Formulation des hypothèses
Choix des méthodes
Démarche
Organisations et traitements des données
Analyse et interprétation des résultats
Analyse statistique des données (Chap. VI)
Formulation des hypothèses en termes quantitatifs
Choix des méthodes, des variables et de la façon de les mesurer (Chap. III)
Collecte des données (Chap. IV)
Traitement des données (Chap. V)
Interprétation statistique des résultats de l’analyse (Chap. VI)
Interprétation qualitative des résultats en fonction des hypothèses de départ
4
III. Choix des méthodes et des variables
1. Quelques concepts statistiques de base : Population, Individu, Echantillon
1.1 Population
Exemples Groupes humains : La population française au 1er janvier 2010 Les étudiants inscrits dans une université strasbourgeoise en 2009/2010 Les étudiants français en 2010/2011 ; Les étudiants en première année de sociologie en 2009/2010 ; etc. Groupes d’objets : Le parc automobile français au 1er janvier 2002 Les comptes bancaires d’association au 1er janvier 2000 ; etc. Ensembles de biens immatériels : Les consultations annuelles d’un médecin ; etc.
1.2 Individu
1.3 Echantillon
Schéma 1 : Population et Echantillon
Echantillon = Ε Taille = n = 50 étudiants interrogés
Population = Ω Taille = N = 850 étudiants
Lors d’une enquête quantitative, il convient de délimiter précisément :
1) L’Objectif / La Problématique de l’enquête 2) La Population visée 3) L’Unité statistique / L’Individu 4) La Taille de la Population 5) L’Echantillon 6) La Taille de l’Echantillon.
Exemples 1. Collecte de données (Enquêtes) sans échantillon 1.1 Les recensements de la population 1.2 Données statistiques annuellement compilées « En 1999, 3572 hommes et 1243 femmes, âgés de 15-24 ans, sont décédés en France. Les accidents de la circulation sont les principales causes de mortalité avec respectivement 44 % et 38 % des décès […] » (Inserm, 1998-1999). 2. Enquêtes par échantillon 2.1 Enquête Budget des familles (INSEE, tous les 5 ans depuis 1978). L'enquête a pour objectif l'étude des dépenses et des ressources des ménages. Elle permet de comparer les niveaux de vie et les choix de consommation des diverses catégories de ménage. 2.2 Enquête Fécondité et Famille (1994), Etude des relations familiales et intergénérationnelles (2005/08), etc.
5
2. La classification des variables
1. Les variables
2. Les modalités
Exemples Enquête sur les comportements et les représentations de la sexualité des étudiants des universités strasbourgeoises en 2004/2005 Question 3. Dans quelle université êtes-vous actuellement inscrit-e ?
1. Université Marc Bloch
2. Université Robert Schuman
3. Université Louis Pasteur Question 21. Qu’est-ce qui vous a, avant tout, poussé à ce 1er rapport sexuel ? Veuillez cocher 1 case maximum !
1. L’amour, la tendresse
2. L’attirance, le désir physique
3. La curiosité
4. Le désir de faire comme vos copains/copines
5. Une consommation d’alcool ou de substances illicites
6. Vous avez été forcé/e
7. Autres : PRECISEZ….…………………………………………
3. Les types de variables
3.1 Les variables qualitatives
Exemples Sexe, profession, nationalité, état-civil, département de naissance, couleur, la marque des voitures, etc.
3.2 Les variables quantitatives
Exemples Age, poids, taille, nombre d’enfants, le nombre de voitures, etc.
3.2.1 Les variables quantitatives discrètes
Exemples Nombre d’enfants par ménage, nombre de pièces d’un appartement, nombre de frères et sœurs, nombre d’étudiants, etc.
3.2.2 Les variables quantitatives continues
Exemples Longueur, surface d’une pièce, âge, vitesse, poids, taille, âge, salaire, chiffres d’affaires, etc.
6
IV. La collecte des données : les méthodes d’échantillonnage
1. Constitution de l’échantillon et notion de Représentativité
2. Les méthodes d’Echantillonnage
Tableau 1 : Les méthodes d’échantillonnage Méthodes d’échantillonnage aléatoire Méthodes d’échantillonnage non aléatoire Aléatoire simple Systématique Stratifié Par grappes
Accidentel ou à l’aveuglette De volontaires Par quotas Au jugé
Exemple pour l’ensemble des 8 méthodes d’échantillonnage proposées ci-dessus Un candidat à la mairie d’une municipalité veut prendre un échantillon d’environ 2500 électeur-rice-s pour sonder sa popularité. Selon la liste électorale, il y a 24 737 électeurs (Grenon et Viau, 1999).
2.1 Méthodes d’échantillonnage aléatoire
2.1.1 L’Echantillon aléatoire simple Exemple Le candidat attribue à chacun des électeurs un numéro et, à l’aide d’un tirage au sort simple, il choisit au hasard 2500 pers. Schéma 2 : Echantillonnage aléatoire simple
Population : N = 24 737 électeurs
Echantillon : n = 2500 électeurs
2.1.2 L’Echantillon systématique
Calcul du pas
Pas = n échantillol' de Taille
population la de Taille=
n
N
Exemple
7
Calcul du pas : 2500
24737 = 10
Chaque électeur se voit attribuer un numéro. On détermine de façon aléatoire la 1ère unité de l’échantillon. Pour obtenir le numéro des unités précédentes, la valeur du pas est soustraite au numéro de la 1ère unité de l’échantillon. Pour obtenir le numéro des unités suivantes, la valeur du pas est additionnée au numéro de la 1ère unité de l’échantillon. Si le numéro choisi de manière aléatoire simple est par exemple le 426, les personnes interrogées auront les n° 6,16, 26, 36, …, 406, 416, 426, 436, 446, …, 24706, 24716, 24726, 24736. L’échantillon ainsi constitué sera de taille n= 2474.
2.1.3 L’Echantillon stratifié
Exemple Croyant que l’âge des électeurs a une influence sur l’opinion des électeurs, le candidat à la mairie divise les électeurs selon les catégories d’âge Tableau 1 : Répartition des électeurs d‘une commune en fonction de leur âge
Population Echantillon Nbre d’électeurs Répartition en % Nbre d’électeurs 18-22 ans 3216 13 %
= (3216 / 24 737) * 100 325
23-26 ans 1979 8 % 200 27-30 ans 2474 10 % 250 31-45 ans 4700 19 % 475 46-64 ans 7668 31 % 775 65 ans + 4700 19 % 475 24 737 100 % 2500
2.1.4 L’Echantillon par grappes
Exemple Le candidat à la mairie a divisé la municipalité en 100 quartiers similaires de 250 personnes selon la répartition par âge des électeurs. Il a numéroté ensuite les groupes de 1 à 100 puis il a choisi 10 groupes au hasard Schéma 3 : Echantillonnage par grappes
Population : N = 100 quartiers
Echantillon : n = 10 quartiers
2.1.2- Méthodes d’Echantillonnage non aléatoire
8
2.2.1 L’Echantillon accidentel ou à l’aveuglette
Exemple : Le candidat à la mairie fait le tour des différents centres commerciaux de la municipalité et interroge 2500 électeurs.
2.2.2- L’Echantillon de volontaires
Exemple : Le candidat à la mairie participe à une émission de radio locale et demande aux électeurs de téléphoner pour donner leur opinion (l’échantillon correspond au nombre d’électeurs qui ont appelé).
2.2.3 L’Echantillon par quotas
Exemple : Croyant toujours que l’âge peut avoir une influence, le candidat à la mairie choisira ensuite à sa guise les 327 personnes âgées de 18-22 ans parmi les 3216 personnes, etc.
2.2.4 L’Echantillon au jugé
Exemple : Le candidat à la mairie décide de contacter 2500 personnes de référence des ménages car, selon lui, ces pers. ont une influence sur les autres membres du ménage. Exemple complémentaire : Dans l’enquête effectuée par la faculté des sciences sociales en 1993 sur la perception du sida par les jeunes, 406 jeunes de 18 à 24 ans ont été interrogés : 202 garçons et 204 filles. Pourquoi avoir privilégié une enquête par quotas ?
9
V. L’organisation et le traitement des données : Tableaux et graphiques
A. Série statistique à une dimension
1. Les tableaux : les effectifs et les pourcentages
RAPPEL Calcul du pourcentage
n échantillol'ou population la dans unitésd' totalnombre
étudiée tiquecaractéris lapossédant unitésd' nombre * 100 = CHIFFRE %
Exemple Lors d’une enquête sur le type d’émissions de TV préféré, 165 des 1034 personnes de 18 ans et plus interrogées ont déclaré préférer les films. – Calcul du pourcentage Exemple Si, lors du sondage sur le type d’émissions de TV préféré, on a observé que 14,80 % des personnes interrogées préfèrent les émissions culturelles, quel est le nombre d’unités statistiques/d’individus dans l’échantillon ayant répondu préféré les émissions culturelles ? Exemple de représentation sous la forme d’un tableau statistique Une enquête sur le nombre d’enfants par ménage donne la série statistique suivante : 5 ; 0 ; 2 ; 1 ; 3 ; 0 ; 1 ; 5. Tableau 2 : Répartition des ménages en fonction du nombre d’enfants Caractère : Nombre d’enfants Effectif : Nombre de ménages Pourcentage : des ménages
0 2 =100*8
2 25 %
1 2 =100*8
2 25 %
2 1 =100*8
1 12,5 %
3 1 =100*8
1 12,5 %
4 0 =100*8
0 0 %
5 2 =100*8
2 25 %
TOTAL 8 =100*8
8 100 %
10
2. Les Graphiques
2.1. Les variables qualitatives
Tableau 3 : Répartition des femmes âgées de 20-29 ans, 30-39 ans, 40-49 ans, selon la méthode contraceptive utilisée (%), France, 2005
Situation Age à l'enquête (2005)
contraceptive 20-29 ans 30-39 ans 40-49 ans
Méthodes réversibles 78,5 75,7 56,9
dont: préservatif 5,2 6,4 4,9
pilule 66,3 42,8 25,8
stérilet 3,1 21,6 21,8
autres contraceptifs "modernes" 1,9 2,6 2,0
autres pratiques contraceptives 2,0 2,3 2,4
Méthodes irréversibles 0,1 0,4 1,8
dont: stérilisation féminine 0,1 0,4 1,7
stérilisation masculine 0,0 0,0 0,1
Infertilité 0,7 3,0 17,3
Sans contraception 20,7 20,9 24,0
Ensemble 100,0 100,0 100,0
Effectif non pondéré 844 1050 1047 Source : ERFI (2005) Tableau 4 : Répartition des femmes âgées de 20-29 ans, selon la méthode contraceptive utilisée, France, 2005
Situation Pour Angle
contraceptive 100 femmes (degré)
préservatif 5,2 19
pilule 66,3 239
stérilet 3,1 11
autres contraceptifs "modernes" 1,9 7
autres pratiques contraceptives 2,0 7
stérilisation féminine 0,1 0
stérilisation masculine 0,0 0
Infertilité 0,7 3
Sans contraception 20,7 75
Ensemble 100,0 360
11
Graphique 1 : Répartition des femmes âgées de 20-29 ans, selon la méthode contraceptive utilisée, France, 2005
préservatif
5%
pilule
66%
stérilet
3%
autres contraceptifs
"modernes"
2%
autres pratiques
contraceptives
2%
Infertilité
1%
Sans contraception
21%
Tableau 5 : Répartition des femmes âgées de 30-39 ans, selon la méthode contraceptive utilisée, France, 2005
Situation Pour
contraceptive 100 femmes
préservatif 6,4
pilule 42,8
stérilet 21,6
autres contraceptifs "modernes" 2,6
autres pratiques contraceptives 2,3
stérilisation féminine 0,4
stérilisation masculine 0,0
Infertilité 3,0
Sans contraception 20,9
Ensemble 100,0
12
Graphique 2 : Répartition des femmes âgées de 30-39 ans, selon la méthode contraceptive utilisée, France, 2005
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
45,0
préservatif pilule stérilet autres
contraceptifs
"modernes"
autres pratiques
contraceptives
stérilisation
féminine
Infertilité Sans
contraception
Po
ur
10
0 f
em
me
s
Méthodes contraceptives
2.3. Les variables quantitatives
2.3.1 Les variables quantitatives discrètes Tableau 6 : Répartition des femmes âgées de 20-29 ans, 30-39 ans, 40-49 ans, selon leur nombre d’enfant biologique (%), France, 2005
Nombre Age à l'enquête (2005)
d'enfant biologique 20-29 ans 30-39 ans 40-49 ans
0 74,7 20,1 11,8
1 16,6 24,0 18,2
2 6,5 35,6 37,2
3 2,1 15,3 23,3
4 0,1 4,0 6,8
5 0,0 0,8 1,5
6 0,0 0,1 0,7
7 0,0 0,1 0,2
8 0,0 0,0 0,0
9 0,0 0,0 0,3
Ensemble 100,0 100,0 100,0 Source : ERFI (2005)
13
Graphique 3 : Répartition des femmes âgées de 20-29 ans, selon leur nombre d’enfant biologique, France, 2005
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
0 enfant 1 enfant 2 enfants 3 enfants 4 enfants
Po
ur
10
0 f
em
me
s
Nombre d'enfant biologique
2.3.2. Les variables quantitatives continues Tableau 7 : Répartition des femmes âgées de 40-49 ans, ayant au moins un enfant biologique à l’enquête selon leur âge à la 1ère naissance, France, 2005 CAS 1 : Classes de même amplitude
Age Nombre Pour Effectif Fréquence
au 1er enfant de femmes (nj) 100 femmes cumulé cumulée
[15; 19] 85 12,1 85 12,1
[20; 24] 281 39,8 366 51,9
[25; 29] 217 30,8 584 82,7
[30; 34] 84 11,8 667 94,5
[35; 39] 33 4,6 700 99,1
[40; 44] 6 0,9 706 100,0
Ensemble 706 100,0
14
Graphique 4 : Répartition des femmes âgées de 40-49 ans, ayant au moins un enfant biologique à l’enquête selon leur âge à la 1ère naissance, France, 2005
0
50
100
150
200
250
300
No
mb
re d
e f
em
me
s
Age à la 1ère naissance
15 ans 20 ans 25 ans 30 ans 35 ans 40 ans 45 ans
CAS 2 : Classes d’amplitudes différentes Age Nombre Pour Effectif Fréquence Amplitude Effectif
au 1er enfant de femmes (nj) 100 femmes cumulé cumulée de classe (aj) corrigé (nj/aj)
[15; 17] 22 3,1 22 3,1 3 7
[18; 19] 64 9,0 85 12,1 2 32
[20; 22] 147 20,8 233 32,9 3 49
[23; 24] 134 19,0 366 51,9 2 67
[25; 28] 189 26,7 555 78,6 4 47
[29; 32] 86 12,2 641 90,8 4 22
[33; 39] 59 8,3 700 99,1 7 8
[40; 44] 6 0,9 706 100,0 5 1
Ensemble 706 100,0
15
HISTOGRAMME sans précise en compte des différences d’amplitude : INCORRECT => FAUX
0
20
40
60
80
100
120
140
160
180
200N
om
bre
de
fe
mm
es
Age à la première naissance
15 ans 18 ans 20 ans 23 ans 25 ans 29 ans 33 ans 40 ans 45 ans
HISTOGRAMME compte tenu des différences d’amplitude : CORRECT => JUSTE
0
10
20
30
40
50
60
70
No
mb
re d
e f
em
me
s
Age à la première naissance
15 ans 18 ans 20 ans 23 ans 25 ans 29 ans 33 ans 40 ans 45 ans
16
Série statistique à deux dimensions
1. Présentation d’un tableau de contingence ou tableau croisé
2. Lecture d’un tableau de contingence
2.1 Distributions marginales
2.2 Distributions conditionnelles ou « fréquences lignes et colonnes »
Tableau 8a : Répartition des hommes et des femmes sans enfant selon leur âge et intention de fécondité dans les 3 ans, France, 2005 (effectifs non pondérés)
OUI NON NSP
Homme 21-25 ans 23 94 136 253
26-30 ans 68 33 108 209
31-35 ans 41 27 69 137
36-40 ans 16 32 40 88
41-45 ans 16 63 16 95
Ensemble 21-45 ans 164 249 369 782
Femme 21-25 ans 69 128 177 374
26-30 ans 74 24 112 210
31-35 ans 46 17 49 112
36-40 ans 32 29 25 86
41-45 ans 10 55 6 71
Ensemble 21-45 ans 231 253 369 853
Intention de fécondité dans les 3 années à venirTOTALSexe
Age atteint
en 2005
Tableau 8b : Répartition des hommes et des femmes sans enfant selon leur âge et intention de fécondité dans les 3 ans, France, 2005 (pourcentages lignes)
OUI NON NSP
Homme 21-25 ans 9,1 37,2 53,8 100,0
26-30 ans 32,5 15,8 51,7 100,0
31-35 ans 29,9 19,7 50,4 100,0
36-40 ans 18,2 36,4 45,5 100,0
41-45 ans 16,8 66,3 16,8 100,0
Femme 21-25 ans 18,4 34,2 47,3 100,0
26-30 ans 35,2 11,4 53,3 100,0
31-35 ans 41,1 15,2 43,8 100,0
36-40 ans 37,2 33,7 29,1 100,0
41-45 ans 14,1 77,5 8,5 100,0
SexeAge atteint
en 2005
Intention de fécondité dans les 3 années à venirTOTAL
Tableau 8c : Répartition des hommes et des femmes sans enfant selon leur âge et intention de fécondité dans les 3 ans, France, 2005 (pourcentages colonnes)
OUI NON NSP
Homme 21-25 ans 14,0 37,8 36,9
26-30 ans 41,5 13,3 29,3
31-35 ans 25,0 10,8 18,7
36-40 ans 9,8 12,9 10,8
41-45 ans 9,8 25,3 4,3
Ensemble 21-45 ans 100,0 100,0 100,0
Femme 21-25 ans 29,9 50,6 48,0
26-30 ans 32,0 9,5 30,4
31-35 ans 19,9 6,7 13,3
36-40 ans 13,9 11,5 6,8
41-45 ans 4,3 21,7 1,6
Ensemble 21-45 ans 100,0 100,0 100,0
SexeAge atteint
en 2005
Intention de fécondité dans les 3 années à venir
17
VI. Analyse des données et interprétation des résultats
1. Les paramètres de tendance centrale et de dispersion
1.1. La moyenne
Définition : la moyenne arithmétique d’une série statistique (Xj) est égale au rapport de la somme des valeurs observées par le nombre d’observation (N ou n).
Tableau 9 : Répartition des femmes et des hommes âgés de 40-49 ans à l’enquête, selon le nombre d’enfant biologique, France, 2005
Nombre Nombre Nombre
d'enfant biologique (Xj) de femmes (nfj) d'hommes (nhj) xj * nfj xj * nhj
0 161 199 0 0
1 194 135 194 135
2 399 289 798 578
3 226 144 678 432
4 56 49 224 196
5 15 9 75 45
6 7 7 42 42
7 1 2 7 14
8 0 0 0 0
9 2 0 18 0
Ensemble 1061 834 2036 1442 Source : ERFI, 2005
1.1.1. Moyenne arithmétique d’une série statistique Simple
X = n
1* j
k
jj xn *
1∑
=
avec n = ∑=
k
jjn
1
Nombre moyen d’enfant par femme = 2036 / 1061 = 1,9189444 enfant = 1,92 enfant
Nombre moyen d’enfant par homme = 1442 / 834 = 1,7290168 enfant = 1,73 enfant
18
1.1.2. Moyenne d’une distribution groupée en classe
Tableau 10 : Répartition des femmes et des hommes âgés de 40-49 ans à l’enquête, ayant eu au moins un enfant biologique, selon l’âge à la première naissance, France, 2005
Age révolu Nombre Nombre Milieu
à la 1ère naissance (xj) de femmes (nfj) d'hommes (nhj) de classe (xmj) xmj * nfj xmj * nhj
15 4 2 15,5 62 31
16 10 1 16,5 165 16,5
17 11 1 17,5 192,5 17,5
18 29 7 18,5 536,5 129,5
19 50 6 19,5 975 117
20 54 14 20,5 1107 287
21 64 23 21,5 1376 494,5
22 55 25 22,5 1237,5 562,5
23 73 30 23,5 1715,5 705
24 87 46 24,5 2131,5 1127
25 83 40 25,5 2116,5 1020
26 73 60 26,5 1934,5 1590
27 51 60 27,5 1402,5 1650
28 39 44 28,5 1111,5 1254
29 42 38 29,5 1239 1121
30 29 58 30,5 884,5 1769
31 30 32 31,5 945 1008
32 24 31 32,5 780 1007,5
33 18 23 33,5 603 770,5
34 19 21 34,5 655,5 724,5
35 14 14 35,5 497 497
36 9 16 36,5 328,5 584
37 9 11 37,5 337,5 412,5
38 7 6 38,5 269,5 231
39 5 10 39,5 197,5 395
40 6 2 40,5 243 81
41 2 5 41,5 83 207,5
42 2 3 42,5 85 127,5
43 1 3 43,5 43,5 130,5
Ensemble 900 632 23255 18068
Source : ERFI, 2005
• Calcul de la moyenne avec la distribution regroupée :
X = n
1* j
k
jj xmn *
1∑
=
Age moyen à la 1ère maternité = 23255 / 900 = 25,838889 ans = 25,8 ans
Age moyen à la 1ère paternité = 18068 / 632 = 28,588608 ans = 28,6 ans
19
1.2 La médiane
Définition : la médiane d’une série statistique est la valeur qui partage la série ordonnée (c’est à dire classée de la plus forte valeur observée à la plus faible) en deux séries d’effectif égal.
1.2.1. Principe de détermination de la médiane Cas 1 : Si la série étudiée comprend un nombre « n » impair d’individus, alors la médiane est la valeur prise par l’individu médian c’est à dire le [(n + 1)/2]ème
individu.
Cas 2 : Si la série étudiée comprend un nombre « n » pair d’individus, alors la médiane est la moyenne de la valeur prise par le (n/2)ème
individu et celle du [(n/2) +1]ème.
1.2.2. Détermination de la médiane d’une distribution groupée en classe
Calcul de la médiane d’une série regroupée en classe
Age Nombre Pour Effectif Fréquence Amplitude Effectif
au 1er enfant de femmes (nj) 100 femmes cumulé cumulée de classe (aj) corrigé (nj/aj)
[15; 17] 22 3,1 22 3,1 3 7
[18; 19] 64 9,0 85 12,1 2 32
[20; 22] 147 20,8 233 32,9 3 49
[23; 24] 134 19,0 366 51,9 2 67
[25; 28] 189 26,7 555 78,6 4 47
[29; 32] 86 12,2 641 90,8 4 22
[33; 39] 59 8,3 700 99,1 7 8
[40; 44] 6 0,9 706 100,0 5 1
Ensemble 706 100,0
La classe médiane est celle qui contient l’individu médian. La population est de taille 706, nombre pair. La médiane est la moyenne prise par le 353ème individu (706/2) et celle du 354ème ((706/2) + 1))
Par lecture dans le tableau ci-dessus les 353ème et 354ème individus appartiennent à la 4ème classe ; la classe médiane est donc [23 ;24]; M1/2 est comprise entre 23 ans et 25 ans.
* Pour déterminer la médiane par interpolation linéaire, on procède à une règle de trois en supposant que les individus sont équirépartis dans la classe médiane. Ainsi :
- L’amplitude de la classe médiane : 2 ans
- Le nombre d’individus dans la classe médiane : 134 individus
- L’individu médian dans la classe médiane : 353-233 = 120ème individu (individu médian moins individu se situant à la borne (limite) inférieure de la classe médiane).
- Par une règle de trois on obtient la médiane :
- à un écart de 2 ans correspondent 134 individus
- à quel intervalle correspondent 120 individus ?
Calcul : M ½ = 23 + (120*2)/134 = 23 + 1,79 ans = 24,79 ans
20
1.3. Le mode
Définition : Le mode, noté «Mo», d’une série statistique est la valeur de la variable qui apparaît le plus souvent dans la série.
1.4. Comparaison des 3 paramètres de tendance centrale
Trois cas de figure :
Premier cas : Moyenne = Médiane = Mode, la distribution est dite symétrique Deuxième cas : Mode < Médiane < Moyenne, la distribution est dite « étalée à droite » ou « oblique à gauche ». Troisième cas : Moyenne < Médiane < Mode, la distribution est dite « étalée à gauche » ou « oblique à droite».
2. Les paramètres de dispersion
2.1. L’étendue
L’étendue est la différence entre la plus grande et la plus petite des valeurs observées de la variable.
E(X) = Valeur maximale – Valeur minimale
2.2. La variance et l’écart type
L’écart-type étant défini à partir de la variance ; il convient de définir tout d’abord la variance.
On appelle variance (notée V(X)) d’une variable statistique xj (j variant de 1 à k) à laquelle correspondent des effectifs nj (n1, n2, …, nk), la moyenne arithmétique des carrés des écarts à la moyenne arithmétique.
On appelle écart-type (noté σ x ) la racine carrée de la variance.
1ère METHODE (la plus « fastidieuse ») :
V(X) = ( )∑=
−k
jjj xxn
n 1
21 avec n = ∑
=
k
jjn
1
ou :
V(X) = ( )∑=
−k
jjj xxf
1
2
21
ET :
σ x = V(X) = ( )∑=
−k
jjj xxn
n 1
21
ou :
σ x = V(X) = ( )∑=
−k
jjj xxf
1
2
2ème METHODE (la plus « simple ») :
V(X) = 2
1
21xxn
n
k
jjj −∑
= avec n = ∑
=
k
jjn
1
ou :
V(X) = 2
1
2 xxfk
jjj −∑
=
ET :
σ x = V(X) = 2
1
21xxn
n
k
jjj −∑
=
ou :
σ x = V(X) = 2
1
2 xxfk
jjj −∑
=
Calcul de l’écart type d’une série regroupée en classe
Age révolu Nombre Milieu METHODE 1 METHODE 2
au 1er enfant de femmes (nj) de classe (xmj) xmj * nj nj * (xmj - moyenne)2
nj * xmj2
[15; 17] 22 16,50 363,0 1842,8 5989,5
[18; 19] 64 19 1216,0 2832,2 23104,0
[20; 22] 147 21,5 3160,5 2534,5 67950,8
[23; 24] 134 24 3216,0 365,8 77184,0
[25; 28] 189 27 5103,0 343,3 137781,0
[29; 32] 86 31 2666,0 2459,4 82646,0
[33; 39] 59 36,5 2153,5 6942,7 78602,8
[40; 44] 6 42,5 255,0 1703,1 10837,5
Total 706 18133,0 19023,8 484095,5
Moyenne 25,70
Variance 26,946 25,20
Ecart-type 5,2 5,2
22
Calculs sur chiffres non arrondis
Age révolu Nombre Milieu METHODE 1 METHODE 2
au 1er enfant de femmes (nj) de classe (xmj) xmj * nj nj * (xmj - moyenne)2
nj * xmj2
[15; 17] 22 (21,7448) 16,50 358,8 1821,4 5920,0
[18; 19] 64 (63,7518) 19 1211,3 2821,2 23014,4
[20; 22] 147 (147,0598) 21,5 3161,8 2535,5 67978,4
[23; 24] 134 (133,787) 24 3210,9 365,3 77061,3
[25; 28] 189 (188,7138) 27 5095,3 342,8 137572,4
[29; 32] 86 (86,0614) 31 2667,9 2461,2 82705,0
[33; 39] 59 (58,8098) 36,5 2146,6 6920,3 78349,4
[40; 44] 6 (6,0716) 42,5 258,0 1723,4 10966,8
Total 706 18110,5 18991,1 483567,7
Moyenne 25,6523
Variance 26,9 26,9
Ecart-type 5,2 5,2
Détails des calculs : 1821,4 = 21,7448 * (16,5 – 25,6523)²
5920,0 = 21,7448 * (16,5) ²
Méthode 1 :
σ x = V(X) = ( )∑=
−k
jjj xxn
n 1
21
σ x = 1,18991*7061
=5,2 ans
Méthode 2 :
σ x = V(X) = 2
1
21xxn
n
k
jjj −∑
=
σ x = 26523,257,483567*7061 − =5,2 ans
23
2.3 Le coefficient de variation
Le coefficient de variation est égal à l’écart-type rapporté à la moyenne. C’est une mesure relative de la dispersion elle permet de comparer la dispersion au sein de deux sous populations exprimées dans des unités différentes (par exemple : salaire en francs ou en euros) ou ayant des moyennes très différentes (par exemple salaire moyen en France et salaire moyen en Inde).
Pour supprimer ces désavantages, il faut déterminer un nombre sans dimension appelé coefficient de variation, qui est égal à :
Cν = x
xσ