chapitre 1: série statistique à une seule variable
TRANSCRIPT
Chapitre 1: Série statistique à une seule variable
Said, El Melhaoui
Faculté des Sciences Juridiques, économiques et Sociales Oujda
http://said-el-melhaoui.e-monsite.com
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 1 / 117
Outline
1 Terminologie
2 Tableaux statistiques
3 Représentations Graphiques
4 Caractéristiques de position
5 Caractéristiques de dispersion
6 Caractéristiques de forme
7 Caractéristiques de concentration
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 2 / 117
Terminologie Population, unité et caractère
Population, unité et caractère
population statistique : Toute ensemble au sens mathématique
que l’on soumet à une étude statistique.
Unité statistique (individu) : chaque élément de cette
population.
Caractère : Un aspect, une propriété, un trait qui est commun à
tous les individus et qui est objet de l’étude statistique.
Exemple 1: On veut étudier ‘le nombre de ventes journaliers d’un
produit dans un magasin pendant le mois de septembre’.
- Population : c’est l’ensemble des 30 jours
- l’unité statistique: c’est le jour
- le caractère d’intérêt: est le nombre de produits vendus
par jour
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 3 / 117
Terminologie Population, unité et caractère
Population, unité et caractère (suite)
Exemple 2: On veut étudier ‘les tailles des sportifs participant à une
compétition’.
- La population: l’ensemble des sportifs participant à la
compétition
- l’unité statistique: un sportif
- caractère étudié: c’est la taille du sportif
Exemple 3: Pour étudier ‘l’image de marque d’un produit dans le
marché, on demande à cent clients d’exprimer leur satisfaction du
produit, via l’une des appréciations suivantes: très satisfait, satisfait,
pas mal, non satisfait ’.
- population: est l’ensemble des 100 clients
- unité statistique: chaque client
- caractère: l’appréciation du client
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 4 / 117
Terminologie Population, unité et caractère
Population, unité et caractère (suite)
Exemple 4: On veut étudier ‘le groupe sanguin de 40 personnes
atteintes par l’hémophilie’.
- population: l’ensemble des 40 malades
- chaque malade
- caractère: est le groupe sanguin
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 5 / 117
Terminologie Type de caractère
Type de caractère
On distingue plusieurs types de caractère:
le Caractère quantitatif: il prend des valeurs numériques; il est
mesurable : le poids, la taille, l’âge, le revenu, la note etc. Il est
aussi appelé variable statistique.
Il existe deux sortes de variable statistique:
- dans le cas ou la variable statistique ne peut prendre
qu’un nombre fini de valeurs isolées, alors la variable
est dite variable discrète (Voir Exemple 1).
- lorsque les valeurs de la variable statistique peuvent
prendre tout réel d’un intervalle de l’ensemble R, la
variable est dite variable continue (Voir Exemple 2)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 6 / 117
Terminologie Type de caractère
Type de caractère (suite)
Caractère qualitatif : il ne peut être exprimé par des nombres, il
est non numériquement mesurable. on ne parle pas de valeurs
mais de modalités.
On distingue deux types de caractère qualitatif:
- dans le cas ou les modalités du caractère peuvent
être ordonnées suivant un ordre bien défini alors le
caractère est dit ordinal (voir Exemple 3)
- dans le cas contraire, c’est à dire lorsque les
modalités ne peuvent être ordonnées selon un ordre
fiable, le caractère est dit nominal (voir Exemple 4).
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 7 / 117
Terminologie Méthode d’observation
Méthode d’observation
L’étude d’un caractère auprès de tous les individus d’une
population fini s’appelle recensement comme, par exemple, les
Recensements du Maroc 2004, 2014.
L’étude complète d’une population n’est pas toujours possible, vu
les contraintes de temps, de coût et de la non accessibilité de
certaines unités etc.
On se limite, donc, à l’étude d’une partie de la population dite
échantillon. On dit qu’on fait échantillonnage ou sondage.
Dépouillement des observations: c’est la façon de résumer et de
classer les données. Une technique assez répondue consiste en
l’utilisation d’un tableau de pointage.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 8 / 117
Terminologie Méthode d’observation
Méthode d’observation (suite)
Exemple: On s’interesse au groupe sanguin de 40 malades, les
modalités retenues sont A, B, AB et O. Les résultats sont
A B B O O O AB A O O
A O O B AB AB B B O A
A O B O O O A AB O B
O A O B AB B AB B A O
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 9 / 117
Terminologie Méthode d’observation
Méthode d’observation (suite)
Le tri à plat des résultats donne lieu au tableau suivant:
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 10 / 117
Tableaux statistiques
Série statistique à une seule variable
Lorsque l’étude statistique d’une population concerne un seul
caractère (variable) on parle d’une Série statistique à une seule
variable (série statistique univariée)
La série univariée est organisée (résumée) dans un tableau dit
tableau des effectifs.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 11 / 117
Tableaux statistiques Variable discrète
Variable discrète: effectifs
Définition
Soit E une population statistique et x une variable statistique qui prend
les valeurs isolées et ordonnées
x1 < x2 < . . . < xp
- p est le nombre des valeurs prises pa x ;
- ni effectif de xi est le nombre d’individus où x prend la valeur xi ;
- L’ensemble des couples (xi , ni)1≤i≤p est appelée série statistique
univariée ;
- L’effectif total n est le nombre des individus constituant E :
n :=
p∑
i=1
ni = n1 + n2 + . . .+ np.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 12 / 117
Tableaux statistiques Variable discrète
Variable discrète : Exemple
Exemple 5:
Lors d’une enquête on a interrogé 50 employés afin de connaître le
nombre de personnes qu’ils avaient à charge.
Les données brutes sont:
0 3 1 4 3 0 4 1 3 1 5 2 4 2 3
3 2 5 5 2 4 2 2 2 4 1 1 2 3 5
1 0 3 3 4 5 1 2 1 2 3 2 2 2 4
0 3 0 2 2
Les données ordonnées sont
0 0 0 0 0 1 1 1 1 1 1 1 1 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 3 3
3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
5 5 5 5 5
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 13 / 117
Tableaux statistiques Variable discrète
Variable discrète : Exemple (suite)
L’effectif total est n = 50
La série ordonnée est
x1 = 0, x2 = 1, x3 = 2x4 = 3, x5 = 4, x6 = 5.
Le nombre des valeurs prises par x est p = 6
Le tableau des effectifs est :
Valeurs xi Effectifs ni
0 5
1 8
2 15
3 10
4 7
5 5
Total 50
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 14 / 117
Tableaux statistiques Variable discrète
Variable discrète: fréquences
Definition
Soit (xi , ni)1≤i≤p une série statistique, associée à une population E
d’effectif total n.
La fréquence relative fi de la valeur xi est la proportion des
individus ayant le caractère xi dans la population E:
fi :=ni
n.
Le pourcentage pi de la valeur xi est la fréquence multipliée par
100:
pi := fi × 100.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 15 / 117
Tableaux statistiques Variable discrète
Variable discrète: Exemple
Les fréquences et les pourcentages de la série des ‘personnes à
charge’ sont :
Valeurs xi Fréquences fi Pourcentages pi
0 0.10 10%
1 0.16 16%
2 0.30 30%
3 0.20 20%
4 0.14 14%
5 0.10 10%
Total 1 100%
Remarque
La fréquence relative et le pourcentage jouent le même rôle, sauf que
la dernière est agrandie en échelle pour éliminer la virgule et faciliter
l’interprétation.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 16 / 117
Tableaux statistiques Variable discrète
Variable discrète: cumules
Definition
Soit (xi , ni)1≤i≤p une série statistique, associée à une population E
d’effectif total n.
L’effectif cumulé Ni associé à la valeur xi est l’effectif de toute les
valeurs de la variable inférieures ou égales à xi :
Ni :=i∑
j=1
nj = n1 + n2 + . . .+ ni .
La fréquence cumulée Fi de la valeur xi est la fréquence de
toute les valeurs du caractère inférieures ou égales à xi :
Fi :=i∑
j=1
fj = f1 + f2 + . . .+ fi =Ni
n.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 17 / 117
Tableaux statistiques Variable discrète
Variable discrète: Exemple
Les effectifs cumulés et les fréquences cumulées de la série des
‘personnes à charge’ sont :
Valeurs Effectifs Fréquences Effectifs Fréquences
xi ni fi cumulés Ni cumulées Fi
0 5 0.10 5 0.10
1 8 0.16 13 0.26
2 15 0.30 28 0.56
3 10 0.20 38 0.76
4 7 0.14 45 0.90
5 5 0.10 50 1
Total 50 1 – –
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 18 / 117
Tableaux statistiques Variable statistique continue
Variable continue: classes
Lorsque la variable x est continue, on regroupe les valeurs de cette
variable dans des intervalles Ii , i = 1, . . . , p dits classes statistiques
de la forme :
−−−−x−
i
[ −−−−−−−xi
p −−−−−−−x+
i
[ −−−−
- p : le nombre de classes retenues ;
- Ii := [x−i , x+
i [ : la ième classe ;
- ai := x+
i − x−i : l’amplitude de Ii ;
- xi := (x+
i − x−i )/2 : le centre de Ii ;
- ni : effectif de la classe Ii , c’est le nombre d’individus ayant une
valeur de la variable incluse dans l’intervalle [x−i , x+
i [.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 19 / 117
Tableaux statistiques Variable statistique continue
Variable continue: classes (suite)
Comment construire les classes?
- Logiquement, le minimum est inclus dans la première classe et le
maximum est inclus dans la dernière ;
- de préférence on utilise des classes de même amplitudes
- Le choix du nombre de classes p peut se faire selon la règle de
Sturges :
p ≈ 1 + log2(n).
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 20 / 117
Tableaux statistiques Variable statistique continue
Variable continue: Exemple
Exemple 2 (suite) : Les tailles exprimées en mètres des 120 sportifssont :
1.85 1.60 1.85 1.60 1.86 1.86 1.70 1.78 1.79 1.71 1.71 1.79
1.73 1.73 1.61 1.74 1.74 1.88 1.75 1.75 1.75 1.64 1.76 1.76
1.85 1.85 1.73 1.61 1.72 1.62 1.81 1.81 1.73 1.82 1.82 1.64
1.83 1.84 1.83 1.83 1.84 1.84 1.68 1.77 1.69 1.69 1.69 1.70
1.89 1.89 1.90 1.81 1.66 1.78 1.78 1.70 1.78 1.79 1.79 1.79
1.72 1.80 1.72 1.90 1.81 1.81 1.62 1.67 1.64 1.75 1.64 1.82
1.80 1.72 1.81 1.72 1.61 1.77 1.72 1.72 1.81 1.73 1.76 1.76
1.65 1.65 1.65 1.66 1.91 1.66 1.67 1.63 1.67 1.67 1.68 1.68
1.76 1.87 1.87 1.77 1.88 1.75 1.88 1.71 1.79 1.71 1.79 1.79
1.76 1.86 1.77 1.88 1.77 1.72 1.71 1.69 1.77 1.78 1.77 1.71
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 21 / 117
Tableaux statistiques Variable statistique continue
Variable continue: Exemple (suite)
La série ordonnée
1.60 1.60 1.61 1.61 1.61 1.62 1.62 1.63 1.64 1.64 1.64 1.64
1.65 1.65 1.65 1.66 1.66 1.66 1.67 1.67 1.67 1.67 1.68 1.68
1.68 1.69 1.69 1.69 1.69 1.70 1.70 1.70 1.71 1.71 1.71 1.71
1.71 1.71 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.73 1.73
1.73 1.73 1.73 1.74 1.74 1.75 1.75 1.75 1.75 1.75 1.76 1.76
1.76 1.76 1.76 1.76 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78
1.78 1.78 1.78 1.78 1.79 1.79 1.79 1.79 1.79 1.79 1.79 1.79
1.80 1.80 1.81 1.81 1.81 1.81 1.81 1.81 1.81 1.82 1.82 1.82
1.83 1.83 1.83 1.84 1.84 1.84 1.85 1.85 1.85 1.85 1.86 1.86
1.86 1.87 1.87 1.88 1.88 1.88 1.88 1.89 1.89 1.90 1.90 1.91
La règle de Sturges donne
p = 1 + log2(120) ≈ 1 + 3.3 log10(n) ≈ 8
L’amplitude fixe est donc
a = (1.92− 1.60)/8 = 4
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 22 / 117
Tableaux statistiques Variable statistique continue
Variable continue: Exemple (suite)
Le tableau des effectifs est
Classes Effectifs Fréquences Effectifs Fréquences
Ii ni fi cumulés Ni cumulées Fi
[1.60, 1.64[ 8 0.07 8 0.07
[1.64, 1.68[ 14 0.12 22 0.19
[1.68, 1.72[ 16 0.13 38 0.32
[1.72, 1.76[ 20 0.17 58 0.49
[1.76, 1.80[ 26 0.22 84 0.71
[1.80, 1.84[ 15 0.12 99 0.83
[1.84, 1.88[ 12 0.10 111 0.93
[1.88, 1.92[ 9 0.07 120 1
Total 120 1 – –
N. B. Le recours au regroupement des valeurs en classes peut se
faire, aussi, dans le cas discret, lorsque la variable prend un nombre
‘assez grand’ de valeurs.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 23 / 117
Tableaux statistiques Caractère ordinal
Caractère ordinal
Le tableau est dressé suivant la même démarche que dans le cas
discret.
Exemple 6 : Une étude sur le niveau de diplôme des 25 managers
américains les mieux payés donne (Forbes May 17, 1999):
Top Noms Société Niveau de diplôme
1. Michael d. Eisner Walt Disney Bachelor
2. Mel Karmazin CBS Bachelor
3. Stephen C. Hilbert Conseco None
4. Millard Drexler Gap Master
5. John F. Welsch, Jr. General Electric Doctorat
. . .20. William R. Steere, Jr. Pfizer Bachelor
. . .25. Richard Jay Kogan Schering-Plough Master
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 24 / 117
Tableaux statistiques Caractère ordinal
Caractère ordinal (suite)
Tableau des effectifs:
Modalités : Effectifs Fréquences Effectifs Fréquences
Diplôme ni fi cumulés Ni cumulées Fi
None 1 0.04 1 0.04
Bachelor 7 0.28 8 0.32
Master 11 0.44 19 0.76
Doctorat 6 0.24 25 1
Total 25 1 – –
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 25 / 117
Tableaux statistiques Caractère nominal
Caractère nominal
Le tableau est dressé suivant la même démarche sauf que Les
modalités ne sont pas ordonnées.
Exemple 7: Selon The Nilson Report, Oct. 8, 1998, les 200 milliards
achats par carte de crédits effectués aux USA pendant le premier
semestre de l’année 1998 sont répartis selon la marque de la carte
utilisée comme suit :
- 36 milliards achats avec la carte American express
- 2 milliards achats avec la carte Diners club
- 12 milliards achats avec la carte Discover
- 50 milliards achats avec la carte Master card
- 100 milliards achats avec la carte Visa.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 26 / 117
Tableaux statistiques Caractère nominal
Caractère nominal (suite)
Tableau des effectifs:
Modalités : Effectifs en milliard Fréquences Pourcentages
Marque ni fi pi
American express 36 0.18 18%
Diners club 2 0.01 1%
Discover 12 0.06 6%
Master card 50 0.25 25%
Visa 100 0.50 50%
Total 200 1 100%
N. B. Les modalités ne sont pas ordonnées, ainsi la notion de
cumule n’a pas de sens.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 27 / 117
Représentations Graphiques
Utilité d’un graphe
Les graphes statistiques sont des figures (images) qui donnent
une idée générale sur les données dès le premier coup d’œil ;
Ils ont l’avantage de la qualité visuel ;
ils sont utilisées pour
resumer des données ;
explorer des données ;
exposer des résultats ;
médiatiser des résultats ;
comparer des situations. . .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 28 / 117
Représentations Graphiques Cas d’une variable discrète
Cas d’une variable discrète: Diagramme en bâtons
Considérons la série discrète de l’Exemple 5: ‘les personnes à charge’.
Prenons un repère cartésien orthogonal, et représentons les valeurs
de la variable sur l’axe des abscisses et leurs effectifs sur l’axe des
ordonnées.
N. B. Sur l’axe des ordonnées, on peut mettre à la place des effectifsS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 29 / 117
Représentations Graphiques Cas d’une variable discrète
Cas d’une variable discrète: Polygone des effectifs
La liaison des sommets des bâtons par des segments forme le
polygone des effectifs.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 30 / 117
Représentations Graphiques Cas d’une variable discrète
Cas d’une variable discrète: Courbe cumulative
Représentons les effectifs cumulés en définissant une courbe en
escalier de la fonction constante par morceaux définie par:
N(x) :=
0, x < x1;N1, x1 ≤ x < x2;...
Ni , xi ≤ x < xi+1;...
n, xp ≤ x .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 31 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable discrète: Courbe cumulative (suite)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 32 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue
Exemple 8: Le tableau suivant résume les salaires horaires en Dh de
250 employés d’une entreprise:
Classes Effectifs ni
[47, 52[ 10
[52, 57[ 30
[57, 60[ 60
[60, 63[ 72
[63, 67[ 40
[67, 77[ 38
Total 250
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 33 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Histogramme des effectifs
On représente sur l’axe des abscisses les classes [x−i , x+
i [, sur
lesquelles un rectangle de surface égale à l’effectif ni est dressé.
la base du rectangle ≡ amplitude de la classe = ai ;
l’hauteur du rectangle ≡ Effectif
Amplitude=
ni
ai.
Le nombre n∗i := ni/ai est appelé l’effectif corrigé associé à la
classe Ii ; on a corrigé les effectifs.
Classes Effectifs Amplitudes Effectifs Effectifs
Ii ni ai corrigés n∗
i cumulés Ni
[47, 52[ 10 5 2 10
[52, 57[ 30 5 6 40
[57, 60[ 60 3 20 100
[60, 63[ 72 3 24 172
[63, 67[ 40 4 10 212
[67, 77[ 38 10 3.8 250
Total 250 30 – –
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 34 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Histogramme des effectifs (suite)
N. B. Si les classes sont de mêmes amplitudes, on a pas besoin de
corriger les effectifs.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 35 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Polygone des effectifs
On trace une ligne brisée reliant les points milieu des côtes supérieurs
des rectangles
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 36 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Histogramme des effectifs cumulés
On représente sur l’axe des abscisses les classes Ii et sur chaque
intervalle [x−i , x+
i [ un rectangle de hauteur égale à l’effectif cumulé Ni .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 37 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Courbe cumulative
On interpole les effectifs cumulés par une ligne brisée joignant les
points d’abscisses (x+
i ,Ni).Plus précisément c’est la courbe représentative de la fonction affine
par morceaux définie par:
N(x) :=
0, x < x−;n1
a1(x − x−
1 ), x−1 ≤ x < x+
1 ;
N1 +n2
a2(x − x−
2 ), x−2 ≤ x < x+
2 ;
...
Ni−1 +ni
ai(x − x−
i ), x−i ≤ x < x+
i ;
...
n, x+p ≤ x .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 38 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’une variable continue: Courbe cumulative (suite)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 39 / 117
Représentations Graphiques Cas d’une variable continue
Cas d’un caractère qualitatif: Graphique en secteurs
Reconsidérons l’Exemple 6: ‘le niveau de diplôme’. Dans un cercle on
trace des portions (ou secteurs) de surfaces proportionnelles aux
effectifs des modalités.
L’angle αi relatif à la ième modalité est, donc,
αi = 360◦ × fi .
Modalités : Fréquences Angles
Diplôme fi αi
None 0.04 14.4◦
Bachelor 0.28 100.8◦
Master 0.44 158.4◦
Doctorat 0.24 86.4◦
Total 1 360◦
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 40 / 117
Représentations Graphiques Cas d’un caractère qualitatif
Cas d’un caractère qualitatif: Graphique en secteurs
N. B. Lorsque le nombre de modalités retenues est petit, on peut
utiliser un graphe semi-circulaire, dans ce cas : αi = 180◦ × fi .S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 41 / 117
Représentations Graphiques Cas d’un caractère qualitatif
Cas d’un caractère qualitatif: Diagramme en barres
Il s’agit de rectangles de largeurs fixes et d’hauteurs ni .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 42 / 117
Représentations Graphiques Cas d’un caractère qualitatif
Cas d’un caractère ordinal: Diagramme en barres cumulées
Contrairement au cas nominal, dans le cas d’un caractère ordinale
on peut envisager un diagramme représentant les effectifs cumulés. Il
s’agit de rectangles de largeurs fixes et d’hauteurs Ni .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 43 / 117
Représentations Graphiques Cas d’un caractère qualitatif
Conclusions
1 Il existe d’autres types de graphiques : Diagramme en tiges
(Steam and leaf), Diagramme de Tukey, Cartographie, Pyramide
des âges, Graphiques de comparaison, etc.
2 Les graphes sont, donc, assez variés ; chaque graphe s’adapte à
une situation particulière.3 L’essentielle dans une représentation graphique est sa simplicité
et sa clarté, il faut donc :
inclure toutes les informations utiles à la compréhension du
graphique : titre, légende etc ;
éviter les informations, mentions et lignes inutiles ;
un graphique simple sera préféré à un graphique sophistiqué ;
choisir les unités et les axes de la manière la plus neutre possible, il
ne faut pas influencer le lecteur ;
comparer des graphiques ayant des unités communes.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 44 / 117
Caractéristiques de position
Introduction
En pratique on est gêné en présence d’un grand nombre de
données
Si l’intégralité de ces valeurs forme l’information complète, il n’est
pas aisé de les manipuler ensemble
Il faut donc caractériser une variable statistique par un ensemble
de paramètres
Les plus utilisées sont les caractéristiques : de position, de
dispersion, de forme
Les caractéristiques de position nous renseignent sur la position
(l’emplacement sur R) de la variable statistique
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 45 / 117
Caractéristiques de position Mode et Classe modale
Mode
Définition
Soit (xi , ni)1≤i≤p une série statistique de caractère qualitatif ou
quantitatif discret.
Le mode est la valeur ou la modalité xj du caractère qui a le plus
grand effectif : max1≤i≤p
ni = nj
Exemple 5: Le mode de la série des ‘Personnes à charge’ est
x3 = 2 car max1≤i≤6
ni = 15 = n3
Graphiquement, le mode 2 est la valeur de la variable associé au
plus grand bâton dans le Diagramme en bâtons
Exemple 6: Le mode de la série des ‘Niveaux de diplômes’ est la
modalité ‘Masters’ car max1≤i≤4
ni = 11 = n3.
Graphiquement, le mode est la modalité associée au plus large
secteur dans le Diagramme en secteursS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 46 / 117
Caractéristiques de position Mode et Classe modale
Classe modale
Définition
Soit (Ii , ni)1≤i≤p une série statistique continue. La classe modale Ijest la classe qui a le plus grand effectif corrigé :
max1≤i≤p
n∗i = n∗
j
Exemple 8: La classe modale de la série des ‘Salaires
horaires’est la classe I4 = [60, 63[ car max1≤i≤6
n∗i = 24 = n∗
4
Graphiquement, la classe modale est la modalité associée au plus
grand rectangle dans l’Histogramme des effectifs corrigés
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 47 / 117
Caractéristiques de position Mode et Classe modale
Classe modale (suite)
Remarques
1 Lorsque les classe sont de même amplitudes alors la classe
modale est la classe qui a le plus grand effectif
Exemple 2: La classe modale de la série des ‘Tailles des sportifs’
est I5 = [176, 180[ car max1≤i≤8
ni = 26 = n5
2 Le mode (la classe modale) n’est pas nécessairement unique :
‘Défaut’ de cette caractéristique
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 48 / 117
Caractéristiques de position Moyenne arithmétique
Moyenne arithmétique
Soit {x1, . . . , xn} des données numériques brutes, alors leurs
moyenne arithmétique est
x :=1
n
n∑
i=1
xi .
Exemple: Soit l’échantillon {1, 1, 2, 2, 2, 2, 3, 3} alors
x =1
8(1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2
Les donnés peuvent aussi s’écrire comme série statistique
(valeur, effectif): (1, 2), (2, 4), (3, 2) et par suite
x =1
8(2× 1 + 4× 2 + 2× 3) = 2
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 49 / 117
Caractéristiques de position Moyenne arithmétique
Moyenne arithmétique (suite)
Définition
Pour une série discrète (x1, n1), (x2, n2), . . . (xp, np) la moyenne
arithmétique est
x =n1x1 + n2x2 + . . .+ npxp
n1 + n2 + . . .+ np.
Remarque
La formule ci dessus peut être écrite :
x =1
n
p∑
i=1
ni xi ou x =
p∑
i=1
fi xi
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 50 / 117
Caractéristiques de position Moyenne arithmétique
Moyenne arithmétique (suite)
Exemple 5: la moyenne arithmétique de la série des ‘personnes à
charge’ est:
x =1
50×(5× 0 + 8× 1 + 15× 2 + 10× 3 + 7× 4 + 5× 5) = 2.42
Un salarié a en moyen environ 2.42 personnes à sa charge
Une série dont les modalités sont qualitatives ne possède pas de
moyenne arithmétique
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 51 / 117
Caractéristiques de position Moyenne arithmétique
Moyenne arithmétique (suite)
Pour une série continue (Ii , ni)1≤i≤p, la moyenne arithmétique
définie de la même façon en retenant pour xi les centres des
classes IiExemple 2: Tableau de calcul de la moyenne
Classes Centres Effectifs Effectifs × centres
Ii xi ni ni × xi
[1.60, 1.64[ 1.62 8 12.96
[1.64, 1.68[ 1.66 14 23.24
[1.68, 1.72[ 1.70 16 27.2
[1.72, 1.76[ 1.74 20 34.8
[1.76, 1.80[ 1.78 26 46.28
[1.80, 1.84[ 1.82 15 27.00
[1.84, 1.88[ 1.86 12 22.32
[1.88, 1.92[ 1.90 9 17.10
Total – 120 211.02
x =211.02
120≈ 1.76 m
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 52 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Propriétés de la moyenne arithmétique
1. La moyenne arithmétique se conserve par changement
d’origine et d’unité
x une variable statistique, x0 et d deux réels. Soit la variable u
issue de x par le changement d’origine et d’unité:
ui =xi − x0
di = 1, . . . , p
La moyenne arithmétique de u est:
u =x − x0
d.
L’utilité pratique est la facilité du changement d’unité
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 53 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Propriétés de la moyenne arithmétique (suite)
2. La moyen arithmétique est associative
La moyenne globale d’une variable statistique sur l’agrégation de
plusieurs populations est la moyenne pondérée des moyennes
partielles
Soit Pa et Pb deux populations d’effectifs na et nb, x une v. s. de
moyennes arithmétiques xa et xb sur Pa et Pb respect.
La moyenne arithmétique de x sur l’agrégation des deux
populations P := Pa ∪ Pb est
x =naxa + nbxb
na + nb.
Les intérêts pratiques sont:La possibilité de calculer la moyenne globale sur une population
constitué de plusieurs groupes
La mise à jour facile de la moyenne dans le cas d’ajout d’une (des)
observation(s)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 54 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Propriétés de la moyenne arithmétique (suite)
Exemple:
Le salaire moyen des huits 8 employés d’une entreprise est
x = 26585
Si l’entreprise recrute deux nouveaux employés qualifiés dont le
revenu moyen est 100 000 Dh
Le nouveau revenu moyen des employés x ′ est
x ′ =8× 26585 + 2× 100000
8 + 2= 41 268 Dh
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 55 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Propriétés de la moyenne arithmétique (suite)
3. La moyenne arithmétique est sensible à la présence des
valeurs aberrantes
Une valeur aberrante est une valeur qui n’est pas du même ordre
de grandeur que la plus part des autres observations
Exemple:
Échantillon {1, 1, 2, 2, 2, 2, 3, 3} −→ x = 2Échantillon {1, 1, 2, 2, 2, 2, 3, 300} −→ x = 39.125.
Cette propriété est en faite un ‘défaut’ de la moyenne arithmétiquePour y remédier, on peut éliminer 10% des plus grandes et 10%des plus petites valeurs de la variable
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 56 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Autres moyennes
Définition
Soit r un nombre rationnel non nul (r ∈ Q∗). On appelle moyenne
d’ordre r de la série statistique (xi , ni)1≤i≤p la quantité
[
1
n
p∑
i=1
nixri
]1/r
Ainsi, Selon la valeur du paramètre r , on définit plusieurs moyennes :
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 57 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Autres moyennes (suite)
Paramètre Moyenne Formule
r = −1 Moyenne harmonique xh = n/
p∑
i=1
ni
xi
r ≈ 0 Moyenne géométrique xg =
[
p∏
i=1
xni
i
]1/n
r = +1 Moyenne arithmétique x =1n
p∑
i=1
nixi
r = +2 Moyenne quadratique xq =
[
1n
p∑
i=1
nix2i
]1/2
.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 58 / 117
Caractéristiques de position Propriétés de la moyenne arithmétique
Autres moyennes (suite)
Chacune des moyennes est appropriée à une situation déterminée:
La Moyenne géométrique pour le calcul de la moyenne des taux
de croissance et des indices
N. B.
log (xg) =1
n
p∑
i=1
ni log (xi)
Ainsi, la moyenne géométrique n’est rien d’autre que l’exponentiel
de la moyenne arithmétique des logarithmes des données
La moyenne harmonique est utilisée pour calculer des moyennes
de performances unitaires: vitesses moyenne (km/h),
consommation (l/km), coût unitaire (Dh/tonne) ...
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 59 / 117
Caractéristiques de position Quantiles
Médiane
Définition
La médiane est une valeur du caractère, notée x1/2 (ou Me),
partageant une série ordonnée en deux sous ensembles à tailles
égales.
Exemple 1: Données brutes Deux situations s’imposent suivant le
nombre d’observation n:
n impairs : {3, 5, 7, 9 , 10, 11, 12}. 9 est la valeur médiane, car il
y’a autant d’observations inférieures à 9 que d’observations
supérieures à 9
n pairs : {3, 5, 7, 9, 10 , 11, 12, 13}. On parle d’un Intervalle
Médian [9, 10] et on retient le plus souvent comme estimation de
la médiane le centre de cet intervalle x1/2 = 9.5
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 60 / 117
Caractéristiques de position Quantiles
Médiane d’une série statistique discrète
S’il existe une valeur xj telle que Nj = n/2 alors
x1/2 =xj−1 + xj
2
Sinon, la valeur médiane est la plus petite valeur xj dont l’effectif
cumulé dépasse la moitié de l’effectif total:
x1/2 = xj ⇔ Nj−1 < n/2 ≤ Nj .Exemple 2: La grille des salaires pour 100 personnes est
Salaires Effectifs ni Effectifs cumulés Ni
1000 25 25
1800 45 70
2200 30 100
Total 100 –
Le premier effectif cumulé qui dépasse n/2 = 50 est N2 = 70
⇒ x1/2 = x2 = 1800
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 61 / 117
Caractéristiques de position Quantiles
Médiane d’une variable continue
Exemple 3: Considérons par exemple la distribution des salaires
observés en continu:Salaires Effectifs ni Effectifs cumulés Ni
[1000, 2000[ 20 20
[2000, 4000[ 50 70
[4000, 6000[ 30 100
Total 100 –
La détermination de x1/2 se fait en deux étapes:1 Détermination de la classe médiane Im := [x−
m , x+m [ : c’est la
première classe dont l’effectif cumulé dépasse n/2La classe médiane est I2 = [2000− 4000[ ; ⇒ x1/2 ∈ Im = I2
2 Détermination de la valeur médiane par une interpolation linéairesuivant la formule suivante:
x1/2 = x−
m + (x+
m − x−
m )× n/2− Nm−1
Nm − Nm−1(1)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 62 / 117
Caractéristiques de position Quantiles
La méthode d’interpolation
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 63 / 117
Caractéristiques de position Quantiles
La méthode d’interpolation (suite)
On trace la courbe cumulative N(x) (une fonction linéaire par
morceaux)
On localise sur l’axe des abscisses la valeur antécédente de la
valeur n/2 sur l’axe des ordonnées ; cette valeur est la médiane
On remarque que les deux triangles ABB1 et ACC1 sont
semblables et par conséquent les rapports des côtés sont égaux:
AC1
AB1=
CC1
BB1⇔
x1/2 − x−m
x+m − x−
m
=n/2− Nm−1
Nm − Nm−1
d’où la relation (1)
⇒ la médiane de la série des salaires est
x1/2 = 2000 + (4000− 2000)× 50− 20
70− 20= 3 200 Dh
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 64 / 117
Caractéristiques de position Quantiles
Quantiles
Définition
Soit α ∈]0, 1[. On appelle quantile d’ordre α la valeur xα de la
variable telle que au moins 100 ∗ α% des observations sont inférieures
ou égales à xα .
Remarques
1 Il y’a au moins 100 ∗ (1− α)% des observations qui sont
supérieures ou égales à xα2 La médiane est un quantile particulier d’ordre α = 0.5
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 65 / 117
Caractéristiques de position Quantiles
Quantiles (suite)
Empiriquement, les quantiles sont des valeurs qui partagent la
série en plusieurs sous-groupes de tailles égaux
Résumons les quantiles usuels :
Quantiles Ordres α Notations Sous-groupes
Médiane 0.5 Me 2× 50%Quartiles (0.25, 0.50, 0.75) (Q1,Q2,Q3) 4× 25%Deciles (0.10, 0.20, . . . , 0.90) (D1, . . . ,D9) 10× 10%Centiles (0.01, 0.02, . . . , 0.99) (C1, . . . ,C99) 100× 1%
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 66 / 117
Caractéristiques de position Quantiles
Quantiles (suite)
La détermination du quantile xα est identique à celle de la médiane :
1 Détermination de la classe Im := [x−m , x+
m [ qui inclue le quantile:
c’est la première classe dont l’effectif cumulé dépasse α ∗ n
2 Détermination du quantile d’ordre α par l’interpolation linéaire :
xα = x−m + (x+
m − x−m )× α n − Nm−1
Nm − Nm−1. (2)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 67 / 117
Caractéristiques de position Quantiles
Quantiles (suite)
Déterminons les quartiles Q1,Q2,Q3
Premier quartile Q1 = x1/4. On a α n = 0.25× 100 = 25
Le premier effectif cumulé dépassant 25 est N2 = 70 ainsi
Q1 ∈ I2 = [2000, 4000[ :
Q1 = 2000 + (4000− 2000)× 25− 20
70− 20= 2 200 .
Deuxième quartile Q2 = x1/2. C’est la médiane! Q2 = 3 200
Troisième quartile Q3 = x3/4. On a α n = 0.75× 100 = 75
Le premier effectif cumulé dépassant 75 est N3 = 100 ainsi
Q3 ∈ I3 = [4000, 6000[
Q3 = 4000 + (6000− 4000)× 75− 70
100− 70≈ 4 333.33 .
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 68 / 117
Caractéristiques de position Quantiles
Représentation graphique : Boîte à Moustaches
Exemple: Distributions de salaires dans le secteur privé et le secteur
public en France :
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 69 / 117
Caractéristiques de position Quantiles
Boîte à Moustaches (suite)
Définition
La boîte à Moustaches est un rectangle dont : deux côtés sont
délimités par les valeurs Q1 et Q3.
Deux segments sortent des deux côtés du rectangle et sont délimitées
par les valeurs D1 et D9
Un segment à l’intérieur du rectangle représente la valeur de la
médiane
Deux points en dessous et au dessus de la boîte à moustaches
représentent les valeurs Minimum et Maximum
La Boîte à Moustaches (Box Plot), dite aussi Diagramme de
Tukey, est un graphique synthétique qui permet de représenter :
la médiane, les quartiles et les deciles
il rend compte du niveau d’asymétrie, de la dispersion et des
valeurs extrêmes de la série
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 70 / 117
Caractéristiques de position Conclusions
Conclusions
1 Le tableau ci-dessous résume les paramètres de positionenvisageable en fonction du type de la variable étudiée :
Quantitative Ordinale Nominale
Moyenne OUI NON NONMédiane OUI OUI NONQuantiles OUI OUI NONModes OUI OUI OUI
2 Le choix d’un paramètre de position dépend de l’objectif del’étude
Le lendemain des élections législatives, on cherche à savoir quel
est le groupe parlementaire majoritaire, c. à. d. le mode du voteLa connaissance des deciles d’une série des tailles clients est plus
utile à une entreprise de confection de vêtement que la
connaissance de leurs taille moyenne
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 71 / 117
Caractéristiques de dispersion
Introduction
On peut remarquer que deux séries statistique peuvent avoir la
même valeur centrale mais se différencient par la dispersion des
valeurs observées autour de cette dernière
Exemple : Les distributions des salaires des employés dans les
secteurs privé et public sont représentées ci-dessous :
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 72 / 117
Caractéristiques de dispersion
Introduction (suite)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 73 / 117
Caractéristiques de dispersion
Introduction (suite)
Remarquons que les salaires moyens dans le privé et le public
sont équivalents
Dans le privé il y a une proportion non négligeable qui gagne bien
plus que la moyenne et une autre proportion qui gagne bien
moins que la moyenne
Dans le public, en revanche, les salaires sont plus concentrés
autour de la moyenne
On ne peut avoir une idée de la distribution avec seulement la
moyenne. Une mesure supplémentaire sur la dispersion autour de
cette moyenne doit aussi être donnée
Tout comme il existe plusieurs valeurs centrales (mode, moyenne,
médiane), il existe aussi plusieurs mesures de dispersion.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 74 / 117
Caractéristiques de dispersion Étendue
Étendue
Définition
L’étendue, noté E , est la différence entre la plus grande et la pluspetite valeur de la variable :
E := maxi
(xi)−mini
(xi).
Exemple: L’étendue de la série des ‘personnes à charge’ est
E = 5− 0 = 5
Exemple: L’étendue de la série des ‘tailles de sportifs’ est
E = 1.91− 1.60 = 0.31m
L’étendue permet d’avoir une idée de grandeur sur la portée d’unevariable statistique
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 75 / 117
Caractéristiques de dispersion Étendue
Étendue (suite)
Cependant il présente le désavantage de ne pas tenir compte detoutes les observations et d’être particulièrement sensible auxvaleurs aberrantesEn effet les deux échantillons
E1 := {3, 10, 23, 32, 54, 80, 90} et E2 := {3, 20, 21, 23, 25, 26, 90}
ont le même étendue : E = 87, cependant leurs dispersions sontlargement différentes
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 76 / 117
Caractéristiques de dispersion Écarts inter-quantiles
Écarts inter-quantiles
Définition
Un écart inter-quantiles est égal à la différence entre deux quantiles
symétriques par rapport à la médiane, c. à. d. pour 0 < α < 1/2
l’écart est
x1−α − xα.
Pour α = 1/4, on a un seul écart interquartile:
EI := x3/4 − x1/4 = Q3 −Q1
pour α = 1/10, 2/10, 3/10, 4/10, on a quatre écarts inter-deciles:
D9 − D1, D8 − D2, D7 − D3, D6 − D4
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 77 / 117
Caractéristiques de dispersion Écarts inter-quantiles
Écarts inter-quantiles (suite)
Dans un Diagramme en Boites à Moustaches on peut lire les
écarts, particulièrement importants, Q3−Q1 et D9− D1
Ils présentent une mesure alternative à l’étendue, puisqu’ils ne
tiennent pas compte des valeurs maximales et minimales pouvant
être aberrantes
Remarque
L’écart interquartile est généralement utilisé pour détecter l’existence
éventuelle des valeurs aberrantes
Plusieurs logiciels comme le SPSSr, considèrent comme valeur
aberrante toute valeur x∗ qui se trouve à l’extérieur de l’intervalle
[Q1 − 1.5 ∗ EI,Q3 + 1.5 ∗ EI].
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 78 / 117
Caractéristiques de dispersion Écarts inter-quantiles
Écarts inter-quantiles (suite)
Exemple : Les résultats (sur 100) de 10 étudiants pour 7 cours sontprésentés dans le tableau suivant :
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 79 / 117
Caractéristiques de dispersion Écarts inter-quantiles
Écarts inter-quantiles (suite)
Classement par ordre croissant des 7 cours selon la dispersion desrésultats: C6, C7, C2, C4, C3, C5 et C1
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 80 / 117
Caractéristiques de dispersion Écart moyen absolu et Écart médian absolu
Écart moyen absolu
Considérons une valeur centrale comme par exemple la moyennex
Une forte concentration des observations autour de x se traduitpar des écarts |xi − x | faibles et inversement
Une façon de mesurer la dispersion est, donc, le calcul de la
moyenne de ces écarts
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 81 / 117
Caractéristiques de dispersion Écart moyen absolu et Écart médian absolu
Écart moyen absolu (suite)
Définition
Soit (xi , ni)1≤i≤p une série statistique quantitative.1 L’écart moyen absolu, noté em, est défini par :
em :=1n
p∑
i=1
ni |xi − x |.
2 L’écart médian absolu, noté e∗m, est défini par :
e∗m :=
1n
p∑
i=1
ni |xi − x1/2|.
N. B. Ces écarts représentent l’inconvenient de n’être pas analytique à
cause de la valeur absolue : fonction non derivable et peu commode
pour les calculsS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 82 / 117
Caractéristiques de dispersion Variance et Écart-type
Variance et Écart-type
La remplacement de la valeur absolue par le carré, donne lieu à une
valeur typique de la dispersion dite la variance
Définition
La variance, notée S2, d’une variable statistique est définie par
S2 :=1
n
p∑
i=1
ni (xi − x)2.
Contrairement à l’étendue et aux quartiles, la variance permet de
combiner toutes les valeurs à l’intérieur d’un ensemble de données
afin d’obtenir la mesure de dispersion.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 83 / 117
Caractéristiques de dispersion Variance et Écart-type
Variance et Écart-type (suite)
Théorème de Konig Huyghens
La variance est égale à la moyenne des carrés moins le carré de la
moyenne.
S2 =
(
1
n
p∑
i=1
ni x2i
)
− x2.
Preuve : Soit (xi , ni)1≤i≤p une série statistique quantitative.
S2 =1
n
p∑
i=1
ni (xi − x)2.
=1
n
p∑
i=1
ni (x2i − 2 xi x + x2)
=1
n
p∑
i=1
ni x2i − 2x
1
n
p∑
i=1
nixi + x2 1
n
p∑
i=1
ni
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 84 / 117
Caractéristiques de dispersion Variance et Écart-type
Variance et Écart-type (suite)
Commep∑
i=1
ni = n et 1n
p∑
i=1
nixi = x alors
S2 =1n
p∑
i=1
ni x2i − 2x2 + x2
=1n
p∑
i=1
ni x2i − x2.
�
Remarque
Il est plus facile d’appliquer la formule de Konig Huyghens ; Ellepermet d’éviter la cumulation des erreurs d’arrondis
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 85 / 117
Caractéristiques de dispersion Variance et Écart-type
Variance et Écart-type (suite)
La variance S2 s’exprime en carré de l’unité de la variable
Afin de revenir à l’unité de la variable on définit L’écart-type, noté
S, comme étant la racine carrée de la variance :
S :=√
S2.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 86 / 117
Caractéristiques de dispersion Variance et Écart-type
Variance et Écart-type (suite)
Exemple: L’écart-type de la série des ‘Tailles des sportifs’ peut être
obtenue en utilisant le tableau suivant:
Ii xi ni ni × xi ni × x2i
[1.60, 1.64[ 1.62 8 12.96 21.00
[1.64, 1.68[ 1.66 14 23.24 38.58
[1.68, 1.72[ 1.70 16 27.2 46.24
[1.72, 1.76[ 1.74 20 34.8 60.55
[1.76, 1.80[ 1.78 26 46.28 82.38
[1.80, 1.84[ 1.82 15 27.00 49.69
[1.84, 1.88[ 1.86 12 22.32 41.52
[1.88, 1.92[ 1.90 9 17.10 32.49
Total – 120 211.02 372.43
Ainsi, x = 211.02/120 ≈ 1.76, S2 = (372.43/120)− 1.762 ≈ 0.0006 et
S =√
0.0006 ≈ 0.078 m
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 87 / 117
Caractéristiques de dispersion Variance et Écart-type
Propriétés de l’écart type
1 L’écart-type ainsi que la variance ne sont jamais négatif. Ilssont nulles si et seulement si toutes les valeurs de la variable sontégales, c. à. d. quand il y’a pas de variation
2 L’écart-type est sensible aux valeurs aberrantes. Une seule
valeur aberrante peut accroître l’écart-type et, par le fait même,
déformer le portrait de la dispersion. Il peut être donc un bon
indicateur aussi de valeurs aberrantes3 L’écart-type est invariant par changement d’origine. Soit x
une variable statistique, x0 et d deux réels et u est la variable
issue de x par le changement d’origine et d’unité suivant:
ui =xi − x0
di = 1, . . . , p.
Alors, la variance et l’écart-type de u sont respectivement
S2u =
S2x
d2et Su =
Sx
|d | .S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 88 / 117
Caractéristiques de dispersion Coefficient de variation
Coefficient de variation
Lorsque les moyennes ne sont pas de même ordre de grandeurou lorsque ils n’ont pas les même unités, pour comparer lesécarts types il faut les exprimer par rapport à la moyenne
Il faut comparer des écarts types unitaires d’où l’introduction ducoefficient de variation, noté CV ,
CV :=S
x
Le coefficient de variation est une mesure de la dispersionrelative; il est adimensionnel (nombre sans unité) : on peutl’exprimé en pourcentage
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 89 / 117
Caractéristiques de dispersion Coefficient de variation
Coefficient de variation (suite)
Exemple : La demande d’importation sur une période de 30 ans estrésumée dans le tableau ci dessous :
France Allemagne Canada États Unis(euro) (euro) ($ Can.) (euros conv)
Moyenne 5 5 6 100Écart type 2.5 1 3 10CV 50% 20% 50% 10%
Comparaison entre séries France et Allemagne : Même moyenne,même monnaie : la dispersion est plus grande pour la FranceComparaison entre séries France et U.S : écart type des US(monnaie déjà convertit en euros) est plus grand. Mais, lademande moyenne d’importation est beaucoup plus grande aussipour les États UnisAfin de comparer ces dispersions il faut, donc, utiliser les CV ; onvoit que la dispersion relative des États Unis est la plus faible
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 90 / 117
Caractéristiques de forme Forme particulière : Distribution Normale
Quelques formes des distributions statistiques
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 91 / 117
Caractéristiques de forme Forme particulière : Distribution Normale
Quelques formes des distributions statistiques (suite)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 92 / 117
Caractéristiques de forme Forme particulière : Distribution Normale
Une distribution particulière : la normale
Afin de caractériser la forme d’une distribution d’une série, sansavoir à la tracer pour autant, nous choisissons distribution de‘référence’ dite distribution Normale ou Gaussienne
Il s’agit d’une distribution très populaire introduite par Laplace
pour approcher la répartition des erreurs de mesures
C’est une distribution symétrique sous forme de cloche, avec ununique mode (uni modale), dont la moyenne est égale à lamédiane et au mode (x = x1/2 = Mode)
La fonction de densité d’une normale standard est
f (x) =1√2π
e−x2/2
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 93 / 117
Caractéristiques de forme Forme particulière : Distribution Normale
La forme d’une distribution normale
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 94 / 117
Caractéristiques de forme Moments Centrés
Moments Centrés
Afin de distinguer les formes des distributions statistiques on
utilise des statistiques dites moments centrés
Définition
Soient (xi , ni)1≤i≤p une série statistique et r ∈ Q. Le moment centré
d’ordre r s’écrit :
mr :=1
n
p∑
i=1
ni(xi − x)r .
Pour r = 1, le moment centré d’ordre 1 est nul : m1 = 0
Pour r = 2, le moment centré d’ordre 2 n’est rien d’autre que la
variance m2 = S2
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 95 / 117
Caractéristiques de forme Caractéristiques de forme
Symétrie et Asymétrie
On distingue 3 types de distribution selon leurs asymétries par rapport
à la moyenne
1 Distribution symétrique par rapport à la moyenne: Figure 1
2 Distribution dissymétrique à gauche : Figure 2
3 Distribution dissymétrique à droite : Figure 3
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 96 / 117
Caractéristiques de forme Caractéristiques de forme
Figure 1: Distribution symétrique
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 97 / 117
Caractéristiques de forme Caractéristiques de forme
Figure 2: Distribution dissymétrique à gauche
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 98 / 117
Caractéristiques de forme Caractéristiques de forme
Figure 3: Distribution dissymétrique à droite
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 99 / 117
Caractéristiques de forme Caractéristiques de forme
Caractérisation de l’asymétrie
Le paramètre qui caractérise l’asymétrie d’une distribution(xi , ni)1≤i≤p est m3 le moment centré d’ordre 3
On constate que pour une distribution
dissymétrique à gauche : m3 > 0symétrique : m3 = 0dissymétrique à droite : m3 < 0.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 100 / 117
Caractéristiques de forme Caractéristiques de forme
Caractérisation de l’asymétrie (suite)
Exemple: Calcul de m3 de la distribution ci dessous
m3 =1
28[3(1− 3)3 + 6(2− 3)3 + 10(3− 3)3 + 6(4− 3)3 + 3(5− 3)3]
=1
28[−24 +−6 + 0 + 6 + 24] = 0.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 101 / 117
Caractéristiques de forme Caractéristiques de forme
Coefficient d’asymétrie de Fisher
Le moment m3 est invariant par un changement d’origine; mais il
dépend des unités choisies
Pour cela Fisher a introduit un coefficient adimensionnel
Définition
Le Coefficient d’asymétrie de Fisher (Skewness) est définit par
γ :=m3
S3,
où m3 est le moment centré d’ordre 3.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 102 / 117
Caractéristiques de forme Caractéristiques de forme
Coefficient d’asymétrie de Fisher : Exemple
Exemple: Considérons la distribution ci dessous
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 103 / 117
Caractéristiques de forme Caractéristiques de forme
Calcul du coefficient d’asymétrie de Fisher
xi ni ni xi (xi − x) (xi − x)2 ni (xi − x)2 ni (xi − x)3
1 12 12 -1.5 2.25 27 -40.500
2 18 36 -0.5 0.25 4.5 -2.250
3 10 30 0.5 0.25 2.5 1.250
4 5 20 1.5 2.25 11.25 16.875
5 3 15 2.5 6.25 18.75 46.875
6 2 12 3.5 12.25 24.5 85.750∑
50 125 – – 88.5 108 > 0
Grâce au Tableau ci dessus on trouve :
x = 125/50 = 2.5 ; S3 =(
√
88.5/50)3
≈ 2.35
m3 = 108/50 = 2.16 ; γ ≈ 2.16/2.35 ≈ 0.92 > 0
En conclusion, la distribution est dissymétrique à gauche
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 104 / 117
Caractéristiques de forme Caractéristiques de forme
Mesure de l’aplatissement
L’aplatissement d’une distribution est basé sur le m4: moment
centré d’ordre 4
Définition
(i) Le Coefficient d’aplatissement de Pearson : η :=m4
S4
(ii) le Coefficient d’aplatissement de Fisher (Kurtosis) : β :=m4
S4− 3.
Pour la distribution normale : η = 3 et β = 0
Prenons l’aplatissement d’une normale comme ‘reference’, ainsi
une distribution est :
aplatie : β < 0 ;normale : β = 0 ;effilée : β > 0.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 105 / 117
Caractéristiques de forme Caractéristiques de forme
Mesure de l’aplatissement: Exemple
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 106 / 117
Caractéristiques de concentration Courbe de Lorenz
Courbe de Lorenz
La variance ou le coefficient de variation mesurent la
concentration des valeurs autour de la moyenne
Lorsque la distribution est asymétrique, ces mesures ne sont pas
entièrement satisfaisantes. Les statisticiens ont alors développédes indices spécifiques pour mesurer la concentration
Prenons le cas de la distribution des revenus. C’est unedistribution asymétrique avec peu de personnes dans les classesde revenus élevésEn 1905 Max Otto Lorenz a proposé un graphique spécial pourreprésenter la concentration des richesses :◮ en abscisse on met le pourcentage cumulé de la population
associée à la classe i
◮ en ordonnée le pourcentage cumulée des richesses de la classe i
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 107 / 117
Caractéristiques de concentration Courbe de Lorenz
Courbe de Lorenz: Exemple
Exemple: Le revenu journalier de 10 employés est distribué selon le
tableau suivant :
Revenu Effectifs
Classe Ii ni
[90, 150[ 5
[150, 250[ 3
[250, 550[ 2
Total 10
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 108 / 117
Caractéristiques de concentration Courbe de Lorenz
Courbe de Lorenz: Exemple (suite)
Calculons les pourcentages cumulés des employés et ceux cumulés
des salaires :
1 pi est le pourcentage de Ii , et PiPiPi son cumule
2 ni × xi est la masse salariale attribuée au individus de la classe Ii3∑
i ni × xi = 2000 est la masse salariale totale
4 qi := 100× ni .xi/∑
i xi .ni est le pourcentage de la masse
salariale attribuée au individus de la classe Ii5 QiQiQi le cumule de qi
Classe Ii xi ni pi Pi ni × xi qi Qi
[90, 150[ 120 5 50% 50% 600 30% 30%[150, 250[ 200 3 30% 80% 600 30% 60%[250, 550[ 400 2 20% 100% 800 40% 100%
Total – 10 100% – 2000 100% –
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 109 / 117
Caractéristiques de concentration Courbe de Lorenz
Courbe de Lorenz (suite)
La courbe de Lorenz est la courbe représentative du Qi en fonction
du Pi : c’est le polygone joignant les points Mi(Pi ,Qi)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 110 / 117
Caractéristiques de concentration Courbe de Lorenz
Courbe de Lorenz (suite)
Si touts les individus percevaient le même salaire, on obtiendraitla première bissectrice : ligne d’égalité parfaite (impossible en
réalité!!)
La surface entre la bissectrice et la courbe représente (surface
colorée) est la surface de concentration
Lorsque la répartition devient plus inégale la surface de
concentration augmente
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 111 / 117
Caractéristiques de concentration Indice de Gini
Indice de Gini
En 1912, le statisticien Corrado Gini a proposé un indice, noté I,
pour mesurer le degré d’inégalité dans la distribution des
richesses
Il est calculé en prenant le rapport entre SOADC la surface du
polygone OADC et SOAB la surface du triangle OAB :
I :=Aire de concentration
Aire du triangle OAB=
SOADC
104/2.
Il est évident que 0 ≤ I ≤ 1
Si la distribution est égalitaire, la courbe de Lorenz suit la
diagonale et alors l’indice de Gini est égal à 0
L’inégalité la plus forte est obtenue lorsque la courbe de Lorenz
est OAB ; dans ce cas Pi accroît beaucoup plus vite que Qi et
l’indice de Gini est égal à 1
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 112 / 117
Caractéristiques de concentration Indice de Gini
Indice de Gini (suite)
La formule analytique de l’indice de Gini est
I = 1− 10−4
p∑
i=1
(Pi − Pi−1)(Qi−1 + Qi)
où P0 = Q0 = 0Calcul du coefficient de Gini dans l’exemple
Classe Ii xi ni pi Pi ni × xi qi Qi
[90, 150[ 120 5 50% 50% 600 30% 30%[150, 250[ 200 3 30% 80% 600 30% 60%[250, 550[ 400 2 20% 100% 800 40% 100%Total – 10 100% – 2000 100% –
I = 1− [50 ∗ 30 + (80− 50) ∗ (30 + 60) + (100− 80) ∗ (100 + 60)]
104= 0.260.260.26
L’indice de concentration de Gini n’a de sens que pour les variables
cumulable : richesse, revenu, salaire, consommation....
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 113 / 117
Caractéristiques de concentration La médiale
La médiale
Définition
La médiale est la valeur du caractère pour laquelle les individus dont
le caractère est inférieur à la médiale se partagent 50% de la masse
totale des richesses.
Rappel: La médiane est la valeur du caractère pour laquelle les
individus dont le caractère est inférieur à la médiane forment 50%de la masse population
La position de la médiale par rapport à la médiane est un
indicateur de concentration
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 114 / 117
Caractéristiques de concentration La médiale
La médiale (suite)
Si la médiane est inférieure à la médiale (Me < MI) alors 50% de
la population partagent moins de 50% de la masse salariale
Tandis que dans une situation imaginaire ou tous les individus
percevraient un salaire identique alors la médiane serait égale à la
médiale (Me = MI)
Par conséquent plus l’écart entre la médiane et la médiale est
important plus la distribution est inégalitaire
La détermination de MI se fait en deux étapes :1 Détermination de la classe médiale : celle qui inclue la médiale.
La classe médiale Im := [x−
m , x+m [ c’est la première classe dont le
cumule Qi dépasse 50%2 Détermination de la valeur médiale par une interpolation linéaire:
MI = x−
m + (x+
m − x−
m )× 50%−Qm−1
Qm −Qm−1
.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 115 / 117
Caractéristiques de concentration La médiale
La médiale (suite)
La détermination de MI de la série de l’exemple précédent
1 la classe médiale est I2 := [150, 250[ car Q2 est le premier qui a
dépassé 50%
2 l’interpolation linéaire donne
MI = 150 + (250− 150)× 50− 30
60− 30≈ 217Dh
La médiane Me = 150 Dh, ainsi MI −ME = 217− 150 = 67 > 0
distribution des salaires est non égalitaires.
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 116 / 117
Caractéristiques de concentration La médiale
La médiale (suite)
S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 117 / 117