chapitre 1: série statistique à une seule variable

Chapitre 1: Série statistique à une seule variable

Said, El Melhaoui

Faculté des Sciences Juridiques, économiques et Sociales Oujda

http://said-el-melhaoui.e-monsite.com

S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 1 / 117

Outline

1 Terminologie

2 Tableaux statistiques

3 Représentations Graphiques

4 Caractéristiques de position

5 Caractéristiques de dispersion

6 Caractéristiques de forme

7 Caractéristiques de concentration


Terminologie Population, unité et caractère

Population, unité et caractère

population statistique : Toute ensemble au sens mathématique

que l’on soumet à une étude statistique.

Unité statistique (individu) : chaque élément de cette

population.

Caractère : Un aspect, une propriété, un trait qui est commun à

tous les individus et qui est objet de l’étude statistique.

Exemple 1: On veut étudier ‘le nombre de ventes journaliers d’un

produit dans un magasin pendant le mois de septembre’.

- Population : c’est l’ensemble des 30 jours

- l’unité statistique: c’est le jour

- le caractère d’intérêt: est le nombre de produits vendus

par jour



Population, unité et caractère (suite)

Exemple 2: On veut étudier ‘les tailles des sportifs participant à une

compétition’.

- La population: l’ensemble des sportifs participant à la

compétition

- l’unité statistique: un sportif

- caractère étudié: c’est la taille du sportif

Exemple 3: Pour étudier ‘l’image de marque d’un produit dans le

marché, on demande à cent clients d’exprimer leur satisfaction du

produit, via l’une des appréciations suivantes: très satisfait, satisfait,

pas mal, non satisfait ’.

- population: est l’ensemble des 100 clients

- unité statistique: chaque client

- caractère: l’appréciation du client



Population, unité et caractère (suite)

Exemple 4: On veut étudier ‘le groupe sanguin de 40 personnes

atteintes par l’hémophilie’.

- population: l’ensemble des 40 malades

- chaque malade

- caractère: est le groupe sanguin


Terminologie Type de caractère

Type de caractère

On distingue plusieurs types de caractère:

le Caractère quantitatif: il prend des valeurs numériques; il est

mesurable : le poids, la taille, l’âge, le revenu, la note etc. Il est

aussi appelé variable statistique.

Il existe deux sortes de variable statistique:

- dans le cas ou la variable statistique ne peut prendre

qu’un nombre fini de valeurs isolées, alors la variable

est dite variable discrète (Voir Exemple 1).

- lorsque les valeurs de la variable statistique peuvent

prendre tout réel d’un intervalle de l’ensemble R, la

variable est dite variable continue (Voir Exemple 2)


Terminologie Type de caractère

Type de caractère (suite)

Caractère qualitatif : il ne peut être exprimé par des nombres, il

est non numériquement mesurable. on ne parle pas de valeurs

mais de modalités.

On distingue deux types de caractère qualitatif:

- dans le cas ou les modalités du caractère peuvent

être ordonnées suivant un ordre bien défini alors le

caractère est dit ordinal (voir Exemple 3)

- dans le cas contraire, c’est à dire lorsque les

modalités ne peuvent être ordonnées selon un ordre

fiable, le caractère est dit nominal (voir Exemple 4).


Terminologie Méthode d’observation

Méthode d’observation

L’étude d’un caractère auprès de tous les individus d’une

population fini s’appelle recensement comme, par exemple, les

Recensements du Maroc 2004, 2014.

L’étude complète d’une population n’est pas toujours possible, vu

les contraintes de temps, de coût et de la non accessibilité de

certaines unités etc.

On se limite, donc, à l’étude d’une partie de la population dite

échantillon. On dit qu’on fait échantillonnage ou sondage.

Dépouillement des observations: c’est la façon de résumer et de

classer les données. Une technique assez répondue consiste en

l’utilisation d’un tableau de pointage.



Méthode d’observation (suite)

Exemple: On s’interesse au groupe sanguin de 40 malades, les

modalités retenues sont A, B, AB et O. Les résultats sont

A B B O O O AB A O O

A O O B AB AB B B O A

A O B O O O A AB O B

O A O B AB B AB B A O



Méthode d’observation (suite)

Le tri à plat des résultats donne lieu au tableau suivant:


Tableaux statistiques

Série statistique à une seule variable

Lorsque l’étude statistique d’une population concerne un seul

caractère (variable) on parle d’une Série statistique à une seule

variable (série statistique univariée)

La série univariée est organisée (résumée) dans un tableau dit

tableau des effectifs.


Tableaux statistiques Variable discrète

Variable discrète: effectifs

Définition

Soit E une population statistique et x une variable statistique qui prend

les valeurs isolées et ordonnées

x1 < x2 < . . . < xp

- p est le nombre des valeurs prises pa x ;

- ni effectif de xi est le nombre d’individus où x prend la valeur xi ;

- L’ensemble des couples (xi , ni)1≤i≤p est appelée série statistique

univariée ;

- L’effectif total n est le nombre des individus constituant E :

n :=

p∑

i=1

ni = n1 + n2 + . . .+ np.



Variable discrète : Exemple

Exemple 5:

Lors d’une enquête on a interrogé 50 employés afin de connaître le

nombre de personnes qu’ils avaient à charge.

Les données brutes sont:

0 3 1 4 3 0 4 1 3 1 5 2 4 2 3

3 2 5 5 2 4 2 2 2 4 1 1 2 3 5

1 0 3 3 4 5 1 2 1 2 3 2 2 2 4

0 3 0 2 2

Les données ordonnées sont

0 0 0 0 0 1 1 1 1 1 1 1 1 2 2

2 2 2 2 2 2 2 2 2 2 2 2 2 3 3

3 3 3 3 3 3 3 3 4 4 4 4 4 4 4

5 5 5 5 5



Variable discrète : Exemple (suite)

L’effectif total est n = 50

La série ordonnée est

x1 = 0, x2 = 1, x3 = 2x4 = 3, x5 = 4, x6 = 5.

Le nombre des valeurs prises par x est p = 6

Le tableau des effectifs est :

Valeurs xi Effectifs ni

0 5

1 8

2 15

3 10

4 7

5 5

Total 50



Variable discrète: fréquences

Definition

Soit (xi , ni)1≤i≤p une série statistique, associée à une population E

d’effectif total n.

La fréquence relative fi de la valeur xi est la proportion des

individus ayant le caractère xi dans la population E:

fi :=ni

n.

Le pourcentage pi de la valeur xi est la fréquence multipliée par

100:

pi := fi × 100.



Variable discrète: Exemple

Les fréquences et les pourcentages de la série des ‘personnes à

charge’ sont :

Valeurs xi Fréquences fi Pourcentages pi

0 0.10 10%

1 0.16 16%

2 0.30 30%

3 0.20 20%

4 0.14 14%

5 0.10 10%

Total 1 100%

Remarque

La fréquence relative et le pourcentage jouent le même rôle, sauf que

la dernière est agrandie en échelle pour éliminer la virgule et faciliter

l’interprétation.



Variable discrète: cumules

Definition

Soit (xi , ni)1≤i≤p une série statistique, associée à une population E

d’effectif total n.

L’effectif cumulé Ni associé à la valeur xi est l’effectif de toute les

valeurs de la variable inférieures ou égales à xi :

Ni :=i∑

j=1

nj = n1 + n2 + . . .+ ni .

La fréquence cumulée Fi de la valeur xi est la fréquence de

toute les valeurs du caractère inférieures ou égales à xi :

Fi :=i∑

j=1

fj = f1 + f2 + . . .+ fi =Ni

n.



Variable discrète: Exemple

Les effectifs cumulés et les fréquences cumulées de la série des

‘personnes à charge’ sont :

Valeurs Effectifs Fréquences Effectifs Fréquences

xi ni fi cumulés Ni cumulées Fi

0 5 0.10 5 0.10

1 8 0.16 13 0.26

2 15 0.30 28 0.56

3 10 0.20 38 0.76

4 7 0.14 45 0.90

5 5 0.10 50 1

Total 50 1 – –


Tableaux statistiques Variable statistique continue

Variable continue: classes

Lorsque la variable x est continue, on regroupe les valeurs de cette

variable dans des intervalles Ii , i = 1, . . . , p dits classes statistiques

de la forme :

−−−−x−

i

[ −−−−−−−xi

p −−−−−−−x+

i

[ −−−−

- p : le nombre de classes retenues ;

- Ii := [x−i , x+

i [ : la ième classe ;

- ai := x+

i − x−i : l’amplitude de Ii ;

- xi := (x+

i − x−i )/2 : le centre de Ii ;

- ni : effectif de la classe Ii , c’est le nombre d’individus ayant une

valeur de la variable incluse dans l’intervalle [x−i , x+

i [.



Variable continue: classes (suite)

Comment construire les classes?

- Logiquement, le minimum est inclus dans la première classe et le

maximum est inclus dans la dernière ;

- de préférence on utilise des classes de même amplitudes

- Le choix du nombre de classes p peut se faire selon la règle de

Sturges :

p ≈ 1 + log2(n).



Variable continue: Exemple

Exemple 2 (suite) : Les tailles exprimées en mètres des 120 sportifssont :

1.85 1.60 1.85 1.60 1.86 1.86 1.70 1.78 1.79 1.71 1.71 1.79

1.73 1.73 1.61 1.74 1.74 1.88 1.75 1.75 1.75 1.64 1.76 1.76

1.85 1.85 1.73 1.61 1.72 1.62 1.81 1.81 1.73 1.82 1.82 1.64

1.83 1.84 1.83 1.83 1.84 1.84 1.68 1.77 1.69 1.69 1.69 1.70

1.89 1.89 1.90 1.81 1.66 1.78 1.78 1.70 1.78 1.79 1.79 1.79

1.72 1.80 1.72 1.90 1.81 1.81 1.62 1.67 1.64 1.75 1.64 1.82

1.80 1.72 1.81 1.72 1.61 1.77 1.72 1.72 1.81 1.73 1.76 1.76

1.65 1.65 1.65 1.66 1.91 1.66 1.67 1.63 1.67 1.67 1.68 1.68

1.76 1.87 1.87 1.77 1.88 1.75 1.88 1.71 1.79 1.71 1.79 1.79

1.76 1.86 1.77 1.88 1.77 1.72 1.71 1.69 1.77 1.78 1.77 1.71



Variable continue: Exemple (suite)

La série ordonnée

1.60 1.60 1.61 1.61 1.61 1.62 1.62 1.63 1.64 1.64 1.64 1.64

1.65 1.65 1.65 1.66 1.66 1.66 1.67 1.67 1.67 1.67 1.68 1.68

1.68 1.69 1.69 1.69 1.69 1.70 1.70 1.70 1.71 1.71 1.71 1.71

1.71 1.71 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.73 1.73

1.73 1.73 1.73 1.74 1.74 1.75 1.75 1.75 1.75 1.75 1.76 1.76

1.76 1.76 1.76 1.76 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78

1.78 1.78 1.78 1.78 1.79 1.79 1.79 1.79 1.79 1.79 1.79 1.79

1.80 1.80 1.81 1.81 1.81 1.81 1.81 1.81 1.81 1.82 1.82 1.82

1.83 1.83 1.83 1.84 1.84 1.84 1.85 1.85 1.85 1.85 1.86 1.86

1.86 1.87 1.87 1.88 1.88 1.88 1.88 1.89 1.89 1.90 1.90 1.91

La règle de Sturges donne

p = 1 + log2(120) ≈ 1 + 3.3 log10(n) ≈ 8

L’amplitude fixe est donc

a = (1.92− 1.60)/8 = 4



Variable continue: Exemple (suite)

Le tableau des effectifs est

Classes Effectifs Fréquences Effectifs Fréquences

Ii ni fi cumulés Ni cumulées Fi

[1.60, 1.64[ 8 0.07 8 0.07

[1.64, 1.68[ 14 0.12 22 0.19

[1.68, 1.72[ 16 0.13 38 0.32

[1.72, 1.76[ 20 0.17 58 0.49

[1.76, 1.80[ 26 0.22 84 0.71

[1.80, 1.84[ 15 0.12 99 0.83

[1.84, 1.88[ 12 0.10 111 0.93

[1.88, 1.92[ 9 0.07 120 1

Total 120 1 – –

N. B. Le recours au regroupement des valeurs en classes peut se

faire, aussi, dans le cas discret, lorsque la variable prend un nombre

‘assez grand’ de valeurs.


Tableaux statistiques Caractère ordinal

Caractère ordinal

Le tableau est dressé suivant la même démarche que dans le cas

discret.

Exemple 6 : Une étude sur le niveau de diplôme des 25 managers

américains les mieux payés donne (Forbes May 17, 1999):

Top Noms Société Niveau de diplôme

1. Michael d. Eisner Walt Disney Bachelor

2. Mel Karmazin CBS Bachelor

3. Stephen C. Hilbert Conseco None

4. Millard Drexler Gap Master

5. John F. Welsch, Jr. General Electric Doctorat

. . .20. William R. Steere, Jr. Pfizer Bachelor

. . .25. Richard Jay Kogan Schering-Plough Master


Tableaux statistiques Caractère ordinal

Caractère ordinal (suite)

Tableau des effectifs:

Modalités : Effectifs Fréquences Effectifs Fréquences

Diplôme ni fi cumulés Ni cumulées Fi

None 1 0.04 1 0.04

Bachelor 7 0.28 8 0.32

Master 11 0.44 19 0.76

Doctorat 6 0.24 25 1

Total 25 1 – –


Tableaux statistiques Caractère nominal

Caractère nominal

Le tableau est dressé suivant la même démarche sauf que Les

modalités ne sont pas ordonnées.

Exemple 7: Selon The Nilson Report, Oct. 8, 1998, les 200 milliards

achats par carte de crédits effectués aux USA pendant le premier

semestre de l’année 1998 sont répartis selon la marque de la carte

utilisée comme suit :

- 36 milliards achats avec la carte American express

- 2 milliards achats avec la carte Diners club

- 12 milliards achats avec la carte Discover

- 50 milliards achats avec la carte Master card

- 100 milliards achats avec la carte Visa.


Tableaux statistiques Caractère nominal

Caractère nominal (suite)

Tableau des effectifs:

Modalités : Effectifs en milliard Fréquences Pourcentages

Marque ni fi pi

American express 36 0.18 18%

Diners club 2 0.01 1%

Discover 12 0.06 6%

Master card 50 0.25 25%

Visa 100 0.50 50%

Total 200 1 100%

N. B. Les modalités ne sont pas ordonnées, ainsi la notion de

cumule n’a pas de sens.


Représentations Graphiques

Utilité d’un graphe

Les graphes statistiques sont des figures (images) qui donnent

une idée générale sur les données dès le premier coup d’œil ;

Ils ont l’avantage de la qualité visuel ;

ils sont utilisées pour

resumer des données ;

explorer des données ;

exposer des résultats ;

médiatiser des résultats ;

comparer des situations. . .


Représentations Graphiques Cas d’une variable discrète

Cas d’une variable discrète: Diagramme en bâtons

Considérons la série discrète de l’Exemple 5: ‘les personnes à charge’.

Prenons un repère cartésien orthogonal, et représentons les valeurs

de la variable sur l’axe des abscisses et leurs effectifs sur l’axe des

ordonnées.

N. B. Sur l’axe des ordonnées, on peut mettre à la place des effectifsS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 29 / 117


Cas d’une variable discrète: Polygone des effectifs

La liaison des sommets des bâtons par des segments forme le

polygone des effectifs.



Cas d’une variable discrète: Courbe cumulative

Représentons les effectifs cumulés en définissant une courbe en

escalier de la fonction constante par morceaux définie par:

N(x) :=

0, x < x1;N1, x1 ≤ x < x2;...

Ni , xi ≤ x < xi+1;...

n, xp ≤ x .


Représentations Graphiques Cas d’une variable continue

Cas d’une variable discrète: Courbe cumulative (suite)



Cas d’une variable continue

Exemple 8: Le tableau suivant résume les salaires horaires en Dh de

250 employés d’une entreprise:

Classes Effectifs ni

[47, 52[ 10

[52, 57[ 30

[57, 60[ 60

[60, 63[ 72

[63, 67[ 40

[67, 77[ 38

Total 250



Cas d’une variable continue: Histogramme des effectifs

On représente sur l’axe des abscisses les classes [x−i , x+

i [, sur

lesquelles un rectangle de surface égale à l’effectif ni est dressé.

la base du rectangle ≡ amplitude de la classe = ai ;

l’hauteur du rectangle ≡ Effectif

Amplitude=

ni

ai.

Le nombre n∗i := ni/ai est appelé l’effectif corrigé associé à la

classe Ii ; on a corrigé les effectifs.

Classes Effectifs Amplitudes Effectifs Effectifs

Ii ni ai corrigés n∗

i cumulés Ni

[47, 52[ 10 5 2 10

[52, 57[ 30 5 6 40

[57, 60[ 60 3 20 100

[60, 63[ 72 3 24 172

[63, 67[ 40 4 10 212

[67, 77[ 38 10 3.8 250

Total 250 30 – –



Cas d’une variable continue: Histogramme des effectifs (suite)

N. B. Si les classes sont de mêmes amplitudes, on a pas besoin de

corriger les effectifs.



Cas d’une variable continue: Polygone des effectifs

On trace une ligne brisée reliant les points milieu des côtes supérieurs

des rectangles



Cas d’une variable continue: Histogramme des effectifs cumulés

On représente sur l’axe des abscisses les classes Ii et sur chaque

intervalle [x−i , x+

i [ un rectangle de hauteur égale à l’effectif cumulé Ni .



Cas d’une variable continue: Courbe cumulative

On interpole les effectifs cumulés par une ligne brisée joignant les

points d’abscisses (x+

i ,Ni).Plus précisément c’est la courbe représentative de la fonction affine

par morceaux définie par:

N(x) :=

0, x < x−;n1

a1(x − x−

1 ), x−1 ≤ x < x+

1 ;

N1 +n2

a2(x − x−

2 ), x−2 ≤ x < x+

2 ;

...

Ni−1 +ni

ai(x − x−

i ), x−i ≤ x < x+

i ;

...

n, x+p ≤ x .



Cas d’une variable continue: Courbe cumulative (suite)



Cas d’un caractère qualitatif: Graphique en secteurs

Reconsidérons l’Exemple 6: ‘le niveau de diplôme’. Dans un cercle on

trace des portions (ou secteurs) de surfaces proportionnelles aux

effectifs des modalités.

L’angle αi relatif à la ième modalité est, donc,

αi = 360◦ × fi .

Modalités : Fréquences Angles

Diplôme fi αi

None 0.04 14.4◦

Bachelor 0.28 100.8◦

Master 0.44 158.4◦

Doctorat 0.24 86.4◦

Total 1 360◦


Représentations Graphiques Cas d’un caractère qualitatif

Cas d’un caractère qualitatif: Graphique en secteurs

N. B. Lorsque le nombre de modalités retenues est petit, on peut

utiliser un graphe semi-circulaire, dans ce cas : αi = 180◦ × fi .S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 41 / 117


Cas d’un caractère qualitatif: Diagramme en barres

Il s’agit de rectangles de largeurs fixes et d’hauteurs ni .



Cas d’un caractère ordinal: Diagramme en barres cumulées

Contrairement au cas nominal, dans le cas d’un caractère ordinale

on peut envisager un diagramme représentant les effectifs cumulés. Il

s’agit de rectangles de largeurs fixes et d’hauteurs Ni .



Conclusions

1 Il existe d’autres types de graphiques : Diagramme en tiges

(Steam and leaf), Diagramme de Tukey, Cartographie, Pyramide

des âges, Graphiques de comparaison, etc.

2 Les graphes sont, donc, assez variés ; chaque graphe s’adapte à

une situation particulière.3 L’essentielle dans une représentation graphique est sa simplicité

et sa clarté, il faut donc :

inclure toutes les informations utiles à la compréhension du

graphique : titre, légende etc ;

éviter les informations, mentions et lignes inutiles ;

un graphique simple sera préféré à un graphique sophistiqué ;

choisir les unités et les axes de la manière la plus neutre possible, il

ne faut pas influencer le lecteur ;

comparer des graphiques ayant des unités communes.


Caractéristiques de position

Introduction

En pratique on est gêné en présence d’un grand nombre de

données

Si l’intégralité de ces valeurs forme l’information complète, il n’est

pas aisé de les manipuler ensemble

Il faut donc caractériser une variable statistique par un ensemble

de paramètres

Les plus utilisées sont les caractéristiques : de position, de

dispersion, de forme

Les caractéristiques de position nous renseignent sur la position

(l’emplacement sur R) de la variable statistique


Caractéristiques de position Mode et Classe modale

Mode

Définition

Soit (xi , ni)1≤i≤p une série statistique de caractère qualitatif ou

quantitatif discret.

Le mode est la valeur ou la modalité xj du caractère qui a le plus

grand effectif : max1≤i≤p

ni = nj

Exemple 5: Le mode de la série des ‘Personnes à charge’ est

x3 = 2 car max1≤i≤6

ni = 15 = n3

Graphiquement, le mode 2 est la valeur de la variable associé au

plus grand bâton dans le Diagramme en bâtons

Exemple 6: Le mode de la série des ‘Niveaux de diplômes’ est la

modalité ‘Masters’ car max1≤i≤4

ni = 11 = n3.

Graphiquement, le mode est la modalité associée au plus large

secteur dans le Diagramme en secteursS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 46 / 117


Classe modale

Définition

Soit (Ii , ni)1≤i≤p une série statistique continue. La classe modale Ijest la classe qui a le plus grand effectif corrigé :

max1≤i≤p

n∗i = n∗

j

Exemple 8: La classe modale de la série des ‘Salaires

horaires’est la classe I4 = [60, 63[ car max1≤i≤6

n∗i = 24 = n∗

4

Graphiquement, la classe modale est la modalité associée au plus

grand rectangle dans l’Histogramme des effectifs corrigés



Classe modale (suite)

Remarques

1 Lorsque les classe sont de même amplitudes alors la classe

modale est la classe qui a le plus grand effectif

Exemple 2: La classe modale de la série des ‘Tailles des sportifs’

est I5 = [176, 180[ car max1≤i≤8

ni = 26 = n5

2 Le mode (la classe modale) n’est pas nécessairement unique :

‘Défaut’ de cette caractéristique


Caractéristiques de position Moyenne arithmétique

Moyenne arithmétique

Soit {x1, . . . , xn} des données numériques brutes, alors leurs

moyenne arithmétique est

x :=1

n

n∑

i=1

xi .

Exemple: Soit l’échantillon {1, 1, 2, 2, 2, 2, 3, 3} alors

x =1

8(1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2

Les donnés peuvent aussi s’écrire comme série statistique

(valeur, effectif): (1, 2), (2, 4), (3, 2) et par suite

x =1

8(2× 1 + 4× 2 + 2× 3) = 2



Moyenne arithmétique (suite)

Définition

Pour une série discrète (x1, n1), (x2, n2), . . . (xp, np) la moyenne

arithmétique est

x =n1x1 + n2x2 + . . .+ npxp

n1 + n2 + . . .+ np.

Remarque

La formule ci dessus peut être écrite :

x =1

n

p∑

i=1

ni xi ou x =

p∑

i=1

fi xi




Exemple 5: la moyenne arithmétique de la série des ‘personnes à

charge’ est:

x =1

50×(5× 0 + 8× 1 + 15× 2 + 10× 3 + 7× 4 + 5× 5) = 2.42

Un salarié a en moyen environ 2.42 personnes à sa charge

Une série dont les modalités sont qualitatives ne possède pas de

moyenne arithmétique




Pour une série continue (Ii , ni)1≤i≤p, la moyenne arithmétique

définie de la même façon en retenant pour xi les centres des

classes IiExemple 2: Tableau de calcul de la moyenne

Classes Centres Effectifs Effectifs × centres

Ii xi ni ni × xi

[1.60, 1.64[ 1.62 8 12.96

[1.64, 1.68[ 1.66 14 23.24

[1.68, 1.72[ 1.70 16 27.2

[1.72, 1.76[ 1.74 20 34.8

[1.76, 1.80[ 1.78 26 46.28

[1.80, 1.84[ 1.82 15 27.00

[1.84, 1.88[ 1.86 12 22.32

[1.88, 1.92[ 1.90 9 17.10

Total – 120 211.02

x =211.02

120≈ 1.76 m


Caractéristiques de position Propriétés de la moyenne arithmétique

Propriétés de la moyenne arithmétique

1. La moyenne arithmétique se conserve par changement

d’origine et d’unité

x une variable statistique, x0 et d deux réels. Soit la variable u

issue de x par le changement d’origine et d’unité:

ui =xi − x0

di = 1, . . . , p

La moyenne arithmétique de u est:

u =x − x0

d.

L’utilité pratique est la facilité du changement d’unité



Propriétés de la moyenne arithmétique (suite)

2. La moyen arithmétique est associative

La moyenne globale d’une variable statistique sur l’agrégation de

plusieurs populations est la moyenne pondérée des moyennes

partielles

Soit Pa et Pb deux populations d’effectifs na et nb, x une v. s. de

moyennes arithmétiques xa et xb sur Pa et Pb respect.

La moyenne arithmétique de x sur l’agrégation des deux

populations P := Pa ∪ Pb est

x =naxa + nbxb

na + nb.

Les intérêts pratiques sont:La possibilité de calculer la moyenne globale sur une population

constitué de plusieurs groupes

La mise à jour facile de la moyenne dans le cas d’ajout d’une (des)

observation(s)




Exemple:

Le salaire moyen des huits 8 employés d’une entreprise est

x = 26585

Si l’entreprise recrute deux nouveaux employés qualifiés dont le

revenu moyen est 100 000 Dh

Le nouveau revenu moyen des employés x ′ est

x ′ =8× 26585 + 2× 100000

8 + 2= 41 268 Dh




3. La moyenne arithmétique est sensible à la présence des

valeurs aberrantes

Une valeur aberrante est une valeur qui n’est pas du même ordre

de grandeur que la plus part des autres observations

Exemple:

Échantillon {1, 1, 2, 2, 2, 2, 3, 3} −→ x = 2Échantillon {1, 1, 2, 2, 2, 2, 3, 300} −→ x = 39.125.

Cette propriété est en faite un ‘défaut’ de la moyenne arithmétiquePour y remédier, on peut éliminer 10% des plus grandes et 10%des plus petites valeurs de la variable



Autres moyennes

Définition

Soit r un nombre rationnel non nul (r ∈ Q∗). On appelle moyenne

d’ordre r de la série statistique (xi , ni)1≤i≤p la quantité

[

1

n

p∑

i=1

nixri

]1/r

Ainsi, Selon la valeur du paramètre r , on définit plusieurs moyennes :



Autres moyennes (suite)

Paramètre Moyenne Formule

r = −1 Moyenne harmonique xh = n/

p∑

i=1

ni

xi

r ≈ 0 Moyenne géométrique xg =

[

p∏

i=1

xni

i

]1/n

r = +1 Moyenne arithmétique x =1n

p∑

i=1

nixi

r = +2 Moyenne quadratique xq =

[

1n

p∑

i=1

nix2i

]1/2

.



Autres moyennes (suite)

Chacune des moyennes est appropriée à une situation déterminée:

La Moyenne géométrique pour le calcul de la moyenne des taux

de croissance et des indices

N. B.

log (xg) =1

n

p∑

i=1

ni log (xi)

Ainsi, la moyenne géométrique n’est rien d’autre que l’exponentiel

de la moyenne arithmétique des logarithmes des données

La moyenne harmonique est utilisée pour calculer des moyennes

de performances unitaires: vitesses moyenne (km/h),

consommation (l/km), coût unitaire (Dh/tonne) ...


Caractéristiques de position Quantiles

Médiane

Définition

La médiane est une valeur du caractère, notée x1/2 (ou Me),

partageant une série ordonnée en deux sous ensembles à tailles

égales.

Exemple 1: Données brutes Deux situations s’imposent suivant le

nombre d’observation n:

n impairs : {3, 5, 7, 9 , 10, 11, 12}. 9 est la valeur médiane, car il

y’a autant d’observations inférieures à 9 que d’observations

supérieures à 9

n pairs : {3, 5, 7, 9, 10 , 11, 12, 13}. On parle d’un Intervalle

Médian [9, 10] et on retient le plus souvent comme estimation de

la médiane le centre de cet intervalle x1/2 = 9.5



Médiane d’une série statistique discrète

S’il existe une valeur xj telle que Nj = n/2 alors

x1/2 =xj−1 + xj

2

Sinon, la valeur médiane est la plus petite valeur xj dont l’effectif

cumulé dépasse la moitié de l’effectif total:

x1/2 = xj ⇔ Nj−1 < n/2 ≤ Nj .Exemple 2: La grille des salaires pour 100 personnes est

Salaires Effectifs ni Effectifs cumulés Ni

1000 25 25

1800 45 70

2200 30 100

Total 100 –

Le premier effectif cumulé qui dépasse n/2 = 50 est N2 = 70

⇒ x1/2 = x2 = 1800



Médiane d’une variable continue

Exemple 3: Considérons par exemple la distribution des salaires

observés en continu:Salaires Effectifs ni Effectifs cumulés Ni

[1000, 2000[ 20 20

[2000, 4000[ 50 70

[4000, 6000[ 30 100

Total 100 –

La détermination de x1/2 se fait en deux étapes:1 Détermination de la classe médiane Im := [x−

m , x+m [ : c’est la

première classe dont l’effectif cumulé dépasse n/2La classe médiane est I2 = [2000− 4000[ ; ⇒ x1/2 ∈ Im = I2

2 Détermination de la valeur médiane par une interpolation linéairesuivant la formule suivante:

x1/2 = x−

m + (x+

m − x−

m )× n/2− Nm−1

Nm − Nm−1(1)



La méthode d’interpolation



La méthode d’interpolation (suite)

On trace la courbe cumulative N(x) (une fonction linéaire par

morceaux)

On localise sur l’axe des abscisses la valeur antécédente de la

valeur n/2 sur l’axe des ordonnées ; cette valeur est la médiane

On remarque que les deux triangles ABB1 et ACC1 sont

semblables et par conséquent les rapports des côtés sont égaux:

AC1

AB1=

CC1

BB1⇔

x1/2 − x−m

x+m − x−

m

=n/2− Nm−1

Nm − Nm−1

d’où la relation (1)

⇒ la médiane de la série des salaires est

x1/2 = 2000 + (4000− 2000)× 50− 20

70− 20= 3 200 Dh



Quantiles

Définition

Soit α ∈]0, 1[. On appelle quantile d’ordre α la valeur xα de la

variable telle que au moins 100 ∗ α% des observations sont inférieures

ou égales à xα .

Remarques

1 Il y’a au moins 100 ∗ (1− α)% des observations qui sont

supérieures ou égales à xα2 La médiane est un quantile particulier d’ordre α = 0.5



Quantiles (suite)

Empiriquement, les quantiles sont des valeurs qui partagent la

série en plusieurs sous-groupes de tailles égaux

Résumons les quantiles usuels :

Quantiles Ordres α Notations Sous-groupes

Médiane 0.5 Me 2× 50%Quartiles (0.25, 0.50, 0.75) (Q1,Q2,Q3) 4× 25%Deciles (0.10, 0.20, . . . , 0.90) (D1, . . . ,D9) 10× 10%Centiles (0.01, 0.02, . . . , 0.99) (C1, . . . ,C99) 100× 1%



Quantiles (suite)

La détermination du quantile xα est identique à celle de la médiane :

1 Détermination de la classe Im := [x−m , x+

m [ qui inclue le quantile:

c’est la première classe dont l’effectif cumulé dépasse α ∗ n

2 Détermination du quantile d’ordre α par l’interpolation linéaire :

xα = x−m + (x+

m − x−m )× α n − Nm−1

Nm − Nm−1. (2)



Quantiles (suite)

Déterminons les quartiles Q1,Q2,Q3

Premier quartile Q1 = x1/4. On a α n = 0.25× 100 = 25

Le premier effectif cumulé dépassant 25 est N2 = 70 ainsi

Q1 ∈ I2 = [2000, 4000[ :

Q1 = 2000 + (4000− 2000)× 25− 20

70− 20= 2 200 .

Deuxième quartile Q2 = x1/2. C’est la médiane! Q2 = 3 200

Troisième quartile Q3 = x3/4. On a α n = 0.75× 100 = 75

Le premier effectif cumulé dépassant 75 est N3 = 100 ainsi

Q3 ∈ I3 = [4000, 6000[

Q3 = 4000 + (6000− 4000)× 75− 70

100− 70≈ 4 333.33 .



Représentation graphique : Boîte à Moustaches

Exemple: Distributions de salaires dans le secteur privé et le secteur

public en France :



Boîte à Moustaches (suite)

Définition

La boîte à Moustaches est un rectangle dont : deux côtés sont

délimités par les valeurs Q1 et Q3.

Deux segments sortent des deux côtés du rectangle et sont délimitées

par les valeurs D1 et D9

Un segment à l’intérieur du rectangle représente la valeur de la

médiane

Deux points en dessous et au dessus de la boîte à moustaches

représentent les valeurs Minimum et Maximum

La Boîte à Moustaches (Box Plot), dite aussi Diagramme de

Tukey, est un graphique synthétique qui permet de représenter :

la médiane, les quartiles et les deciles

il rend compte du niveau d’asymétrie, de la dispersion et des

valeurs extrêmes de la série


Caractéristiques de position Conclusions

Conclusions

1 Le tableau ci-dessous résume les paramètres de positionenvisageable en fonction du type de la variable étudiée :

Quantitative Ordinale Nominale

Moyenne OUI NON NONMédiane OUI OUI NONQuantiles OUI OUI NONModes OUI OUI OUI

2 Le choix d’un paramètre de position dépend de l’objectif del’étude

Le lendemain des élections législatives, on cherche à savoir quel

est le groupe parlementaire majoritaire, c. à. d. le mode du voteLa connaissance des deciles d’une série des tailles clients est plus

utile à une entreprise de confection de vêtement que la

connaissance de leurs taille moyenne


Caractéristiques de dispersion

Introduction

On peut remarquer que deux séries statistique peuvent avoir la

même valeur centrale mais se différencient par la dispersion des

valeurs observées autour de cette dernière

Exemple : Les distributions des salaires des employés dans les

secteurs privé et public sont représentées ci-dessous :



Introduction (suite)



Introduction (suite)

Remarquons que les salaires moyens dans le privé et le public

sont équivalents

Dans le privé il y a une proportion non négligeable qui gagne bien

plus que la moyenne et une autre proportion qui gagne bien

moins que la moyenne

Dans le public, en revanche, les salaires sont plus concentrés

autour de la moyenne

On ne peut avoir une idée de la distribution avec seulement la

moyenne. Une mesure supplémentaire sur la dispersion autour de

cette moyenne doit aussi être donnée

Tout comme il existe plusieurs valeurs centrales (mode, moyenne,

médiane), il existe aussi plusieurs mesures de dispersion.


Caractéristiques de dispersion Étendue

Étendue

Définition

L’étendue, noté E , est la différence entre la plus grande et la pluspetite valeur de la variable :

E := maxi

(xi)−mini

(xi).

Exemple: L’étendue de la série des ‘personnes à charge’ est

E = 5− 0 = 5

Exemple: L’étendue de la série des ‘tailles de sportifs’ est

E = 1.91− 1.60 = 0.31m

L’étendue permet d’avoir une idée de grandeur sur la portée d’unevariable statistique


Caractéristiques de dispersion Étendue

Étendue (suite)

Cependant il présente le désavantage de ne pas tenir compte detoutes les observations et d’être particulièrement sensible auxvaleurs aberrantesEn effet les deux échantillons

E1 := {3, 10, 23, 32, 54, 80, 90} et E2 := {3, 20, 21, 23, 25, 26, 90}

ont le même étendue : E = 87, cependant leurs dispersions sontlargement différentes


Caractéristiques de dispersion Écarts inter-quantiles

Écarts inter-quantiles

Définition

Un écart inter-quantiles est égal à la différence entre deux quantiles

symétriques par rapport à la médiane, c. à. d. pour 0 < α < 1/2

l’écart est

x1−α − xα.

Pour α = 1/4, on a un seul écart interquartile:

EI := x3/4 − x1/4 = Q3 −Q1

pour α = 1/10, 2/10, 3/10, 4/10, on a quatre écarts inter-deciles:

D9 − D1, D8 − D2, D7 − D3, D6 − D4



Écarts inter-quantiles (suite)

Dans un Diagramme en Boites à Moustaches on peut lire les

écarts, particulièrement importants, Q3−Q1 et D9− D1

Ils présentent une mesure alternative à l’étendue, puisqu’ils ne

tiennent pas compte des valeurs maximales et minimales pouvant

être aberrantes

Remarque

L’écart interquartile est généralement utilisé pour détecter l’existence

éventuelle des valeurs aberrantes

Plusieurs logiciels comme le SPSSr, considèrent comme valeur

aberrante toute valeur x∗ qui se trouve à l’extérieur de l’intervalle

[Q1 − 1.5 ∗ EI,Q3 + 1.5 ∗ EI].




Exemple : Les résultats (sur 100) de 10 étudiants pour 7 cours sontprésentés dans le tableau suivant :




Classement par ordre croissant des 7 cours selon la dispersion desrésultats: C6, C7, C2, C4, C3, C5 et C1


Caractéristiques de dispersion Écart moyen absolu et Écart médian absolu

Écart moyen absolu

Considérons une valeur centrale comme par exemple la moyennex

Une forte concentration des observations autour de x se traduitpar des écarts |xi − x | faibles et inversement

Une façon de mesurer la dispersion est, donc, le calcul de la

moyenne de ces écarts


Caractéristiques de dispersion Écart moyen absolu et Écart médian absolu

Écart moyen absolu (suite)

Définition

Soit (xi , ni)1≤i≤p une série statistique quantitative.1 L’écart moyen absolu, noté em, est défini par :

em :=1n

p∑

i=1

ni |xi − x |.

2 L’écart médian absolu, noté e∗m, est défini par :

e∗m :=

1n

p∑

i=1

ni |xi − x1/2|.

N. B. Ces écarts représentent l’inconvenient de n’être pas analytique à

cause de la valeur absolue : fonction non derivable et peu commode

pour les calculsS., El Melhaoui (FSJESO) Série statistique univariée 10/2015 82 / 117

Caractéristiques de dispersion Variance et Écart-type

Variance et Écart-type

La remplacement de la valeur absolue par le carré, donne lieu à une

valeur typique de la dispersion dite la variance

Définition

La variance, notée S2, d’une variable statistique est définie par

S2 :=1

n

p∑

i=1

ni (xi − x)2.

Contrairement à l’étendue et aux quartiles, la variance permet de

combiner toutes les valeurs à l’intérieur d’un ensemble de données

afin d’obtenir la mesure de dispersion.



Variance et Écart-type (suite)

Théorème de Konig Huyghens

La variance est égale à la moyenne des carrés moins le carré de la

moyenne.

S2 =

(

1

n

p∑

i=1

ni x2i

)

− x2.

Preuve : Soit (xi , ni)1≤i≤p une série statistique quantitative.

S2 =1

n

p∑

i=1

ni (xi − x)2.

=1

n

p∑

i=1

ni (x2i − 2 xi x + x2)

=1

n

p∑

i=1

ni x2i − 2x

1

n

p∑

i=1

nixi + x2 1

n

p∑

i=1

ni




Commep∑

i=1

ni = n et 1n

p∑

i=1

nixi = x alors

S2 =1n

p∑

i=1

ni x2i − 2x2 + x2

=1n

p∑

i=1

ni x2i − x2.

�

Remarque

Il est plus facile d’appliquer la formule de Konig Huyghens ; Ellepermet d’éviter la cumulation des erreurs d’arrondis




La variance S2 s’exprime en carré de l’unité de la variable

Afin de revenir à l’unité de la variable on définit L’écart-type, noté

S, comme étant la racine carrée de la variance :

S :=√

S2.




Exemple: L’écart-type de la série des ‘Tailles des sportifs’ peut être

obtenue en utilisant le tableau suivant:

Ii xi ni ni × xi ni × x2i

[1.60, 1.64[ 1.62 8 12.96 21.00

[1.64, 1.68[ 1.66 14 23.24 38.58

[1.68, 1.72[ 1.70 16 27.2 46.24

[1.72, 1.76[ 1.74 20 34.8 60.55

[1.76, 1.80[ 1.78 26 46.28 82.38

[1.80, 1.84[ 1.82 15 27.00 49.69

[1.84, 1.88[ 1.86 12 22.32 41.52

[1.88, 1.92[ 1.90 9 17.10 32.49

Total – 120 211.02 372.43

Ainsi, x = 211.02/120 ≈ 1.76, S2 = (372.43/120)− 1.762 ≈ 0.0006 et

S =√

0.0006 ≈ 0.078 m



Propriétés de l’écart type

1 L’écart-type ainsi que la variance ne sont jamais négatif. Ilssont nulles si et seulement si toutes les valeurs de la variable sontégales, c. à. d. quand il y’a pas de variation

2 L’écart-type est sensible aux valeurs aberrantes. Une seule

valeur aberrante peut accroître l’écart-type et, par le fait même,

déformer le portrait de la dispersion. Il peut être donc un bon

indicateur aussi de valeurs aberrantes3 L’écart-type est invariant par changement d’origine. Soit x

une variable statistique, x0 et d deux réels et u est la variable

issue de x par le changement d’origine et d’unité suivant:

ui =xi − x0

di = 1, . . . , p.

Alors, la variance et l’écart-type de u sont respectivement

S2u =

S2x

d2et Su =

Sx

|d | .S., El Melhaoui (FSJESO) Série statistique univariée 10/2015 88 / 117

Caractéristiques de dispersion Coefficient de variation

Coefficient de variation

Lorsque les moyennes ne sont pas de même ordre de grandeurou lorsque ils n’ont pas les même unités, pour comparer lesécarts types il faut les exprimer par rapport à la moyenne

Il faut comparer des écarts types unitaires d’où l’introduction ducoefficient de variation, noté CV ,

CV :=S

x

Le coefficient de variation est une mesure de la dispersionrelative; il est adimensionnel (nombre sans unité) : on peutl’exprimé en pourcentage


Caractéristiques de dispersion Coefficient de variation

Coefficient de variation (suite)

Exemple : La demande d’importation sur une période de 30 ans estrésumée dans le tableau ci dessous :

France Allemagne Canada États Unis(euro) (euro) ($ Can.) (euros conv)

Moyenne 5 5 6 100Écart type 2.5 1 3 10CV 50% 20% 50% 10%

Comparaison entre séries France et Allemagne : Même moyenne,même monnaie : la dispersion est plus grande pour la FranceComparaison entre séries France et U.S : écart type des US(monnaie déjà convertit en euros) est plus grand. Mais, lademande moyenne d’importation est beaucoup plus grande aussipour les États UnisAfin de comparer ces dispersions il faut, donc, utiliser les CV ; onvoit que la dispersion relative des États Unis est la plus faible


Caractéristiques de forme Forme particulière : Distribution Normale

Quelques formes des distributions statistiques



Quelques formes des distributions statistiques (suite)



Une distribution particulière : la normale

Afin de caractériser la forme d’une distribution d’une série, sansavoir à la tracer pour autant, nous choisissons distribution de‘référence’ dite distribution Normale ou Gaussienne

Il s’agit d’une distribution très populaire introduite par Laplace

pour approcher la répartition des erreurs de mesures

C’est une distribution symétrique sous forme de cloche, avec ununique mode (uni modale), dont la moyenne est égale à lamédiane et au mode (x = x1/2 = Mode)

La fonction de densité d’une normale standard est

f (x) =1√2π

e−x2/2



La forme d’une distribution normale


Caractéristiques de forme Moments Centrés

Moments Centrés

Afin de distinguer les formes des distributions statistiques on

utilise des statistiques dites moments centrés

Définition

Soient (xi , ni)1≤i≤p une série statistique et r ∈ Q. Le moment centré

d’ordre r s’écrit :

mr :=1

n

p∑

i=1

ni(xi − x)r .

Pour r = 1, le moment centré d’ordre 1 est nul : m1 = 0

Pour r = 2, le moment centré d’ordre 2 n’est rien d’autre que la

variance m2 = S2


Caractéristiques de forme Caractéristiques de forme

Symétrie et Asymétrie

On distingue 3 types de distribution selon leurs asymétries par rapport

à la moyenne

1 Distribution symétrique par rapport à la moyenne: Figure 1

2 Distribution dissymétrique à gauche : Figure 2

3 Distribution dissymétrique à droite : Figure 3



Figure 1: Distribution symétrique



Figure 2: Distribution dissymétrique à gauche



Figure 3: Distribution dissymétrique à droite



Caractérisation de l’asymétrie

Le paramètre qui caractérise l’asymétrie d’une distribution(xi , ni)1≤i≤p est m3 le moment centré d’ordre 3

On constate que pour une distribution

dissymétrique à gauche : m3 > 0symétrique : m3 = 0dissymétrique à droite : m3 < 0.



Caractérisation de l’asymétrie (suite)

Exemple: Calcul de m3 de la distribution ci dessous

m3 =1

28[3(1− 3)3 + 6(2− 3)3 + 10(3− 3)3 + 6(4− 3)3 + 3(5− 3)3]

=1

28[−24 +−6 + 0 + 6 + 24] = 0.



Coefficient d’asymétrie de Fisher

Le moment m3 est invariant par un changement d’origine; mais il

dépend des unités choisies

Pour cela Fisher a introduit un coefficient adimensionnel

Définition

Le Coefficient d’asymétrie de Fisher (Skewness) est définit par

γ :=m3

S3,

où m3 est le moment centré d’ordre 3.



Coefficient d’asymétrie de Fisher : Exemple

Exemple: Considérons la distribution ci dessous



Calcul du coefficient d’asymétrie de Fisher

xi ni ni xi (xi − x) (xi − x)2 ni (xi − x)2 ni (xi − x)3

1 12 12 -1.5 2.25 27 -40.500

2 18 36 -0.5 0.25 4.5 -2.250

3 10 30 0.5 0.25 2.5 1.250

4 5 20 1.5 2.25 11.25 16.875

5 3 15 2.5 6.25 18.75 46.875

6 2 12 3.5 12.25 24.5 85.750∑

50 125 – – 88.5 108 > 0

Grâce au Tableau ci dessus on trouve :

x = 125/50 = 2.5 ; S3 =(

√

88.5/50)3

≈ 2.35

m3 = 108/50 = 2.16 ; γ ≈ 2.16/2.35 ≈ 0.92 > 0

En conclusion, la distribution est dissymétrique à gauche



Mesure de l’aplatissement

L’aplatissement d’une distribution est basé sur le m4: moment

centré d’ordre 4

Définition

(i) Le Coefficient d’aplatissement de Pearson : η :=m4

S4

(ii) le Coefficient d’aplatissement de Fisher (Kurtosis) : β :=m4

S4− 3.

Pour la distribution normale : η = 3 et β = 0

Prenons l’aplatissement d’une normale comme ‘reference’, ainsi

une distribution est :

aplatie : β < 0 ;normale : β = 0 ;effilée : β > 0.



Mesure de l’aplatissement: Exemple


Caractéristiques de concentration Courbe de Lorenz

Courbe de Lorenz

La variance ou le coefficient de variation mesurent la

concentration des valeurs autour de la moyenne

Lorsque la distribution est asymétrique, ces mesures ne sont pas

entièrement satisfaisantes. Les statisticiens ont alors développédes indices spécifiques pour mesurer la concentration

Prenons le cas de la distribution des revenus. C’est unedistribution asymétrique avec peu de personnes dans les classesde revenus élevésEn 1905 Max Otto Lorenz a proposé un graphique spécial pourreprésenter la concentration des richesses :◮ en abscisse on met le pourcentage cumulé de la population

associée à la classe i

◮ en ordonnée le pourcentage cumulée des richesses de la classe i



Courbe de Lorenz: Exemple

Exemple: Le revenu journalier de 10 employés est distribué selon le

tableau suivant :

Revenu Effectifs

Classe Ii ni

[90, 150[ 5

[150, 250[ 3

[250, 550[ 2

Total 10



Courbe de Lorenz: Exemple (suite)

Calculons les pourcentages cumulés des employés et ceux cumulés

des salaires :

1 pi est le pourcentage de Ii , et PiPiPi son cumule

2 ni × xi est la masse salariale attribuée au individus de la classe Ii3∑

i ni × xi = 2000 est la masse salariale totale

4 qi := 100× ni .xi/∑

i xi .ni est le pourcentage de la masse

salariale attribuée au individus de la classe Ii5 QiQiQi le cumule de qi

Classe Ii xi ni pi Pi ni × xi qi Qi

[90, 150[ 120 5 50% 50% 600 30% 30%[150, 250[ 200 3 30% 80% 600 30% 60%[250, 550[ 400 2 20% 100% 800 40% 100%

Total – 10 100% – 2000 100% –



Courbe de Lorenz (suite)

La courbe de Lorenz est la courbe représentative du Qi en fonction

du Pi : c’est le polygone joignant les points Mi(Pi ,Qi)



Courbe de Lorenz (suite)

Si touts les individus percevaient le même salaire, on obtiendraitla première bissectrice : ligne d’égalité parfaite (impossible en

réalité!!)

La surface entre la bissectrice et la courbe représente (surface

colorée) est la surface de concentration

Lorsque la répartition devient plus inégale la surface de

concentration augmente


Caractéristiques de concentration Indice de Gini

Indice de Gini

En 1912, le statisticien Corrado Gini a proposé un indice, noté I,

pour mesurer le degré d’inégalité dans la distribution des

richesses

Il est calculé en prenant le rapport entre SOADC la surface du

polygone OADC et SOAB la surface du triangle OAB :

I :=Aire de concentration

Aire du triangle OAB=

SOADC

104/2.

Il est évident que 0 ≤ I ≤ 1

Si la distribution est égalitaire, la courbe de Lorenz suit la

diagonale et alors l’indice de Gini est égal à 0

L’inégalité la plus forte est obtenue lorsque la courbe de Lorenz

est OAB ; dans ce cas Pi accroît beaucoup plus vite que Qi et

l’indice de Gini est égal à 1


Caractéristiques de concentration Indice de Gini

Indice de Gini (suite)

La formule analytique de l’indice de Gini est

I = 1− 10−4

p∑

i=1

(Pi − Pi−1)(Qi−1 + Qi)

où P0 = Q0 = 0Calcul du coefficient de Gini dans l’exemple

Classe Ii xi ni pi Pi ni × xi qi Qi

[90, 150[ 120 5 50% 50% 600 30% 30%[150, 250[ 200 3 30% 80% 600 30% 60%[250, 550[ 400 2 20% 100% 800 40% 100%Total – 10 100% – 2000 100% –

I = 1− [50 ∗ 30 + (80− 50) ∗ (30 + 60) + (100− 80) ∗ (100 + 60)]

104= 0.260.260.26

L’indice de concentration de Gini n’a de sens que pour les variables

cumulable : richesse, revenu, salaire, consommation....


Caractéristiques de concentration La médiale

La médiale

Définition

La médiale est la valeur du caractère pour laquelle les individus dont

le caractère est inférieur à la médiale se partagent 50% de la masse

totale des richesses.

Rappel: La médiane est la valeur du caractère pour laquelle les

individus dont le caractère est inférieur à la médiane forment 50%de la masse population

La position de la médiale par rapport à la médiane est un

indicateur de concentration



La médiale (suite)

Si la médiane est inférieure à la médiale (Me < MI) alors 50% de

la population partagent moins de 50% de la masse salariale

Tandis que dans une situation imaginaire ou tous les individus

percevraient un salaire identique alors la médiane serait égale à la

médiale (Me = MI)

Par conséquent plus l’écart entre la médiane et la médiale est

important plus la distribution est inégalitaire

La détermination de MI se fait en deux étapes :1 Détermination de la classe médiale : celle qui inclue la médiale.

La classe médiale Im := [x−

m , x+m [ c’est la première classe dont le

cumule Qi dépasse 50%2 Détermination de la valeur médiale par une interpolation linéaire:

MI = x−

m + (x+

m − x−

m )× 50%−Qm−1

Qm −Qm−1

.



La médiale (suite)

La détermination de MI de la série de l’exemple précédent

1 la classe médiale est I2 := [150, 250[ car Q2 est le premier qui a

dépassé 50%

2 l’interpolation linéaire donne

MI = 150 + (250− 150)× 50− 30

60− 30≈ 217Dh

La médiane Me = 150 Dh, ainsi MI −ME = 217− 150 = 67 > 0

distribution des salaires est non égalitaires.



La médiale (suite)


chapitre 1: série statistique à une seule variable

Documents