universitÉparisouestnanterreladÉfense...

21
UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2017 – 2018 L1 Économie Cours de B. Desgraupes Statistiques Descriptives Séance 05: Indicateurs de forme et de concentration Table des matières 1 Introduction 1 2 Moments d’ordre p 1 2.1 Moments simples ........................... 2 2.2 Moments centrés ........................... 3 3 Comparaison des indicateurs de tendance centrale 4 4 Indicateurs de forme 6 4.1 Coefficients d’asymétrie ....................... 6 4.2 Coefficients d’aplatissement ..................... 8 5 Indicateurs de concentration 12 5.1 Médiane et médiale .......................... 12 5.2 Écart à la médiale .......................... 14 5.3 Courbe de Lorenz ........................... 15 5.4 Coefficient de Gini .......................... 17 6 Exercices 20 1 Introduction Dans cette séance, nous allons étudier des indicateurs de forme et des indicateurs de concentration. Les indicateurs de forme permettent de décrire et de mesurer les caractéris- tiques de la courbe de fréquences d’une distribution. L’allure de cette courbe renseigne sur la manière dont les densités sont réparties. Les caractéristiques principales sont le degré d’asymétrie et le degré d’aplatissement. Les indicateurs de concentration concernent la manière dont sont réparties les masses par rapport aux effectifs. On les utilise beaucoup en économie dans les analyses de répartition de ressources ou de richesses. 1

Upload: dinhdung

Post on 26-Jul-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSEU.F.R. SEGMI Année universitaire 2017 – 2018L1 Économie Cours de B. Desgraupes

Statistiques Descriptives

Séance 05: Indicateurs de forme et de concentration

Table des matières1 Introduction 1

2 Moments d’ordre p 12.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Comparaison des indicateurs de tendance centrale 4

4 Indicateurs de forme 64.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . 64.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . . . . . 8

5 Indicateurs de concentration 125.1 Médiane et médiale . . . . . . . . . . . . . . . . . . . . . . . . . . 125.2 Écart à la médiale . . . . . . . . . . . . . . . . . . . . . . . . . . 145.3 Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 155.4 Coefficient de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6 Exercices 20

1 IntroductionDans cette séance, nous allons étudier des indicateurs de forme et des indicateursde concentration.

Les indicateurs de forme permettent de décrire et de mesurer les caractéris-tiques de la courbe de fréquences d’une distribution. L’allure de cette courberenseigne sur la manière dont les densités sont réparties.

Les caractéristiques principales sont le degré d’asymétrie et le degré d’aplatissement.Les indicateurs de concentration concernent la manière dont sont réparties

les masses par rapport aux effectifs. On les utilise beaucoup en économie dansles analyses de répartition de ressources ou de richesses.

1

Page 2: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

2 Moments d’ordre p

Les moments sont des quantités qui étendent la notion de moyenne et celle devariance.

La moyenne est essentiellement une quantité linéaire (c’est-à-dire de degré1) et la variance une quantité quadratique (c’est-à-dire de degré 2).

Les moments constituent une généralisation aux degrés supérieurs. Ils ontune grande importance théorique en probabilités et fournissent des informationstrès utiles dans l’exploration des données statistiques.

On distingue :

1. les moments simples ;

2. les moments centrés.

On les définit pour un ordre particulier p où p est un nombre entier positif.

2.1 Moments simplesLes moments simples d’ordre p correspondent à une moyenne des puissances p.

Définition 2.1. Le moment simple d’ordre p d’une variable statistique x est lamoyenne (arithmétique !) des puissances p-ièmes des valeurs observées.

Si les données sont écrites sous forme exhaustive, la formule mathématiquedu moment simple d’ordre p est :

Mp =1

N

N∑i=1

xpi

Si les données sont regoupées sous forme de tableau d’effectifs de la forme :

Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

La formule s’écrit :

Mp =n1 × vp1 + n2 × vp2 + · · ·+ nk × vpk

N=

1

N

k∑i=1

ni vpi

avec N = n1 + n2 + · · ·+ nk.

Avec un tableau de fréquences, la formule s’écrit :

Mp =

k∑i=1

fi vpi

2

Page 3: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Les moments d’ordre p sont exprimés dans l’unité des données élevée à lapuissance p : par exemple, si les x sont des quantités en mètres, le momentd’ordre 3 sera en mètres cubes.

Remarque : les moments simples d’ordre p ne doivent donc pas être confon-dus avec des moyennes d’ordre p : dans ces dernières, on prend la puissance 1/pdu tout pour se retrouver dans la même unité que les données.

Dans le cas particulier où p = 1, on retrouve la moyenne arithmétique. DoncM1 = x̄.

Dans le cas particulier où p = 2, on obtient le carré de la moyenne quadra-tique. Donc M2 = m2

2.La formule développée de la variance (moyenne des carrés moins carré de la

moyenne) peut s’écrire avec les moments de la manière suivante :

Var(x) = M2 −M21

2.2 Moments centrésLes moments centrés sont les moments simples appliqués aux écarts par rapportà la moyenne. Autrement dit, on remplace les valeurs xi par xi − x̄ dans lesformules précédentes. On les note au moyen de la lettre grecque µ (qui se litmu).

Les formules mathématiques sont donc (selon que les données sont exhaus-tives ou regroupées) :

µp =1

N

N∑i=1

(xi − x̄)p

µp =1

N

k∑i=1

ni (vi − x̄)p =

k∑i=1

fi (vi − x̄)p

où x̄ = 1N

∑Ni=1 xi = 1

N

∑Ni=1 nivi =

∑Ni=1 fivi.

• Cas particulier où p = 1On calcule :

µ1 =1

N

N∑i=1

(xi − x̄)

=1

N

N∑i=1

xi −1

N

N∑i=1

= x̄− 1

N×N × x̄

= x̄− x̄ = 0

Donc le moment centré d’ordre 1 est toujours nul !

3

Page 4: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

On interprète ce résultat en disant que les écarts à gauche de la moyenne(écarts par défaut) compensent exactement les écarts à droite (écarts par excès).• Cas particulier où p = 2

µ2 =1

N

N∑i=1

(xi − x̄)2

Donc le moment centré d’ordre 2 n’est autre que la variance !On a donc : µ2 = Var(x).La formule développée de la variance conduit à la relation :

µ2 = M2 −M21

Il existe des formules (rapidement compliquées !) qui relient les momentscentrés d’ordre p et les moments simples d’ordre inférieur ou égal à p.

Exercice

Trouver une formule exprimant µ3 en fonction de M1, M2 et M3.Solution : µ3 = M3 − 3M1M2 + 2M3

1 .

• Exemple

On considère les données suivantes concernant une variable discrète V pou-vant prendre les valeurs 0, 1, 2, 3, 4 :

Valeurs 0 1 2 3 4Effectifs 16 19 28 22 15

Calculer les moments simples et les moments centrés d’ordres 1, 2, 3 et 4.Résultats de l’exemple précédent :

p Moments simples Moments centrés1 2.01 02 5.69 1.653 17.97 -0.104 60.89 5.37

3 Comparaison des indicateurs de tendance cen-trale

On a vu trois indicateurs de tendance centrale : le mode, la médiane et lamoyenne.

La comparaison de ces indicateurs entre eux donne des renseignements surla façon dont les données observées sont réparties.

Dans une distribution parfaitement symétrique et concentrée autour de savaleur centrale, les trois indicateurs coïncident :

mode = médiane = moyenne

4

Page 5: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Dans ce cas, tout est réparti autour du mode (c’est-à-dire de la valeur deplus forte densité ou de plus fort effectif) et, par symétrie, la médiane et lamoyenne sont égales à cette quantité : il y a autant de valeurs à gauche qu’àdroite et les valeurs à gauche compensent exactement les valeurs à droite.

Cette situation idéale sert de référence mais dans la pratique le mode, lamédiane et la moyenne peuvent différer et leurs positions relatives indiquentune asymétrie dans la répartition des données.

On dit que la courbe de fréquences est oblique du côté où la décroissance estla plus forte.

On distingue essentiellement deux situations :

1. lorsque mode < médiane < moyenne, on dit que la distribution est obliqueà gauche (ou de manière synonyme qu’elle est étalée à droite).

2. lorsque mode > médiane > moyenne, on dit que la distribution est obliqueà droite (ou de manière synonyme qu’elle est étalée à gauche).

Dans une distribution symétrique, le mode, la médiane et la moyenne coïn-cident.

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Distribution symétrique

Mo = M = m

La distribution ci-dessous est dite étalée vers la gauche (ou oblique à droite).On a

mode > médiane > moyenne

5

Page 6: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

−6 −4 −2 0 2

0.0

0.1

0.2

0.3

0.4

Distribution étalée à gauche

Mo > M > m

La distribution ci-dessous est dite étalée vers la droite (ou oblique à gauche).On a

mode < médiane < moyenne

−2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

Distribution étalée à droite

Mo < M < m

Les cas de figure qui viennent d’être examinés ne recouvrent pas toutes lessituations possibles. Il y a des distributions qui présentent plusieurs modes...

Les sections qui suivent définissent des indicateurs, appelés aussi coefficients,qui permettent de mesurer quantitativement le degré d’asymétrie d’une distri-bution et de sa courbe de fréquences.

Certains coefficients d’asymétrie sont définis à partir des quartiles, d’autressont liés au moments d’ordre 3.

6

Page 7: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

4 Indicateurs de forme

4.1 Coefficients d’asymétrieLe coefficient de Yule (statisticien écossais, 1871-1951) est calculé à partir de laposition des quartiles Q1, Q2 et Q3. Il s’écrit :

s =(Q3 −Q2)− (Q2 −Q1)

(Q3 −Q2) + (Q2 −Q1)=Q1 +Q3 − 2Q2

Q3 −Q1

• si s = 0, il y a symétrie ;

• si s > 0, il y a étalement à droite (oblique à gauche) ;

• si s < 0, il y a étalement à gauche (oblique à droite).

Le choix de la lettre s vient de skewness qui est le terme anglais pour désignerl’asymétrie.

Rappelons que Q2 n’est autre que la médiane.Il existe deux coefficients d’asymétrie dûs à Pearson (mathématicien britan-

nique, 1857-1936).Le premier se base sur la moyenne x̄ et le mode MO. Il est défini par :

s =x̄−MO

σ

Il s’interprète comme le coefficient de Yule :

• si s = 0, il y a symétrie ;

• si s > 0, il y a étalement à droite (oblique à gauche) ;

• si s < 0, il y a étalement à gauche (oblique à droite).

Le deuxième coefficient d’asymétrie de Pearson, noté β1, est plus utilisé. Ilest défini à partir des moments centrés d’ordre 2 et 3 :

β1 =µ23

µ32

C’est le moment d’ordre 3 au carré divisé par le moment d’ordre 2 au cubeafin d’avoir une grandeur sans dimension. Rappelons que µ2 n’est autre que lavariance.

Le coefficient β1 est toujours positif ou nul. S’il est nul, il y a symétrie.Sinon, la distribution est oblique et tout dépend du signe de µ3 : par exemple,si µ3 > 0, c’est oblique à gauche.

Le coefficient de Fisher (statisticien britannique, 1890-1962) est la racinecarrée du coefficient β1 de Pearson. Comme µ2 = Var(x) = σ2, on a la formulesuivante :

γ1 =µ3

σ3

7

Page 8: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

C’est aussi une grandeur sans dimension.L’interprétation est toujours la même :

• si γ1 = 0, il y a symétrie ;

• si γ1 > 0, il y a étalement à droite (oblique à gauche) ;

• si γ1 < 0, il y a étalement à gauche (oblique à droite).

• Exemple

On considère la distribution suivante comportant 20 valeurs numériques :0.04 6.24 6.31 7.18 7.21 8.62 9.80 9.92 10.55 10.9911.17 11.46 11.73 11.78 12.21 12.46 12.83 13.37 14.54 14.79

On va calculer les différents coefficients d’asymétrie.Pour le coefficient de Yule, on a besoin des quartiles :

25% 50% 75%7.915 11.08 12.335

On calcule donc :

s =Q1 +Q3 − 2Q2

Q3 −Q1=

7.915 + 12.335− 2× 11.08

12.335− 7.915= −0.4321

Il y a étalement vers la gauche.La moyenne est x̄ = 10.16. Calculons maintenant les moments centrés µ2 et

µ3. On trouve : µ2 =

1

20

∑20i=1(xi − x̄)2 = · · · = 11.45

µ3 =1

20

∑20i=1(xi − x̄)3 = · · · = −47.07

On en déduit que σ =√

11.45 = 3.38 et on obtient :β1 =

µ23

µ32

=(−47.07)2

(11.45)3= 1.477

γ1 =µ3

σ3=−47.07

(3.38)3= −1.215

Chacun des coefficients confirme que la distribution est étalée à gauche.Voici comment on effectue ces calculs avec le logiciel R :

> x <- c(0.04,6.24,6.31,7.18,7.21,8.62,9.80,9.92,10.55,10.99,11.17,11.46,11.73,11.78,12.21,12.46,12.83,13.37,14.54,14.79)

> m <- mean(x)> mu2 <- mean( (x-m)^2 )> mu3 <- mean( (x-m)^3 )> sigma <- sqrt(mu2)> beta1 <- mu3^2/mu2^3> gamma1 <- mu3/sigma^3

8

Page 9: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

4.2 Coefficients d’aplatissementLes moments d’ordre 4 renseignent sur le degré d’aplatissement de la courbe defréquences d’une distribution. L’aplatissement est jugé en se référant au modèlede la courbe de densité de la loi normale. On dira qu’une courbe de fréquencesest plus ou moins aplatie que le modèle de la loi normale.

Le coefficient qui permet de mesurer quantitativement l’aplatissement s’appellele kurtosis (du grec κυρτoτης qui signifie courbure).

La courbe suivante présente un aplatissement normal, comparable à celui dela densité d’une loi normale de Gauss.

Aplatissement normal (mesokurtique)

γ2 = 0

La courbe suivante est plus pointue qu’une loi normale. En compensationelle est moins dense sur les extrêmités.

9

Page 10: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Aplatissement leptokurtique

γ2 > 0

La courbe suivante est plus plate qu’une loi normale. En compensation elleest plus dense sur les extrêmités.

Aplatissement platykurtique

γ2 < 0

Voici une comparaison des trois situations :

10

Page 11: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

Aplatissements comparés

platykurtique

mesokurtique

leptokurtique

Pearson a proposé d’utiliser le coefficient suivant :

β2 =µ4

µ22

=µ4

σ4

On montre que ce rapport vaut 3 dans le cas d’une loi normale parfaite.Donc si β2 est supérieur à 3, la courbe sera plus pointue que la loi normale etsi β2 est inférieur à 3, elle sera plus aplatie.

Il est plus naturel (par analogie avec le coefficient d’asymétrie), de considérerque la valeur de référence est 0 et non pas 3. Aussi Fisher a proposé d’adoptercomme coefficient d’aplatissement la quantité :

γ2 = β2 − 3 =µ4

σ4− 3

On interprète le kurtosis γ2 de la manière suivante :

• si γ2 = 0, la courbe de fréquences est comparable à celle de la loi normale.On dit qu’elle est mésokurtique.

• si γ2 > 0, la courbe de fréquences est plus pointue que celle de la loinormale. On dit qu’elle est leptokurtique.

• si γ2 < 0, la courbe de fréquences est plus aplatie que celle de la loinormale. On dit qu’elle est platykurtique.

• Exemple

On considère la distribution suivante comportant 20 valeurs numériques :

11

Page 12: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

6.77 7.19 8.40 8.43 9.10 9.21 9.42 9.53 9.75 9.779.97 10.43 10.82 11.04 11.13 11.25 11.89 12.03 12.44 13.00

On va calculer les coefficients d’aplatissement.La moyenne est x̄ = 10.0785. Calculons maintenant les moments centrés µ2

et µ4. On trouve : µ2 =

1

20

∑20i=1(xi − x̄)2 = · · · = 2.64

µ4 =1

20

∑20i=1(xi − x̄)4 = · · · = 17.00

On obtient :β2 =

µ4

µ22

=17.00

(2.64)2= 2.44

On a donc γ2 = β2 − 3 = −0.56. Comme γ2 < 0, la distribution estplatykurtique (plus aplatie que la loi normale).

Voici comment on effectue ces calculs avec le logiciel R :

> x <- c(6.77,7.19,8.40,8.43,9.10,9.21,9.42,9.53,9.75,9.77,9.97,10.43,10.82,11.04,11.13,11.25,11.89,12.03,12.44,13.00)

> m <- mean(x)> mu2 <- mean( (x-m)^2 )> mu4 <- mean( (x-m)^4 )> beta2 <- mu4/mu2^2> gamma2 <- beta2 - 3

5 Indicateurs de concentrationL’étude de la concentration concerne les variables continues à valeurs positives.Elle consiste à comparer la distribution des individus à celle de la masse qu’ilsreprésentent par rapport à la masse totale.

• Exemple 1

On peut étudier la répartition des salaires entre les individus à celle desmasses salariales qu’ils représentent afin de savoir dans quelle mesure quelquessalariés représentent à eux seuls une grande part de la masse salariale (hautssalaires) tandis que beaucoup de salariés représentent une part moindre de lamasse totale (bas salaires).

• Exemple 2

On peut étudier la répartition des factures encaissées afin de savoir quellepart de factures représente quelle masse dans le chiffre d’affaire global.

On suppose que les données sont rassemblées dans un tableau d’effectifs :

Valeurs v1 v2 v3 · · · vkEffectifs n1 n2 n3 · · · nk

12

Page 13: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Les effectifs n1, n2, etc. permettent de connaître la répartition des individusen proportions. C’est la distribution des individus.

Les produits nivi représentent le “poids” de la variable étudiée dans chaqueclasse Ci, c’est-à-dire pour chaque valeur de vi. La distribution des nivi estdonc la distribution des masses.

Nous allons voir plusieurs méthodes (graphiques et quantitatives) pour éval-uer ces répartitions et repérer les concentrations.

5.1 Médiane et médialeOn a déjà vu la notion de médiane qui est une valeur telle que 50% de lapopulation soit située en dessous de cette valeur, et 50% au-dessus.

Définition 5.1. La médiale est la médiane de la distribution des masses nivi.

On notera cette médiale L.Le calcul de la médiale se fait comme celui de la médiane, à partir des

fréquences cumulées et nécessite toujours d’effectuer une interpolation. La dif-férence est qu’il s’agit des fréquences cumulées de la distribution des masses etnon de celle des individus.

• Exemple

Le tableau suivant donne la répartition des surfaces agricoles utilisées (SAU)dans la région Champagne-Ardennes en 2010 (source INSEE) :

Classes EffectifsMoins de 20 ha 13 869De 20 à moins de 50 ha 1 224De 50 à moins de 100 ha 2 777De 100 à moins de 200 ha 4 683De 200 ha à 500 ha 2 034

Calculer la médiale.Chaque classe va être représentée par son milieu vi. Si ni est l’effectif de

la i-ième classe, on calcule les masses nivi et leur répartition en proportion parrapport à la masse totale T =

∑nivi. On en déduit les proportions cumulées.

Tous les calculs sont rassemblés dans le tableau suivant.

SAU Effectif Milieu Masse Fréquence Fréquenceen ha ni vi nivi nivi/T cumulée[0, 20[ 13 869 10 138 690 0.08 0.08[20, 50[ 1 224 35 42 840 0.02 0.10[50, 100[ 2 777 75 208 275 0.12 0.22[100, 200[ 4 683 150 702 450 0.39 0.61[200, 500[ 2 034 350 711 900 0.39 1.00Total 24 587 1 804 155 1.00

13

Page 14: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

On cherche où se situe la proportion cumulée de 50%. D’après le tableau,c’est entre 0.22 = 22% et 0.61 = 61%.

Il faut faire une interpolation linéaire.L’interpolation linéaire consiste à chercher la valeur L qui soit par rapport

à 100 et 200 ha comme la valeur 50% par rapport à 22% et 61%.

SAU Prop. cumulée100 ha 22%L ? 50%

200 ha 61%

50 100 150 200

10

20

30

40

50

60

70

80

SAU

Pro

port

ion c

um

ulé

e

L100 200

22 %

61 %

50 %

50 − 22

61 − 22=

L − 100

200 − 100

On calcule50− 22

61− 22=

L− 100

200− 100

On en déduit :28

39=L− 100

100

Finalement :

L = 100 +28× 100

39= 100 + 71.79 = 171.79 ha

La médiale est de 171.79 ha. Cela signifie que toutes les exploitations agri-coles dont la SAU est inférieure à cette valeur ont une superficie cumulée quireprésente 50% de la superficie totale T .

14

Page 15: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

5.2 Écart à la médialeSi toutes les observations avaient la même répartition, la médiale L serait égaleà la médiane M . Mais de manière générale, la médiale est supérieure à lamédiane car les 50% des individus qui sont en-dessous de M représentent unemasse inférieure à la moitié de la masse totale. Il n’y a égalité que dans le casidéal d’équirépartition parfaite de toutes les masses.

L’écart entre la médiale et la médiane peut donc être considéré comme unemesure de la distorsion de la répartition et sert d’indicateur de concentration.

Il est élémentaire à calculer :

∆M = L−M = médiale−médiane

Dans l’exemple précédent, calculons la médiane. On a besoin de connaîtreles proportions cumulées des effectifs (et non plus des masses) :

SAU Effectif Fréquence Fréquenceen ha ni ni/N cumulée[0, 20[ 13 869 0.56 0.56[20, 50[ 1 224 0.05 0.61[50, 100[ 2 777 0.11 0.72[100, 200[ 4 683 0.19 0.91[200, 500[ 2 034 0.09 1.00Total 24 587 1.00

On cherche où se situe la proportion cumulée de 50%. D’après le tableau,c’est entre 0% et 0.56 = 56%.

On calcule50− 0

56− 0=M − 0

20− 0

On en déduit :M =

50× 20

56= 17.86 ha

La médiane est de 17.86 ha. Cela signifie que les exploitations agricoles dontla SAU est inférieure à cette valeur constituent 50% de l’effectif total.

L’écart entre la médiale et la médiane est :

∆M = L−M = 171.79− 17.86 = 153.93

C’est une forte distorsion. On la compare en général à l’étendue des observationsqui vaut ici 500. Le rapport est de 153.93/500 = 0.31 = 31%.

5.3 Courbe de LorenzLa courbe de Lorenz (économiste américain, 1880-1962) est une représentationgraphique qui permet de visualiser graphiquement la répartition des concentra-tions entre individus et masses.

15

Page 16: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

On calcule les fréquences cumulées des effectifs (qu’on notera pi) et cellesdes masses (qu’on notera qi). On place sur un graphe les points de coordonnées(pi, qi) et on les joint par une ligne polygonale.

Cette ligne part du point (0, 0) et se termine au point (1, 1) puisque lesfréquences cumulées varient toujours de 0 à 1. Elle est donc inscrite dans lecarré de côté 1, parfois appelé le carré de Gini dans ce contexte.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Courbe de Lorenz

Répartition des effectifs

Répart

itio

n d

es m

asses

Algébriquement, on a la relation suivante pour la fréquence cumulée deseffectifs :

pi =1

N

i∑j=1

nj =1

N(n1 + n2 + · · ·+ ni)

avec N = n1 + n2 + · · ·+ nk.De même, on a la relation suivante pour la fréquence cumulée des masses

nivi :

qi =1

T

i∑j=1

njvj =1

T(n1v1 + n2v2 + · · ·+ nivi)

avec T = n1v1 + n2v2 + · · ·+ nkvk.Par convention, on pose p0 = q0 = 0.Un point de coordonnées (p, q) sur la courbe de Lorenz indique que p% des

individus se partagent q% de la masse.La bissectrice du carré est la ligne d’équirépartition. C’est ce que serait

la courbe de concentration s’il y avait équirépartition des masses. Sur cettediagonale, en tout point, p% des individus se partageraient exactement p% dela masse. Dans ce cas, la concentration est nulle.

16

Page 17: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Définition 5.2. L’aire de concentration est la région comprise entre la diago-nale et la courbe de Lorenz.

Interprétation : plus cette aire est importante, c’est-à-dire plus la courbede concentration s’écarte de la bissectrice, plus la concentration est forte.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Aire de concentration

5.4 Coefficient de GiniSi on imagine qu’on déforme de plus en plus la courbe de concentration pourl’éloigner de la bissectrice, à la limite elle coïnciderait avec le côté inférieur etle côté droit du carré. L’aire de concentration maximale est donc le triangleinférieur situé sous la bissectrice.

Définition 5.3. L’indice de Gini est le rapport entre la superficie de l’aire deconcentration et celle du triangle inférieur du carré.

L’indice de Gini (statisticien italien, 1884-1965) permet donc de faire descomparaisons de concentration en les rapportant toutes à la concentration max-imale. Cet indice, noté habituellement IG, est compris entre 0 et 1 :

0 ≤ IG ≤ 1

Le carré étant de côté 1, sa superficie est égale à 1 et donc la superficie dutriangle inférieur est égale à 1/2.

Si on note A l’aire de concentration, on a donc :

IG =A

1/2= 2×A

17

Page 18: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Maintenant, si on note B l’aire sous la courbe de concentration, on a A =1/2− B et par conséquent :

IG = 2× (1/2− B) = 1− 2× B

La superficie B est plus facile à calculer car on découpe la région inférieureà la courbe de concentration en trapèzes.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Courbe de Lorenz

Répartition des effectifs

Répart

itio

n d

es m

asses

h

H

a

S = a × (H + h

2)

Aire d’un trapèze

18

Page 19: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

On a, pour un trapèze de base a et de hauteurs h et H :

S = a× h+a× (H − h)

2= a× H + h

2

Donc, dans le cas de la courbe de concentration, le i-ième trapèze a une baseallant de pi−1 à pi (donc d’amplitude pi − pi−1) avec des hauteurs respectiveségales à qi−1 et qi. D’où :

Si = (pi − pi−1)× qi−1 + qi2

On calcule B en additionnant les aires de tous les trapèzes :

B =

k∑i=1

(pi − pi−1)× qi−1 + qi2

=

k∑i=1

fiqi−1 + qi

2

car pi − pi−1 = fi =niN

.On trouve finalement :

IG = 1−k∑

i=1

fi(qi−1 + qi)

Le rapport

gi =nivi∑nivi

=fivix̄

s’appelle la valeur globale relative associée au couple (vi, ni). C’est le proportionde la masse de la classe Ci par rapport à la masse totale.

On a les relations : G1 = g1

G2 = g1 + g2...

...Gk = g1 + g2 + · · ·+ gk = 1

La formule précédente permettant de calculer l’indice de Gini s’appelle laformule des trapèzes. Il existe une autre formule, dite formule des triangles,permettant d’obtenir cet indice :

IG =

k∑i=2

(qipi−1 − piqi−1)

19

Page 20: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

Exercice

Voir la démontration de la formule des triangles dans les exercices complé-mentaires à la fin de cette séance.

• Exemple

L’indice de Gini de la France concernant la distribution des niveaux de vieétait égal à 0,289 en 2007. Son évolution de 1996 à 2007 est résumée dans letableau suivant :

1996 1999 2002 2005 2006 2007Indice de Gini 0,271 0,269 0,267 0,269 0,291 0,289

Source INSEE.

D’après Wikipedia : “Les pays les plus égalitaires ont un coefficient de l’ordrede 0,2 (Danemark, Suède, Japon, République tchèque. . . ). Les pays les plus iné-galitaires au monde ont un coefficient de 0,6 (Brésil, Guatemala, Honduras. . . ).”

Il existe d’autres indices pour la mesure des inégalités : indice de Hoover,indice de Theil.

L’indice de Hoover est la demi-somme des valeurs absolues des écarts verti-caux entre la courbe de Lorenz et la diagonale :

H =1

2

∑|pi − qi|

6 Exercices

Exercice 3

On considère le tableau d’effectifs suivant représentant la répartition desloyers dans une commune de 1000 logements locatifs.

Classe Effectif[500,1000[ 3[1000,1500[ 45[1500,2000[ 239[2000,2500[ 504[2500,3000[ 191[3000,4000[ 18

Chaque classe sera représentée par son milieu.3-1 ) Calculer la moyenne et l’écart-type de cette distribution.3-2 ) Représenter l’histogramme.3-3 ) Calculer les quartiles de cette distribution. En déduire l’indice d’asymétrie

de Yule.3-4 ) Calculer le moment centré µ3 d’ordre 3 et en déduire le coefficient γ1

de Fisher. Que peut-on conclure ?

20

Page 21: UNIVERSITÉPARISOUESTNANTERRELADÉFENSE …bdesgraupes.pagesperso-orange.fr/UPX/L1/Stats_seance_05_doc.pdf · UNIVERSITÉPARISOUESTNANTERRELADÉFENSE U.F.R.SEGMI Annéeuniversitaire2017–2018

3-5 ) Calculer le moment centré µ4 d’ordre 4 et en déduire le kurtosis (coeffi-cient d’aplatissement γ2 de Fisher). En déduire la forme de courbe de fréquences.

Exercice 4

Dans une entreprise on a relevé la répartition suivante des employés en fonc-tion du salaire net perçu :

Salaires Effectifs[1000,1500[ 30[1500,2000[ 160[2000,3000[ 125[3000,4000[ 25[4000,6000[ 10

4-1 ) Représenter la courbe de Lorenz.4-2 ) Calculer la médiane et la médiale de cette distribution.4-3 ) Calculer l’indice de Gini. Que peut-on conclure ?

Exercice 5

Démontrer la formule des triangles de l’indice de Gini à partir de la formuledes trapèzes.

21