cours de statistique et probabilitÉsschwartz/multi_options/stat/stat01_gi.pdf · stat01 cours...
TRANSCRIPT
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
1
Cycles préparatoires duService Commun de Formation Continue de l’INPL
COURS
de
STATISTIQUE et PROBABILITÉS
Cours et exercices : Philippe Leclère
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
2
1-Statistiques descriptives à une variable
1 Statistique, vocabulaire, tableaux et graphiques
1.1 Définitions, vocabulaire :
La statistique a longtemps consisté en de simples dénombrements fournissant desrenseignements sur la population ou l'économie d'un pays. Si nous ouvrons undictionnaire, nous trouvons la définition suivante : « La statistique est la science qui apour objet l'étude numérique et graphique d'un très grand nombre de faits analoguesquelle que soit leur nature ».Cette science n’étudie pas les individus dans leur spécificité, elle permet de lesrassembler dans ce qu’ils ont en commun. Les sondages sont en général anonymes etles conclusions portent sur le groupe.L'objet de la statistique est de rassembler, organiser, analyser, interpréter, desobservations que l'on peut mesurer ou classer.
1.1.1 Population :
Les observations que le statisticien est conduit à faire portent sur un ensemble qu'ilconvient de définir avec une grande précision. Cet ensemble porte le nom depopulation et chaque élément qui la constitue est un individu ou une unitéstatistique. Les ensembles et objets de la statistique doivent être parfaitement connuset identifiés. Cela implique une précision de temps et de définition.
• Population des élèves de seconde année de STS biotechnologiques pour l’année97-98 sur la France métropolitaine inscrits dans un lycée public ou en contratavec l’état. Ces précisions permettent de cerner très exactement la population. Iln’est pas toujours simple de définir celle-ci avec précision, mais cela estnécessaire.
• Population des pièces usinées par la machine A de la chaîne1 d’un processus defabrication pendant le mois de septembre 1998. Ici la population n’est pas vivantebien que le vocabulaire reste très humanisé. La pièce usinée est toujoursl’individu que l’on étudie. Il conviendrait mieux ici de parler d’unité statistique.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
3
1.1.2 Caractère :
On étudie certaines propriétés des unités statistiques de la population. Chacune deces propriétés s'appelle un caractère statistique. On parle de caractère qualitatiflorsque celui-ci n'est pas mesurable (exemples : couleur des cheveux, profession,qualité...etc). Ce caractère qualitatif est dit ordinal lorsque l’on peut faire intervenirune notion d’ordre ( exemple : les grades de l’armée ), sinon le caractère qualitatif estdit nominal. On peut affecter un nombre à chaque attribut, cependant toute opérationarithmétique doit être maniée avec précaution et exclue s’il s’agit de caractèrequalitatif nominal.On parle au contraire de caractère quantitatif lorsque celui-ci est mesurable(exemples : poids, taille, degré d’alcool dans le sang...etc).Un caractère statistique est aussi appelé variable statistique.Nous dirons qu’une variable statistique quantitative est discrète si elle ne peutprendre qu'un nombre dénombrable de valeurs numériques; en revanche, nous dironsqu'elle est continue si elle peut prendre toute valeur numérique appartenant à unintervalle réel.
• « le nombre d’enfants d’une famille » est un caractère discret fini, il ne peutprendre qu’un nombre fini de valeurs
• « le poids d’un paquet de sucre » est un caractère continu car tous les réels del’intervalle peuvent être atteints.
Dans le cas des mesures, on effectue des observations discontinues, en raison desarrondis sur les données imposés par la manipulation alors qu’en réalité le caractèreest continu.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
4
1.2 Collecte de l’information :
une fois la population parfaitement définie et le caractère étudié choisi, on collecteles observations et on constitue ainsi une série statistique. Cette série est exhaustivesi tous les éléments de la population ont été observés : on parle alors derecensement. Lorsque l’étude exhaustive de la population se révèle trop onéreuse outrop longue à obtenir on observe seulement une partie de la population à l’aide d’unéchantillon. C’est quasiment toujours le cas. La plupart du temps l’enquêtestatistique utilise un questionnaire qui doit être élaboré avec le plus grand soin afinde recueillir les renseignements que l’on souhaite. Il faut qu’il soit non ambigu et pastrop compliqué. On peut également recourir à des documents existants : les registres,les documents de comptabilité ...etc. Il faut ensuite dépouiller toutes ces données etprocéder à un rangement (stockage) de toutes ces informations afin de pouvoir lesexploiter.
1.3 Tableaux statistiques : trois représentations proposées.
Les observations sont le plus souvent nombreuses et se présentent sous formedésordonnée (liste de nombres, tableaux de valeurs...etc). Il faut alors les dépouiller,les ordonner, les classer pour en donner une représentation claire.
1.3.1 Le tableau exhaustif :
On a relevé les températures des mois de décembre, janvier et février à Nancy sousabri à 3 heures et obtenu le tableau suivant :
5 8 6 7 8 2 −−−−1 −−−−2 −−−−7 −−−−102 6 5 12 12 13 10 8 5 64 8 9 2 −−−−1 −−−−2 −−−−1 −−−−3 −−−−2 −−−−40 2 −−−−5 −−−−2 −−−−1 −−−−4 −−−−2 2 3 89 5 8 3 5 4 3 2 −−−−1 −−−−2−−−−2 −−−−5 −−−−8 −−−−12 −−−−16 −−−−4 −−−−2 2 0 4−−−−1 −−−−2 5 6 4 5 6 2 5 4−−−−2 −−−−1 −−−−5 −−−−8 −−−−15 −−−−16 −−−−13 −−−−12 −−−−5 −−−−20 2 6 5 4 6 3 3 2 5
Population : les 90 jours ( 31 en décembre, 31 en janvier et 28 en février)Unité statistique : un jour ( le 8 janvier par exemple)Variable statistique : température en degré Celsius relevée à 3 heures et à unendroit donné.
Ce tableau est inexploitable sous cette forme. On peut juste dire qu’il ne fait paschaud à Nancy en hiver. (mais ça, on le savait)
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
5
1.3.2 Regroupement de données :
Lorsque les données sont très nombreuses, on peut les regrouper de la manièresuivante :Désignons par X la variable statistique et par 1 2 nx ,x , ,x! les n valeurs possibles
distinctes prises par la variable statistique X (en général si cela est possible, lesvaleurs ix sont rangées par ordre croissant,). Nous notons in le nombre de fois où la
valeur ix a été observée dans la population (ou dans l'échantillon étudié). Ce nombre
in est l'effectif associé à la valeur ix de la variable statistique X. L'ensemble des
couples ( )i ix ,n est appelé série statistique. Il peut évidemment s’agir ici d’une série
statistique qualitative ou quantitative.En désignant par N le nombre total d'observations, nous avons la relation
1
n
ii
N n=
= ∑
sur l’exemple précédent on obtient
tempé. xi −−−−16 −−−−15 −−−−�14
−−−−13 −−−−12 −−−−11 −−−−10 −−−−9 −−−−8 −−−−7 −−−−6 −−−−5 −−−−4 −−−−3 −−−−2
effectif ni 2 1 0 1 2 0 1 0 2 1 0 4 3 1 11tempé. xi −−−−1 0 1 2 3 4 5 6 7 8 9 10 11 12 13effectif ni 7 3 0 10 5 6 10 7 1 6 2 1 0 2 1
Aucune information quantitative n’est perdue, seuls les jours où telle température aété relevée ne sont plus connus. Il faudra veiller à ce que cette perte ne soit paspréjudiciable à l’exploitation que l’on veut faire de cette étude. Le tableau est un peuplus lisible que le précédent. On peut par exemple noter les températures les plussouvent atteintes lors de cette période. On peut déjà avoir une idée de la moyenne.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
6
1.3.3 Regroupement par classes :
Le nombre de valeurs est encore élevé et la lecture du tableau peu commode. On peutencore simplifier la restitution des données. Il suffit de créer des classes et decompter l’effectif de chaque classe. On partage alors l’étendue (plus grande valeur −plus petite valeur, ici ( )13 16 29− − = des valeurs en p intervalles.
Classe [ [16 13;− − [ [13 10;− − [ [10 7;− − [ [7 4;− − [ [4 1;− −effectif 3 3 3 5 15
Classe [ [1 2;− [ [2 5; [ [5 8; [ [8 11; [ [11 14;
effectif 10 21 18 9 3
Cette troisième représentation sera obligatoirement choisie s’il s’agit d’une variablecontinue. Les p classes sont alors disjointes et leur réunion recouvre la totalité desvaleurs possibles. On dit que l’on fabrique une partition de l’ensemble. On ouvreclassiquement l’intervalle à droite et on le ferme à gauche comme dans l’exemplesuivant :
Classe [ [0 4; [ [4 8; [ [8 12; [ [12 16; [ [16 20;
effectif 5 10 5 3 2
Les classes n’ont pas forcément la même amplitude (différence entre la bornesupérieure et la borne inférieure). La perte d’information est évidemment le plus grosproblème que pose cette technique de stockage. Le choix de l’amplitude permet uncompromis satisfaisant au regard des conclusions que l’on veut tirer. On fait ensuitela supposition que chaque élément de la classe possède la valeur du milieu de classeappelé aussi centre de classe. Il est parfois difficile de préciser les classes extrêmes.On utilise souvent des classes ouvertes « Plus de » ou « moins de » qui ne possèdentpas de centre de classe. En l’absence d’informations complémentaires, on prendraalors comme centre un nombre situé à une demi amplitude de la borne de cette classeouverte ( l’amplitude choisie étant celle de la classe voisine )exemple :
Classe [ [0 4; [ [4 8; [ [8 12; [ [12 16; 16 et plus
effectif 5 10 5 3 2
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
7
Pour la dernière classe, l’amplitude de la classe voisine étant 4, si on ne possède pasd’autres informations, on prendra comme centre de classe 16+2=18. On considère enfait que la dernière classe a une amplitude de 4.
1.4 Graphiques divers :
1.4.1 Diagramme en bâtons
Lorsque les distributions sont quantitatives, et la variable discrète, le graphique estréalisé en général avec en abscisse les valeurs du paramètre observé et en ordonnéel’effectif ou la fréquence.
La représentation ainsi obtenue est appelée diagramme en bâtons. L’effectif ou lafréquence est illustrée par un segment de droite. (On peut également avoir cettereprésentation pour une variable qualitative). Reprenons les températures del’exemple précédent. On obtient le graphique suivant :
Lorsque l’on rejoint par des segments de droite les sommets des bâtonnets, on obtientle polygone des effectifs.
Températures à Nancy
0
2
4
6
8
10
12
-16
-14
-12
-10 -8 -6 -4 -2 0 2 4 6 8 10 12
effectif ni
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
8
1.4.2 Histogramme
Dans le cas de la variable continue, le graphique est appelé histogramme. On supposela répartition uniforme dans une classe et on constitue les rectangles ayant pour basel’amplitude de la classe et une hauteur telle que leur aire soit proportionnelle àl’effectif ou la fréquence de la classe.
Considérons la série statistique suivante qui décrit la charge de rupture d’un fil :
Chargeen gramme Effectif
[ [720 760; 10
[ [760 800; 23
[ [800 840; 4
[ [840 880; 15
[ [880 920; 32
920 et plus 16
Histogramme
0
5
10
15
20
25
30
35
720 à 760 760 à 800 800 à 840 840 à 880 880 à 920 920 et plus
Effectif
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
9
Si les classes ont la même amplitude, on peut retrouver le polygone des effectifs enprenant comme valeur pour chaque élément de la classe le centre.Si les classes n’ont pas la même amplitude il faut recalculer la hauteur du rectangle.
Par exemple, pour un même effectif dans une classe d’amplitude double, la hauteurdu rectangle sera deux fois plus petite.
1.4.3 Diagrammes à bandes, à secteurs, figuratifs
On utilisera ces différentes représentations lorsque le caractère est qualitatif.
On considère la production d’une entreprise de fabrication d’automobiles (en milliersde véhicules)
1970 1978Véhicule Effectif Pourcentage Effectif Pourcentage
Cabriolet, 2 places 10,2 40,8 25,8 25,84 places 8,3 33,2 35,4 35,45 places 5,5 22 19,6 19,6
modèle de luxe 1,0 4 16,2 16,2TOTAL 25 100
Diagramme à secteurs
Cabriolet, 2 places41%
4 places33%
5 places22%
modèle de luxe4%
On fera en sorte systématiquement que le total des pourcentages soit 100. Il estparfois nécessaire de « corriger » les arrondis. On utilise pour cela la règle desmoindres erreurs.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
10
Diagramme à bandes année 1970
0
2
4
6
8
10
12
Cabriolet,2 places
4 places 5 places modèlede luxe
Série1
Bandes comparatives.
comparaison des années 1970-1978
0
5
10
15
20
25
30
35
40
Cabriolet, 2 places 4 places 5 places modèle de luxe
véhicule
effe
ctif
1970
1978
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
11
Diagramme figuratif
Cabriolets Petites 4 places Cinq places Luxe
Attention à ces représentations qui sont souvent utilisées dans la presse de façonapproximative et ne permettent pas une exploitation « scientifique ». On ignore enfait la variable du graphique qui est proportionnelle à l’effectif. Est-ce la hauteur durectangle, la hauteur de la voiture ?Il est fortement conseillé de ne pas utiliser ce type de diagramme, dontl’interprétation peut prêter à confusion.
1.4.4 Autres représentations utilisées :
Diagrammes de type Boxplot que nous présenterons plus loin après avoir introduitles quartiles et qui ne nécessitent pas la notion de fréquenceDiagrammes de type dotplots et diagrammes de type stem-and-leaf qui serapprochent des diagrammes à bâtons et des histogrammes
2 Etude des séries statistiques simples quantitatives
2.1 Introduction
Un tableau statistique ou un graphique est parfois long à consulter, sans permettred'avoir une idée suffisamment concise de la distribution statistique observée.La notion de moyenne arithmétique est bien connue et permet de donner une idéeglobale de la série. On peut par exemple connaître le poids total d’une populationconnaissant sa moyenne et son effectif et autoriser 10 personnes à monter dans unbateau dont la charge limite est de 800 kg si on sait que la moyenne des poids desindividus de ce groupe n’excède pas 80 kg. On parlera de paramètre de position oude statistique de position.Il est important également de connaître la répartition de la population autour de cettemoyenne. Dans l’exemple du bateau, il est primordial, si le groupe n’est pas de poidshomogène de répartir les « lourds » et les « légers » équitablement à bâbord et tribordpour ne pas risquer le dessalage. On parlera de paramètre de dispersion ou destatistique de dispersion.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
12
2.2 Paramètres de position.
2.2.1 La moyenne arithmétique :
La moyenne arithmétique d'une série de valeurs d'une variable statistique est égale àla somme de ces valeurs divisée par leur nombre. Autrement dit, la moyennearithmétique est la valeur commune qu'auraient les données si elles étaient touteségales de façon à ce que leur somme reste la même : les surplus des nombres les plusélevés seraient répartis entre les nombres les moins élevés. On note en général cette
moyenne m ou x
• Cas de données énumérées (description exhaustive).
m = 1
1 N
kk
xN =
∑
où les kx sont les valeurs prises par la variable statistique X. N est l’effectif total
de la population.
1
N
k=∑ est une manière abrégée d'indiquer que l'on effectue une somme de N
termes, identiques à celui qu'introduit le symbole, mais différant par l'indice : kprenant successivement toutes les valeurs entières de 1 à N.
Sur les données du tableau 1 du chapitre 1, l'on effectue la somme des poids ; on
divise ensuite cette somme par 90; d'où la moyenne : 1x = (on lit « x barre »)La moyenne des températures pour les mois de décembre, janvier et février est de1 degré.
• Données regroupées par valeur
1
1 n
k kk
m n xN =
= ∑kn est le nombre d’individus qui ont pour valeur du paramètre kx
La moyenne calculée par cette méthode à l’aide du deuxième tableau donne lemême résultat que précédemment : soit 1. Il n’y a aucune perte quantitatived’information. Vous remarquerez que le calcul est plus aisé avec moins de risqued’erreurs de saisie.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
13
• Variable continue et données groupées en classes.
Si la variable est continue et si les données sont regroupées en p classes commedans le tableau 3 du paragraphe 1, on ne peut qu’estimer une moyenne àl'intérieur de chaque classe, à défaut d'autre renseignement, on choisit le « centrede classe » ( kc pour la classe k qui est le milieu de l’intervalle représentant la
classe). Le calcul est effectué comme si tous les individus d'une classe avaientpour caractère le centre de classe, avec toute la part d'approximation que celacomporte.
1
1 p
k kk
m n cN =
≈ ∑ où p est le nombre de classes
15 3 12 3 9 3 6 18 9 9 12 31 16
90
( )* ( )* ( )* ....... * * *m ,
− + − + − + + + +≈ =
On fera attention aux classes ouvertes. (voir 2-c)
On peut mesurer dans cet exemple la perte de précision due au regroupement desdonnées en classes et au choix du centre de classe comme moyenne de la classe.Cependant on peut se satisfaire du résultat. On annoncera dans un cas comme dansl’autre que la moyenne de ces trois mois est de 1 degré. Malgré cette perted’information nous aurons recours souvent au regroupement en classes afin de« visualiser » plus simplement la série. ( Pour le calcul, il est préférable de garder lesvaleurs)Les machines à calculer (calculettes) permettent aisément tous les calculs destatistique et sont vivement conseillées.
2.2.2 Le mode et la classe modale
Dans le cas d’une variable discrète, on appelle mode ou valeur modale toute valeurque la variable statistique prend le plus fréquemment. Pour les valeurs regroupées,toute valeur dont l’effectif est le plus grand.Dans le cas d'une variable continue, et si les données sont groupées en classes, touteclasse dont l'effectif est le plus élevé (effectif ramené à l'unité d'amplitude) estappelée classe modale. Attention, il peut arriver que la classe modale ne soit pascelle où l'effectif apparaît le plus élevé sur le tableau. En effet, cette dernière classepeut avoir une amplitude plus grande qu'une autre dont l'effectif par unitéd'amplitude, est plus élevé. Il peut y avoir plusieurs modes ou classes modales.
Dans l’exemple des températures :Le mode est −2 lorsque les données sont regroupées par valeursla classe modale est [ ]2 4; pour le regroupement en classes.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
14
2.2.3 La médiane
La médiane d'une série statistique est un réel tel qu'il y ait autant d'observationsayant une valeur supérieure que d'observations ayant une valeur inférieure. Nousallons définir ce réel de façon unique.
Lorsque les observations sont toutes données, il suffit donc de les classer par ordre degrandeurs croissantes (ou décroissantes), et de prendre celle qui se trouve au milieu.Si le nombre des observations est pair, la médiane est la demi-somme des deuxvaleurs du milieu. Pour les températures, la médiane est 2. On verra dans leparagraphe prochain une technique à l’aide du cumul des effectifs.
En résumé : la médiane est1
1
2 1
22
k
k k
x si N k
x xsi N k
+
+
= + +
=N étant l’effectif total.
En revanche lorsque les observations sont groupées en classes, la médiane ne peutêtre qu’estimée. Elle est nécessairement élément d’un intervalle que l’on appelleclasse médiane. On fait donc l’hypothèse que la répartition des valeurs de la classeest affine et on procède à une interpolation linéaire.
Il faut toutefois retenir que « faire des statistiques » c’est travailler avec lesvraies données. Les regroupements sont le fait des statisticiens. En conséquenceles méthodes d’approximation, dont celle de la médiane, apparaissent commedes exercices techniques un peu gratuits et même inutiles. ( sauf pour leprofesseur de mathématiques )
2.2.4 Fréquences cumulées croissantes et décroissantes.
• Variable discrète.
Lors d’un examen, 100 étudiants répondent à 8 questions. On pose X la variablestatistique qui à chaque questionnaire associe le nombre de bonnes réponses. Onobtient le tableau suivant :
Valeur xi 0 1 2 3 4 5 6 7 8 9effectif ni 2 7 6 19 25 15 15 9 2 0effectifs cumulés crois X<xi 0 2 9 15 34 59 74 89 98 100effectifs cum. décrois. X≥ xi 100 98 91 85 66 41 26 11 2 0
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
15
: Effectifs cumulés croissants :
On peut interpréter la troisième ligne de la façon suivante : 15 est le nombred’étudiants ayant répondu correctement à au plus deux questions. C’est en faitl’effectif pour lequel X<3. Mathématiquement :
3
15k
kx
n<
= ∑ : Effectifs cumulés décroissants :
Dans la dernière ligne, 41 est le nombre d’étudiants ayant répondu correctement à aumoins 5 questions. C’est en fait l’effectif pour lequel X≥ 5.
On obtient ainsi le polygone des effectifs cumulés croissants et décroissants.
Polygone des effectifs cumulés
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9
effectifs cumulés croissantsX<xi
effectifs cumulés décrois. X xi
Pour une série statistique discrète, la représentation polygonale ne paraît pas trèsadaptée. L’interpolation n’a pas beaucoup de sens. Il faut lui préférer la fonction enescaliers suivante.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
16
effectifs cumulés croissants X<xi
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9
effectifs cumulés croissants X<xi
Dans certains ouvrages on trouve une définition différente des effectifs cumulés. Onprendra X ≤ x ( norme AFNOR ) pour les effectifs cumulés croissants, ce qui changeévidemment la courbe pour une variable discrète. En revanche pour une variablecontinue, cela ne change rien.
On verra que ce choix paraîtra justifié lorsque nous étudierons en probabilité lafonction de répartition.
On peut également considérer les fréquences au lieu des effectifs. Cela ne change pasl’allure des courbes
La fréquence de la modalité ix est le nombre ii
nf
N= où in est l’effectif pour la
valeur ix du paramètre.
La fréquence cumulée en ix est donc 11
i
i ik
f f f=
= + +∑ ! si on prend iX x≤
Le pourcentage de la modalité ix est 100i ip f=
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
17
• Variable continue.
En reprenant l’exemple des charges de rupture du chapitre 1-3-b
Charge en gramme Effectif effectifscumulés
croissants
effectifscumulés
décroissants
[ [700 750; 10 10 100
[ [750 800; 23 33 90
[ [800 840; 4 37 67
[ [840 880; 15 52 63
[ [880 920; 32 84 48
920 et plus 16 100 16
Sur l’intervalle [ [1k kx ; x + on a :
effectif cumulé croissant = 1i k
ix x
n+<
∑effectif cumulé décroissant =
i k
ix x
n>∑
0
20
40
60
80
100
120
700 750 800 840 880 920 960
effectifs cumulés croissants
effectifs cumulés décroissants
On peut ainsi trouver graphiquement une estimation de la médiane comme abscissedu point d’intersection des courbes cumulées croissantes et décroissantes.
Médiane
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
18
On peut également procéder à une interpolation linéaire à partir de la courbecumulative croissante par exemple. On privilégiera cette méthode, préférable à laprécédente.
0
10
20
30
40
50
60
840 880
Soit 15 8 11 120 0x y− − = une équation de la droite ( )AB . On obtient donc une
valeur approchée de la médiane en donnant à y la valeur 50 soit 874,67
Cette représentation ne présente aucune difficulté si le tableau des effectifs cumulés aété correctement réalisé. L'échelle des abscisses doit être exacte ; par conséquent, lesclasses d'amplitudes inégales doivent apparaître inégales. Entre deux points connus,l'on suppose que la variation de l'effectif cumulé est linéaire ; on peut, par exemple,lire sur la figure que 20 fils ont supporté moins 770 g, environ
A(840 ; 37)
B(880 ; 52)
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
19
(STAT01E01A)
On donne les salaires annuels nets en milliers de francs des employés d’uneentreprise de textile.
Valeurs femmes105 110 112 112 118 119 120 120 125 126 127 128 130132 133 134 135 138 138 138 138 142 145 148 148 150151 154 154 158
Valeurs hommes141 144 146 148 149 150 150 151 153 153 153 154 155156 156 160 160 160 163 164 164 165 166 168 168 170172 172 176 179
1. Que pouvez-vous conclure en observant ces deux tableaux ?
2. Pour chacune des deux séries, hommes et femmes, vous effectuerez unregroupement par classes d’amplitude 10, la première classe étant : [ [104 114; .
Vous ferez un tableau comprenant les effectifs, les fréquences, les fréquencescumulées Vous donnerez alors une représentation graphique adaptée pour chacundes deux regroupements.
3. Calculer : f gx ,x et x , les moyennes exactes de salaires pour les femmes, les
hommes et l’ensemble de la population. (On utilisera le tableau exhaustif del’énoncé).
4. Calculer f gx ,x et x′ ′ ′ les moyennes approchées de salaires pour les femmes,
les hommes et l’ensemble de la population. On utilisera le regroupement parclasses de la deuxième question. Quelle remarque peut-on faire ?
5. Calculer les médianes f gm ,m et m de la population des femmes, des hommes
et de la population totale. On utilisera les données exhaustives.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
20
2.3 Paramètres de dispersion.
On considère les deux séries de données suivantes :
99 100 1011 100 199
Elles ont une moyenne arithmétique et une médiane égale à 100. Cependant ellesdiffèrent profondément. Il apparaît que la deuxième série est beaucoup plus disperséeque la première. Il est donc nécessaire d’évaluer cette dispersion autour d’une valeurcentrale. Nous définirons deux sortes de statistiques de dispersion : celles liées à lamoyenne : écart moyen et écart type ; celles liées à la médiane : écart interquartile,écart interdécile, etc-
2.3.1 Ecart absolu moyen
On calcule la moyenne des écarts à la moyenne. Ce calcul se fait en valeur absoluepour que le résultat soit exploitable. En effet, quelle que soit la série on a :
( )1 1 1
1 1 1 10
n n n
i ii i i
x x x x x nxn n n n= = =
− = − = − =∑ ∑ ∑ Ce calcul ne permet évidemment aucune exploitation.
On pose donc
1
1 n
ii
e x xn =
= −∑ si les n données sont toutes évaluées
1
1 p
i ii
e n x xn =
= −∑ si les données sont regroupées en p valeurs distinctes.
1
1 p
i ii
e n c xn =
= −∑ si les données sont regroupées dans p classes, ic étant le centre de
classe.
On a ainsi établi la moyenne des valeurs absolues des écarts à la moyenne. Cettecaractéristique rend convenablement compte de la dispersion entre les deux séries.On peut également calculer cet écart moyen par rapport à la médiane. On démontred’ailleurs que c’est par rapport à la médiane que l’écart moyen absolu est le plusfaible.L’écart moyen absolu est peu utilisé. La plupart des livres affirment que sonmaniement algébrique difficile en est la cause. Cela ne paraît guère fondé. Il faudrait,je pense rechercher la cause dans l’acception plus probabiliste de l’écart type dontl’utilisation reste privilégiée et peut être dans son utilisation géométrique.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
21
2.3.2 Ecart type
On utilise la moyenne quadratique des écarts à la moyenne. On introduit donc unintermédiaire que l’on appelle la variance de la variable statistique définie par lesformules :
( )2
1
1 n
ii
var X x xn =
= −∑ si les n données sont toutes disponibles
( )2
1
1 p
i ii
var X n x xn =
= −∑ si les données sont regroupées par valeurs au nombre de p
( )2
1
1 p
i ii
var X n c xn =
= −∑ si les données sont regroupées dans p classes, ic étant le
centre de classe.
Ces formules se simplifient notablement de la façon suivante :
( ) ( )2 2 22 2
1 1 1 1 1
2 2 22 2 2
1 1 1 1
1 1 1 1 12 2
1 2 1 12
p p p p p
i i i i i i i i i ii i i i i
p p p p
i i i i i i ii i i i
var X n x x n x x x x n x n x n x xn n n n n
xn x x x n x x x x n x x
n n n n
= = = = =
= = = =
= − = + − = + − =
+ − = + − = −
∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
finalement on obtient :
22
1
22
1
22
1
1
1
1
n
ii
p
i ii
p
i ii
var X x xn
var X n x xn
var X n c xn
=
=
=
= −
= −
= −
∑
∑
∑
dans chacun des trois cas précédents.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
22
La variance étant définie comme une somme de carré, par cohérence on utilisera laracine carrée de la variance.
On appelle écart type ( on le note en général Xσ ) la racine carrée de la variance
X var Xσ =
On peut remarquer que le premier terme est la moyenne arithmétique des carrés desvaleurs de la variable statistique. On peut ainsi retenir de façon mnémotechnique :
var X= ( ) ( )22var X x x= −
Contrairement à l’écart moyen, l’écart type est minimal si l’on prend la moyenne etnon la médiane.
2.3.3 Quartiles, déciles, centiles etc...
Les quartiles, déciles et centiles sont des caractéristiques qui correspondent aumême genre de préoccupation que la médiane. Leurs définitions sont également trèssemblables.
• Quartiles :• Le premier quartile 1Q est la valeur pour laquelle 25% de la population est
en dessous.• Le deuxième quartile 2Q est la médiane
• Le troisième quartile 3Q est la valeur pour laquelle 75% de la population est
en dessous
• Déciles :• Le premier décile D1 est la valeur pour laquelle 10% de la population est en
dessous• Le deuxième décile D2 est la valeur pour laquelle 20% de la population est
en dessous• etc..• Le cinquième décile D5 est la médiane.
• Le premier centile C1 est la valeur pour laquelle 1% de la population est endessous
Etc...
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
23
2.3.4 Etendue, écart interquartile, interdécile etc...
L’étendue (range en anglais) d’une série statistique est la différence entre les deuxvaleurs extrêmes de la variable étudiée. Attention toutefois ! si ces valeurs sontanormales, cette étendue n’est pas significative de la série.
En adoptant comme paramètres de dispersion les quartiles, on définit l’écartinterquartile 3 1Q Q− étendue de la série statistique d’effectif moitié de la série
initiale centrée sur la médiane. C’est en fait l’intervalle qui contient 50% desindividus « du milieu ». Cela revient à éliminer le premier quart et le dernier quart.
De même on définit l’écart interdécile 9 1D D− et l’écart intercentile 99 1C C−(utilisé par exemple en démographie)
• Pour les déciles, on conserve malgré tout 80% de la population alors que pourl’écart interquartile, seule la moitié de la population est considérée.En général on considère que les valeurs situées à plus de ( )3 11 5, Q Q× − de 2Q
sont aberrantes ou exceptionnelles. On les élimine.
• Les calculs de ces paramètres se font sur le modèle de la médiane. (rangementdes valeurs dans l’ordre croissant pour les variables discrètes et interpolationlinéaire pour les valeurs groupées en classe)
On les appelle caractéristiques de position, puisqu'elles permettent de placer lesvaleurs de la variable. Ces paramètres sont préférés en statistique à l’écart typeconsidéré plutôt comme un paramètre probabiliste.
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
24
2.3.5 Les statistiques de dissymétrie.
On peut considérer les moments centrés d’ordre k par rapport à la
moyenne1 1
1 1n nk k
k i k k ii i
m ( x x ) ou m n ( x x )n n= =
= − = −∑ ∑ .
En général, les moments d’ordre pair rendent compte de la dispersion, alors que ceuxd’ordre impair reflètent la « dissymétrie » de la série. Ils sont nuls si la série estsymétrique et d’autant plus grands en valeur absolue que la dissymétrie est marquée.Ils sont négatifs quand le maximum de fréquences est décentré vers la droite etpositifs si les fréquences sont décentrées vers la gauche. Le fait de prendre les centresde classe dans les distributions groupées ne provoque pas beaucoup d’erreurs sur lesmoments centrés d’ordre impair alors que les moments centrés d’ordre pair setrouvent surestimés.
Les quartiles permettent de construire les diagrammes de type boxplots, ils sontconstitués de deux boîtes contiguës délimités par le premier quartile, la médiane et letroisième quartile. Un segment s’étend de part et d’autre jusqu’au valeurs extrêmes.On appelle aussi ces diagrammes : boîtes à moustaches.
Min Q1 m=Q2 Q3 Max
( On peut définir des moustaches « normales » en faisant abstraction desvaleurs exceptionnelles définies ci-dessus.)
STAT01 COURS Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
25
(STAT01E02A)
On reprend les données de l’exercice STAT01E01A
Valeurs femmes105 110 112 112 118 119 120 120 125 126 127 128 130132 133 134 135 138 138 138 138 142 145 148 148 150151 154 154 158
Valeurs hommes141 144 146 148 149 150 150 151 153 153 153 154 155156 156 160 160 160 163 164 164 165 166 168 168 170172 172 176 179
1. Calculer l’écart interquartile pour chacune des trois séries, femmes, hommes etensemble de la population. (On utilisera le tableau exhaustif de l’énoncé)
2. Calculer : f H, etσ σ σ , les écarts types exacts des trois séries : femmes,
hommes et ensemble de la population (On utilisera le tableau exhaustif del’énoncé).
3. Calculer : f H, etσ σ σ′ ′ ′ , les écarts types approchés des trois séries : femmes,
hommes et l’ensemble de la population après le regroupement par classes, enprenant comme valeur le milieu de la classe).
STAT01 COMPénoncés Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E03)
Dans un pays en voie de développement, on désire étudier le nombre d’enfants parfamille. On sélectionne un échantillon de 200 familles qui donne les résultatssuivants
1. Faire un diagramme en bâtons.
2. Calculer la moyenne x .
3. Calculer l’écart type s.
4. Donner la valeur de la médiane m et des quartiles q et q1 3 .
5. Trouver un intervalle théorique de la forme x x− +α α; dans lequel on trouve
environ 75% de la population.
6. Donner le mode.
xi ni nixi nixi2
0 25 0 01 52 52 52
2 58 116 232 3 35 105 315 4 19 76 304
5 5 25 1256 4 24 1447 0 0 08 1 8 649 0 0 010 1 10 100
Total 0 200 416 1336
STAT01 COMPénoncés Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E04)
Une machine fabrique des rondelles de diamètre théorique 35,5mm, avec unetolérance de ±11, .L’objectif est d’obtenir 95% de pièces acceptables.
On effectue des mesures sur un échantillon de 500 pièces prélevées au hasarddonnées dans le tableau suivant :
1. Représenter l’histogramme des effectifs de cette série statistique, ainsi que lepolygone des fréquences cumulées croissantes.
2. Calculer une valeur approchée de la moyenne et de l’écart-type de la série aucentième le plus proche.
3. Déterminer, au vue du polygone des fréquences cumulées, la médiane et l’écartinterdécile. On donnera le résultat au dixième le plus proche.
4. Calculer le pourcentage de pièces acceptables. L’objectif est-il atteint ?
Diamètreeffectif
ni
centre de classe ci
nici nici2
[34 ; 34,2[ 10 34,10 341,00 11628,10[34,2; 34,4[ 8 34,30 274,40 9411,92[34,4; 34,6[ 15 34,50 517,50 17853,75[34,6; 34,8[ 23 34,70 798,10 27694,07[34,8; 35 [ 30 34,90 1047,00 36540,30[35 ; 35,2[ 52 35,10 1825,20 64064,52[35,2; 35,4[ 70 35,30 2471,00 87226,30[35,4; 35,6[ 92 35,50 3266,00 115943,00[35,6; 35,8[ 82 35,70 2927,40 104508,18[35,8;36 [ 57 35,90 2046,30 73462,17[36 ; 36,2[ 23 36,10 830,30 29973,83[36,2; 36,4[ 15 36,30 544,50 19765,35[36,4; 36,6[ 10 36,50 365,00 13322,50[36,6; 36,8[ 6 36,70 220,20 8081,34[36,8; 37 [ 5 36,90 184,50 6808,05[37 ; 37,2[ 2 37,10 74,20 2752,82Total 500 569,60 17732,60 629036,20
STAT01 COMPénoncés Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E05)
On considère les notes obtenues à l’épreuve de mathématiques par les 35 candidatsd’un concours.
1. Regrouper par valeurs cette série.2. Tracer le diagramme en bâtons.3. Déterminer la médiane.
4. Déterminer une valeur approchée au dixième le plus proche de la moyenne x decette série.
5. Quel est le pourcentage des notes appartenant à l’intervalle 7 5 135, ; ,
6. Quel est approximativement l’écart interquartile de cette série.7. Donner une valeur approchée au dixième le plus proche, de l’écart-type σ , de
cette série.8. Déterminer le pourcentage de notes comprises dans l’intervalle
x x− +LNM
OQP
2
3
2
3σ σ;
16,5 13,5 2,5 8,5 17,59 16 9,5 10,5 9,515 11,5 8,5 6 5,56,5 7,5 12 5 712,5 7 9,5 5 16
7 16,5 11 11,5 18,513,5 15 11,5 15 9
STAT01 SUPénoncés Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01S01)
Un recensement récent donne pour les 20 arrondissements de Paris cités dansl’ordre les chiffres de population suivant ( arrondis à 100 unités près) :
18500 21200 36100 34000 6220048900 67500 46400 64100 87000146900 138000 170800 138600 225600179400 169500 186900 162600 172000
1. Calculer la moyenne et l’écart type.
2. Effectuer un regroupement suivant les classes de largeur 30000 :10000 40000; ... etc
3. Tracer l’histogramme et donner une conclusion. Calculer à nouveau lamoyenne et l’écart type. Comparer les résultats.
STAT01 SUPénoncés Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01S02)
Une étude statistique dans une grande entreprise fait apparaître la répartitiondes ouvriers par tranche de salaire net annuel suivante :
1. Faire un histogramme de cette série.
2. Calculer une valeur approchée de la moyenne et de l’écart-type de la distributiondes salaires, en prenant comme valeur commune de la classe, le centre.
3. Donner la classe modale de cette statistique.
4. Donner une estimation de la médiane en effectuant une interpolation linéaire.
5. Donner en effectuant les interpolations linéaires nécessaires, le pourcentage de lapopulation ouvrière dont les salaires sont dans l’intervalle : 75 83[ ; ] , puis dansl’intervalle 71 87[ ; ]Que vous inspirent ces résultats ?
Salaire Effectif Ni
moins de 72 5[72 ; 75[ 10[75; 78[ 28[78; 81[ 27[81; 84[ 15[84; 87[ 1287 et plus 3Somme 100
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E03)
1. Diagramme en bâtons
2. Moyenne :
Nous avons un regroupement par valeurs, il faut donc utiliser la formule :
4162 08
200i i
i
n x,
n= =∑
∑
xi ni nixi nixi2
0 25 0 01 52 52 52
2 58 116 232 3 35 105 315 4 19 76 304
5 5 25 1256 4 24 1447 0 0 08 1 8 649 0 0 010 1 10 100
Total 0 200 416 1336
Diagramme en bâtons
0
10
20
30
40
50
60
70
1 2 3 4 5 6 7 8 9 10 11Nombre d'enfants
No
mb
re d
e fa
mill
es
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
3- Ecart-type :
On calcule tout d’abord la variance :
( )2 2
2 1336 4162 35
200 200i i
i
n xVarX x ,
n = − = − =
∑∑
Puis l’écart-type :2
1336 4161 5341
200 200X VarX ,σ = = − =
4 Médiane et quartiles
• Médiane :
Pour trouver la médiane, et les quartiles, il suffit de ranger par ordre croissant lesvaleurs du caractère pour chaque famille. Le travail est déjà fait dans le tableau.
La médiane est LA valeur du caractère pour laquelle 50% de l’effectif a unevaleur supérieure ou égale et 50% inférieure ou égale.
Sur cet exemple, la 99ième famille, la 100ième et la 101ième ont deux enfants. Ici laréponse est simple : la médiane est 2.
• Quartiles 1q ( premier quartile ):
La valeur du caractère pour laquelle 75% de l’effectif a une valeur supérieure ouégale et 25% inférieure ou égale.
Sur cet exemple, la 25ième famille n’a pas d’enfant, la 26ième en a un. Si on prend0, on a 25% des familles avec une valeur inférieure ou égale et 76% avec unevaleur supérieure ou égale.Il faut donc prendre le milieu. 1 0 5q ,= . Ici le premier quartile n’est pas unevaleur du paramètre.
• Quartile 3q : ( troisième quartile )
La valeur du caractère pour laquelle 25% de l’effectif a une valeur supérieure ouégale et 75% inférieure ou égale.
Sur cet exemple, la 74ième famille, la 75ième et la 76ième ont quatre enfants : laréponse est simple : 3 4q = .
L’écart interquartile est donc : 3 1 4 0 5 3 5q q , ,− = − =
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
5 Intervalle x ; xα α − +
La moyenne est de 2,08. On cherche donc un réel α tel que dans l’intervalle
[ ]2 08 2 08, ; ,α α− + on trouve 3 individus sur 4. On remarque que l’intervalle [ ]1 4;
contient 52 58 35 19 164+ + + = individus.Si on prend l’intervalle [ ] [ ]2 08 1 08 2 08 1 08 1 3 16, , ; , , ; ,− + = , celui-ci contient
52 58 35 145+ + = individus. Et comme 145
0 725150
,≈ , on peut considérer que cet
intervalle satisfait aux conditions de l’énoncé.
On peut également admettre l’intervalle [ ] [ ]2 08 1 92 2 08 1 92 0 16 4, , ; , , , ;− + = car
1640 82
200,≈ n’est pas très loin des conditions exigées.
4- Calcul du mode
Le mode ou les modes sont les valeurs du paramètre pour lesquelles l’effectif est leplus grand. Ici le mode est unique et vaut 2 (effectif de 58 ).
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E04)
1 Histogramme des effectifs et polygone des fréquences cumulées croissantes
34 35 35,4 36. 36,4 37
30
52
70
92
2 Calcul d’une valeur approchée de l a moyenne et de l’écart-type de la série..
Vous remarquerez qu’on parle de valeurs approchées.
En effet, nous n’avons aucun renseignement concernant la répartition des individusdans chaque classe et nous faisons l’hypothèse que ceux-ci y sont uniformémentrépartis. On prend donc comme valeur moyenne du caractère, le milieu de classe ic .
Les formules sont donc :
2 22
17732 6035 47
500
629036 20 17732 600 29
500 500
0 54
i i
i
i i
i
X
n c ,x ,
n
n c , ,VarX x ,
n
VarX ,σ
≈ = =
≈ − = − =
≈ =
∑∑
∑∑
Il faut, à chaque étape, reprendre la valeur non approchée du calcul précédent afin dene pas multiplier les erreurs.
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
3 Résolution graphique.
On demande une résolution graphique que nous proposons sur la page suivante.
Cependant, nous allons faire le calcul théorique d’interpolation linéaire souventdemandé dans les exercices.Cette question encore d’actualité dans de nombreux sujets est très critiquée par lesstatisticiens pour qui, cette interpolation linéaire n’a pas de sens. En effet disent-ils,la médiane ou toute valeur de dispersion n’ont de sens que si elles sont calculées àpartir des valeurs exactes.
Cependant plions-nous de bonne grâce à la résolution de cet exercice purementmathématique.
208 individus ont une valeur du caractère inférieure ou égale à 35,4 et 300 individusont une valeur du caractère inférieure ou égale à 35,6. La médiane est donc dansl’intervalle [ ]35 4 35 6, ; , . Cette classe contient environ 100 individus en considérant
que les individus sont uniformément répartis dans cet intervalle, on sait que la valeurcherchée sera proche de 35,5.
Diamètre effectif nicentre de classe ci
effectifs cumulés croissants
[34 ; 34,2[ 10 34,1 10[34,2; 34,4[ 8 34,3 18[34,4; 34,6[ 15 34,5 33[34,6; 34,8[ 23 34,7 56[34,8; 35 [ 30 34,9 86[35 ; 35,2[ 52 35,1 138[35,2; 35,4[ 70 35,3 208[35,4; 35,6[ 92 35,5 300[35,6; 35,8[ 82 35,7 382[35,8;36 [ 57 35,9 439[36 ; 36,2[ 23 36,1 462[36,2; 36,4[ 15 36,3 477[36,4; 36,6[ 10 36,5 487[36,6; 36,8[ 6 36,7 493[36,8; 37 [ 5 36,9 498[37 ; 37,2[ 2 37,1 500Total 500 569,6 500
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
Effectifs 300 B
250 C
208 A D E
34,4 34,6 Valeur du caractère
En appliquant Thalès : 42
0 2 0 0992
AD CD CDAD AE , ,
AE BE BE= ⇒ = × ⇒ × =
Finalement la valeur obtenue grâce à cette interpolation linéaire est35 4 0 09 35 49, , ,+ = .
On peut opérer de même pour les valeurs des premier et dernier déciles.
1
9
50 3334 6 0 2 34 75
56 33450 439
36 0 2 36 1462 439
d , , ,
d , ,
−= + × ≈−−= + × ≈−
L’écart interdécile est alors 1,35
On peut lire sur ce graphique représentant le polygone des effectifs cumuléscroissants les valeurs de la médiane et de l’écart interdécile.
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
1 9
10
35 5
34 7 36 1
36 1 34 7 1 4
m ,
d , et d ,
e , , ,
≈≈ ≈≈ − ≈
On peut dire que 80% de la population est dans l’intervalle [ ]34 7 36 1, ; , .
On notera que les résultats théoriques sont proches des lectures graphiques.
4 Pourcentage des pièces acceptables.
L’intervalle de tolérance est [ ] [ ]35 5 1 1 35 5 1 1 34 4 36 6, , ; , , , ; ,− + =On compte les individus dont les valeurs du caractère sont dans cet intervalle.On trouve : 500 31 469− = .
Cela représente 469
100 93 8500
,× ≈ .
L’objectif n’est donc pas atteint.
effectifs cumulés croissants
0
100
200
300
400
500
600
34,1
34,5
34,9
35,3
35,7
36,1
36,5
36,9
effectifs cumuléscroissants
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
(STAT01E05)
1 Regroupement par valeurs
Note xi effectif ni nixi nixi2
2,50 1 2,5 6,255,00 2 10 505,50 1 5,5 30,256,00 1 6 366,50 1 6,5 42,257,00 3 21 1477,50 1 7,5 56,258,50 2 17 144,59,00 2 18 1629,50 3 28,5 270,7510,50 1 10,5 110,2511,00 1 11 12111,50 3 34,5 396,7512,00 1 12 14412,50 1 12,5 156,2513,50 2 27 364,515,00 3 45 67516,00 2 32 51216,50 2 33 544,517,50 1 17,5 306,2518,50 1 18,5 342,25
Total 35 376 4618
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
2 Diagramme en bâtons
3 Médiane
La médiane est la valeur pour laquelle il y a autant d’individus ayant une valeur duparamètre supérieure que d’individus ayant une valeur du paramètre inférieure.Le nombre d’individus étant impair, la médiane est la 18ième valeur donc : 10,5
4 Valeur approchée de la moyenne
On choisit la formule de la moyenne pour les regroupements par valeur.
37610 7
35i i
i
x nx ,
n= = ≈∑
∑
5 Pourcentage d’individus dans l’intervalle [ ]7 5 13 5, ; ,
Il suffit de compter dans le tableau.
Il y a 17 individus dans l’intervalle, donc 17
100 48 635
, %× ≈
6 Ecart interquartile
Les 8ième et 9ième individus ont pour valeur du caractère 7.Les 27ième et 28ième individus ont pour valeur du caractère 15.
1 3
3 1
7 15
8
q et q
q q
≈ ≈− ≈
7 Valeur approchée de l’écart type
On choisit la formule de l’écart type pour les regroupements par valeur.
Diagramme en bâtons
0
1
2
3
4
notes
effe
ctif
s
STAT01 COMPsolutions Octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de L’INPLCours et Exercices : Philippe Leclère
2 22 4618 376
16 5335 35
4 1
i i
i
X
x nVarX x ,
n
VarX ,σ
= − = − ≈
= =
∑∑
8 Pourcentage d’individus dans l’intervalle 2 2
3 3x ; xσ σ − +
[ ]2 27 97 13 43
3 3x ; x , ; ,σ σ − + =
On compte 14 individus dans cet intervalle soit 14
100 4035
%× ≈
STAT01 : GI SOLUTIONS octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.Cours et exercices : Philippe Leclère
(STAT01E01A)
1 Informations à la lecture de ces données.
• L’effectif des hommes et des femmes est le même.• Les salaires féminins sont plus faibles que les salaires masculins.• Les salaires féminins sont compris dans l’intervalle 105 158;
• Les salaires masculins sont compris dans l’intervalle 141 179;
2 Regroupement en classes
Représentation graphique
On peut dessiner deux histogrammes en portant indifféremment en ordonnées leseffectifs ou les fréquences car les classes sont de même amplitude.
Classes effectifs fréquencesfréquences cumulées
Classes effectifs fréquencesfréquences cumulées
]104;114] 4 0,133 0,133 ]104;114] 0 0,000 0,000
]114;124] 4 0,133 0,267 ]114;124] 0 0,000 0,000
]124;134] 8 0,267 0,533 ]124;134] 0 0,000 0,000
]134;144] 6 0,200 0,733 ]134;144] 2 0,067 0,067
]144;154] 7 0,233 0,967 ]144;154] 10 0,333 0,400
]154;164] 1 0,033 1,000 ]154;164] 9 0,300 0,700
]164;174] 0 0,000 1,000 ]164;174] 7 0,233 0,933
]174;184] 0 0,000 1,000 ]174;184] 2 0,067 1,000
Total 30 1,000 Total 30 1,000
Femmes Hommes
STAT01 : GI SOLUTIONS octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.Cours et exercices : Philippe Leclère
La série 1 représente les femmes et la série 2 les hommes.
3 Moyennes des distributions initiales :
On x la moyenne de la population totale
On x f la moyenne de la population féminine
On xh la moyenne de la population masculine
x x xf xh
x xf
x xh
kk
kk
kk
f kk
h kk
= = + = + =
= = =
= = =
= = =
=
=
∑ ∑ ∑
∑
∑
1
60
1
30
1
30
4766 3988
60145 9
1
30
3988
30132 9
1
30
4766
30158 9
1
60
1
30
1
30
1
30
1
30
,
,
,
SALAIRES en milliers de francs
02468
1012
]104
;114
]
]114
;124
]
]124
;134
]
]134
;144
]
]144
;154
]
]154
;164
]
]164
;174
]
]174
;184
]
effe
ctif Série1
Série2
STAT01 : GI SOLUTIONS octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.Cours et exercices : Philippe Leclère
4 Moyenne d’après les regroupements par classe.
Pour chaque classe on prend comme valeur du paramètre le milieu de la classe.On obtient alors :
x
x
x
f
h
′ = × + × + × + × + × + × + × + × ≈
′ = × + × + × + × + × + × ≈
′ = × + × + × + × + × ≈
4 109 4 119 8 129 8 139 17 149 10 159 7 169 2 179
60145 3
4 109 4 119 8 129 6 139 7 149 1 159
30132 7
2 139 10 149 9 159 7 169 2 179
30158
,
,
On remarque que les résultats sont sensiblement différents des résultats exacts. Larépartition dans chaque classe n’est donc pas uniforme.
5 Calcul des médianes
Pour la série totale
En observant les données rangées par ordre croissant, on trouve :149 pour le rang 30 et 150 pour le rang 31. En appliquant la règle du cours : « demi-
somme de ces valeurs » ; mg = + =149 150
2149 5,
Pour la série femmes
En observant les données rangées par ordre croissant, on trouve :133 pour le rang 15 et 134 pour le rang 16. En appliquant la règle du cours : « demi-
somme de ces valeurs » ; mf = + =133 134
21335,
Pour la série hommes
En observant les données rangées par ordre croissant, on trouve :156 pour le rang 15 et 160 pour le rang 16. En appliquant la règle du cours : « demi-
somme de ces valeurs » ; mf = + =156 160
2158
On notera que calculer les médianes pour les valeurs regroupées n’a pas desens, bien que souvent ce soit demandé dans les sujets.
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vousconseillons vivement de contacter votre tuteur.
STAT01 : GI SOLUTIONS octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.Cours et exercices : Philippe Leclère
(STAT01E02A)
1. Calcul des quartiles
On reprend les tableaux exhaustifs des deux séries.
Pour la série des femmes :
• Les termes de rang 7 et 8 valent 120. Donc 1 120Q =• Le terme de rang 22 vaut 142 et le terme de rang 23 vaut 145.
• Si on prend 142 alors 73,33% de la population ont une valeur inférieure ouégale et 30% ont une valeur supérieure ou égale.
• Si on prend 145 alors 76,67% de la population ont une valeur inférieure ouégale et 26,67% ont une valeur supérieure ou égale.
• Pour toute valeur comprise entre 142 et 145, on trouve : .73,33% en dessouset 26,67 au dessus.
• Il est donc clair qu’il n’y a pas de valeur qui permette de répondre exactementau problème. On choisira la moins mauvaise soit 145.
• l’écart interquartile vaut donc 145 120 25− =
D’une manière générale, si le nombre d’observations est grand, l’erreur commise estassez faible et on peut se rapprocher fortement des valeurs 25% et 75%.
Si 4n k= alors 1 11 32 2
k k n k n kx x x xQ et Q+ − − ++ +
= = ( valeurs exactes )
Sinon 1 1 3k n kQ x et Q x+ −= = ( valeurs approchées )
On peut ne pas apprendre ces résultats et conjecturer en essayant les différentesvaleurs, comme ci-dessus.
Pour la série des hommes :
• 1 151Q = , 3 166Q = et donc 3 1 166 151 15Q Q− = − =
Pour la série totale, on est dans le cas 60 4 15= ×
• 15 16 45 661 3133 5 159
2 2
x x x xQ , et Q
+ += = = =
STAT01 : GI SOLUTIONS octobre 2000
Cycles Préparatoires du Service Commun de Formation Continue de l'INPL.Cours et exercices : Philippe Leclère
2. Calcul des écarts type pour la série exhaustive.
( )
( )
( ) ( )
2 2302
1
2 2302
1
26022
1
1 536176 398814 2
30 30 30
1 759954 47669 7
30 30 30
1 1296130145 9 17 8
60 60
f f ,i fi
h h,i hi
ii
x x ,
x x ,
x x . ,
σ
σ
σ
=
=
=
= − = − ≈
= − = − ≈
= − = − ≈
∑
∑
∑
3. Calcul des écarts type pour la série exhaustive.
14
10 4
17 8
f
h ,
,
σ
σσ
′ ≈′ ≈′ ≈
Sur les questions 2 et 3, on peut faire les remarques suivantes :
• L’écart type des femmes est plus faible que celui des hommes. Cela signifie sansdoute que les fonctions remplies par les femmes sont assez homogènes. Comptetenu des différences de salaires, elles occupent sans doute peu de postes àresponsabilité ou de cadre.
• L’écart type de la population totale est important, ce qui est dû à la présence dedeux groupes assez différents.
• Les pertes d’information ne sont pas très significatives après les regroupementspar classe.
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vousconseillons vivement de contacter votre tuteur.
STAT01 AIDES Octobre2000
Service Commun de Formation Continue de l’INPLCours et exercices : Philippe Leclère
1
(STAT01E01A)
1 Le tableau original ne permet pas de tirer des conclusions sur les raisons dedisparité des salaires entre les hommes et les femmes. On peut cependant s’entenir aux chiffres et donner les valeurs extrêmes pour chaque famille.
2 Regroupement en classes
On peut remplir le tableau suivant :
On peut dessiner deux histogrammes en portant indifféremment en ordonnées leseffectifs ou les fréquences car les classes sont de même amplitude.
3, 4 Pour les moyennes on se reportera au cours.
5 On observe les données rangées par ordre croissant
Classes effectifs fréquencesfréquences cumulées
Classes effectifs fréquencesfréquences cumulées
]104;114] 4 ]104;114]
]114;124] ]114;124]
]124;134] ]124;134]
]134;144] ]134;144]
]144;154] ]144;154]
]154;164] ]154;164]
]164;174] ]164;174]
]174;184] ]174;184]
Total Total
Femmes Hommes
STAT01 AIDES Octobre2000
Service Commun de Formation Continue de l’INPLCours et exercices : Philippe Leclère
2
(STAT01E02A)
Calcul des quartiles
On reprend les tableaux exhaustifs des deux séries et on opère comme pour lamédiane.
D’une manière générale, si le nombre d’observations est grand, l’erreur commise estassez faible et on peut se rapprocher fortement des valeurs 25% et 75%.
Si 4n k= alors 1 11 32 2
k k n k n kx x x xQ et Q+ − − ++ +
= = ( valeurs exactes )
Sinon 1 1 3k n kQ x et Q x+ −= = ( valeurs approchées )
Pour les calculs d’écart type on se reportera aux formules du cours.
On essaiera de commenter les deux séries de résultats, données exhaustives etdonnées groupées.