probabilites et methodes statistiques … · probabilites et methodes statistiques pratiques...
TRANSCRIPT
PROBABILITES ET METHODES
STATISTIQUES PRATIQUES
Mohsine BENABDALLAH
Département de Mathé[email protected]
SMP Semestre 3Automne 2013
1
Le but de ce cours est d'introduire quelques modèles probabilistes an de lesappliquer aux résultats statistiques obtenus.On introduira les modèles d'espaces probabilisés en partant d'expériences aléa-toires, on parlera d'espace d'événements sur lequel on dénira une mesure deprobabilité. Après avoir donné les propriétés de cette dernière, on évoquera leconditionnement pour aboutir à la formule de Bayes.Les variables aléatoires, aussi bien discrètes que continues, seront introduitespour pouvoir les utiliser dans le chapitre suivant.Enn, le troisième chapitre donnera un aperçu sur les méthodes qu'on appliqueraaux données statistiques. On décriera ces données (statistique descriptive) qu'onpourra utiliser pour passer à une population plus grande.Ce cours s'inspire pour une grande part des notes de cours du Pr. EL Arrouchi.
CHAPITRE 1 : Modèles d'espaces probabilisés
CHAPITRE 2 : Modèles de variables aléatoires
CHAPITRE 3 : Methodes statistiques
2
CHAPITRE 1 :
Modèles d'espaces probabilisés
Expérience, Evénement, Univers Tout commence par une expérience aléatoire appelée aussi épreuvedont les résultats sont dûs au hasard et même si elle est répétée dans lesmêmes conditions ne donne pas forcément le même résultat.
Tous les résultats possibles d'une expérience sont mis dans une ensembleappelé univers qu'on note généralement Ω.
Toute partie de l'univers sera appelé un événement.Exemples "Lancer un dé et noter le résultat obtenu" est une expérience aléatoire quidonne 6 résultats ou issues possibles. Les diérents résultats possibles decette épreuve sont
Ω = 1, 2, 3, 4, 5, 6
Ω est composé de 6 événements élémentaires. "Extraire trois étudiants d'une population d'étudiants constituée de garçons(G) et de lles (F)" est une expérience aléatoire dont les résultats possiblessont
Ω = FFF, FFG,FGF,GFF, FGG,GFG,GGF,GGG
Ω est composé de 8 événements élémentaires.Notations
1. ∅ est l'événement impossible et Ω est l'événement certain.
2. A est l'événement complémentaire (ou contraire) de A. C'est l'événementqui se réalise si A ne l'est pas.
3. Si A et B sont deux événements , A∪B est l'événement qui se réalise dèsque A ou B s'est réalisé.
4. Si A et B sont deux événements , A∩B est l'événement qui se réalise dèsque A et B se sont réalisés.
5. L'événement A \ B est déni par l'ensemble des éléments de A qui n'ap-partiennent pas à B.
6. L'événement A implique l'événement B si A ⊂ B.7. Les événements A et B sont disjoints, ou incompatibles si A ∩B = ∅.ExemplesSoient A,B et C trois événements quelconques. Traduire à l'aide de l'écriture
ensembliste les événements suivants : E : "au moins un des événements B et C se réalise" F : "aucun des événements A et C ne se réalise" G : "C, seul, se réalise" H : "un seul événement parmi les trois , se réalise" I : "aucun événement parmi les trois ne se réalise" J : "au moins un parmi les trois événements se réalise"
3
Espace probabilisable On associe à toute expérience l'ensemble A de tousles événements de Ω. Si Ω est ni ou dénombrable alors A = P(Ω) l'ensemblede toutes les parties de Ω.DénitionLe couple (Ω,A) est appelé espace probabilisableExempleSi on jette une pièce de monnaie alors Ω = P, F et
A = ∅, P, F, P, F
ExerciceDécrire A quand Ω = 1, 2, 3, 4, 5, 6.
Système completLes événements A1, ..., An forment un système complet d'événements,
s'ils constituent une partition de Ω ; c'est à dire si tous les couples Ai, Aj sont disjoints quand i 6= j ;⋃ni=1Ai = Ω.
Probabilité : dénition fréquentisteOn considère une expérience pouvant donner lieu à un résultat quelconque
parmi N résultats également possibles. Supposons que n résultats soient favor-ables à la réalisation d'un événement particulier A. La probabilité de l'événementA est dénie comme :
P (A) =nombre de cas favorablesnombre de cas possibles
=Card(A)
Card(Ω)=
n
N.
Exemple
Pour les besoins d'un test sur un vaccin V , nous disposons de 10 volontaires,3 d'entre eux appartiennent à une même famille. Deux personnes sont tirées auhasard. Quelle est la probabilité P (F ) que ces deux personnes soient de la mêmefamille ?
SolutionL'expérience consiste à tirer (simultanément) deux personnes parmi 10. Il s'agitde dénombrer le nombre de combinaisons de 2 parmi 10 ce qui donne C2
10 ce quidonne le nombre de cas possibles à savoir Card (Ω). Le nombre de cas favorableest le nombre de combinaisons de 2 parmi 3 c'est à dire C2
3 .On obtient P (F ) = 1/15.
Probabilité : dénition axiomatique (Kolmogorov) Dénition
Une probabilité P est une application de A dans [0, 1] telle que P (Ω) = 1; P (
⋃∞i=1) =
∑∞i=1 P (Ai), pour toute suite dénombrable d'événementsA1, A2, ...
disjoints deux à deux appartenant à A.Le triplet (Ω,A, P ) dénit un espace probabilisé.
Propriétés d'une probabilité
1. P (A) = 1− P (A) ;
2. P (∅) = 0 ;
3. P (A \B) = P (A ∩B) = P (A)− P (A ∩B) ;
4
4. A ⊆ B =⇒ P (A) ≤ P (B) ;
5. P (A ∪B) = P (A) + P (B)− P (A ∩B) ;
6. Si A1, ..., An forment un système complet d'événements, alors pour toutB ∈ A,
P (B) =
n∑i=1
P (B ∩Ai).
Probabilité conditionnelleDénition
Soient deux événements A et B avec P (B) > 0. On dénit la probabilitéconditionnelle de A sachant que B est réalisé, notée P (A|B) par
P (A|B) =P (A ∩B)
P (B).
ExempleOn jette un dé équilibré. Quelle est la probabilité d'avoir un nombre pair sachantqu'il est supérieur ou égal 4 ?
Indépendance DénitionDeux événements A et B sont dits indépendants si
P (A|B) = P (A).
ConséquenceOn peut montrer facilement que si A et B sont indépendants, alors
P (A ∩B) = P (A)P (B).
ExerciceMontrer que si A et B sont indépendants, il en est de même de A et B.
Probabilité totalesSoient A1, .., An un système complet d'événements,alors pour tout B ∈ A
P (B) =
n∑i=1
P (Ai)P (B|Ai).
Exemple de l'itinérairePour se rendre à la faculté des sciences, un étudiant a le choix entre 3 it-
inéraires A,B et C. La probabilité qu'il a de choisir A(resp B,C) est 13 (resp
14 ,
512 ). La probabilité d'arriver en retard en empruntant A(resp B,C) est 1
20 (resp110 ,
15 ).Quelle est probabilité que l'étudiant arrive en retard ?
RéponseLes événements A,B et C forment un système complet car A ∪ B ∪ C = Ω etA∩B = A∩C = B∩C = ∅. Soit R l'événement "arriver en retard", en utilisantla formule des probabilités totales, on obtient
P (R) = P (A)P (R|A) + P (B)P (R|B) + P (C)P (R|C)
5
Formule de BayesSoient A1, .., An un système complet d'événements et B ∈ A alors
P (Ai|B) =P (Ai)P (B|Ai)∑nj=1 P (Aj)P (B|Aj)
.
Retour à l'exemple de l'itinéraireL'étudiant arrive en retard. Quelle est la probabilité qu'il ait emprunté l'it-
inéraire C ?Réponse
On cherche la probabilité de C sachant R, on utilise pour cela la formule deBayes :
P (C|R) =P (C)P (R|C)
P (A)P (R|A) + P (B)P (R|B) + P (C)P (R|C)
ExerciceConsidérons deux urnes U1 et U2. L'urne U1 contient 2 boules blanches et 3
boules noires. L'urne U2 contient 1 boule blanche et 4 boules noires. Appelons Bl'événement "tirer une boule blanche" et N l'événement "tirer une boule noire".Dans chaque urne, il y a équiprobabilié du choix des boules.On choisit une urne au hasard, chaque urne ayant la même probabilité d'êtrechoisie que l'autre, puis on tire une boule de cette urne.On sait qu'une boule blanche a été tirée. Quelle est la probabilité d'avoir choisil'urne U1 ?
Exercice 9 :Une usine de pellicules de photo dispose de trois machines A,B et C qui
fabriquent respectivement 20%, 50% et 30% de la production totale. Les pro-portions de pellicules défectueuses fabriquées par les machines A,B ou C sontrespectivement égales à 6%, 5% et 3%.On tire au hasard une pellicule dans la production, calculez :
la probabilité que cette pellicule soit défectueuse ; la probabilité qu'elle provienne de la machine A sachant qu'elle est dé-fectueuse ;
la probabilité qu'elle provienne de la machine A sachant qu'elle est nondéfectueuse.
Corrigé Exercice 9 :On a P (A) = 0.2, P (B) = 0.5, P (C) = 0.3 et en notant D l'événement la
pellicule obtenue est défectueuse.Ainsi P (D|A) = 0.06, P (D|B) = 0.05, P (D|C) = 0.03.
la probabilité que cette pellicule soit défectueuse est donnée par
P (D) = P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C) = 0.046
la probabilité qu'elle provienne de la machine A sachant qu'elle est dé-fectueuse est donnée par
P (A|D) = P (A ∩D)/P (D) = P (D|A)P (A)/P (D) = 6/23
la probabilité qu'elle provienne de la machine A sachant qu'elle est nondéfectueuse est donnée par
P (A|D) =P (A ∩D)
P (D)=P (A)− P (A ∩D)
P (D)=
0.2(1− 0.06)
0.954
6
CHAPITRE 2 :
Modèles de variables aléatoires
Dénition
Une variable aléatoire réelle sur (Ω,A) est une application
X : Ω −→ R
telle que pour chaque x ∈ R
ω : X(ω) = x ∈ A
ExempleOn lance deux pièces de monnaie. L'ensemble des résultats possibles est
Ω = (F, F ); (F, P ); (P, F ); (P, P ).
Chacun des événements élémentaires de Ω a une probabilité égale 1/4 de seproduire.
Considérons la variable aléatoire réelle X représentant le nombre de 'faces'obtenues. Donc X(Ω) = 0, 1, 2. On a de plus,
X =
0 avec une probabilité 1/41 avec une probabilité 1/22 avec une probabilité 1/4.
0 1 20
0.1
0.2
0.3
0.4
0.5
Distribution de "Faces" obtenus
Fréqu
ence
Fonction de répartitionSoit X une variable aléatoire réelle. La fonction de répartition de X est
la fonction dénie parFX : R 7−→ [0, 1]
x −→ P (X ≤ x)
Elle vérie les propriétés suivantes
7
limx→−∞ FX(x) = 0, limx→,∞ FX(x) = 1 P (a < X ≤ b) = FX(b)− FX(a). P (X = a) = FX(a)− FX(a−) où
FX(a−) = limx→a−
FX(x)
Variables aléatoires discrètesDénition
Une variable aléatoire réelle X est dite discrète si elle ne prend que desvaleurs discrètes, c'est à dire X(Ω) = x1, x2, ...
On appelle distribution de probabilité, ou loi de probabilité de X,l'ensemble des couples
(xi, pi), i = 1, ...
où pi = P (X = xi) vériant ∑pi = 1.
Espérance, Variance et écart-type d'une variable aléatoire discrèteL'espérance mathématique d'une variable aléatoire discrète est dénie de lamanière suivante :
µ = E(X) =
n∑i=1
pixi,
sa variance
V(X) = E(X − µ)2 =
n∑i=1
pi(xi − µ)2 =
n∑i=1
pix2i − µ2
et son écart-typeσ(X) =
√V(X)
ExempleOn mise une certaine somme. On lance un dé marqué as,roi,dame,valet,dix etneuf.L'as rapporte 10 DH, le roi et la dame 6 DH , le valet 5 DH alors que le 10ou le 9 ne rapportent rien. Soit X la variable aléatoire indiquant le gain obtenu.
Loi de probabilitéX = xi 0 5 6 10 Totalpi 1/3 1/6 1/3 1/6 1pixi 0 5/6 2 5/3 4,5pix
2i 0 25/6 12 50/3 32,83
E(X) = 4, 5;V(X) = 32, 83− 4, 52 = 12, 58.
σ(X) =√V(X) = 3, 55.
Propriétés de l'espérance et de la varianceProposition
Soient X et Y deux variables aléatoires discrètes sur l'univers Ω. Alors ona, pour tous réels a et b,
E(aX + b) = aE(X) + b,
8
E(aX + bY ) = aE(X) + bE(Y ), V(aX + b) = a2V(X) Si X et Y sont indépendantes, alorsV(aX + bY ) = a2V(X) + b2V(Y ).
Variable de BernoulliOn dénit une variable aléatoire qui ne peut prendre que deux valeurs 0 et
1 comme variable de Bernoulli. Sa loi de probabilité est très simple pourlaquelle p représente la probabilité de l'issue qu'on veut mettre en évidence(succés) et q = 1− p la probabilité de l'autre terme (échec).
X =
1 avec une probabilité p0 avec une probabilité 1− p.
Son espérance vaut
E(X) = (1− p)× 0 + p× 1 = p
Sa variance vaut
V(X) = E(X − p)2 = (1− p)(0− p)2 + p(1− p)2 = p(1− p)
On retiendra que toute situation aléatoire d'alternative peut être représen-tée par une variable de Bernoulli dont le paramètre p, égal à la probabilité del'issue qu'on cherche à mettre en évidence, est égal à l'espérance, la varianceétant égale à p(1− p).
ExempleOn tire au hasard une boule dans une urne contenant 18 boules rouges et 16boules blanches. On désire mettre en évidence le tirage d'une boule rouge. Ondénit alors la variable aléatoire de Bernoulli X qui vaut 1 si la boule tirée estrouge et 0 sinon. Il reste à déterminer p, c'est la probabilité de tirer une boulerouge.
Variable BinomialeOn répète la même expérience de Bernoulli, de paramètre p, n fois de manière
indépendante et on désigne par X le nombre de succès obtenus. Alors X estappelée variable binomiale de paramètre n et p qu'on note : X ∼ B(n, p). Saloi est donnée par
P (X = k) = Cknpk(1− p)n−k, k = 0, 1, 2, ..., n
ThéorèmeSi X ∼ B(n, p), alors on a
E(X) = np,V(X) = E(X − np)2 = np(1− p)
σ(X) =√V(X) =
√np(1− p)
Exemple
On tire au hasard avec remise et de manière indépendante 5 boules d'uneurne contenant 18 boules rouges et 12 boules blanches. Si X est le nombre deboules rouges obtenues,
alors X suit une loi binomiale de paramètre n = 5 et p = 1830 = 0, 6. Donc,
P (X = k) = Ck5 (0, 6)k(0, 4)5−k, k = 0, 1, .., 5
9
Exercice 3 :Calculez la probabilité qu'il y ait 3 lles et 2 garçons dans une famille de 5
enfants :
1. Si on suppose la probabilité de naissance d'une lle égale à la probabilitéde naissance d'un garçon.
2. Si on suppose la probabilité de naissance d'une lle égale 0,48.
Corrigé Exercice 3 :L'univers est constitué de tous les 5-uplets constitués de F(lle) et G(garçon).
Ω = FFFFF, FFFFG,FFFGF, ..., GGGGG
Alors CardΩ = 25,
1. Si on suppose la probabilité de naissance d'une lle égale à la probabilitéde naissance d'un garçon, alors et P (ω) = 1
25 ) pour tout ω ∈ Ω et parla suite, il reste à dénombrer les cas favorables , c'est à dire le nombre defaçons de choisir deux places parmi 5 pour y installer les deux garçons etremplir les autres par des lles. Ce nombre est égal à C2
5 et la probabilité
demandée estC2
5
25.
2. Si on suppose la probabilité de naissance d'une lle égale 0,48. Alors laprobabilité d'un garçon est de 0,52 et la probabilité d'obtenir une combi-naison (3 lles et deux garçons) est égale à (0, 48)3(0, 52)2 ainsi la proba-bilité demandée est égale à
C25 (0, 48)3(0, 52)2
Variable de PoissonLa variable X suit une loi de Poisson, de paramètre λ > 0 si
P (X = k) = e−λλk
k!, k = 0, 1, 2, ..
10
On la note X ∼ P(λ).ThéorèmeSi X ∼ P(λ) alors on a
E(X) = V (X) = λ.
UtilisationLa loi de Poisson est la loi discrète représentant un nombre d'événements.
Elle est utilisée pour décrire : la réalisation d'événements peu probables, dans une succession d'épreuvestrès nombreuses, au moins 50
le nombre d'accidents dans un atelier, le nombre de défauts sur un appareil, elle est la loi limite de la loi binomiale, quand n tend vers l'inni et p tendvers zéro, le produit np restant ni.
La loi de Poisson est la loi des événements rares ou loi des petites probabilités.Application 1Selon les données récoltées depuis plusieurs années, le nombre de pannes
hebdomadaires du système électronique d'une entreprise suit une loi de Pois-son de paramètre λ = 0, 05. Soit X la variable aléatoire "nombre de panneshebdomadaires" :
P (X = k) = e−0,05(0, 05)k
k!
La probabilité que le système tombe en panne une fois au cours d'une semainequelconque (k = 1) est égale à 0, 04756.La probabilité qu'il fonctionne sans panne (k = 0) est égale à 0, 95122.Quelle est la probabilité d'observer 2 pannes au cours d'une semaine ? d'unmois ?
Application 2La probabilité pour une ampoule électrique de claquer à son premier al-
lumage est de 0, 01. On suppose poissonnienne cette loi à cet âge. Sur un groupede 100 ampoules, quelle est la probabilité d'observer :
1. 0 claquage
2. 1 claquage
3. plus de 2 claquages
Réponsen = 100 et p = 0, 01 donc sur 100 ampoules la moyenne est np = 1. X
représentant le nombre de claquages suit la loi de Poisson P(1). Alors
1. P (”0 claquage) = P (X = 0) = e−1 10
0! = 0, 3679
2. P (”1 claquage”) = P (X = 1) = e−1 11
1! = 0, 3679
3. P (”plus de 2 claquages”) = 1− P (X ≥ 2) = 0, 0803
Loi géométriqueOn considère une épreuve de Bernoulli dont la probabilité de succès est p et
celle d'échec q = 1 − p. On renouvelle cette épreuve de manière indépendantejusqu'au premier succès. On note X la variable aléatoire donnant le rang dupremier succès.
1. Montrer que P (X = k) = pqk−1, k = 1, 2, ... Dans ce cas, on dit que Xsuit une loi géométrique de paramètre p.
11
2. Montrer que E(X) = 1p et V (X) = q
p2 .
Montrons que E(X) = 1p
E(X) =
∞∑k=1
kpqk−1 = limn→∞
n∑k=1
kpqk−1
= limn→∞
p
n∑k=1
d
dq(qk) = lim
n→∞pd
dq
n∑k=1
(qk)
= limn→∞
pd
dq(q
1− qn
1− q) =
p
(1− q)2=
1
p
Le calcul de la variance est laissée en exercice.Application
ExerciceUn certain matériel a une probabilité p = 0, 02 constante de défaillance à
chaque mise en service. On procède à l'expérience suivante, l'appareil est misen marche, arrêté, remis en marche, arrêté, jusqu'à ce qu'il tombe en panne.Quelle est la probabilité que ce matériel tombe en panne (pour la première fois)au dixième essai ?Le nombre d'essais nécessaires pour obtenir la panne est une variable aléatoireX suivant une loi géométrique de paramètre p. La probabilité que ce matérieltombe en panne (pour la première fois) au dixième essai est égale à :
P (X = 0) = (0, 02)(1− 0, 02)9 = 0, 0167
ExerciceUn atelier fabrique un grand nombre d'objets. On admet que la probabilité
qu'un objet soit défectueux est égale à 1/100. Combien doit-on contrôler depièces pour avoir 95 chances sur 100 d'obtenir au moins une pièce défectueuse ?
Il s'agit d'une répétition d'une loi de Bernoulli avec une probabilité de succès(obtenir une pièce défectueuse) p = 0, 01. On considère X la variable aléatoirecorrespondant au nombre d'essais à eectuer pour obtenir une pièce défectueuse,X suit alors une loi géométrique de paramètre p et sa loi est donnée par
P (X = k) = p(1− p)k−1, k = 1, 2, ...
Ainsi on cherche k de telle façon que P (X = k) = 0, 95Variables aléatoires continues
Une variable aléatoire continue prend ses valeurs sur un ensemble inni nondénombrable de points, elle décrit par exemple la durée de vie d'une batterie devoiture, l'heure d'arrivée des voitures à un péage donné d'autoroute..Il existe une fonction f non négative, dénie pour toute valeur x de R et vériant,pour toute partie A de R, la propriété :
P (X ∈ A) =
∫A
f(x)dx.
∫Rf(x)dx = 1
La fonction f est appelée la densité de probabilité de la variable aléatoireX.
12
La fonction de répartition de la variable aléatoire X, ayant pour densitéde probabilité f , est dénie par :
FX(a) = P (X ≤ a) =
∫ a
−∞f(t)dt
Pour toutes les valeurs a et b appartenant à R, on a donc la relation :
P (a < X ≤ b) = FX(b)− FX(a)
L'espérance d'une variable aléatoire continue est donnée par :
µ = E(X) =
∫ +∞
−∞xf(x)dx,
et la variance
σ2 = V ar(X) =
∫ +∞
−∞(x− µ)2f(x)dx.
Propriétés de l'espérance et de la variancePropositionSoient X et Y deux variables aléatoires (discrètes ou continues) sur l'espace
probabilisé (Ω,A, P ). Alors on a, pour tous réels a et b, E(aX + b) = aE(X) + b, E(X + Y ) = E(X) + E(Y ), V ar(aX + b) = a2V ar(X), V ar(X) = E(X2)− (E(X))2, V ar(X + Y ) = V ar(X) + V ar(Y ) si X et Y sont indépendants.Loi uniforme Une loi va être uniforme si toutes les valeurs sont équiproba-
bles, mais il y a une innité de valeurs, on parlera d'équiprobabilité pour desintervalles de même taille.
DénitionOn dit que la variable aléatoire continue X suit la loi uniforme sur [a, b] si sadensité est donnée par :
f(x) =
1b−a si x ∈ [a, b]
0 sinon .
On note alors X ∼ U[a,b].ThéorèmeSoit X une variable aléatoire telle que X ∼ U[a,b]. Alors
E(X) =a+ b
2
V ar(X) =(b− a)2
12
F (x) =
0 si x < a
x−ab−a si x ∈ [a, b]
1 si x > b.
13
Loi exponentielle Soit λ un réel strictement positif. On dit qu'une variablealéatoire X suit la loi exponentielle de paramètre λ si elle admet pourdensité la fonction f dénie sur R par :
f(x) =
0 si x < 0
λe−λx si x ≥ 0.
On note X ∼ E(λ).
PropositionLa fonction de répartition d'une variable aléatoire suivant une loi exponen-
tielle de paramètre λ est :
f(x) =
0 si x < 0
1− e−λx si x ≥ 0.
ThéorèmeSi X suit une loi exponentielle de paramètre λ > 0 alors X admet une
espérance et une variance données par :
E(X) =1
λ, V ar(X) =
1
λ2.
Une situation très classique aussi où on envisage un modèle exponentiel estcelle où on s'intéresse au délai de survenue d'événements aléatoires dans le temps(souvent appelé durée de vie), et où on admet que le devenir X d'un individu(au sens statistique du terme) ne dépend pas de son âge :
P (X ≤ x0 + x|X > x0) = P (X ≤ x),∀x > 0,∀x0 > 0
On peut montrer que cette condition implique que X suit une loi de type expo-nentiel.
Variable normaleDénition
Soit X une variable aléatoire continue. On dit que X suit la loi normale deparamètres m et σ2 si sa fonction densité est donnée par :
f(x) =1
σ√
2πe−
(x−m)2
2σ2 , x ∈ R.
On note alors X ∼ N (m,σ2).
14
Densité de la loi normale
ThéorèmeSoit X une variable aléatoire telle que X ∼ N (m,σ2).
On a alors E(X) = m et V ar(X) = σ2.PropositionSoientX et Y deux variables aléatoires indépendantes telles queX ∼ N (m1, σ
21)
et Y ∼ N (m2, σ22). Alors
X + Y ∼ N (m1 +m2, σ21 + σ2
2).
PropositionSoit X une variable aléatoire telle que X ∼ N (m,σ2). On pose Z = X−m
σ ,alors Z est une variable aléatoire telle que Z ∼ N (0, 1).On dit que Z suit la loi normale centrée réduite.
Utilisation des tables statistiques de N (0, 1)Proposition
Soit Z telle que Z ∼ N (0, 1). Alors pour tout a > 0 on aP (Z > −a) = P (Z < a)P (|Z| ≤ a) = 2P (Z ≤ a)− 1
La table 1 donne, pour diérentes valeurs de u, les valeurs de p = P (Z ≤ u)avec Z ∼ N (0, 1). Ainsi
p = P (N (0, 1) ≤ u)
15
Exemple d'utilisation de la table 1Soit Z ∼ N (0, 1). Déterminer les probabilités suivantes :
P (Z ≤ 0), P (Z ≤ 1), P (Z ≤ 1, 96), P (Z ≤ −1)
On lit par exemple dans la table 1 :
u = 0 = 0, 0 + 0, 00⇒ p1 = P (Z ≤ 0) = 0, 5
u = 1 = 1, 0 + 0, 00⇒ p2 = P (Z ≤ 1) = 0, 8413
u = 1, 96 = 1, 9 + 0, 06⇒ p3 = P (Z ≤ 1, 96) = 0, 9750
p4 = P (Z ≤ −1)1− P (Z ≤ 1) = 1− 0, 8413 = 0, 1587
16
Exemple d'utilisation de la table 2 Soit Z ∼ N (0, 1). Déterminer la valeur
17
de u dans les cas suivants :(a) P (Z < u) = 0, 63(b) P (Z > u) = 0.63(c) P (|Z| < u) = 0.63Réponse(a) On écrit d'abord p = 0.63 + 0.000, puis on repère l'intersection de laligne 0.63 et la colonne 0.000 ce qui donne u = 0.3319.
(b) On a P (Z > u) = 0.63, P (Z < u) = 1 − 0.63 = 0.37) donc on écritd'abord p = 0.37 + 0.000 puis on repère l'intersection de la ligne 0.37 etla colonne 0.000 ce qui donne u = −0.3319.(u négatif puisque 0.37 < 0.5.)
(c) On remarque que P (|Z| < u) = 2P (Z < u) − 1 = 0.63. Donc, P (Z <u) = 0.815. L'intersection de la ligne 0.81 et de la colonne 0.005 donneu = 0.8965.
Exercice 8 :Soit X une variable aléatoire dont la densité est dénie par :
f(x) =a
x41[1,+∞[(x)
1. Déterminer a.
2. Déterminer FX la fonction de répartition de X.
3. Calculer, sous réserve d'existence, E(Xp) pour p ∈ N.4. Quelle est la densité de Y = ln(X) ? Que valent E(Y ) et V (Y ) ?
Corrigé Exercice 8 :
1. Pour que f soit une densité, f doit être positive et d'intégrale égale à 1.Donc a doit vérier a > 0 et
∫R f(x)dx = 1. Ainsi∫
Rf(x)dx =
∫ +∞
1
a
x4dx =
a
3= 1⇔ a = 3
2. Pour x ≤ 1 FX(x) = 0 car la fonction densité est nulle pour x ≤ 1. Pourx > 1, on a F (x) =
∫ x1
3t4 dt = 1− 1
x3 .
3. On sait que∫ +∞1
1xn dx < ∞ ⇔ n > 1. Ainsi E(Xp) =
∫ +∞1
3xp
x4 dx =
3∫ +∞1
1x4−p dx <∞⇔ 4− p > 1⇔ p < 3. Ainsi pour p ≤ 2 qui donne
E(Xp) = 3
∫ +∞
1
1
x4−pdx =
3
3− p.
4. Puisque X(Ω) ⊂ [1,+∞( alors Y (Ω) ⊂ [0,+∞(. On détermine la fonctionde répartition de Y qu'on dérive pour obtenir sa densité.
Soit y ∈ [0,+∞( alors
P (Y ≤ y) = P (ln(X) ≤ y) = P (X ≤ ey) = FX(ey) = 1− 1
e3y
Ainsi fY (y) = 3e3y1[0,+∞[(y).On remarque qu'il s'agit d'une loi exponentielle de paramètre 3.Ainsi E(Y ) = 1
3 et V (Y ) = 19 .
Exercice 9 : Un tube électronique, fabriqué selon un certain procédé, a unedurée de vie qui, exprimée en heures est une variable aléatoire X suivant uneloi normale N (160; 302).
18
1. Calculer les diverses probabilités :
p1 = P (X ≤ 140), p2 = P (X ≥ 200), p3 = P (130 ≤ X ≤ 190).
2. Trouver les réels a et b vériant : P (X ≤ a) = 0, 9; P (X ≥ b) = 0, 8.
3. Calculer la probabilité conditionnelle : q = P (X ≥ 200|X > 160).
On sait que Y = X−16030 ∼ N (0, 1) dont on peut lire sur la table 1 les
diérentes valeurs de la fonction de répartition.
1. p1 = P (X ≤ 140) = P (Y ≤ − 23 ) = P (Y ≥ 2
3 )= 1− P (Y ≤ 2
3 ) = 1− 0.745 = 0.255p2 = P (X ≥ 200) = P (Y ≥ 4
3 ) = 1− P (Y ≤ 43 )
= 1− 0.908 = 0.092p3 = P (130 ≤ X ≤ 190) = P (−1 ≤ Y ≤ 1)= 2P (Y ≤ 1)− 1 = 0.682.
2. On obtient P (X ≤ a) = P (Y ≤ a−16030 ) = 0, 9
En utilisant la table 2, on obtient a−16030 = 1.281⇔ a = 198.43
P (X ≥ b) = P (Y ≥ b−16030 ) = 1− P (Y ≤ b−160
30 ) = 0, 8.Ainsi on a P (Y ≤ b−160
30 ) = 0, 2⇔ b−16030 = −0.841⇔ b = 134.77
3. q = P (X ≥ 200|X > 160) = P (X≥200)P (X>160) = 0.092
0.5 .
Approximation de la loi binomiale par la loi de PoissonOn considère une variable aléatoireX suivant une loi binomiale B(n, p). Pour
n susamment grand et p susamment proche de 0, on peut approcher la loibinomiale B(n, p) par la loi de Poisson de paramètre λ = np.En pratique :Si n > 50 et p < 0, 1, alors on a
B(n, p) ≈ P(np)
c'est à dire :
P (X = k) ≈ e−np (np)k
k!.
Approximation de la loi binomiale par la loi normaleOn considère une variable aléatoire X suivant une loi binomiale B(n, p), p
étant un paramètre xé. Alors
limn→+∞
X − np√np(1− p)
= N (0, 1)
En pratique :Si n > 30, np > 5 et np(1− p) > 5,
B(n, p) ≈ N (np, np(1− p)).
Correction de continuitéOn corrige de la façon suivante :
P (X ≤ k) ≈ P (N (0, 1) ≤ k+0,5−np√np(1−p)
)
P (X = k) ≈ P ( k−0,5−np√np(1−p)
≤ N (0, 1) ≤ k+0,5−np√np(1−p)
)
P (k ≤ X ≤ m) ≈ P ( k−0,5−np√np(1−p)
≤ N (0, 1) ≤ m+0,5−np√np(1−p)
)
19
ExempleOn lance une pièce de monnaie "honnête" 1000 fois. Quelle est la probabilité
d'obtenir au moins 548 piles ?On désigne par X la variable aléatoire désignant le nombre de piles obtenus.
X suit une loi binomiale de paramètre n = 1000 et p = 1/2. On désire calculerP (X ≥ 548). On remarque que
P (X ≤ 548) = 1− P (X < 548) = 1− P (X ≤ 547).
On peut approcher la loi de X par une loi normale car n = 1000 > 30, np =500 > 5, np(1− p) = 250 > 5. Donc
P (X ≤ 547) ≈ P (N (0, 1) ≤ 547, 5− 500
5√
10) ≈ P (N (0, 1) ≤ 3)
En utilisant la table 1, on obtient P (X ≤ 547) ≈ 0, 99865. D'où P (X ≥ 548) ≈0, 00135.
Exercice 10 :Une machine à embouteiller peut tomber en panne. La probabilité d'une
panne à chaque emploi est de 0,01. La machine doit être utilisée 100 fois. SoitX le nombre de pannes obtenues après 100 utilisations.
1. Quelle est la loi de X ? Calculer P (X = 0), P (X = 1) et P (X ≤ 2).
2. On estime le coût d'une réparation à 500 dirhams. Soit Y la dépense pourles réparations après 100 utilisations. Calculer E(Y ) et V (Y ).
Loi du Khi-deuxDénitionSoientX1, ..., Xn n variables aléatoires indépendantes telles queXi ∼ N (0, 1),∀i.
AlorsX2
1 + ...+X2n ∼ χ2
n
La fonction densité de probabilité de χ2n est donnée par
fχ2n(t) =
2−n2
Γ(n/2)tn/2−1e−t/2,∀t > 0
On a représenté ci-dessus la loi du χ2n pour diverses valeurs de n (k dans la
gure).
Densité de la loi du Khi-deux.
20
ThéorèmeSi X suit la loi du Khi-deux à n degrés de liberté, alors X admet une es-
pérance et une variance :
E(X) = n V ar(X) = 2n
RemarqueLa table 3 donne les fractiles de la loi du Khi-deux.
Loi de StudentDénitionSoient X ∼ N (0, 1) et Y ∼ χ2
n des variables aléatoires indépendantes. Alors
X√Y/n
∼ Tn
La fonction densité de probabilité de Tn est donnée par
fTn(t) =Γ(n+1
2 )√n√πΓ(n/2)
(1 +t2
n)−(n+1)/2
On a représenté ci-dessus la densité de la loi de Student pour diérentesvaleurs de n.(ν dans la gure).
21
ThéorèmeSi X suit la loi de Student à n degrés de liberté, alors
E(X) = 0 si n > 1
V ar(X) =n
n− 2si n > 2.
RemarqueLa table 4 donne les fractiles de la loi de Student.
22
CHAPITRE 3 :
Méthodes statistiques
Statistiques DescriptivesStatistique Descriptive : Vocabulaire des statistiques Ensemble étudié : population Sous-ensemble de cet ensemble : échantillon Éléments de cet ensemble : individus Objet de l'étude : caractère Valeurs prises par le caractère : modalités Ensemble des individus ayant même modalité ou groupe de modalités :classe
Type de caractères Qualitatif : non mesuré par un nombre nominal : quand les modalités ne peuvent pas être ordonnées. ordinal : quand les modalités peuvent être ordonnées.
Quantitatif : mesuré par un nombre discret : si l'ensemble des valeurs possibles est dénombrable. continu : si l'ensemble des valeurs possibles est continu.
Présentation fonctionnelleSoit Ω une population, X un caractère, i un individu. On note X(i) ou xi
la valeur du caractère X pour l'individu i. Le caractère X est une applicationde Ω dans l'ensemble des modalités.
Exemples de caractères qualitatifsa. Couleur d'une voiture dans un parking (Nominal)population : les voitures du parkingcaractère : la couleurmodalités : bleu, vert,..
b. Décision nale à un examen (Ordinal)population : un amphiindividus : étudiantscaractère : décisionmodalités : ajourné,passable, AB,B,TB,excellent
Exemples de caractères quantitatifsa. Nombre d'enfants par famille marocaine (Discret)population : familles marocainescaractère : nombre d'enfantsmodalités : des nombres entiers.
b. Note à l'examen de statistiques des étudiants de votre amphi(Continu)population : un amphiindividus : étudiantscaractère : notemodalités : [0, 20].
23
Distributions statistiques : Eectifs, fréquences
Variable qualitative ou discrèteModalités Eectifs Fréquences Fréq. cumulées
x1 n1 f1 = n1/N F1 = f1x2 n2 f2 = n2/N F2 = f1 + f2. . . .. . . .. . . .xi ni fi = ni/N Fi = f1 + ..+ fi. . . .. . . .. . . .xk nk fk = nk/N Fk = 100
Total N =∑ni 100% |||
Tableau des
fréquences
Variable quantitative continueClasses Ampli ni fi Fi di[a0, a1] A1 n1 f1 f1 d1 = f1/A1
[a1, a2] A2 n2 f2 f1 + f2 d2 = f2/A2
. . . . . .
. . . . . .
. . . . . .[ai−1, ai] Ai = ai − ai−1 ni fi f1 + ..+ fi di = fi/Ai
. . . . . .
. . . . . .
. . . . . .[ak−1, ak] Ak nk fk 100% dkTotal ||| N 100% ||| |||
Tableau des fréquences
Exercice 1 : Nombre d'enfants par famille observé dans un échantillon de 133familles
0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 44 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 7 7 9 9 10
Echantillon de taille 133.
24
Solution
Xi ni Φi fi(%) Fi(%)0 2 2 1.5 1.51 8 10 6.0 7.52 10 20 7.5 153 52 72 39.1 54.14 25 97 18.8 72.95 14 111 10.5 83.46 17 128 12.8 96.27 2 130 1.5 97.78 0 130 0 97.79 2 132 1.5 99.210 1 133 0.8 100.0
Total N = 133 ||| 100 |||
Exercice 2 : Age à l'admission à l'hôpital pour un échantillon de 100 patients
10 22 24 42 37 77 89 85 28 639 10 7 51 2 1 52 7 48 5432 29 2 15 46 48 39 6 72 1436 69 40 61 12 21 54 53 58 3227 33 1 25 22 6 81 11 56 563 53 88 48 52 87 71 51 52 3346 33 85 22 5 87 28 2 85 6116 42 69 7 10 53 33 3 85 851 60 58 9 14 74 24 87 7 8130 76 7 6 27 18 17 53 70 49
Dépouiller ces données suivant une distribution de fréquences en utilisant 9classes avec 0 comme limite inférieure de la première classe et 90 comme limitesupérieure de la dernière classe. Quel pourcentage de patients dont l'age estsupérieur ou égal à 60 ans ?
Solution
Classes Ci ni fi(%) Fi(%)
[0− 10[ 5 22 22 22[10− 20[ 15 8 8 30[20− 30[ 25 13 13 43[30− 40[ 35 10 10 53[40− 50[ 45 8 8 61[50− 60[ 55 16 16 77[60− 70[ 65 7 7 84[70− 80[ 75 5 5 89[80− 90[ 85 11 11 100Total ||| N = 100 100 |||
Fonction de répartition DénitionLa fonction de répartition du caractère quantitatif X est la fonction F ,
dénie sur R à valeurs dans [0, 1], dénie par :F (x) = proportion d'individus de l'échantillon dont la valeur de X est < x.
25
Si X est discrèteAlors
F (x) =
0 si x < xiFi−1 si xi−1 ≤ x < xi, i ≥ 2
1 si x ≥ xk.
Si X est une variable quantitative continueAlors, d'après la méthode d'interpolation linéaire, on obtient
F (x) =
0 si x < a0
Fi−1 + fiAi
(x− ai−1 si ai−1 ≤ x < ai, i ≥ 1
1 si x ≥ ak.
Représentations graphiques d'une série de données
Variable nominale
Diagramme en bâtons
A chaque modalité, on associe un "bâton" de longueur hi proportionnelle à lafréquence fi (ou, si l'on veut dire l'eectif ni). On a donc hi = cte× fi.
Diagramme en secteur
L'angle de chaque secteur αi est proportionnel à la fréquence fi. En degré, ona αi = 360× fi.
Exemple
Variable ordinale-Variable discrèteVariable ordinale Diagramme en bâtons Diagramme en secteurs
26
Variable discrète Diagramme en bâtons car, dans ce cas, l'ordre et l'écart entre les bâtonssont signicatifs.
Représentation d'une variable continue
Classes Amplitudes ni fi Densités de fréquences[a0, a1] A1 n1 f1 d1 = f1/A1
[a1, a2] A2 n2 f2 d2 = f2/A2
. . . . .
. . . . .
. . . . .[ai−1, ai] Ai = ai − ai−1 ni fi di = fi/Ai
. . . . .
. . . . .
. . . . .[ak−1, ak] Ak nk fk dkTotal ||| N 100% |||
Amplitudes et densités de fréquences
Histogramme- Polygone des fréquences
ExerciceOn a relevé l'âge de 150 personnes. Les résultats de l'enquête sont données
dans le tableau suivant :
27
Classes Eectifs[20, 25[ 9[25, 30[ 27[30, 35[ 36[35, 40[ 45[40, 50[ 27[50, 60[ 6Total N=150
1. Tracer l'histogramme des fréquences.
2. Tracer le polygone des fréquences et la courbe cumulative.
Réponse
Classes Ai ni fi Fi di[20, 25[ 5 9 6 6 1.2[25, 30[ 5 2 18 24 3.6[30, 35[ 5 36 24 48 4.8[35, 40[ 5 45 30 78 6[40, 50[ 10 27 18 96 1.8[50, 60[ 10 6 4 100 0.4Total ||| 150 100 ||| |||
Paramètres associés à la distribution d'une série de données Paramètres de tendance centrale Paramètres de dispersionModeIl est déni pour tous types de variables. Le mode n'est pas nécessairement
unique.Dénition
Si X est une variable statistique nominale, ordinale ou discrète, le modede la distribution associée est la modalité de X la plus représentée, c'est-à-dire pour laquelle l'eectif est le plus grand.
Si X est une variable continue, le mode (ou classe modale de la dis-tribution associée est la classe dont la densité de fréquences est la plusélevée.
Exemple
Modalité ni fi(%)A 19 37,3B 14 27,5C 12 23,5D 6 11,8
Mode=A
Classes Ai ni fi(%) di[20, 25[ 5 9 6 1.2[25, 30[ 5 2 18 3.6[30, 35[ 5 36 24 4.8[35, 40[ 5 45 30 6[40, 50[ 10 27 18 1.8[50, 60[ 10 6 4 0.4Total ||| 150 100 |||
28
Classe modale=[35,40[
MédianeDénitionLa médiane est la valeur centrale de la série. On dit qu'elle partage la
série en deux moitiés. Ainsi 50% des éléments de l'échantillon ont une valeurinférieure à la médiane et 50% une valeur supérieure.
En général, on note x(1) < x(2) < ...... < x(n) la série ordonnée par ordrecroissant de la série brute x1, x2, ..., xn de données.Alors,
Si n est impair M = x(n+12 )
Si n est pair M =1
2x(n2 ) + x(n2 +1)
Exemple : Cas continuTrouver la médiane de la série brute suivante :
21, 25, 28, 30, 27, 24, 31, 21, 28, 30, 25, 28, 26, 25.
Réponses : On ordonne la série par ordre croissant :
21, 21, 24, 25, 25, 26, 27, 28, 28, 28, 30, 30, 31
On a n = 14 qui est pair, donc la médiane est
M =x(7) + x(8)
2=
26 + 27
2= 26, 5.
Cas continuDénition La médiane de la distribution d'une variable continue X, ré-
partie en classes [ai−1, ai[ est donnée par : si F (ai−1) < 0, 5 et F (ai) > 0, 5, la classe médiane est [ai−1, ai[ et oncalcule la médiane par interpolation linéaire sur l'intervalle [ai−1, ai[ :
M = ai−1 + (ai − ai−1)0, 5− F (ai−1)
F (ai)− F (ai−1)
avec F fonction de répartition de X si F (ai−1) = 0, 5 alors M = ai−1.Exemple : Cas continu
Classes ni fi(%) Fi(%)[20, 25[ 9 6 6[25, 30[ 27 18 24[30, 35[ 36 24 48[35, 40[ 45 30 78[40, 50[ 27 18 96[50, 60[ 6 4 100Total 150 100 |||
29
D'après la table, la classe médiane et [35, 40[ car
F (35) = 0, 48 < 0, 5 < F (40) = 0, 78.
En appliquant la formule de la médiane, on obtient
M = 35, 33
QuantilesSoit α dans l'intervalle ]0, 1[. On note x(1) < x(2) < ...... < x(n) la série
ordonnée par ordre croissant de la série brute x1, x2, ..., xn de données. Alors ondénit le nombre Qα, quantile d'ordre α, par
Si nα n'est pas un entier naturel Qα = x([nα]+1)
Si nα est un entier naturel Qα = 1
2x(nα) + x(nα+1)
où [nα] représente la partie entière de nα.Si F (ai−1) < α et F (ai) > α, par interpolation linéaire on obtient :
Qα = ai−1 + (ai − ai−1)α− F (ai−1)
F (ai)− F (ai−1)
Quartiles-DécilesQuartiles
Les quartiles partagent la série en 4 : Q0,25 premier quartile ; Q0,5 médiane ; Q0,75 dernier quartile.Déciles
Les déciles partagent la série en 10 : (Q0,1, Q0,2, ..., Q0,9).Exemple : Cas discretTrouver les quartiles de la série brute suivante :
21, 25, 28, 30, 27, 24, 31, 21, 28, 30, 25, 28, 26, 25.
Réponses : On ordonne la série par ordre croissant :
21, 21, 24, 25, 25, 26, 27, 28, 28, 28, 30, 30, 31
On a nα = 14× 14 = 3, 5 qui n'est pas entier, donc
Q0,25 = x(4) = 25.
Ainsi, 14× 34 = 11, 5 n'est pas entier, donc
Q0,75 = x(12) = 30.
Exemple : Cas continu
Classes ni fi(%) Fi(%)[20, 25[ 9 6 6[25, 30[ 2 18 24[30, 35[ 36 24 48[35, 40[ 45 30 78[40, 50[ 27 18 96[50, 60[ 6 4 100Total 150 100 |||
30
D'après la table, on obtient Q0,25 = 30, 2 et Q0,75 = 39, 5.Asymétrie on emploie ce type de paramètres pour étudier la symétrie. Si
M −Q0,25 >> Q0,75 −M ⇒ asymétrie à gauche.
sinon asymétrie à droite.ExempleOn considère les moyennes du semestre de deux classes de SMP :
Notes 5 6 7 8 9 10 11 12 13 14 15 16Eectifs SMP1 0 3 4 4 5 7 3 4 2 1 0 0Eectifs SMP2 2 4 3 3 3 4 3 2 2 3 1 2
Etudier l'asymétrie de ces deux séries.
Réponses :SMP1 : M = 10, Q0,25 = 8, Q0,75 = 11 SMP2 : M = 10, Q0,25 = 7, Q0,75 =12, 5
Moyenne arithmétique DénitionLa moyenne arithmétique d'une série de données x1, ..., xn ou tout simplementmoyenne, notée X est dénie par :
X =1
n
n∑i=1
xi =1
n
k∑i=1
nixi =
k∑i=1
fixi.
DénitionLa moyenne arithmétique d'une variable continue répartie en classe [ai−1, ai[ estdénie par
X ≈ 1
n
k∑i=1
nici =
k∑i=1
fici.
où ci = ai−1+ai2 est le centre de la classe [ai−1, ai[.
Forme d'une distribution
Paramètres de dispersionÉtendue
Etendue = x(n) − x(1)Écart interquartile
IQ = Q0,75 −Q0,25. Cet intervalle englobe la moitié
31
Variance-Écart typeCas discret
V ar(X) =1
n
n∑i=1
(xi − x)2 =1
n
k∑i=1
ni(xi − x)2 =
k∑i=1
fi(xi − x)2
Cas continu
V ar(X) ≈ 1
n
k∑i=1
ni(ci − x)2 =
k∑i=1
fi(ci − x)2
ThéorèmeLa variance peut aussi s'écrireDiscret
V ar(X) =1
n
n∑i=1
x2i − x2 =1
n
k∑i=1
nix2i − x2 =
k∑i=1
fix2i − x2.
Continu
V ar(X) ≈ 1
n
k∑i=1
nic2i − x2 =
k∑i=1
fic2i − x2.
DénitionOn dénit l'Ecart-type :
σ(X) =√V ar(X).
Coecient de variationL'objectif de ce coecient est de fournir un indice quantitatif permettant de
comparer la dispersion de deux distributions de façon indépendante du choixdes unités de mesure.
C.V. =σ(X)
X× 100%
Plus le coecient de variation est élevé, plus la dispersion autour de la moyenneest élevée.
ExempleOn considère les moyennes du semestre de deux classes de SMP :
Notes 5 6 7 8 9 10 11 12 13 14 15 16nide SMP1 0 3 4 4 5 7 3 4 2 1 0 0nide SMP2 2 4 3 3 3 4 3 2 2 3 1 2
1. Calculer les coecients de variations de SMP1 et SMP2.
2. Commenter.
Régression linéaireOn s'intéresse à étudier la relation entre deux variables X et Y . On veut
trouver la fonction f :Y = f(X)
32
La série statistique est alors une suite de n couples des valeurs prises par deuxvariables sur chaque individu :
(x1, y1), ....(xi, yi), ...(xn, yn)
Nuage de points
Exemple de nuage de points.Analyse des variables : paramètres marginaux
X =1
n
n∑i=1
xi, σ2(X) =
1
n
n∑i=1
(xi − X)2;
Y =1
n
n∑i=1
yi, σ2(Y ) =
1
n
n∑i=1
(yi − Y )2.
DénitionLa covariance est dénie
Cov(X,Y ) =1
n
n∑i=1
(xi − X)(yi − Y ).
Propriétés de la covarianceRemarque La covariance peut prendre des valeurs positives, négatives ou nulles. Quand X = Y,Cov(X,Y ) = σ2(X) = σ2(Y ).ThéorèmeLa covariance peut également s'écrire :
Cov(X,Y ) =1
n
n∑i=1
xiyi − XY .
33
CorrélationDénitionLe coecient de corrélation est déni par :
r(X,Y ) =Cov(X,Y )
σ(X)σ(Y ).
Le coecient de détermination est le carré du coecient de corrélation :
r2(X,Y ).
r(X,Y ) mesure la dépendance linéaire entre X et Y .Nuages de points et Corrélation
Droite de régressionDénitionLa droite de régression est la droite qui ajuste au mieux un nuage de
points.
On considère que la variable X est explicative (indépendante) et que lavariable Y est expliquée (dépendante). Donc, l'équation d'une droite est y =a+ bx
Critère des moindres carrésPour déterminer la valeur des coecients A et b on utilise le principe des
moindres carrés qui consiste à chercher la droite qui minimise la somme descarrés des résidus :
M(a, b) =
n∑i=1
e2i =
n∑i=1
(yi − a− bxi)2.
Le résidu ei est l'erreur que l'on commet en utilisant la droite de régressionpour prédire yi à partir de xi. Donc
34
Les valeurs y∗i = a+ bxi sont appelées les valeurs prédites. On a
Y ∗ = Y .
Les valeurs ei = yi − y∗i sont appelées résidus. On a
E = 0.
Nuage de points et Résidu
Estimation de a et bThéorèmeLes coecients a et b qui minimisent le critère des moindres carrés sont
donnés par :
b =Cov(X,Y )
σ2(X), a = Y − bX.
L'équation de la droite de régression de Y en X :
y =Cov(X,Y )
σ2(X)(x− X + Y .
La droite de régression de Y en X n'est pas la même que la droite derégression de X en Y .
On a la formule de décomposition de la variance :
V ar(Y ) = V ar(Y ∗) + V ar(E)
Qualité de la régressionOn appelle r2(X,Y ) (coecient de détermination) la part de variance ex-
pliquée :
r2(X,Y ) =V ar(Y ∗)
V ar(Y ).
C'est un indicateur de la qualité de la régression.
Exemple 1On considère les deux variables X et Y dont on connaît quelques valeurs :
35
xi 10 20 30 40 50 60yi 30 60 90 120 150 180
Quelle est la droite de régression de Y en fonction de X ? Réponse :X = 35, Y = 105, Cov(X,Y ) = 875, σ2(X) = 291.66, a = 0, b = 3. Ainsi ladroite de régression de Y en fonction de X est y = 3x.
Exemple 2Le tableau suivant donne la longueur totale X d'un oiseau (en cm) en fonctionde la longueur Y de son ÷uf (en mm).
X 15 32 79 40 55 16 22 20Y 8 25 60 32 38 10 15 13X 28 17 16 18 57 30 23Y 16 11 8 11 60 26 13
1. Calculer les moyennes respectives X et Y des variables X et Y .
2. Calculer les variances respectives σ2(X) et σ2(Y ) des variables X et Y .
3. Calculer le coecient de corrélation linéaire r(X,Y ) entre X et Y . Com-menter ce résultat.
4. Déterminer la droite de régression linéaire de Y en X.
5. Quelle longueur de l'÷uf peut-on prévoir pour une longueur totale del'oiseau de 70 cm?
1. X = 31, 2 cm et Y = 23, 07 mm.
2. V ar(X) = σ2(X) = 332, 29 cm2 et V ar(Y ) = σ2(Y ) = 285, 13 mm2.
3. σ(X) = 18, 23 cm, σ(Y ) = 16, 89 mm, Cov(X,Y ) = 296, 32 cm.mm ainsir(X,Y ) ≈ 0, 96.Le coecient de détermination r2(X,Y ) ≈ 0, 93 est proche de 1. Il existedonc une forte dépendance linéaire entre X et Y .
4. L'équation de la droite de régression linéaire est y = a+bx avec a ≈ −4, 76et b ≈ 0, 89.
5. La longueur de l'÷uf ≈ −4, 76 + 0, 89× 70 = 57, 54 mm.
Régression non-linéaire
De nombreux modèles non-linéaires se ramènent facilement aux modèleslinéaires par des simples transformations. Voici quelques cas fréquents :
Dépendance Transformation Droite denon-linéaire régression linéairey = keαx Y = log(y) Y = log k + αx
y = kxα Y = log(y), X = log(x) Y = log(k) + αX
y = αxx+k Y = 1
y , X = 1x Y = 1
α + kαX
36