probabilites et methodes statistiques … · probabilites et methodes statistiques pratiques...

PROBABILITES ET METHODES

STATISTIQUES PRATIQUES

Mohsine BENABDALLAH

Département de Mathé[email protected]

SMP Semestre 3Automne 2013

1

Le but de ce cours est d'introduire quelques modèles probabilistes an de lesappliquer aux résultats statistiques obtenus.On introduira les modèles d'espaces probabilisés en partant d'expériences aléa-toires, on parlera d'espace d'événements sur lequel on dénira une mesure deprobabilité. Après avoir donné les propriétés de cette dernière, on évoquera leconditionnement pour aboutir à la formule de Bayes.Les variables aléatoires, aussi bien discrètes que continues, seront introduitespour pouvoir les utiliser dans le chapitre suivant.Enn, le troisième chapitre donnera un aperçu sur les méthodes qu'on appliqueraaux données statistiques. On décriera ces données (statistique descriptive) qu'onpourra utiliser pour passer à une population plus grande.Ce cours s'inspire pour une grande part des notes de cours du Pr. EL Arrouchi.

CHAPITRE 1 : Modèles d'espaces probabilisés

CHAPITRE 2 : Modèles de variables aléatoires

CHAPITRE 3 : Methodes statistiques

2

CHAPITRE 1 :

Modèles d'espaces probabilisés

Expérience, Evénement, Univers Tout commence par une expérience aléatoire appelée aussi épreuvedont les résultats sont dûs au hasard et même si elle est répétée dans lesmêmes conditions ne donne pas forcément le même résultat.

Tous les résultats possibles d'une expérience sont mis dans une ensembleappelé univers qu'on note généralement Ω.

Toute partie de l'univers sera appelé un événement.Exemples "Lancer un dé et noter le résultat obtenu" est une expérience aléatoire quidonne 6 résultats ou issues possibles. Les diérents résultats possibles decette épreuve sont

Ω = 1, 2, 3, 4, 5, 6

Ω est composé de 6 événements élémentaires. "Extraire trois étudiants d'une population d'étudiants constituée de garçons(G) et de lles (F)" est une expérience aléatoire dont les résultats possiblessont

Ω = FFF, FFG,FGF,GFF, FGG,GFG,GGF,GGG

Ω est composé de 8 événements élémentaires.Notations

1. ∅ est l'événement impossible et Ω est l'événement certain.

2. A est l'événement complémentaire (ou contraire) de A. C'est l'événementqui se réalise si A ne l'est pas.

3. Si A et B sont deux événements , A∪B est l'événement qui se réalise dèsque A ou B s'est réalisé.

4. Si A et B sont deux événements , A∩B est l'événement qui se réalise dèsque A et B se sont réalisés.

5. L'événement A \ B est déni par l'ensemble des éléments de A qui n'ap-partiennent pas à B.

6. L'événement A implique l'événement B si A ⊂ B.7. Les événements A et B sont disjoints, ou incompatibles si A ∩B = ∅.ExemplesSoient A,B et C trois événements quelconques. Traduire à l'aide de l'écriture

ensembliste les événements suivants : E : "au moins un des événements B et C se réalise" F : "aucun des événements A et C ne se réalise" G : "C, seul, se réalise" H : "un seul événement parmi les trois , se réalise" I : "aucun événement parmi les trois ne se réalise" J : "au moins un parmi les trois événements se réalise"

3

Espace probabilisable On associe à toute expérience l'ensemble A de tousles événements de Ω. Si Ω est ni ou dénombrable alors A = P(Ω) l'ensemblede toutes les parties de Ω.DénitionLe couple (Ω,A) est appelé espace probabilisableExempleSi on jette une pièce de monnaie alors Ω = P, F et

A = ∅, P, F, P, F

ExerciceDécrire A quand Ω = 1, 2, 3, 4, 5, 6.

Système completLes événements A1, ..., An forment un système complet d'événements,

s'ils constituent une partition de Ω ; c'est à dire si tous les couples Ai, Aj sont disjoints quand i 6= j ;⋃ni=1Ai = Ω.

Probabilité : dénition fréquentisteOn considère une expérience pouvant donner lieu à un résultat quelconque

parmi N résultats également possibles. Supposons que n résultats soient favor-ables à la réalisation d'un événement particulier A. La probabilité de l'événementA est dénie comme :

P (A) =nombre de cas favorablesnombre de cas possibles

=Card(A)

Card(Ω)=

n

N.

Exemple

Pour les besoins d'un test sur un vaccin V , nous disposons de 10 volontaires,3 d'entre eux appartiennent à une même famille. Deux personnes sont tirées auhasard. Quelle est la probabilité P (F ) que ces deux personnes soient de la mêmefamille ?

SolutionL'expérience consiste à tirer (simultanément) deux personnes parmi 10. Il s'agitde dénombrer le nombre de combinaisons de 2 parmi 10 ce qui donne C2

10 ce quidonne le nombre de cas possibles à savoir Card (Ω). Le nombre de cas favorableest le nombre de combinaisons de 2 parmi 3 c'est à dire C2

3 .On obtient P (F ) = 1/15.

Probabilité : dénition axiomatique (Kolmogorov) Dénition

Une probabilité P est une application de A dans [0, 1] telle que P (Ω) = 1; P (

⋃∞i=1) =

∑∞i=1 P (Ai), pour toute suite dénombrable d'événementsA1, A2, ...

disjoints deux à deux appartenant à A.Le triplet (Ω,A, P ) dénit un espace probabilisé.

Propriétés d'une probabilité

1. P (A) = 1− P (A) ;

2. P (∅) = 0 ;

3. P (A \B) = P (A ∩B) = P (A)− P (A ∩B) ;

4

4. A ⊆ B =⇒ P (A) ≤ P (B) ;

5. P (A ∪B) = P (A) + P (B)− P (A ∩B) ;

6. Si A1, ..., An forment un système complet d'événements, alors pour toutB ∈ A,

P (B) =

n∑i=1

P (B ∩Ai).

Probabilité conditionnelleDénition

Soient deux événements A et B avec P (B) > 0. On dénit la probabilitéconditionnelle de A sachant que B est réalisé, notée P (A|B) par

P (A|B) =P (A ∩B)

P (B).

ExempleOn jette un dé équilibré. Quelle est la probabilité d'avoir un nombre pair sachantqu'il est supérieur ou égal 4 ?

Indépendance DénitionDeux événements A et B sont dits indépendants si

P (A|B) = P (A).

ConséquenceOn peut montrer facilement que si A et B sont indépendants, alors

P (A ∩B) = P (A)P (B).

ExerciceMontrer que si A et B sont indépendants, il en est de même de A et B.

Probabilité totalesSoient A1, .., An un système complet d'événements,alors pour tout B ∈ A

P (B) =

n∑i=1

P (Ai)P (B|Ai).

Exemple de l'itinérairePour se rendre à la faculté des sciences, un étudiant a le choix entre 3 it-

inéraires A,B et C. La probabilité qu'il a de choisir A(resp B,C) est 13 (resp

14 ,

512 ). La probabilité d'arriver en retard en empruntant A(resp B,C) est 1

20 (resp110 ,

15 ).Quelle est probabilité que l'étudiant arrive en retard ?

RéponseLes événements A,B et C forment un système complet car A ∪ B ∪ C = Ω etA∩B = A∩C = B∩C = ∅. Soit R l'événement "arriver en retard", en utilisantla formule des probabilités totales, on obtient

P (R) = P (A)P (R|A) + P (B)P (R|B) + P (C)P (R|C)

5

Formule de BayesSoient A1, .., An un système complet d'événements et B ∈ A alors

P (Ai|B) =P (Ai)P (B|Ai)∑nj=1 P (Aj)P (B|Aj)

.

Retour à l'exemple de l'itinéraireL'étudiant arrive en retard. Quelle est la probabilité qu'il ait emprunté l'it-

inéraire C ?Réponse

On cherche la probabilité de C sachant R, on utilise pour cela la formule deBayes :

P (C|R) =P (C)P (R|C)

P (A)P (R|A) + P (B)P (R|B) + P (C)P (R|C)

ExerciceConsidérons deux urnes U1 et U2. L'urne U1 contient 2 boules blanches et 3

boules noires. L'urne U2 contient 1 boule blanche et 4 boules noires. Appelons Bl'événement "tirer une boule blanche" et N l'événement "tirer une boule noire".Dans chaque urne, il y a équiprobabilié du choix des boules.On choisit une urne au hasard, chaque urne ayant la même probabilité d'êtrechoisie que l'autre, puis on tire une boule de cette urne.On sait qu'une boule blanche a été tirée. Quelle est la probabilité d'avoir choisil'urne U1 ?

Exercice 9 :Une usine de pellicules de photo dispose de trois machines A,B et C qui

fabriquent respectivement 20%, 50% et 30% de la production totale. Les pro-portions de pellicules défectueuses fabriquées par les machines A,B ou C sontrespectivement égales à 6%, 5% et 3%.On tire au hasard une pellicule dans la production, calculez :

la probabilité que cette pellicule soit défectueuse ; la probabilité qu'elle provienne de la machine A sachant qu'elle est dé-fectueuse ;

la probabilité qu'elle provienne de la machine A sachant qu'elle est nondéfectueuse.

Corrigé Exercice 9 :On a P (A) = 0.2, P (B) = 0.5, P (C) = 0.3 et en notant D l'événement la

pellicule obtenue est défectueuse.Ainsi P (D|A) = 0.06, P (D|B) = 0.05, P (D|C) = 0.03.

la probabilité que cette pellicule soit défectueuse est donnée par

P (D) = P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C) = 0.046

la probabilité qu'elle provienne de la machine A sachant qu'elle est dé-fectueuse est donnée par

P (A|D) = P (A ∩D)/P (D) = P (D|A)P (A)/P (D) = 6/23

la probabilité qu'elle provienne de la machine A sachant qu'elle est nondéfectueuse est donnée par

P (A|D) =P (A ∩D)

P (D)=P (A)− P (A ∩D)

P (D)=

0.2(1− 0.06)

0.954

6

CHAPITRE 2 :

Modèles de variables aléatoires

Dénition

Une variable aléatoire réelle sur (Ω,A) est une application

X : Ω −→ R

telle que pour chaque x ∈ R

ω : X(ω) = x ∈ A

ExempleOn lance deux pièces de monnaie. L'ensemble des résultats possibles est

Ω = (F, F ); (F, P ); (P, F ); (P, P ).

Chacun des événements élémentaires de Ω a une probabilité égale 1/4 de seproduire.

Considérons la variable aléatoire réelle X représentant le nombre de 'faces'obtenues. Donc X(Ω) = 0, 1, 2. On a de plus,

X =

0 avec une probabilité 1/41 avec une probabilité 1/22 avec une probabilité 1/4.

0 1 20

0.1

0.2

0.3

0.4

0.5

Distribution de "Faces" obtenus

Fréqu

ence

Fonction de répartitionSoit X une variable aléatoire réelle. La fonction de répartition de X est

la fonction dénie parFX : R 7−→ [0, 1]

x −→ P (X ≤ x)

Elle vérie les propriétés suivantes

7

limx→−∞ FX(x) = 0, limx→,∞ FX(x) = 1 P (a < X ≤ b) = FX(b)− FX(a). P (X = a) = FX(a)− FX(a−) où

FX(a−) = limx→a−

FX(x)

Variables aléatoires discrètesDénition

Une variable aléatoire réelle X est dite discrète si elle ne prend que desvaleurs discrètes, c'est à dire X(Ω) = x1, x2, ...

On appelle distribution de probabilité, ou loi de probabilité de X,l'ensemble des couples

(xi, pi), i = 1, ...

où pi = P (X = xi) vériant ∑pi = 1.

Espérance, Variance et écart-type d'une variable aléatoire discrèteL'espérance mathématique d'une variable aléatoire discrète est dénie de lamanière suivante :

µ = E(X) =

n∑i=1

pixi,

sa variance

V(X) = E(X − µ)2 =

n∑i=1

pi(xi − µ)2 =

n∑i=1

pix2i − µ2

et son écart-typeσ(X) =

√V(X)

ExempleOn mise une certaine somme. On lance un dé marqué as,roi,dame,valet,dix etneuf.L'as rapporte 10 DH, le roi et la dame 6 DH , le valet 5 DH alors que le 10ou le 9 ne rapportent rien. Soit X la variable aléatoire indiquant le gain obtenu.

Loi de probabilitéX = xi 0 5 6 10 Totalpi 1/3 1/6 1/3 1/6 1pixi 0 5/6 2 5/3 4,5pix

2i 0 25/6 12 50/3 32,83

E(X) = 4, 5;V(X) = 32, 83− 4, 52 = 12, 58.

σ(X) =√V(X) = 3, 55.

Propriétés de l'espérance et de la varianceProposition

Soient X et Y deux variables aléatoires discrètes sur l'univers Ω. Alors ona, pour tous réels a et b,

E(aX + b) = aE(X) + b,

8

E(aX + bY ) = aE(X) + bE(Y ), V(aX + b) = a2V(X) Si X et Y sont indépendantes, alorsV(aX + bY ) = a2V(X) + b2V(Y ).

Variable de BernoulliOn dénit une variable aléatoire qui ne peut prendre que deux valeurs 0 et

1 comme variable de Bernoulli. Sa loi de probabilité est très simple pourlaquelle p représente la probabilité de l'issue qu'on veut mettre en évidence(succés) et q = 1− p la probabilité de l'autre terme (échec).

X =

1 avec une probabilité p0 avec une probabilité 1− p.

Son espérance vaut

E(X) = (1− p)× 0 + p× 1 = p

Sa variance vaut

V(X) = E(X − p)2 = (1− p)(0− p)2 + p(1− p)2 = p(1− p)

On retiendra que toute situation aléatoire d'alternative peut être représen-tée par une variable de Bernoulli dont le paramètre p, égal à la probabilité del'issue qu'on cherche à mettre en évidence, est égal à l'espérance, la varianceétant égale à p(1− p).

ExempleOn tire au hasard une boule dans une urne contenant 18 boules rouges et 16boules blanches. On désire mettre en évidence le tirage d'une boule rouge. Ondénit alors la variable aléatoire de Bernoulli X qui vaut 1 si la boule tirée estrouge et 0 sinon. Il reste à déterminer p, c'est la probabilité de tirer une boulerouge.

Variable BinomialeOn répète la même expérience de Bernoulli, de paramètre p, n fois de manière

indépendante et on désigne par X le nombre de succès obtenus. Alors X estappelée variable binomiale de paramètre n et p qu'on note : X ∼ B(n, p). Saloi est donnée par

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, 2, ..., n

ThéorèmeSi X ∼ B(n, p), alors on a

E(X) = np,V(X) = E(X − np)2 = np(1− p)

σ(X) =√V(X) =

√np(1− p)

Exemple

On tire au hasard avec remise et de manière indépendante 5 boules d'uneurne contenant 18 boules rouges et 12 boules blanches. Si X est le nombre deboules rouges obtenues,

alors X suit une loi binomiale de paramètre n = 5 et p = 1830 = 0, 6. Donc,

P (X = k) = Ck5 (0, 6)k(0, 4)5−k, k = 0, 1, .., 5

9

Exercice 3 :Calculez la probabilité qu'il y ait 3 lles et 2 garçons dans une famille de 5

enfants :

1. Si on suppose la probabilité de naissance d'une lle égale à la probabilitéde naissance d'un garçon.

2. Si on suppose la probabilité de naissance d'une lle égale 0,48.

Corrigé Exercice 3 :L'univers est constitué de tous les 5-uplets constitués de F(lle) et G(garçon).

Ω = FFFFF, FFFFG,FFFGF, ..., GGGGG

Alors CardΩ = 25,

1. Si on suppose la probabilité de naissance d'une lle égale à la probabilitéde naissance d'un garçon, alors et P (ω) = 1

25 ) pour tout ω ∈ Ω et parla suite, il reste à dénombrer les cas favorables , c'est à dire le nombre defaçons de choisir deux places parmi 5 pour y installer les deux garçons etremplir les autres par des lles. Ce nombre est égal à C2

5 et la probabilité

demandée estC2

5

25.

2. Si on suppose la probabilité de naissance d'une lle égale 0,48. Alors laprobabilité d'un garçon est de 0,52 et la probabilité d'obtenir une combi-naison (3 lles et deux garçons) est égale à (0, 48)3(0, 52)2 ainsi la proba-bilité demandée est égale à

C25 (0, 48)3(0, 52)2

Variable de PoissonLa variable X suit une loi de Poisson, de paramètre λ > 0 si

P (X = k) = e−λλk

k!, k = 0, 1, 2, ..

10

On la note X ∼ P(λ).ThéorèmeSi X ∼ P(λ) alors on a

E(X) = V (X) = λ.

UtilisationLa loi de Poisson est la loi discrète représentant un nombre d'événements.

Elle est utilisée pour décrire : la réalisation d'événements peu probables, dans une succession d'épreuvestrès nombreuses, au moins 50

le nombre d'accidents dans un atelier, le nombre de défauts sur un appareil, elle est la loi limite de la loi binomiale, quand n tend vers l'inni et p tendvers zéro, le produit np restant ni.

La loi de Poisson est la loi des événements rares ou loi des petites probabilités.Application 1Selon les données récoltées depuis plusieurs années, le nombre de pannes

hebdomadaires du système électronique d'une entreprise suit une loi de Pois-son de paramètre λ = 0, 05. Soit X la variable aléatoire "nombre de panneshebdomadaires" :

P (X = k) = e−0,05(0, 05)k

k!

La probabilité que le système tombe en panne une fois au cours d'une semainequelconque (k = 1) est égale à 0, 04756.La probabilité qu'il fonctionne sans panne (k = 0) est égale à 0, 95122.Quelle est la probabilité d'observer 2 pannes au cours d'une semaine ? d'unmois ?

Application 2La probabilité pour une ampoule électrique de claquer à son premier al-

lumage est de 0, 01. On suppose poissonnienne cette loi à cet âge. Sur un groupede 100 ampoules, quelle est la probabilité d'observer :

1. 0 claquage

2. 1 claquage

3. plus de 2 claquages

Réponsen = 100 et p = 0, 01 donc sur 100 ampoules la moyenne est np = 1. X

représentant le nombre de claquages suit la loi de Poisson P(1). Alors

1. P (”0 claquage) = P (X = 0) = e−1 10

0! = 0, 3679

2. P (”1 claquage”) = P (X = 1) = e−1 11

1! = 0, 3679

3. P (”plus de 2 claquages”) = 1− P (X ≥ 2) = 0, 0803

Loi géométriqueOn considère une épreuve de Bernoulli dont la probabilité de succès est p et

celle d'échec q = 1 − p. On renouvelle cette épreuve de manière indépendantejusqu'au premier succès. On note X la variable aléatoire donnant le rang dupremier succès.

1. Montrer que P (X = k) = pqk−1, k = 1, 2, ... Dans ce cas, on dit que Xsuit une loi géométrique de paramètre p.

11

2. Montrer que E(X) = 1p et V (X) = q

p2 .

Montrons que E(X) = 1p

E(X) =

∞∑k=1

kpqk−1 = limn→∞

n∑k=1

kpqk−1

= limn→∞

p

n∑k=1

d

dq(qk) = lim

n→∞pd

dq

n∑k=1

(qk)

= limn→∞

pd

dq(q

1− qn

1− q) =

p

(1− q)2=

1

p

Le calcul de la variance est laissée en exercice.Application

ExerciceUn certain matériel a une probabilité p = 0, 02 constante de défaillance à

chaque mise en service. On procède à l'expérience suivante, l'appareil est misen marche, arrêté, remis en marche, arrêté, jusqu'à ce qu'il tombe en panne.Quelle est la probabilité que ce matériel tombe en panne (pour la première fois)au dixième essai ?Le nombre d'essais nécessaires pour obtenir la panne est une variable aléatoireX suivant une loi géométrique de paramètre p. La probabilité que ce matérieltombe en panne (pour la première fois) au dixième essai est égale à :

P (X = 0) = (0, 02)(1− 0, 02)9 = 0, 0167

ExerciceUn atelier fabrique un grand nombre d'objets. On admet que la probabilité

qu'un objet soit défectueux est égale à 1/100. Combien doit-on contrôler depièces pour avoir 95 chances sur 100 d'obtenir au moins une pièce défectueuse ?

Il s'agit d'une répétition d'une loi de Bernoulli avec une probabilité de succès(obtenir une pièce défectueuse) p = 0, 01. On considère X la variable aléatoirecorrespondant au nombre d'essais à eectuer pour obtenir une pièce défectueuse,X suit alors une loi géométrique de paramètre p et sa loi est donnée par

P (X = k) = p(1− p)k−1, k = 1, 2, ...

Ainsi on cherche k de telle façon que P (X = k) = 0, 95Variables aléatoires continues

Une variable aléatoire continue prend ses valeurs sur un ensemble inni nondénombrable de points, elle décrit par exemple la durée de vie d'une batterie devoiture, l'heure d'arrivée des voitures à un péage donné d'autoroute..Il existe une fonction f non négative, dénie pour toute valeur x de R et vériant,pour toute partie A de R, la propriété :

P (X ∈ A) =

∫A

f(x)dx.

∫Rf(x)dx = 1

La fonction f est appelée la densité de probabilité de la variable aléatoireX.

12

La fonction de répartition de la variable aléatoire X, ayant pour densitéde probabilité f , est dénie par :

FX(a) = P (X ≤ a) =

∫ a

−∞f(t)dt

Pour toutes les valeurs a et b appartenant à R, on a donc la relation :

P (a < X ≤ b) = FX(b)− FX(a)

L'espérance d'une variable aléatoire continue est donnée par :

µ = E(X) =

∫ +∞

−∞xf(x)dx,

et la variance

σ2 = V ar(X) =

∫ +∞

−∞(x− µ)2f(x)dx.

Propriétés de l'espérance et de la variancePropositionSoient X et Y deux variables aléatoires (discrètes ou continues) sur l'espace

probabilisé (Ω,A, P ). Alors on a, pour tous réels a et b, E(aX + b) = aE(X) + b, E(X + Y ) = E(X) + E(Y ), V ar(aX + b) = a2V ar(X), V ar(X) = E(X2)− (E(X))2, V ar(X + Y ) = V ar(X) + V ar(Y ) si X et Y sont indépendants.Loi uniforme Une loi va être uniforme si toutes les valeurs sont équiproba-

bles, mais il y a une innité de valeurs, on parlera d'équiprobabilité pour desintervalles de même taille.

DénitionOn dit que la variable aléatoire continue X suit la loi uniforme sur [a, b] si sadensité est donnée par :

f(x) =

1b−a si x ∈ [a, b]

0 sinon .

On note alors X ∼ U[a,b].ThéorèmeSoit X une variable aléatoire telle que X ∼ U[a,b]. Alors

E(X) =a+ b

2

V ar(X) =(b− a)2

12

F (x) =

0 si x < a

x−ab−a si x ∈ [a, b]

1 si x > b.

13

Loi exponentielle Soit λ un réel strictement positif. On dit qu'une variablealéatoire X suit la loi exponentielle de paramètre λ si elle admet pourdensité la fonction f dénie sur R par :

f(x) =

0 si x < 0

λe−λx si x ≥ 0.

On note X ∼ E(λ).

PropositionLa fonction de répartition d'une variable aléatoire suivant une loi exponen-

tielle de paramètre λ est :

f(x) =

0 si x < 0

1− e−λx si x ≥ 0.

ThéorèmeSi X suit une loi exponentielle de paramètre λ > 0 alors X admet une

espérance et une variance données par :

E(X) =1

λ, V ar(X) =

1

λ2.

Une situation très classique aussi où on envisage un modèle exponentiel estcelle où on s'intéresse au délai de survenue d'événements aléatoires dans le temps(souvent appelé durée de vie), et où on admet que le devenir X d'un individu(au sens statistique du terme) ne dépend pas de son âge :

P (X ≤ x0 + x|X > x0) = P (X ≤ x),∀x > 0,∀x0 > 0

On peut montrer que cette condition implique que X suit une loi de type expo-nentiel.

Variable normaleDénition

Soit X une variable aléatoire continue. On dit que X suit la loi normale deparamètres m et σ2 si sa fonction densité est donnée par :

f(x) =1

σ√

2πe−

(x−m)2

2σ2 , x ∈ R.

On note alors X ∼ N (m,σ2).

14

Densité de la loi normale

ThéorèmeSoit X une variable aléatoire telle que X ∼ N (m,σ2).

On a alors E(X) = m et V ar(X) = σ2.PropositionSoientX et Y deux variables aléatoires indépendantes telles queX ∼ N (m1, σ

21)

et Y ∼ N (m2, σ22). Alors

X + Y ∼ N (m1 +m2, σ21 + σ2

2).

PropositionSoit X une variable aléatoire telle que X ∼ N (m,σ2). On pose Z = X−m

σ ,alors Z est une variable aléatoire telle que Z ∼ N (0, 1).On dit que Z suit la loi normale centrée réduite.

Utilisation des tables statistiques de N (0, 1)Proposition

Soit Z telle que Z ∼ N (0, 1). Alors pour tout a > 0 on aP (Z > −a) = P (Z < a)P (|Z| ≤ a) = 2P (Z ≤ a)− 1

La table 1 donne, pour diérentes valeurs de u, les valeurs de p = P (Z ≤ u)avec Z ∼ N (0, 1). Ainsi

p = P (N (0, 1) ≤ u)

15

Exemple d'utilisation de la table 1Soit Z ∼ N (0, 1). Déterminer les probabilités suivantes :

P (Z ≤ 0), P (Z ≤ 1), P (Z ≤ 1, 96), P (Z ≤ −1)

On lit par exemple dans la table 1 :

u = 0 = 0, 0 + 0, 00⇒ p1 = P (Z ≤ 0) = 0, 5

u = 1 = 1, 0 + 0, 00⇒ p2 = P (Z ≤ 1) = 0, 8413

u = 1, 96 = 1, 9 + 0, 06⇒ p3 = P (Z ≤ 1, 96) = 0, 9750

p4 = P (Z ≤ −1)1− P (Z ≤ 1) = 1− 0, 8413 = 0, 1587

16

Exemple d'utilisation de la table 2 Soit Z ∼ N (0, 1). Déterminer la valeur

17

de u dans les cas suivants :(a) P (Z < u) = 0, 63(b) P (Z > u) = 0.63(c) P (|Z| < u) = 0.63Réponse(a) On écrit d'abord p = 0.63 + 0.000, puis on repère l'intersection de laligne 0.63 et la colonne 0.000 ce qui donne u = 0.3319.

(b) On a P (Z > u) = 0.63, P (Z < u) = 1 − 0.63 = 0.37) donc on écritd'abord p = 0.37 + 0.000 puis on repère l'intersection de la ligne 0.37 etla colonne 0.000 ce qui donne u = −0.3319.(u négatif puisque 0.37 < 0.5.)

(c) On remarque que P (|Z| < u) = 2P (Z < u) − 1 = 0.63. Donc, P (Z <u) = 0.815. L'intersection de la ligne 0.81 et de la colonne 0.005 donneu = 0.8965.

Exercice 8 :Soit X une variable aléatoire dont la densité est dénie par :

f(x) =a

x41[1,+∞[(x)

1. Déterminer a.

2. Déterminer FX la fonction de répartition de X.

3. Calculer, sous réserve d'existence, E(Xp) pour p ∈ N.4. Quelle est la densité de Y = ln(X) ? Que valent E(Y ) et V (Y ) ?

Corrigé Exercice 8 :

1. Pour que f soit une densité, f doit être positive et d'intégrale égale à 1.Donc a doit vérier a > 0 et

∫R f(x)dx = 1. Ainsi∫

Rf(x)dx =

∫ +∞

1

a

x4dx =

a

3= 1⇔ a = 3

2. Pour x ≤ 1 FX(x) = 0 car la fonction densité est nulle pour x ≤ 1. Pourx > 1, on a F (x) =

∫ x1

3t4 dt = 1− 1

x3 .

3. On sait que∫ +∞1

1xn dx < ∞ ⇔ n > 1. Ainsi E(Xp) =

∫ +∞1

3xp

x4 dx =

3∫ +∞1

1x4−p dx <∞⇔ 4− p > 1⇔ p < 3. Ainsi pour p ≤ 2 qui donne

E(Xp) = 3

∫ +∞

1

1

x4−pdx =

3

3− p.

4. Puisque X(Ω) ⊂ [1,+∞( alors Y (Ω) ⊂ [0,+∞(. On détermine la fonctionde répartition de Y qu'on dérive pour obtenir sa densité.

Soit y ∈ [0,+∞( alors

P (Y ≤ y) = P (ln(X) ≤ y) = P (X ≤ ey) = FX(ey) = 1− 1

e3y

Ainsi fY (y) = 3e3y1[0,+∞[(y).On remarque qu'il s'agit d'une loi exponentielle de paramètre 3.Ainsi E(Y ) = 1

3 et V (Y ) = 19 .

Exercice 9 : Un tube électronique, fabriqué selon un certain procédé, a unedurée de vie qui, exprimée en heures est une variable aléatoire X suivant uneloi normale N (160; 302).

18

1. Calculer les diverses probabilités :

p1 = P (X ≤ 140), p2 = P (X ≥ 200), p3 = P (130 ≤ X ≤ 190).

2. Trouver les réels a et b vériant : P (X ≤ a) = 0, 9; P (X ≥ b) = 0, 8.

3. Calculer la probabilité conditionnelle : q = P (X ≥ 200|X > 160).

On sait que Y = X−16030 ∼ N (0, 1) dont on peut lire sur la table 1 les

diérentes valeurs de la fonction de répartition.

1. p1 = P (X ≤ 140) = P (Y ≤ − 23 ) = P (Y ≥ 2

3 )= 1− P (Y ≤ 2

3 ) = 1− 0.745 = 0.255p2 = P (X ≥ 200) = P (Y ≥ 4

3 ) = 1− P (Y ≤ 43 )

= 1− 0.908 = 0.092p3 = P (130 ≤ X ≤ 190) = P (−1 ≤ Y ≤ 1)= 2P (Y ≤ 1)− 1 = 0.682.

2. On obtient P (X ≤ a) = P (Y ≤ a−16030 ) = 0, 9

En utilisant la table 2, on obtient a−16030 = 1.281⇔ a = 198.43

P (X ≥ b) = P (Y ≥ b−16030 ) = 1− P (Y ≤ b−160

30 ) = 0, 8.Ainsi on a P (Y ≤ b−160

30 ) = 0, 2⇔ b−16030 = −0.841⇔ b = 134.77

3. q = P (X ≥ 200|X > 160) = P (X≥200)P (X>160) = 0.092

0.5 .

Approximation de la loi binomiale par la loi de PoissonOn considère une variable aléatoireX suivant une loi binomiale B(n, p). Pour

n susamment grand et p susamment proche de 0, on peut approcher la loibinomiale B(n, p) par la loi de Poisson de paramètre λ = np.En pratique :Si n > 50 et p < 0, 1, alors on a

B(n, p) ≈ P(np)

c'est à dire :

P (X = k) ≈ e−np (np)k

k!.

Approximation de la loi binomiale par la loi normaleOn considère une variable aléatoire X suivant une loi binomiale B(n, p), p

étant un paramètre xé. Alors

limn→+∞

X − np√np(1− p)

= N (0, 1)

En pratique :Si n > 30, np > 5 et np(1− p) > 5,

B(n, p) ≈ N (np, np(1− p)).

Correction de continuitéOn corrige de la façon suivante :

P (X ≤ k) ≈ P (N (0, 1) ≤ k+0,5−np√np(1−p)

)

P (X = k) ≈ P ( k−0,5−np√np(1−p)

≤ N (0, 1) ≤ k+0,5−np√np(1−p)

)

P (k ≤ X ≤ m) ≈ P ( k−0,5−np√np(1−p)

≤ N (0, 1) ≤ m+0,5−np√np(1−p)

)

19

ExempleOn lance une pièce de monnaie "honnête" 1000 fois. Quelle est la probabilité

d'obtenir au moins 548 piles ?On désigne par X la variable aléatoire désignant le nombre de piles obtenus.

X suit une loi binomiale de paramètre n = 1000 et p = 1/2. On désire calculerP (X ≥ 548). On remarque que

P (X ≤ 548) = 1− P (X < 548) = 1− P (X ≤ 547).

On peut approcher la loi de X par une loi normale car n = 1000 > 30, np =500 > 5, np(1− p) = 250 > 5. Donc

P (X ≤ 547) ≈ P (N (0, 1) ≤ 547, 5− 500

5√

10) ≈ P (N (0, 1) ≤ 3)

En utilisant la table 1, on obtient P (X ≤ 547) ≈ 0, 99865. D'où P (X ≥ 548) ≈0, 00135.

Exercice 10 :Une machine à embouteiller peut tomber en panne. La probabilité d'une

panne à chaque emploi est de 0,01. La machine doit être utilisée 100 fois. SoitX le nombre de pannes obtenues après 100 utilisations.

1. Quelle est la loi de X ? Calculer P (X = 0), P (X = 1) et P (X ≤ 2).

2. On estime le coût d'une réparation à 500 dirhams. Soit Y la dépense pourles réparations après 100 utilisations. Calculer E(Y ) et V (Y ).

Loi du Khi-deuxDénitionSoientX1, ..., Xn n variables aléatoires indépendantes telles queXi ∼ N (0, 1),∀i.

AlorsX2

1 + ...+X2n ∼ χ2

n

La fonction densité de probabilité de χ2n est donnée par

fχ2n(t) =

2−n2

Γ(n/2)tn/2−1e−t/2,∀t > 0

On a représenté ci-dessus la loi du χ2n pour diverses valeurs de n (k dans la

gure).

Densité de la loi du Khi-deux.

20

ThéorèmeSi X suit la loi du Khi-deux à n degrés de liberté, alors X admet une es-

pérance et une variance :

E(X) = n V ar(X) = 2n

RemarqueLa table 3 donne les fractiles de la loi du Khi-deux.

Loi de StudentDénitionSoient X ∼ N (0, 1) et Y ∼ χ2

n des variables aléatoires indépendantes. Alors

X√Y/n

∼ Tn

La fonction densité de probabilité de Tn est donnée par

fTn(t) =Γ(n+1

2 )√n√πΓ(n/2)

(1 +t2

n)−(n+1)/2

On a représenté ci-dessus la densité de la loi de Student pour diérentesvaleurs de n.(ν dans la gure).

21

ThéorèmeSi X suit la loi de Student à n degrés de liberté, alors

E(X) = 0 si n > 1

V ar(X) =n

n− 2si n > 2.

RemarqueLa table 4 donne les fractiles de la loi de Student.

22

CHAPITRE 3 :

Méthodes statistiques

Statistiques DescriptivesStatistique Descriptive : Vocabulaire des statistiques Ensemble étudié : population Sous-ensemble de cet ensemble : échantillon Éléments de cet ensemble : individus Objet de l'étude : caractère Valeurs prises par le caractère : modalités Ensemble des individus ayant même modalité ou groupe de modalités :classe

Type de caractères Qualitatif : non mesuré par un nombre nominal : quand les modalités ne peuvent pas être ordonnées. ordinal : quand les modalités peuvent être ordonnées.

Quantitatif : mesuré par un nombre discret : si l'ensemble des valeurs possibles est dénombrable. continu : si l'ensemble des valeurs possibles est continu.

Présentation fonctionnelleSoit Ω une population, X un caractère, i un individu. On note X(i) ou xi

la valeur du caractère X pour l'individu i. Le caractère X est une applicationde Ω dans l'ensemble des modalités.

Exemples de caractères qualitatifsa. Couleur d'une voiture dans un parking (Nominal)population : les voitures du parkingcaractère : la couleurmodalités : bleu, vert,..

b. Décision nale à un examen (Ordinal)population : un amphiindividus : étudiantscaractère : décisionmodalités : ajourné,passable, AB,B,TB,excellent

Exemples de caractères quantitatifsa. Nombre d'enfants par famille marocaine (Discret)population : familles marocainescaractère : nombre d'enfantsmodalités : des nombres entiers.

b. Note à l'examen de statistiques des étudiants de votre amphi(Continu)population : un amphiindividus : étudiantscaractère : notemodalités : [0, 20].

23

Distributions statistiques : Eectifs, fréquences

Variable qualitative ou discrèteModalités Eectifs Fréquences Fréq. cumulées

x1 n1 f1 = n1/N F1 = f1x2 n2 f2 = n2/N F2 = f1 + f2. . . .. . . .. . . .xi ni fi = ni/N Fi = f1 + ..+ fi. . . .. . . .. . . .xk nk fk = nk/N Fk = 100

Total N =∑ni 100% |||

Tableau des

fréquences

Variable quantitative continueClasses Ampli ni fi Fi di[a0, a1] A1 n1 f1 f1 d1 = f1/A1

[a1, a2] A2 n2 f2 f1 + f2 d2 = f2/A2

. . . . . .

. . . . . .

. . . . . .[ai−1, ai] Ai = ai − ai−1 ni fi f1 + ..+ fi di = fi/Ai

. . . . . .

. . . . . .

. . . . . .[ak−1, ak] Ak nk fk 100% dkTotal ||| N 100% ||| |||

Tableau des fréquences

Exercice 1 : Nombre d'enfants par famille observé dans un échantillon de 133familles

0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 44 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6

6 6 6 6 6 6 6 6 6 7 7 9 9 10

Echantillon de taille 133.

24

Solution

Xi ni Φi fi(%) Fi(%)0 2 2 1.5 1.51 8 10 6.0 7.52 10 20 7.5 153 52 72 39.1 54.14 25 97 18.8 72.95 14 111 10.5 83.46 17 128 12.8 96.27 2 130 1.5 97.78 0 130 0 97.79 2 132 1.5 99.210 1 133 0.8 100.0

Total N = 133 ||| 100 |||

Exercice 2 : Age à l'admission à l'hôpital pour un échantillon de 100 patients

10 22 24 42 37 77 89 85 28 639 10 7 51 2 1 52 7 48 5432 29 2 15 46 48 39 6 72 1436 69 40 61 12 21 54 53 58 3227 33 1 25 22 6 81 11 56 563 53 88 48 52 87 71 51 52 3346 33 85 22 5 87 28 2 85 6116 42 69 7 10 53 33 3 85 851 60 58 9 14 74 24 87 7 8130 76 7 6 27 18 17 53 70 49

Dépouiller ces données suivant une distribution de fréquences en utilisant 9classes avec 0 comme limite inférieure de la première classe et 90 comme limitesupérieure de la dernière classe. Quel pourcentage de patients dont l'age estsupérieur ou égal à 60 ans ?

Solution

Classes Ci ni fi(%) Fi(%)

[0− 10[ 5 22 22 22[10− 20[ 15 8 8 30[20− 30[ 25 13 13 43[30− 40[ 35 10 10 53[40− 50[ 45 8 8 61[50− 60[ 55 16 16 77[60− 70[ 65 7 7 84[70− 80[ 75 5 5 89[80− 90[ 85 11 11 100Total ||| N = 100 100 |||

Fonction de répartition DénitionLa fonction de répartition du caractère quantitatif X est la fonction F ,

dénie sur R à valeurs dans [0, 1], dénie par :F (x) = proportion d'individus de l'échantillon dont la valeur de X est < x.

25

Si X est discrèteAlors

F (x) =

0 si x < xiFi−1 si xi−1 ≤ x < xi, i ≥ 2

1 si x ≥ xk.

Si X est une variable quantitative continueAlors, d'après la méthode d'interpolation linéaire, on obtient

F (x) =

0 si x < a0

Fi−1 + fiAi

(x− ai−1 si ai−1 ≤ x < ai, i ≥ 1

1 si x ≥ ak.

Représentations graphiques d'une série de données

Variable nominale

Diagramme en bâtons

A chaque modalité, on associe un "bâton" de longueur hi proportionnelle à lafréquence fi (ou, si l'on veut dire l'eectif ni). On a donc hi = cte× fi.

Diagramme en secteur

L'angle de chaque secteur αi est proportionnel à la fréquence fi. En degré, ona αi = 360× fi.

Exemple

Variable ordinale-Variable discrèteVariable ordinale Diagramme en bâtons Diagramme en secteurs

26

Variable discrète Diagramme en bâtons car, dans ce cas, l'ordre et l'écart entre les bâtonssont signicatifs.

Représentation d'une variable continue

Classes Amplitudes ni fi Densités de fréquences[a0, a1] A1 n1 f1 d1 = f1/A1

[a1, a2] A2 n2 f2 d2 = f2/A2

. . . . .

. . . . .

. . . . .[ai−1, ai] Ai = ai − ai−1 ni fi di = fi/Ai

. . . . .

. . . . .

. . . . .[ak−1, ak] Ak nk fk dkTotal ||| N 100% |||

Amplitudes et densités de fréquences

Histogramme- Polygone des fréquences

ExerciceOn a relevé l'âge de 150 personnes. Les résultats de l'enquête sont données

dans le tableau suivant :

27

Classes Eectifs[20, 25[ 9[25, 30[ 27[30, 35[ 36[35, 40[ 45[40, 50[ 27[50, 60[ 6Total N=150

1. Tracer l'histogramme des fréquences.

2. Tracer le polygone des fréquences et la courbe cumulative.

Réponse

Classes Ai ni fi Fi di[20, 25[ 5 9 6 6 1.2[25, 30[ 5 2 18 24 3.6[30, 35[ 5 36 24 48 4.8[35, 40[ 5 45 30 78 6[40, 50[ 10 27 18 96 1.8[50, 60[ 10 6 4 100 0.4Total ||| 150 100 ||| |||

Paramètres associés à la distribution d'une série de données Paramètres de tendance centrale Paramètres de dispersionModeIl est déni pour tous types de variables. Le mode n'est pas nécessairement

unique.Dénition

Si X est une variable statistique nominale, ordinale ou discrète, le modede la distribution associée est la modalité de X la plus représentée, c'est-à-dire pour laquelle l'eectif est le plus grand.

Si X est une variable continue, le mode (ou classe modale de la dis-tribution associée est la classe dont la densité de fréquences est la plusélevée.

Exemple

Modalité ni fi(%)A 19 37,3B 14 27,5C 12 23,5D 6 11,8

Mode=A

Classes Ai ni fi(%) di[20, 25[ 5 9 6 1.2[25, 30[ 5 2 18 3.6[30, 35[ 5 36 24 4.8[35, 40[ 5 45 30 6[40, 50[ 10 27 18 1.8[50, 60[ 10 6 4 0.4Total ||| 150 100 |||

28

Classe modale=[35,40[

MédianeDénitionLa médiane est la valeur centrale de la série. On dit qu'elle partage la

série en deux moitiés. Ainsi 50% des éléments de l'échantillon ont une valeurinférieure à la médiane et 50% une valeur supérieure.

En général, on note x(1) < x(2) < ...... < x(n) la série ordonnée par ordrecroissant de la série brute x1, x2, ..., xn de données.Alors,

Si n est impair M = x(n+12 )

Si n est pair M =1

2x(n2 ) + x(n2 +1)

Exemple : Cas continuTrouver la médiane de la série brute suivante :

21, 25, 28, 30, 27, 24, 31, 21, 28, 30, 25, 28, 26, 25.

Réponses : On ordonne la série par ordre croissant :

21, 21, 24, 25, 25, 26, 27, 28, 28, 28, 30, 30, 31

On a n = 14 qui est pair, donc la médiane est

M =x(7) + x(8)

2=

26 + 27

2= 26, 5.

Cas continuDénition La médiane de la distribution d'une variable continue X, ré-

partie en classes [ai−1, ai[ est donnée par : si F (ai−1) < 0, 5 et F (ai) > 0, 5, la classe médiane est [ai−1, ai[ et oncalcule la médiane par interpolation linéaire sur l'intervalle [ai−1, ai[ :

M = ai−1 + (ai − ai−1)0, 5− F (ai−1)

F (ai)− F (ai−1)

avec F fonction de répartition de X si F (ai−1) = 0, 5 alors M = ai−1.Exemple : Cas continu

Classes ni fi(%) Fi(%)[20, 25[ 9 6 6[25, 30[ 27 18 24[30, 35[ 36 24 48[35, 40[ 45 30 78[40, 50[ 27 18 96[50, 60[ 6 4 100Total 150 100 |||

29

D'après la table, la classe médiane et [35, 40[ car

F (35) = 0, 48 < 0, 5 < F (40) = 0, 78.

En appliquant la formule de la médiane, on obtient

M = 35, 33

QuantilesSoit α dans l'intervalle ]0, 1[. On note x(1) < x(2) < ...... < x(n) la série

ordonnée par ordre croissant de la série brute x1, x2, ..., xn de données. Alors ondénit le nombre Qα, quantile d'ordre α, par

Si nα n'est pas un entier naturel Qα = x([nα]+1)

Si nα est un entier naturel Qα = 1

2x(nα) + x(nα+1)

où [nα] représente la partie entière de nα.Si F (ai−1) < α et F (ai) > α, par interpolation linéaire on obtient :

Qα = ai−1 + (ai − ai−1)α− F (ai−1)

F (ai)− F (ai−1)

Quartiles-DécilesQuartiles

Les quartiles partagent la série en 4 : Q0,25 premier quartile ; Q0,5 médiane ; Q0,75 dernier quartile.Déciles

Les déciles partagent la série en 10 : (Q0,1, Q0,2, ..., Q0,9).Exemple : Cas discretTrouver les quartiles de la série brute suivante :

21, 25, 28, 30, 27, 24, 31, 21, 28, 30, 25, 28, 26, 25.

Réponses : On ordonne la série par ordre croissant :

21, 21, 24, 25, 25, 26, 27, 28, 28, 28, 30, 30, 31

On a nα = 14× 14 = 3, 5 qui n'est pas entier, donc

Q0,25 = x(4) = 25.

Ainsi, 14× 34 = 11, 5 n'est pas entier, donc

Q0,75 = x(12) = 30.

Exemple : Cas continu

Classes ni fi(%) Fi(%)[20, 25[ 9 6 6[25, 30[ 2 18 24[30, 35[ 36 24 48[35, 40[ 45 30 78[40, 50[ 27 18 96[50, 60[ 6 4 100Total 150 100 |||

30

D'après la table, on obtient Q0,25 = 30, 2 et Q0,75 = 39, 5.Asymétrie on emploie ce type de paramètres pour étudier la symétrie. Si

M −Q0,25 >> Q0,75 −M ⇒ asymétrie à gauche.

sinon asymétrie à droite.ExempleOn considère les moyennes du semestre de deux classes de SMP :

Notes 5 6 7 8 9 10 11 12 13 14 15 16Eectifs SMP1 0 3 4 4 5 7 3 4 2 1 0 0Eectifs SMP2 2 4 3 3 3 4 3 2 2 3 1 2

Etudier l'asymétrie de ces deux séries.

Réponses :SMP1 : M = 10, Q0,25 = 8, Q0,75 = 11 SMP2 : M = 10, Q0,25 = 7, Q0,75 =12, 5

Moyenne arithmétique DénitionLa moyenne arithmétique d'une série de données x1, ..., xn ou tout simplementmoyenne, notée X est dénie par :

X =1

n

n∑i=1

xi =1

n

k∑i=1

nixi =

k∑i=1

fixi.

DénitionLa moyenne arithmétique d'une variable continue répartie en classe [ai−1, ai[ estdénie par

X ≈ 1

n

k∑i=1

nici =

k∑i=1

fici.

où ci = ai−1+ai2 est le centre de la classe [ai−1, ai[.

Forme d'une distribution

Paramètres de dispersionÉtendue

Etendue = x(n) − x(1)Écart interquartile

IQ = Q0,75 −Q0,25. Cet intervalle englobe la moitié

31

Variance-Écart typeCas discret

V ar(X) =1

n

n∑i=1

(xi − x)2 =1

n

k∑i=1

ni(xi − x)2 =

k∑i=1

fi(xi − x)2

Cas continu

V ar(X) ≈ 1

n

k∑i=1

ni(ci − x)2 =

k∑i=1

fi(ci − x)2

ThéorèmeLa variance peut aussi s'écrireDiscret

V ar(X) =1

n

n∑i=1

x2i − x2 =1

n

k∑i=1

nix2i − x2 =

k∑i=1

fix2i − x2.

Continu

V ar(X) ≈ 1

n

k∑i=1

nic2i − x2 =

k∑i=1

fic2i − x2.

DénitionOn dénit l'Ecart-type :

σ(X) =√V ar(X).

Coecient de variationL'objectif de ce coecient est de fournir un indice quantitatif permettant de

comparer la dispersion de deux distributions de façon indépendante du choixdes unités de mesure.

C.V. =σ(X)

X× 100%

Plus le coecient de variation est élevé, plus la dispersion autour de la moyenneest élevée.

ExempleOn considère les moyennes du semestre de deux classes de SMP :

Notes 5 6 7 8 9 10 11 12 13 14 15 16nide SMP1 0 3 4 4 5 7 3 4 2 1 0 0nide SMP2 2 4 3 3 3 4 3 2 2 3 1 2

1. Calculer les coecients de variations de SMP1 et SMP2.

2. Commenter.

Régression linéaireOn s'intéresse à étudier la relation entre deux variables X et Y . On veut

trouver la fonction f :Y = f(X)

32

La série statistique est alors une suite de n couples des valeurs prises par deuxvariables sur chaque individu :

(x1, y1), ....(xi, yi), ...(xn, yn)

Nuage de points

Exemple de nuage de points.Analyse des variables : paramètres marginaux

X =1

n

n∑i=1

xi, σ2(X) =

1

n

n∑i=1

(xi − X)2;

Y =1

n

n∑i=1

yi, σ2(Y ) =

1

n

n∑i=1

(yi − Y )2.

DénitionLa covariance est dénie

Cov(X,Y ) =1

n

n∑i=1

(xi − X)(yi − Y ).

Propriétés de la covarianceRemarque La covariance peut prendre des valeurs positives, négatives ou nulles. Quand X = Y,Cov(X,Y ) = σ2(X) = σ2(Y ).ThéorèmeLa covariance peut également s'écrire :

Cov(X,Y ) =1

n

n∑i=1

xiyi − XY .

33

CorrélationDénitionLe coecient de corrélation est déni par :

r(X,Y ) =Cov(X,Y )

σ(X)σ(Y ).

Le coecient de détermination est le carré du coecient de corrélation :

r2(X,Y ).

r(X,Y ) mesure la dépendance linéaire entre X et Y .Nuages de points et Corrélation

Droite de régressionDénitionLa droite de régression est la droite qui ajuste au mieux un nuage de

points.

On considère que la variable X est explicative (indépendante) et que lavariable Y est expliquée (dépendante). Donc, l'équation d'une droite est y =a+ bx

Critère des moindres carrésPour déterminer la valeur des coecients A et b on utilise le principe des

moindres carrés qui consiste à chercher la droite qui minimise la somme descarrés des résidus :

M(a, b) =

n∑i=1

e2i =

n∑i=1

(yi − a− bxi)2.

Le résidu ei est l'erreur que l'on commet en utilisant la droite de régressionpour prédire yi à partir de xi. Donc

34

Les valeurs y∗i = a+ bxi sont appelées les valeurs prédites. On a

Y ∗ = Y .

Les valeurs ei = yi − y∗i sont appelées résidus. On a

E = 0.

Nuage de points et Résidu

Estimation de a et bThéorèmeLes coecients a et b qui minimisent le critère des moindres carrés sont

donnés par :

b =Cov(X,Y )

σ2(X), a = Y − bX.

L'équation de la droite de régression de Y en X :

y =Cov(X,Y )

σ2(X)(x− X + Y .

La droite de régression de Y en X n'est pas la même que la droite derégression de X en Y .

On a la formule de décomposition de la variance :

V ar(Y ) = V ar(Y ∗) + V ar(E)

Qualité de la régressionOn appelle r2(X,Y ) (coecient de détermination) la part de variance ex-

pliquée :

r2(X,Y ) =V ar(Y ∗)

V ar(Y ).

C'est un indicateur de la qualité de la régression.

Exemple 1On considère les deux variables X et Y dont on connaît quelques valeurs :

35

xi 10 20 30 40 50 60yi 30 60 90 120 150 180

Quelle est la droite de régression de Y en fonction de X ? Réponse :X = 35, Y = 105, Cov(X,Y ) = 875, σ2(X) = 291.66, a = 0, b = 3. Ainsi ladroite de régression de Y en fonction de X est y = 3x.

Exemple 2Le tableau suivant donne la longueur totale X d'un oiseau (en cm) en fonctionde la longueur Y de son ÷uf (en mm).

X 15 32 79 40 55 16 22 20Y 8 25 60 32 38 10 15 13X 28 17 16 18 57 30 23Y 16 11 8 11 60 26 13

1. Calculer les moyennes respectives X et Y des variables X et Y .

2. Calculer les variances respectives σ2(X) et σ2(Y ) des variables X et Y .

3. Calculer le coecient de corrélation linéaire r(X,Y ) entre X et Y . Com-menter ce résultat.

4. Déterminer la droite de régression linéaire de Y en X.

5. Quelle longueur de l'÷uf peut-on prévoir pour une longueur totale del'oiseau de 70 cm?

1. X = 31, 2 cm et Y = 23, 07 mm.

2. V ar(X) = σ2(X) = 332, 29 cm2 et V ar(Y ) = σ2(Y ) = 285, 13 mm2.

3. σ(X) = 18, 23 cm, σ(Y ) = 16, 89 mm, Cov(X,Y ) = 296, 32 cm.mm ainsir(X,Y ) ≈ 0, 96.Le coecient de détermination r2(X,Y ) ≈ 0, 93 est proche de 1. Il existedonc une forte dépendance linéaire entre X et Y .

4. L'équation de la droite de régression linéaire est y = a+bx avec a ≈ −4, 76et b ≈ 0, 89.

5. La longueur de l'÷uf ≈ −4, 76 + 0, 89× 70 = 57, 54 mm.

Régression non-linéaire

De nombreux modèles non-linéaires se ramènent facilement aux modèleslinéaires par des simples transformations. Voici quelques cas fréquents :

Dépendance Transformation Droite denon-linéaire régression linéairey = keαx Y = log(y) Y = log k + αx

y = kxα Y = log(y), X = log(x) Y = log(k) + αX

y = αxx+k Y = 1

y , X = 1x Y = 1

α + kαX

36

probabilites et methodes statistiques … · probabilites et methodes statistiques pratiques...

Documents