Download - Rappels stats-2014-part2
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Probabilites & statistiques
quelques brefs rappels # 2
Arthur Charpentier, 2014
http ://freakonometrics.hypotheses.org/category/courses/m1-statistique
1
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Plan du cours
◦ Introduction, la modelation statistique
• Rappels de probabilite
◦ Fonctions usuelles, P, F , f , E, Var
◦ Lois uselles, discetes et continues
◦ Conditionnement, esperance conditionnelle et melanges
◦ Convergence, approximations et theoremes limites
· Loi(s) des grands nombres
· Theoreme central limite
• Rappels de statistique (mathematique)
◦ De la statistique descriptive a la statistique mathematique
◦ Echantillonnage, moyenne et variance
◦ Intervalle de confiance
◦ Introduction aux tests
2
Arthur CHARPENTIER - Rappels de probabilites & statistiques
L’estimateur comme variable aleatoire
En statistique descriptive, on construit des estimateurs comme des fonctions des
valeurs de l’echantillon, {x1, · · · , xn}, e.g.
xn =x1 + · · ·+ xn
n
En statistique mathematique, on suppose que xi = Xi(ω), i.e. la realisation d’un
variable aleatoire sous-jacente
Xn =X1 + · · ·+Xn
n
X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire.
Exemple : supposons que nous disposons d’un echantillon de n = 20 valeurs
tirees suivant une loi uniforme sur [0, 1].
3
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Distribution de la moyenne d'un échantillon U([0,1])
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
050
100
150
200
250
300
0.457675
●
0.0 0.2 0.4 0.6 0.8 1.0
Figure 1 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).
4
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Distribution de la moyenne d'un échantillon U([0,1])
Fré
quen
ce
0.0 0.2 0.4 0.6 0.8 1.0
050
100
150
200
250
300
0.567145
●● ●● ●●● ●●●● ● ●● ●●● ●●● ●●● ●● ●● ● ●● ●● ●●● ●● ● ●●● ●● ● ●● ● ●● ●●●● ● ●● ●●●● ●● ● ● ●●●●●● ●● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●● ●●● ●● ●●● ●● ●●●● ●●●● ●● ●●● ● ●●●● ● ● ●●● ●● ● ●● ●●●●● ●● ● ●● ●● ●●●●●● ● ●● ●●● ● ●● ● ●● ●●●●● ● ●●●●● ●●● ● ● ●●● ●●●●● ●●● ●● ● ●●● ●● ●●● ● ●●● ●● ●● ●● ●●● ●● ●● ●●●●● ●●●●● ●●● ●●●● ●● ● ● ●●●● ●●● ●●●● ●● ●●●● ● ●● ●●●●● ●●●● ●● ●●● ●● ●● ●● ● ● ● ●●● ● ●●● ● ●●● ● ●● ●●● ● ●●●● ●● ●● ●●● ●● ● ●● ●●● ● ● ●●● ●●● ●●● ●●● ●●● ●● ●●● ●● ●● ● ●● ●● ● ●●● ●●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●● ●●●●●●● ●● ● ●●● ●●●●● ● ● ●●● ●● ●● ●●●● ●● ●●● ●● ●● ●● ●●●● ●●●●●●●● ●●●● ●●● ●● ●●● ●●● ●● ●●●● ●● ●● ● ●● ●● ●●● ●●● ●●●●● ●● ●● ●● ●● ● ●● ● ●●● ●●● ●● ●● ●● ●●● ● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ●● ●● ●●● ● ●● ●● ●●●● ●●●●● ● ●●● ●●●●● ●●●● ●●●● ●● ●● ● ● ●● ●● ●● ●● ●● ● ●●● ● ●● ●● ● ●● ●● ● ● ●●●●●●●●● ●●●● ●●● ● ●●● ●● ●● ●● ●● ●● ●●● ● ●●● ●● ● ●●●● ● ●● ● ●●● ●● ●● ●● ●●●●● ●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ●●● ●●●● ●● ●● ●● ● ●●●● ●● ●● ●● ●●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●●● ●●● ●● ● ●●●●● ●●● ●●● ●● ● ●●● ●● ●●● ● ●●●● ●● ●● ●●●● ●● ● ●●● ●● ●●● ●● ●● ●●●● ●●● ● ●●●● ●● ●●●● ● ●●● ● ●●● ●● ●● ● ●● ● ●●● ●● ●●● ●●● ●●● ● ●●●●● ● ●● ● ●●● ●●● ●● ●●●● ● ● ●● ●● ●●● ●● ●●● ●●●● ●●● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ● ●●●●● ●● ● ●● ●●● ● ●●● ●●● ●●●● ●●● ●●●●● ●●● ●● ● ●●● ●●● ● ●●● ● ●●●● ●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●● ● ●● ●● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●●●● ● ● ●● ● ●●
0.0 0.2 0.4 0.6 0.8 1.0
Figure 2 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).
5
Arthur CHARPENTIER - Rappels de probabilites & statistiques
L’estimateur comme variable aleatoire
Si l’echantillon change, l’estimateur n’est pas le meme.
Constituons 1000 echantillons de maniere aleatoire. En moyenne, l’estimateur
vaut 1/2. Aussi, la moyenne empirique est un estimateur sans biais de 1/2,
l’esperance mathematique de la loi uniforme sur [0, 1].
Cet estimateur a une variance, et aussi une loi (en l’occurence une densite). Ici,
la moyenne empirique suit (presque) une loi normale.
On distingera toutefois les comportements a distance finie (n fixe) et
asymptotique (theoremes limites - loi des grands nombres et theoreme central
limite - obtenus lorsque n→∞).
6
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Petites proprietes preliminaires
Soit x = (x1, · · · , xn) ∈ Rn. Posons x =x1 + · · ·+ xn
n. Alors,
minm∈R
{n∑i=1
[xi −m]2
}=
n∑i=1
[xi − x]2
etn∑i=1
[xi − x]2 =n∑i=1
x2i − nx2
7
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La moyenne (empirique)
Definition 1. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La moyenne
empirique est
Xn =X1 + · · ·+Xn
n=
1
n
n∑i=1
Xi
Si on suppose les Xi d’esperance finie (notee µ), alors
E(Xn) = E
(1
n
n∑i=1
Xi
)∗=
1
n
n∑i=1
E (Xi) =1
nnµ = µ
∗ par linearite de l’esperance
Proposition 2. Si on suppose les Xi d’esperance finie (notee µ),
E(Xn) = µ.
La moyenne est un estimateur sans biais de l’esperance mathematique.
8
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La moyenne (empirique)
Si on suppose les Xi independants de variance finie (notee σ2), alors
Var(Xn) = Var
(1
n
n∑i=1
Xi
)∗=
1
n2
n∑i=1
Var (Xi) =1
n2nσ2 =
σ2
n
∗ car les variables sont independantes, et car la variance est quadratique.
Proposition 3. Si on suppose les Xi i.i.d. de variance finie (notee σ2),
Var(Xn) =σ2
n.
9
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La variance (empirique)
Definition 4. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La variance
empirique est
S2n =
1
n− 1
n∑i=1
[Xi −Xn]2.
Si on suppose les Xi de variance finie (notee σ2),
E(S2n) = E
(1
n− 1
n∑i=1
[Xi −Xn]2
)∗= E
(1
n− 1
[n∑i=1
X2i − nX
2
n
])
∗ par la propriete preliminaire enoncee auparavant
E(S2n) =
1
n− 1[nE(X2
i )− nE(X2)]∗=
1
n− 1
[n(σ2 + µ2)− n
(σ2
n+ µ2
)]= σ2
∗ car Var(X) = E(X2)− E(X)2
10
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La variance (empirique)
Proposition 5. Si on suppose les Xi independants de variance finie (notee σ2),
E(S2n) = σ2.
La variance (empirique) est un estimateur sans biais de la variance.
Remarque Pour avoir un estimateur sans biais, on considere comme estimateur
S2n, avec un facteur n− 1, et non pas
S2n =
1
n
n∑i=1
[Xi −Xn]2
(qui reste un estimateur classique).
11
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Cas d’un echantillon Gaussien
Proposition 6. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors
• Xn et S2n sont des variables aleatoires independantes,
• Xn a pour loi N(µ,σ2
n
)• (n− 1)S2
n/σ2 a pour loi χ2(n− 1).
Remarque Pour comprendre l’histoire du n− 1 degres de libertes pour une
somme de n termes, notons que
S2n =
1
n− 1
[n∑i=1
(Xi −Xn)2
]=
1
n− 1
[(X1 −Xn)2 +
n∑i=2
(Xi −Xn)2
]
soit S2n =
1
n− 1
( n∑i=2
(Xi −Xn)
)2
+n∑i=2
(Xi −Xn)2
car
n∑i=1
(Xi −Xn) = 0. Aussi S2n est fonction de n− 1 variables (centrees),
X2 −Xn, · · · , Xn −Xn
12
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Cas d’un echantillon Gaussien
Proposition 7. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors
•√nXn − µ
σsuit une loi N (0, 1)
•√nXn − µSn
suit une loi de Student a n− 1 degres de liberte
En effet,
√nXn − µS
=√nXn − µ
σ︸ ︷︷ ︸N (0,1)
/
√(n− 1)S2
n
σ2︸ ︷︷ ︸χ2(n−1)
×√n− 1
13
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Proprietes asymptotiques
Proposition 8. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de
variance σ2 (finie). Alors pour tout ε > 0,
limn→∞
P(|Xn − µ| > ε) = 0
i.e. XnP→ µ (convergence en probabilite).
Proposition 9. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de
variance σ2 (finie). Alors pour tout ε > 0,
limn→∞
P(|S2n − σ2| > ε) ≤ Var(S2
n)
ε2
i.e. une condition suffisante pour que S2n
P→ σ2 (convergence en probabilite) est
que Var(S2n)→ 0 lorsque n→∞.
14
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Proprietes asymptotiques
Proposition 10. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de
variance σ2 (finie). Alors pour tout z ∈ R,
limn→∞
P(√
nXn − µ
σ≤ z)
=
∫ z
−∞
1√2π
exp
(− t
2
2
)dt
i.e.√nXn − µ
σ
L→ N (0, 1).
Remarque Si les Xi ont pour loi N (µ, σ2), alors
√nXn − µ
σ∼ N (0, 1).
15
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Estimation de la variance
Considerons un echantillon Gaussien, alors
Var
((n− 1)S2
n
σ2
)= Var(Z) avec Z ∼ χ2
n−1
donc cette quantite vaut
(n− 1)2
σ4Var(S2
n) = 2(n− 1)
de telle sorte que
Var(S2n) =
2(n− 1)σ4
(n− 1)2=
2σ4
(n− 1).
16
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Estimation de l’ecart-type et de la variance
Considerons le cas ou Xi ∼ N (µ, σ2). Un estimateur naturel de σ est
Sn =√S2n =
√√√√ 1
n− 1
n∑i=1
(Xi −Xn)2
On peut alors montrer que
E(Sn) =
√2
n− 1
Γ(n/2)
Γ([n− 1]/2)σ ∼
(1− 1
4n− 7
32n2
)σ 6= σ
mais
SnP→ σ et
√n(Sn − σ)
L→ N(
0,σ
2
)
17
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Estimation de l’ecart-type et de la variance
0 50 100 150
0.93
0.95
0.97
0.99
Taille de l'échantillon (n)
Bia
is (
mul
tiplic
atif)
Figure 3 – Biais lors de l’estimation de l’ecart-type.
18
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Echantillon transforme
Soit g : R→ R suffisemment reguliere pour ecrire un developpement de Taylor en
tout point,
g(x) = g(x0) + g′(x0) · [x− x0] + un reste
Soit Yi = g(Xi). Alors, si E(Xi) = µ avec g′(µ) 6= 0
Yi = g(Xi) ≈ g(µ) + g′(µ) · [Xi − µ]
de telle sorte que
E(Yi) = E(g(Xi)) ≈ g(µ)
et
Var(Yi) = Var(g(Xi)) ≈ [g′(µ)]2Var(Xi)
Remarque Il ne s’agit que d’approximations.
19
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Echantillon transforme
La delta-method permet d’obtenir des proprietes asymptotiques.
Proposition 11. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de
variance σ2 (finie), alors
√n(Xn − µ)
L→ N (0, σ2)
Et si g′(µ) 6= 0, alors
√n(g(Xn)− g(µ))
L→ N (0, [g′(µ)]2σ2)
Proposition 12. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de
variance σ2 (finie), et si g′(µ) = 0 mais g′′(µ) 6= 0, alors
√n(g(Xn)− g(µ))
L→ g′′(µ)
2σ2χ2(1)
20
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Echantillon transforme
Example Si µ 6= 0,√n
(1
Xn
− 1
µ
)L→ N
(0,
1
µ4σ2
)
21
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance pour µ
Quand on parlera de l’intervalle de confiance de µ a un niveau de confiance 1− α(e.g. 95%), il s’agira du plus petit intervallle I tel que
P(µ ∈ I) = 1− α.
Notons uα le quantile de la loi N (0, 1) au niveau α, i.e.
uα/2 = −u1−α/2 verifie Φ(uα/2) = α/2
Comme Z =√nXn − µ
σ∼ N (0, 1),
on peut en deduire que P(Z ∈ [uα/2, u1−α/2]) = 1− α,
et donc
P(µ ∈
[X +
uα/2√nσ,X +
u1−α/2√n
σ
])= 1− α.
22
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
• si α = 10%, u1−α/2 = 1.64 et donc, avec une probabilite de 90%,
X − 1.64√nσ ≤ µ ≤ X +
1.64√nσ,
• si α = 5%, u1−α/2 = 1.96 et donc, avec une probabilite de 95%,
X − 1.96√nσ ≤ µ ≤ X +
1.96√nσ,
23
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
Si la variance est inconnue, on l’estime par S2n =
1
n− 1
(n∑i=1
X2i
)−X2
n.
On a vu que
(n− 1)S2n
σ2=
n∑i=1
Xi − E(X)
σ︸ ︷︷ ︸N (0,1)
2
︸ ︷︷ ︸loi du χ2(n)
−
Xn − E(X)
σ/√n︸ ︷︷ ︸
N (0,1)
2
︸ ︷︷ ︸loi du χ2(1)
Le theoreme de Cochrane permet de conclure que(n− 1)S2
n
σ2∼ χ2(n− 1).
24
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
Comme Xn et S2n sont independantes,
T =√n− 1
Xn − µSn
=
Xn−µσ/√n−1√
(n−1)S2n
(n−1)σ2
∼ St(n− 1).
Si t(n−1)α/2 designe le quantile de la loi St(n− 1) au niveau α/2, i.e.
t(n)α/2 = −t(n−1)1−α/2 verifie P(T ≤ t(n−1)α/2 ) = α/2
on peut en deduire que P(T ∈ [t(n−1)α/2 , t
(n−1)1−α/2]) = 1− α, et donc
P
µ ∈X +
t(n−1)α/2√n− 1
σ,X +t(n−1)1−α/2√n− 1
σ
= 1− α.
25
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
• si n = 10 et α = 10%, u1−α/2 = 1.833 et donc, avec une probabilite de 90%,
X − 1.833√nσ ≤ µ ≤ X +
1.833√nσ,
• si n = 10 et si α = 5%, u1−α/2 = 2.262 et donc, avec une probabilite de 95%,
X − 2.262√nσ ≤ µ ≤ X +
2.262√nσ,
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Quantiles
Inte
rvall
e de
conf
iance IC 90%
IC 95%
Figure 4 – Quantiles pour n = 10, σ connue ou inconnue.
26
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
• si n = 20 et α = 10%, u1−α/2 = 1.729 et donc, avec une probabilite de 90%,
X − 1.729√nσ ≤ µ ≤ X +
1.729√nσ,
• si n = 20 et si α = 5%, u1−α/2 = 2.093 et donc, avec une probabilite de 95%,
X − 2.093√nσ ≤ µ ≤ X +
2.093√nσ,
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Quantiles
Inte
rvall
e de
conf
iance IC 90%
IC 95%
Figure 5 – Quantiles pour n = 20, σ connue ou inconnue.
27
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Intervalle de confiance, moyenne d’un echantillon normal
• si n = 100 et α = 10%, u1−α/2 = 1.660 et donc, avec une probabilite de 90%,
X − 1.660√nσ ≤ µ ≤ X +
1.660√nσ,
• si n = 100 et si α = 5%, u1−α/2 = 1.984 et donc, avec une probabilite de 95%,
X − 1.984√nσ ≤ µ ≤ X +
1.984√nσ,
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Quantiles
Inte
rvall
e de
conf
iance IC 90%
IC 95%
Figure 6 – Quantiles pour n = 100, σ connue ou inconnue.
28
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La lecture des tables
Fonction de repartition de la loi normale X ∼ N (0, 1),
P(X ≤ u) = Φ(u) =
∫ u
−∞
1√2πe−y
2/2dy
Example P(X ≤ 1, 96) = 0, 975.
29
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Interpretation d’un intervalle de confiance
Si on genere des echantillons i.i.d. suivant une loi N (µ, σ2), avec µ et σ2 fixes, il y
a 90 chances sur 100 que µ soit dans un des intervalles suivants[X +
uα/2√nσ,X +
u1−α/2√n
σ
]
●
●
●
●
●●●
●
●
●
●
●
●●●
●●●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●●
●
●●
●●
●●
●
●●
●
●
●
●●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●
●●●
●
●
●●●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●●●
●
●
●
●●
●●
●
0 50 100 150 200
−1.0
−0.5
0.00.5
1.0
interv
alle de
confi
ance
Figure 7 – Intervalle de confiance pour µ, avec σ2 connue.
30
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Interpretation d’un intervalle de confiance
ou X +t(n−1)α/2√n− 1
σ,X +t(n−1)1−α/2√n− 1
σ
●
●
●
●
●●●
●
●
●
●
●
●●●
●●●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●●
●
●●
●●
●●
●
●●
●
●
●
●●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●
●●●
●
●
●●●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●●●
●
●
●
●●
●●
●
0 50 100 150 200
−1.0
−0.5
0.00.5
1.0
interv
alle de
confi
ance
Figure 8 – Intervalle de confiance pour µ, avec σ2 estimee.
31
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Un peu de tests
Le lien entre la decision est la vraie valeur peut etre represente par le tableau
ci-dessous
H0 vraie H1 vraie
Decision d0 Bonne decision erreur de seconde espece
Decision d1 erreur de premiere espece Bonne decision
32
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0
H0 : µ6=µ0
La statistique de test est
T =√nx− µ0
sou s2 =
1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ St(n− 1).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
33
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparaison de moyennes de deux echantillons
Considerons un test d’egalite de moyenne sur deux echantillons.
On dispose de deux echantillons, {x1, · · · , xn} et {y1, · · · , ym}. On souhaite tester H0 : µX = µY
H0 : µX 6=µY
On rajoute une hypothese, X ∼ N (µX , σ2X) et Y ∼ N (µY , σ
2Y ), i.e.
X ∼ N(µX ,
σ2X
n
)et Y ∼ N
(µY ,
σ2Y
m
)
34
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparaison de moyennes de deux echantillons
−1 0 1 2
0.0
0.5
1.0
1.5
2.0
●●● ● ● ●● ●●● ●●● ●●
35
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparaison de moyennes de deux echantillons
Par independance entre X et Y , notons que ∆ = X − Y suit une loi normale,
E(∆) = µX − µY et V ar(∆) =σ2X
n+σ2Y
m
Donc sous H0, µX − µY = 0 et donc
D ∼ N(
0,σ2X
n+σ2Y
m
),
i.e. ∆ =X − Y√σ2X
n+σ2Y
m
∼ N (0, 1).
36
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparaison de moyennes de deux echantillons
Probleme σX et σY sont inconnus : on les remplace par des estimateurs σX et
σY ,
i.e. ∆ =X − Y√σ2X
n+σ2Y
m
∼ St(ν),
ou ν est une fonction (compliquee) de n1 et n2.
On se donne un seuil d’acceptation α ∈ [0, 1] (e.g. 10%), on accepte H0 si tα/2 ≤ δ ≤ t1−α/2on accepte H0 si δ < tα/2 ou δ > t1−α/2
37
Arthur CHARPENTIER - Rappels de probabilites & statistiques
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
0.5
●●● ● ● ●● ●●● ●●● ●●
ACCEPTATIONREJET REJET
38
Arthur CHARPENTIER - Rappels de probabilites & statistiques
On peut se demander la probabilite p d’obtenir une valueur au moins aussi
grande que δ si H0 est vraie,
p = P(|Z| > |δ||H0 vraie) = P(|Z| > |δ||Z ∼ St(ν)).
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
0.5
●●● ● ● ●● ●●● ●●● ●●
34.252 %
39
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Sous R, t.test(x, y, alternative = c("two.sided", "less", "greater"), mu = 0,
var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux
chantillons x et y sont egales (mu=0), contre H1 : µX 6= µY ("two.sided").
−2 −1 0 1 2
0.0
0.5
1.0
1.5
2.0
●● ●● ● ●●● ●● ●● ● ●● ●●
40
Arthur CHARPENTIER - Rappels de probabilites & statistiques
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
0.5
●● ●● ● ●●● ●● ●● ● ●● ●●
ACCEPTATIONREJET REJET
41
Arthur CHARPENTIER - Rappels de probabilites & statistiques
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
0.5
●● ●● ● ●●● ●● ●● ● ●● ●●
2.19 %
42
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0
H0 : µ≥µ0
La statistique de test est
T =√nx− µ0
sou s2 =
1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ St(n− 1).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
43
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0
H0 : µ≤µ0
La statistique de test est
T =√nx− µ0
sou s2 =
1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ St(n− 1).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
44
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20
H0 : σ2 6=σ20
La statistique de test est
T =(n− 1)s2
σ20
ou s2 =1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ χ2(n− 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
45
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20
H0 : σ2≥σ20
La statistique de test est
T =(n− 1)s2
σ20
ou s2 =1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ χ2(n− 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
46
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20
H0 : σ2≤σ20
La statistique de test est
T =(n− 1)s2
σ20
ou s2 =1
n− 1
n∑i=1
(xi − x)2,
qui verifie, sous H0, T ∼ χ2(n− 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
47
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2
H0 : µ1 6=µ2
La statistique de test est
T =
√n1n2n1 + n2
[x1 − x2]− [µ1 − µ2]
sou s2 =
(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2
,
qui verifie, sous H0, T ∼ St(n1 + n2 − 2).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
48
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2
H0 : µ1≥µ2
La statistique de test est
T =
√n1n2n1 + n2
[x1 − x2]− [µ1 − µ2]
sou s2 =
(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2
,
qui verifie, sous H0, T ∼ St(n1 + n2 − 2).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
49
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2
H0 : µ1≤µ2
La statistique de test est
T =
√n1n2n1 + n2
[x1 − x2]− [µ1 − µ2]
sou s2 =
(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2
,
qui verifie, sous H0, T ∼ St(n1 + n2 − 2).
−6 −4 −2 0 2 4 6
0.00.1
0.20.3
0.4
50
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2
2
H0 : σ21 6=σ2
2
La statistique de test est
T =s21s22, si s21 > s22,
qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
51
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2
2
H0 : σ21≥σ2
2
La statistique de test est
T =s21s22, si s21 > s22,
qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
52
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Resumons les principaux tests usuels
Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2
2
H0 : σ21≤σ2
2
La statistique de test est
T =s21s22, si s21 > s22,
qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
0.10
53
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Modele parametrique
On dispose d’un echantillon {x1, · · · , xn}, de n observations independantes.
On suppose que les xi sont des realisations d’une variable aleatoire X dont la loi
F est inconnue. Le but est de determiner F .
En statistique parametrique, on suppose que F appartient necessairement a une
famille caracterisee par un parametre θ ∈ Θ.
• X suit une loi de Bernoulli, X ∼ B(p), θ = p ∈ (0, 1),
• X suit une loi de Poisson, X ∼ P(λ), θ = λ ∈ R+,
• X suit une loi normale, X ∼ N (µ, σ), θ = (µ, σ) ∈ R× R+,
On cherche donc une valeur de θ, notee θ0, inconnue, telle que l’on supposera
que X suit une loi Fθ0.
Remarque On supposera souvent que Θ est un ouvert, il est delicat d’estimer
sur les bords.
54
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Exemple : jeu de pile ou face
On dispose d’un echantillon
{pile,pile, face,pile, face,pile, face, face,pile, face, pile, face}
que l’on interpretera en posant
X =
1 si pile
0 si face.
On dispose de l’echantillon
{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}
On peut supposer ici que X suite une loi binomiale, X ∼ B(p), de parametre p
inconnu (mais que l’on va chercher a estimer).
55
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Inference statistique
Quelle est la vraie valeur de p, que l’on ne connaıt pas ?
• Quelle est la valeur de p la plus vraisemblable ?
Sur n lancers, la probabilite d’obtenir precisement l’echantillon {x1, · · · , xn} est
P(X1 = x1, · · · , Xn = xn),
ou X1, · · · , Xn sont n versions independentes de X, supposees suivre la loi B(p).
Aussi,
P(X1 = x1, · · · , Xn = xn) =n∏i=1
P(Xi = xi) =n∏i=1
pxi × (1− p)1−xi ,
car pxi × (1− p)1−xi =
p si xi vaut 1
1− p si xi vaut 0
56
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Inference statistique
Aussi,
P(X1 = x1, · · · , Xn = xn) = p∑n
i=1 xi × (1− p)∑n
i=1 1−xi .
Cette fonction, qui depend de p mais aussi de {x1, · · · , xn} est appelee
vraisemblance de l’echantillon, et sera notee L (likelihood),
L(p;x1, · · · , xn) = p∑n
i=1 xi × (1− p)∑n
i=1 1−xi .
Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en deduit les vraisemblances
suivante en fonction de l’echantillon.
57
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Valeur de p L(p;x1, · · · , xn)
0.1 5.314410e-06
0.2 8.388608e-05
0.3 2.858871e-04
0.4 4.777574e-04
0.5 4.882812e-04
0.6 3.185050e-04
0.7 1.225230e-04
0.8 2.097152e-05
0.9 5.904900e-07
0.0 0.2 0.4 0.6 0.8 1.0
0e
+0
01
e−
04
2e
−0
43
e−
04
4e
−0
45
e−
04
Probabilité p
Vra
ise
mb
lan
ce
L
●
●
●
● ●
●
●
●●
La valeur la plus vraisemblance pour p est obtenue au maximum de la
vraisemblance, i.e. 0.4545.
58
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Inference statistique
• Peut-on utiliser la moyenne empirique ?
Rappelons que l’on dispose de l’echantillon
{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}
Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait etre legitime
de considerer comme estimateur de p la version empirique de E(X), i.e. x.
Un estimateur naturel de p serait donc x 5/11 = 0.4545.
59
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
Formellement, si fθ designe la vraie loi (inconnue) de X,
• la densite de X si X est continue, i.e. fθ(x) =dF (x)
dx= F ′(x),
• la loi de probabilite de X si X n’est pas continue, i.e. fθ(x) = P(X = x),
La vraisemblance s’ecrit, comme les Xi sont i.i.d.
L(θ;x1, · · · , xn) = P(X1 = x1, · · · , Xn = xn) =n∏i=1
fθ(xi)
Un estimateur naturel pour θ est obtenu au maximum de la vraisemblance,
θ ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.
Petite remarque pratique : pour toute fonction croissante h,
θ ∈ argmax{h (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.
60
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
0 1 2 3 4 5
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
Figure 9 – Invariance de la position du maximum par transformation croissante.
61
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
Prenons le cas particulier de la fonction h = log
θ ∈ argmax{log (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.
i.e. on cherche le maximum de la log-vraisemblance, qui s’ecrit simplement
logL(θ;x1, · · · , xn) =n∑i=1
log fθ(xi)
et pour chercher le maximum, la condition du 1er ordre impose de calculer des
derivees (et la derivee d’une somme est plus simple a calculer que la probabilite
d’un produit), si θL(θ;x) est derivable.
62
Arthur CHARPENTIER - Rappels de probabilites & statistiques
0.0 0.2 0.4 0.6 0.8 1.0
0e
+0
01
e−
04
2e
−0
43
e−
04
4e
−0
45
e−
04
Probabilité p
Vra
ise
mb
lan
ce
L
●
●
●
● ●
●
●
●●
0.0 0.2 0.4 0.6 0.8 1.0
−3
0−
25
−2
0−
15
−1
0
Probabilité pL
og
vra
ise
mb
lan
ce
L
●
●● ● ● ●
●
●
●
Figure 10 – Fonction de vraisemblance et de log-vraisemblance.
63
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
Les quations de vraisemblance sont alors
• condition du premier ordre
si θ ∈ Rk,∂ log (L(θ;x1, · · · , xn))
∂θ
∣∣∣∣θ=θ
= 0
si θ ∈ R,∂ log (L(θ;x1, · · · , xn))
∂θ
∣∣∣∣θ=θ
= 0
• condition du second ordre
si θ ∈ Rk,∂2 log (L(θ;x1, · · · , xn))
∂θ∂θ′
∣∣∣∣θ=θ
est definie negative
si θ ∈ R,∂2 log (L(θ;x1, · · · , xn))
∂θ
∣∣∣∣θ=θ
< 0
La fonction∂ log (L(θ;x1, · · · , xn))
∂θest appele fonction score : au maximum de
vraisemblance, le score est nul.
64
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La notion d’information de Fisher
Un estimateur θ de θ sera dit exhaustif s’il fournit autant d’information sur θ que
l’ensemble des observations {x1, · · · , xn}.
L’information de Fisher associee a une densite fθ, θR est
I(θ) = E(d
dθlog fθ(X)
)2
ou X a pour loi fθ,
I(θ) = V ar
(d
dθlog fθ(X)
)= −E
(d2
dθ2log fθ(X)
).
Notons que l’information de Fisher est simplement la variance du score.
Pour parle aussi d’information de Fisher pour un observation unique. Dans le cas
d’un echantillon X1, · · · , Xn de densite fθ, l’information est In(θ) = n · I(θ).
65
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Notions d’efficacite et d’optimalite
Si θ est une estimateur sans biais de θ, alors V ar(θ) ≥ 1
nI(θ). Un estimateur qui
atteint cette borne sera dit efficace.
Mais la borne n’est pas toujours atteignable.
Un estimateur θ sans biais sera dit optimal s’il est de variance minimale parmi
tous les estimateurs sans biais.
La notion d’information de Fisher en dimension plus grande
L’information de Fisher est la matrice k × k I = [Ii,j ] ou
Ii,j = E(∂
∂θiln fθ(X)
∂
∂θjln fθ(X)
).
66
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Exemple de calcul d’information de Fisher
Soit X suivant une loi P(θ),
log fθ(x) = −θ + x log θ − log(x!) etd2
dθ2log fθ(x) = − x
θ2
I(θ) = −E(d2
dθ2log fθ(X)
)= −E
(−Xθ2
)=
1
θ
Pour une loi B(n, θ), I(θ) =n
θ(1− θ)
Pour une loi BN (θ, σ2), I(θ) =1
σ2
Pour une loi BN (µ, θ), I(θ) =1
2θ2
67
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
Definition 13. Soit {x1, · · · , xn} un echantillon de loi fθ, ou θ ∈ Θ. On appelle
estimateur du maximum de vraisemblance θn de θ
θn ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.
Proposition 14. Sous quelques conditions techniques, θn converge presque
surement vers θ, θnp.s.→ θ.
Proposition 15. Sous quelques conditions techniques, θn est un estimateur
asymptotiquement efficace de θ,
√n(θn − θ)
L→ N (0, I−1(θ)).
L’estimateur du maximum de vraisemblance n’a aucune raison d’etre sans biais.
68
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance, cas N (µ, σ2)
Soit {x1, · · · , xn} un echantillon independant, distribue suivant la loi N (µ, σ2),
de densite
f(x | µ, σ2) =1√
2π σexp
(− (x− µ)2
2σ2
).
La vraisemblance est alors
f(x1, . . . , xn | µ, σ2) =n∏i=1
f(xi | µ, σ2) =
(1
2πσ2
)n/2exp
(−∑ni=1(xi − µ)2
2σ2
),
ou encore
f(x1, . . . , xn | µ, σ2) =
(1
2πσ2
)n/2exp
(−∑ni=1(xi − x)2 + n(x− µ)2
2σ2
).
69
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance, cas N (µ, σ2)
Le maximum de vraisemblance en µ est obtenu a l’aide de la condition du
premier ordre,
∂
∂µlog
((1
2πσ2
)n/2exp
(−∑ni=1(xi − x)2 + n(x− µ)2
2σ2
))
=∂
∂µ
(log
(1
2πσ2
)n/2−∑ni=1(xi − x)2 + n(x− µ)2
2σ2
)
= 0− −2n(x− µ)
2σ2= 0.
qui donne µ = x =∑ni=1 xi/n.
70
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La seconde condition du premier ordre s’ecrit
∂
∂σlog
((1
2πσ2
)n/2exp
(−∑ni=1(xi − x)2 + n(x− µ)2
2σ2
))
=∂
∂σ
(n
2log
(1
2πσ2
)−∑ni=1(xi − x)2 + n(x− µ)2
2σ2
)= −n
σ+
∑ni=1(xi − x)2 + n(x− µ)2
σ3= 0.
Le maximum est alors obtenu pour σ2 =∑ni=1(xi − µ)2/n.
Par substitution de µ, on peut ecrire
σ2 =1
n
n∑i=1
(xi − x)2 =1
n
n∑i=1
x2i −1
n2
n∑i=1
n∑j=1
xixj .
On peut noter facilement que E [µ] = µ, mais aussi E[σ2]
=n− 1
nσ2.
71
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance, cas uniforme sur [0, θ]
La densite des Xi est ici fθ(x) =1
θ1(0 ≤ x ≤ θ).
La vraisemblance s’ecrit alors
L(θ;x1, · · · , xn) =1
θn
n∏i=1
1(0 ≤ xi ≤ θ) =1
θn1(0 ≤ inf{xi} ≤ sup{xi} ≤ θ).
Cette fonction n’est pas derivable en θ, mais on note que L est maximale pour θ
le plus petit possible, i.e. θ = sup{xi}.
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.000
0.001
0.002
0.003
0.004
72
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance
Notons que l’estimateur du maximum de vraisemblance n’est par necessairement
unique.
Supposons que {x1, · · · , xn} soient uniforment distribuees sur [θ, θ + 1]. Si
θ− = sup{xi} − 1 < inf{xi} = θ+
Alors tout estimateur θ ∈ [θ−, θ+] est un estimateur du maximum de
vraisemblance de θ.
Enfin l’estimateur du maximum de vraisemblance n’est pas forcement sans biais.
Dans le cas de la loi exponentielle θ = 1/x. En utilisant des proprietes de la loi
inverse-gamma, onm peut montrer que
E(θ) =n
n− 1θ > θ.
73
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance, aspects numeriques
Pour les lois usuelles, sous R, library(MASS) permet de calculer le maximum de
vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,"normal") pour estimer les
parametres d’une loi normale pour un echantillon x.
Si on souhaite utiliser des methodes numeriques sous R, LV <-
function(theta){-sum(log(dexp(x,theta)))} puis optim(2,LV) permet de calculer
numeriquement le maximum de la fonction de log-vraisemblance.
Parfois, obtenir le maximum de la vraisemblance peut etre difficile, ou impossible.
On peut alors utiliser des methodes de type Newton-Rahpson ou la methode du
score pour approcher numeriquement le maximum.
Soit S(x, θ) =∂
∂θlog f(x, θ) la fonction score. On pose
Sn(θ) =n∑i=1
S(Xi, θ).
74
Arthur CHARPENTIER - Rappels de probabilites & statistiques
En faisant un developpement de Taylor, de Sn au voisinage de θ0,
Sn(x) = Sn(θ0) + (x− θ0)S′n(y) pour y ∈ [x, θ0]
En x = θn,
Sn(θn) = 0 = +(θn − θ0)S′n(y) pour y ∈ [θ0, θn]
Aussi, θn = θ0 −Sn(θ0)
S′n(y)pour y ∈ [θ0, θn]
75
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Le maximum de vraisemblance, aspects numeriques
Construisons la suite (Newton-Raphson)
θ(i+1)n = θ(i)n −
Sn(θ(i)n )
S′n(θ(i)n )
,
a partir d’une valeur initiale θ(0)n bien choisie.
Construisons la suite (methode du score)
θ(i+1)n = θ(i)n −
Sn(θ(i)n )
nI(θ(i)n )
,
a partir d’une valeur initiale θ(0)n bien choisie.
76
Arthur CHARPENTIER - Rappels de probabilites & statistiques
La methode des moments
La methode des moments est la methode la plus simple et la plus intuitive pour
estimer un parametre θ. Si E(X) = g(θ), on cherche θ tel que x = g(θ).
Exemple Dans le cas d’une loi exponentielle sur E(θ), P(X ≤ x) = 1− e−θx,
E(X) = 1/θ, donc θ = 1/x.
Exemple Dans le cas d’une loi uniforme sur [0, θ], E(X) = θ/2, donc θ = 2x.
Si θ ∈ R2, on utilise egalement soit V ar(X), soit E(X2).
77
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparer des estimateurs
Parmi les proprietes usuelles des estimateurs,
• sans biais, E(θn) = θ,
• convergent, θnP→ θ, quand n→∞
• asymptotiquement normal,√n(θ − θ) L→ N (0, σ2) quand n→∞,
• efficace
• optimal
Soient T1 et T2 deux estimateurs sans biais, alors T1 sera dit plus efficace que T2
s’il est de variance plus faible.
Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le
meilleur estimateur aura la variance la plus faible.
78
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparer des estimateurs, biais vs. variance
−2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
Figure 11 – Choisir un estimateur, θ1 versus θ2.
79
Arthur CHARPENTIER - Rappels de probabilites & statistiques
Comparer des estimateurs, biais vs. variance
• θ1 estime avec biais θ (E(θ1) 6= E(θ)),
• θ2 estime sans biais θ (E(θ2) = E(θ)),
• V ar(θ1) ≤ V ar(θ2).
L’estimateur θ1 peut etre interessant des lors que l’on peut estimer correctement
le biais. Mais
• le biais est souvent une fonction de θ (qui est inconnu),
• le biais est souvent une fonction compliquee de θ.
80