calcul d’un intervalle de conflance pour la moyenne dans une population asym¶etrique · 2009....
TRANSCRIPT
MOHAMED RIDHA TEKAYA
Calcul d’un intervalle de confiance pour la moyenne
dans une population asymetrique
Essai presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)
FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL
QUEBEC
Avril 2006
c©Mohamed Ridha Tekaya, 2006
Resume
Cet essai a pour objectif de calculer un intervalle de confiance pour la moyenne µ a
100(1−α)% dans un plan de sondage aleatoire simple, ainsi que dans un plan de sondage
stratifie a deux strates. La population etudiee n’est pas symetrique et la distribution
des donnees n’est pas normale. Avec le plan de sondage aleatoire simple nous utilisons
trois methodes : le theoreme limite centrale, l’approche modele et la vraisemblance
empirique. Dans le plan de sondage stratifie nous presentons la vraisemblance empirique
et le theoreme limite centrale. Pour chacun des plans et pour chacune des methodes
nous presentons la theorie de calcul d’un intervalle de confiance pour la moyenne. Dans
chaque cas, un exemple sera realise avec R afin de bien comprendre la theorie de calcul
d’un intervalle de confiance.
Avant-propos
Je tiens a remercier Monsieur Louis-Paul Rivest, mon directeur de recherche, pro-
fesseur au departement de mathematiques et de statistique de l’Universite Laval, de
m’avoir accueilli dans son equipe et d’avoir accepte de diriger mes travaux. Je lui dois
une grande reconnaissance pour la confiance et le soutient qui m’a accordee, pour sa
direction, et ses conseils judicieux tout au long de cette recherche.
Ma gratitude va aussi a Madame Helene Crepeau, consultante de l’Universite Laval
qui a co-dirigee mes travaux de programmation sur SAS.
Finalement, je voudrais exprimer la profonde gratitude que j’ai envers mes parents,
mes deux sœurs et mon frere pour leurs encouragements et leur soutien.
Table des matieres
Resume ii
Avant-Propos iii
Table des matieres v
Liste des tableaux vi
Table des figures vii
1 Introduction 1
2 Calcul d’intervalle de confiance pour une moyenne 2
2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Methode traditionnelle d’estimation de µ . . . . . . . . . . . . . . . . . 3
2.3 Approche modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Limites de ces methodes . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 La vraisemblance empirique 13
3.1 Estimation de la fonction de repartition . . . . . . . . . . . . . . . . . . 13
3.2 Intervalle de confiance pour µ . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 L’algorithme detaille de calcul . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Etude par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 Plan de sondage stratifie a deux strates 26
4.1 Theorie de calcul de l’intervalle de confiance . . . . . . . . . . . . . . . 26
4.2 L’algorithme detaille de calcul . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5 Conclusion 32
Bibliographie 33
v
A Fonction R pour la vraisemblance empirique dans un plan aleatoire
simple 34
B Macro SAS 36
C Le programme R pour l’exemple 2.1 40
D Le programme R pour l’exemple 2.2 41
E Le programme R pour l’exemple 3.1 44
F Fonction R pour la vraisemblance empirique dans un plan stratifie 46
Liste des tableaux
2.1 Taux de confiance reel et les taux de non couverture de l’intervalle de
confiance (2.2) pour les donnees simulees selon la distribution (2.3) avec
µ = 1 et n = 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Taux de confiance reel obtenu avec un taux nominal de 95% et les taux de
non couverture de l’intervalle de confiance (2.5) pour les donnees simulees
de l’exemple 2.2 avec n = 40 . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Taux de confiance reel et les taux de non couverture de l’intervalle de
confiance (3.7) pour les donnees simulees de l’exemple 3.1 avec n = 40 . 23
3.2 Taux de confiance reel et les taux de non couverture pour les donnees
simulees a partir d’une N(5, 16) tronquee a 0 avec n = 40 . . . . . . . . 24
4.1 Taux de confiance reels et les taux de non couverture pour les donnees
simulees a partir de deux lois exponentielle differentes tronquees a 0 avec
m = 60 et n = 140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Table des figures
2.1 Droite de Henry pour les donnees de T . . . . . . . . . . . . . . . . . . 5
2.2 La valeur de ρ(µ) en fonction de la valeur du parametre µ accompagnee
du quantile de χ20.95,1 pour l’exemple 2.2. avec n = 40 et p = 3/4 = 1/λ 11
Chapitre 1
Introduction
L’objectif principal de ce travail de recherche est le calcul d’un intervalle de confiance
pour la moyenne d’une population asymetrique contenant de nombreuses valeurs nulles.
Un intervalle de confiance est un outil permettant d’exprimer notre degre de certitude
a propos des parametres d’un modele statistique.
Cet essai est compose de trois chapitres. Le chapitre 2 presente deux methodes du
calcul d’un intervalle de confiance dans un plan de sondage aleatoire simple : methode
traditionnelle et methode basee sur un modele. Dans le chapitre 3, nous expliquons com-
ment on peut deduire un intervalle de confiance a partir de la vraisemblance empirique
profil. Un algorithme detaille explique les etapes a suivre pour trouver cet intervalle
de confiance. Aussi, nous comparons les trois methodes presentees. Le dernier chapitre
est consacre au calcul d’un intervalle de confiance par la vraisemblance empirique profil
dans un plan de sondage stratife a deux strates. On y presente un algorithme detaille
de calcul, suivi d’un exemple qui permet de comparer cette methode avec l’intervalle
de confiance construit a partir du theoreme limite centrale.
L’annexe A donne une fonction R qui calcule les bornes d’un intervalle de confiance
pour la moyenne deduit a partir de la vraisemblance empirique dans un plan de sondage
aleatoire simple. L’annexe B donne une macro SAS pour accomplir le meme travail.
L’annexe F presente une fonction R qui calcule les bornes d’un intervalle de confiance
dans un plan de sondage stratifie avec la vraisemblance empirique et le theoreme limite
centrale.
Avant de commencer, notons que tout au long de ce travail nous nous interessons
seulement a des variables prenant des valeurs positives ou nulles.
Chapitre 2
Calcul d’intervalle de confiance
pour une moyenne
2.1 Notation
La notation suivante est utilisee dans tout cet essai :
– (X1, . . . , Xn) : est un echantillon aleatoire de taille n d’une distribution F , de
moyenne µ et de variance σ2
– IC : est un acronyme pour Intervalle de Confiance.
– ICts : est un IC deduit a partir de la distribution de Student.
– ICtlc : est un IC deduit a partir du theoreme limite centrale.
– ICmv : est un IC deduit a partir de la methode du maximum de vraisemblance.
– ICve : est un IC deduit a partir de la methode du maximum de vraisemblance
empirique.
– 100(1− α)% : est le niveau de confiance associe a un intervalle.
– X = 1n
∑ni=1 Xi : est la moyenne echantillonnale.
– s2 = 1n−1
∑ni=1(Xi −X)2 : est la variance echantillonnale.
– T =√
n(X −µ)/s : est un pivot utilise pour construire un intervalle de confiance
pour µ.
– tn−1,α/2 : denote le quantile superieur d’ordre α/2 de la loi de student t avec (n−1)
degres de liberte.
– zα/2 : denote le quantile d’ordre α/2 d’une loi normale centree et reduite, N(0, 1).
– χ21−α,1 : denote le quantile d’ordre (1 − α) de la loi de khi-deux avec 1 degre de
liberte.
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 3
2.2 Methode traditionnelle d’estimation de µ
L’estimation de µ par intervalle de confiance est couramment utilisee en pratique.
Elle augmente le niveau d’information par rapport a une estimation ponctuelle. Elle
permet d’avoir un apercu des valeurs possibles pour µ. Un intervalle de confiance
a 100(1 − α)% pour µ consiste a trouver deux bornes, inferieure et superieure, qui
dependent de l’echantillon tire. Si on tire un grand nombre de fois un echantillon et
si pour chacun on calcule l’intervalle de confiance, alors dans 100(1 − α)% des cas le
parametre µ devrait etre dans l’intervalle de confiance. Nous envisageons ici deux cas
de calcul d’intervalle de confiance pour µ,
– i) La distribution F de la variable aleatoire X est normale et la taille d’echantillon
n est quelconque.
– ii) La distribution F de la variable aleatoire X n’est pas normale et la taille
d’echantillon n est grande.
Pour ce faire, nous avons besoin de la loi Student et du theoreme limite centrale.
Theoreme 2.1. (Loi de Student)
Si X et s2 denotent la moyenne et la variance d’un echantillon aleatoire de taille n
issu de la loi N(µ, σ2), une distribution normale de moyenne µ et de variance σ2, alors
T =X − µ
s/√
n
est distribuee selon une loi t a (n− 1) degres de liberte.
Ce theoreme permet de faire de l’inference sur le parametre µ d’une loi normale. Les
bornes de l’intervalle de confiance a 100(1 − α)% pour µ sont obtenues a partir de
l’egalite suivante
1− α = P[− tn−1,α/2 ≤ X − µ
s/√
n≤ tn−1,α/2
]
= P[X − tn−1,α/2
s√n≤ µ ≤ X + tn−1,α/2
s√n
].
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 4
L’intervalle de confiance est donne par
ICts =[X − tn−1,α/2
s√n
,X + tn−1,α/2s√n
].
Theoreme 2.2. (Theoreme limite centrale)
Si X1, X2, . . . sont des variables aleatoires independantes et identiquement dis-
tribuees avec moyenne µ ∈ R et avec variance 0 < σ2 < ∞, alors quand n → ∞on obtient
X − µ
σ/√
n∼ N(0, 1).
Et sous certaines conditions de regularite qui ne seront pas cites ici, Hajek (1960)
montre que la distribution asymptotique lorsque n tends vers ∞ est
T =X − µ
s/√
n∼ N(0, 1). (2.1)
Ce theoreme nous permet de construire un intervalle de confiance a 100(1 − α)%
pour µ a partir de l’egalite
1− α = P[− zα/2 ≤ X − µ
s/√
n≤ zα/2
]
= P[X − zα/2
s√n≤ µ ≤ X + zα/2
s√n
].
On obtient l’intervalle de confiance suivant
ICtlc =[X − zα/2
s√n
,X + zα/2s√n
].
(2.2)
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 5
•
•
•
••
•
•• •
•
•
•
•
••
•
•
• ••
•
•
•••
•
•
•
••
•
•
•
•
•
•
•
•
•
••
•
•
•
•
••
•
• •
••• •
•
•
•
•
• •
•
•
•
•
•
•
•
•
•
•
•
•
••
•
•
•
•
••
•
••
•
•
•
••
•
•
•
•
•
•
•
•
•
•
••
••
•
••
••
•
•
•
•
•
•
•
•
••
•
• •
•
••
•
••
••
•
••
•
••
••
•
•
•
•
•
•
•
•
•
•
•
••
•
•
•
••
•
•
•
•
•
•
•
••
•
•
•
•
•
•
••
•
•
•• •
•
•
•
•
•
•
•
•
•
•
•
••
•
••
•
•
•
•
•
••
•
•
••
•
•
•
•
•
••
•
•
•
•
•
••
•
•
•
•
•
• ••
•
••
•
•
• •
•
•••
•
•
•
•
•
•
•
•
•
•
•
•
•
••
•
•
•
•
•
•
•
•
•
••
•
•
••
••
•
•
•
• •
•
••
••
•
••
•
••
•
•
••
•
•
•
•
•
•
•
••
•
••
•
•
••
•
•
•
•
• ••
•
•
•
• ••
•
•
• •
••
• •
•
•
•
•
•
•
••
•
•
•
•
•
•
••
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
••
•
•••
•
•
•
•
•
•
•
••
•
•
•
•
•
•
•
•
•
•
•
•
••
•
•
•
••
•• •
••
•••
•
•
•
•
•
•
•
•
•
•
•••
••
•
•
•
•
•
•
•
•••
•
•• •
•
•
•
•
•
•
•
•
••
•
•
•
•
•
•
•
•
•
••
•
•
•
•
•
•
••
•
•
•
•
••
•
•
••
•
•
•
•
•
•
•
•
••
•
•
•
•
••
•
•
•
• •
•
•
•
•
••
•
•
•
•
Quantiles of Standard Normal
vale
ur d
e t
−3 −2 −1 0 1 2 3
−4
−2
02
Fig. 2.1 – Droite de Henry pour les donnees de T
Si la distribution F de la variable aleatoire X est normale, le theoreme limite centrale
reste valide pour une taille d’echantillon finie. Peut on appliquer ce theoreme pour une
taille d’echantillon finie, lorsque la loi de X differe d’une normale ? On etudie cette
question pour une variable X issue d’une loi asymetrique dans l’exemple suivant.
Exemple 2.1. (Distribution de T )
Soit F la distribution associee avec le modele exponentielle avec masse a 0 tel que
f(x) =
{p exp(−x/λ)
λsi x > 0
1− p si x = 0 .(2.3)
Soit (X1, . . . , Xn) un echantillon aleatoire simple de taille n = 40 issu de F . La
distribution de X est asymetrique. Nous pouvons ecrire X comme le produit de deux
variables aleatoires independantes Y et Z telles que
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 6
Y ∼ Bernoulli(p) ⇒{
P [Y = 1] = p
E[Y ] = p.
Z ∼ Exponentielle(1/λ) ⇒{
E[Z] = λ.
Ainsi, la moyenne µ de X est egale a E[X] = E[Y ]E[Z] = pλ.
Pour verifier la normalite de la statistique de pivot T donnee en (2.1), nous faisons
une etude par simulation. Nous simulons 500 echantillons de taille n = 40 issus de (2.3)
avec p = 3/4, λ = 4/3 et nous calculons la variable aleatoire T pour chacun. Pour
etudier la normalite de T , nous tracons la droite de Henry.
A la lumiere de la figure 2.1, il est raisonnable de presumer que les valeurs de T ne
sont pas normalement distribuees. Lorsque l’echantillon aleatoire de taille n = 40 est
issu d’une loi exponentielle avec masse a 0, nous concluons que, l’equation (2.1) n’est
pas valide. Et par consequent, l’approximation suggeree par le theoreme limite centrale
laisse a desirer.
Pour differentes valeurs de la probabilite de succes p = P (Y = 1), nous presentons
dans le tableau 2.1, le taux de confiance reel, le taux de non couverture a gauche
de la borne inferieure et le taux de non couverture a droite de la borne superieure de
l’intervalle de confiance a 95% pour µ donne par (2.2). Nous definissons le taux confiance
reel de (2.2) par
P(|T | < z0.025
).
La valeur 95% est le taux de confiance nominal egal au vrai taux de confiance lorsque
le theoreme limite centrale s’applique. Par contre, si une N(0, 1) approxime mal la loi
de T en (2.1) le taux de confiance reel de (2.2) ne sera pas egal a 95%. Le taux de
confiance reel est estime par
tcr =Le nombre de fois ou µ appartient a l’IC calcule
Le nombre de simulations.
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 7
L’estimateur du taux de non couverture a gauche est donne par
tncg =Le nombre de fois ou µ est inferieure a la borne inferieure de l’IC calcule
Le nombre de simulations.
Taux de non Taux de non Taux de
couverture estime couverture estime confiance reel
P (Y = 1) a gauche en (%) a droite en (%) estime en (%)
0.25 0.2 12.8 87.0
0.50 0.8 9.0 90.2
0.75 0.8 6.6 92.6
0.85 1.0 5.2 93.8
0.95 0.2 5.6 94.2
Tab. 2.1 – Taux de confiance reel et les taux de non couverture de l’intervalle de
confiance (2.2) pour les donnees simulees selon la distribution (2.3) avec µ = 1 et
n = 40
Ces taux de couverture sont des estimations obtenus a l’aide de 500 echantillons
simules, l’erreur type associee a chaque taux s’ecrit
et =
√τ(1− τ)
500,
ou τ est le taux de couverture ou de non couverture. Si τ = 95% alors et = 0.0097 et
pour τ = 2.5% nous obtenons et = 0.0069.
En vertu du tableau 2.1, nous remarquons que les estimes de taux de non couverture
a gauche et a droite sont differents de 2.5%. Nous concluons que meme en tenant compte
de la variabilite associee a la simulation l’estime du taux de confiance reel demeure
toujours inferieur au taux de confiance nominal de 95%.
Le programme R que nous avons utilise pour analyser les donnees de l’exemple 2.1
est presente en annexe C.
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 8
2.3 Approche modele
Lorsque la distribution F n’est pas normale, on veut postuler un modele parametrique
pour F et utiliser la vraisemblance profil de µ associee a ce modele pour calculer un
intervalle de confiance pour µ. Appelons
f(x; θ1, . . . , θm)
la densite de X et soit
µ = g(θ1, . . . , θm)
son esperance.
Afin de pouvoir estimer µ, en premier lieu, nous calculons (θ1, . . . , θm) les estima-
teurs du maximum de vraisemblance des parametres. En second lieu, nous utilisons la
propriete d’invariance de l’estimateur du maximum de vraisemblance pour affirmer que
µ = g(θ1, . . . , θm),
est l’estimateur du maximum de vraisemblance de µ.
Pour calculer un intervalle de confiance pour µ, on estime tout d’abord les pa-
rametres par la methode du maximum de vraisemblance. La fonction de vraisemblance
est donnee par
L = L(θ1, . . . , θm)
=n∏
i=1
f(Xi, θ1, . . . , θm).
Dans la pratique pour simplifier les calculs des estimateurs, nous utilisons le loga-
rithme de la fonction de vraisemblance. Il est denote par
l(θ1, . . . , θm) = log(L(θ1, . . . , θm)
)
=n∑
i=1
log(f(Xi, θ1, . . . , θm)
).
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 9
Les valeurs des estimateurs sont trouves telles que
∂
∂ θj
l(θ1, . . . , θm) = 0, pour j = 1, . . . , m.
Ensuite, nous fixons µ et maximisons la vraisemblance sous la contrainte µ =
g(θ1, . . . , θm). Nous obtenons ainsi la vraisemblance profil, une fonction qui depend
uniquement du parametre d’interet µ. Elle est utile pour le calcul d’un intervalle de
confiance pour µ ; on la definit comme suit
lp(µ) = maxθ1,...,θm, µ=g(θ1,...,θm)
l(θ1, . . . , θm).
Le calcul de lp(µ) utilise pour chaque valeur de µ des estimateurs des θj, θj(µ) pour
j = 1, . . . , m. Notons que lp(µ) est maximale a µ = µ l’estimateur du maximum de
vraisemblance de µ.
Enfin, sous certaines conditions de regularite qui ne sont pas cites ici, Wilks (1938)
montre que
ρ(µ0) = 2(lp(µ)− lp(µ0)
)∼ χ2
1. (2.4)
Si µ0 est la vraie valeur du parametre µ, l’intervalle de confiance profil pour µ a un
seuil de confiance de 100(1− α)% est donne par
ICmv ={
µ0 : 2(lp(µ)− lp(µ0)
)< χ2
1−α,1
}. (2.5)
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 10
L’exemple suivant est une application de la theorie enoncee ci-dessus pour calculer un
intervalle de confiance pour µ.
Exemple 2.2. (Modele exponentiel avec masse a 0 )
Considerons un echantillon aleatoire simple de taille n issu de la loi exponentielle
avec masse a zero donne par (2.3). Cet echantillon consiste en k zeros et (n−k) erreurs
qui suivent la loi exponentielle de moyenne λ. A partir du modele (2.3) nous voyons
que la moyenne µ est fonction de p et λ. Cependant, nous ecrivons
µ = pλ = g(p, λ).
En utilisant la theorie presentee, nous obtenons alors
ρ(µ0) = −2 log
(1− µ0/λ0
)k(µ0/λ0
)n−k(1/λ0
)n−k
exp(−∑n−k
i=1 xi/λ0
)
(1− µ/λ
)k(µ/λ
)n−k(1/λ
)n−k
exp(−∑n−k
i=1 xi/λ)
,(2.6)
ou,
p =n− k
n, λ =
∑ni=1 xi
n− k, µ = pλ =
∑ni=1 xi
n,
et
λ0 =A +
√A2 − 4AB
2,
avec,
A =(2nµ0 +
∑ni=1 xi − kµ0
2(n− k)
)et B =
(µ0
∑ni=1 xi
2(n− k)
).
L’equation (2.6) et les autres estimateurs des parametres inconnues p, λ et µ sont
tires de l’article de Kvanli et al. (1998). Les estimes p, λ et µ sont trouves en maximisant
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 11
1.0 1.5 2.0
02
46
8
mu
rhom
u
Fig. 2.2 – La valeur de ρ(µ) en fonction de la valeur du parametre µ accompagnee du
quantile de χ20.95,1 pour l’exemple 2.2. avec n = 40 et p = 3/4 = 1/λ
L sous aucune contrainte. Mais on obtient λ0 en maximisant la vraisemblance profil sous
la contrainte µ0 = pλ0. Avant de chercher l’intervalle de confiance pour µ, nous tracons
dans la figure 2.2 la fonction ρ(µ) et la droite horizontale qui represente le quantile
d’ordre 95% de la loi de khi-deux avec 1 degre de liberte.
A la lumiere de la figure 2.2, nous voyons que la droite horizontale coupe la courbe
de ρ(µ) en deux points distincts. Soient bi et bs les abscisses respectifs de ces deux
points. l’intervalle de confiance a 95% pour µ est l’ensemble de valeurs comprises entre
bi et bs.
Pour differentes valeurs de la proportion p, nous presentons dans le tableau 2.2, le
taux de confiance reel, le taux de non couverture a gauche de la borne inferieure et le
taux de non couverture a droite de la borne superieure de l’intervalle de confiance a
95% pour µ donne par (2.5).
Chapitre 2. Calcul d’intervalle de confiance pour une moyenne 12
Taux de non Taux de non Taux de
couverture estime couverture estime confiance reel
P (Y = 1) a gauche en (%) a droite en (%) estime en (%)
0.25 1.4 2.8 95.8
0.50 3.2 3.0 93.8
0.75 2.0 2.4 95.6
0.85 3.0 2.2 94.8
0.95 1.8 2.4 95.8
Tab. 2.2 – Taux de confiance reel obtenu avec un taux nominal de 95% et les taux de
non couverture de l’intervalle de confiance (2.5) pour les donnees simulees de l’exemple
2.2 avec n = 40
En vertu du tableau 2.2, nous voyons que pour certaines valeurs de p = P (Y = 1)
le taux de confiance reel depasse le seuil nominal 95%. Mais ces taux de couverture ne
sont pas significativement differents du taux nominal de 95%. L’intervalle de confiance
(2.5) donne donc de bons resultats pour des echantillons de taille 40 provenant d’une
loi exponentielle avec masse a zero.
Le programme R que nous avons utilise pour calculer l’intervalle de confiance pour
µ de l’exemple 2.2 est presente en annexe D.
2.4 Limites de ces methodes
Lorsque la population contient plusieurs valeurs nulles, la distribution F n’est pas
symetrique et l’approximation suggeree par le theoreme limite centrale n’est pas bonne.
L’intervalle de confiance pour µ deduit de la vraisemblance profil depend du modele
parametrique choisi. En general nous ne disposons pas de la vraie distribution des
donnees. Pour resoudre ces problemes on a recours a la vraisemblance empirique, une
methode non parametrique pour le calcul d’intervalle de confiance de la moyenne µ.
Cette methode est l’objet du chapitre suivant.
Chapitre 3
La vraisemblance empirique
Dans le present chapitre, nous estimons la moyenne µ par la vraisemblance empirique
qui est une methode non parametrique d’inference statistique. La distribution F de
(X1, . . . , Xn) est inconnue, nous utilisons la vraisemblance empirique profil pour calculer
un intervalle de confiance pour la moyenne µ.
3.1 Estimation de la fonction de repartition
La fonction de repartition sert a calculer la fonction de vraisemblance. Pour ce faire
nous definissons ci-apres la fonction de repartition empirique ainsi que la vraisemblance
empirique.
Definition 1
Soient X1, . . . , Xn un echantillon de F . La fonction de repartition empirique de
X1, . . . , Xn est donnee par
Fn(x) =1
n
n∑i=1
I{Xi ≤ x} pour tout −∞ < x < +∞.
Chapitre 3. La vraisemblance empirique 14
Ou IA est une indicatrice qui est definie comme suit
IA =
{1 si A est vraie
0 sinon .
Definition 2
Soient X1, . . . , Xn des variables aleatoires reelles qui sont independantes et de meme
fonction de repartition F . La vraisemblance non parametrique pour F prend la forme
suivante
L(F ) =n∏
i=1
(F (Xi)− F (Xi−)
)=
n∏i=1
P (Xi = xi).
Avec, pour tout −∞ < x < +∞
F (x) = P (X ≤ x)
F (x−) = P (X < x)
P (X = x) = F (x)− F (x−).
La consequence immediate qui decoule de la definition 2 est que L(F ) = 0 si Xi est
une variable aleatoire continue.
Theoreme
Soient X1, . . . , Xn un echantillon de F , soit Fn la fonction de repartition empirique
et G une fonction de repartition quelconque.
Si G 6= Fn alors L(G) < L(Fn).
Demonstration
Soient z1, . . . , zm des valeurs distinctes dans {X1, . . . , Xn}, nj ≥ 1 est le nombre des
Xi qui sont egales a zj. Soit pj = G(zj)−G(zj−) et posons que pj = nj/n.
Chapitre 3. La vraisemblance empirique 15
Si pj = 0 pour au moins un j = 1, . . . , m alors L(G) = 0 < L(Fn).
Dans la suite, on suppose que pour tout j = 1, . . . , m pj > 0 et pour au moins un
j, pj 6= pj. Donc
log
(L(G)
L(Fn)
)= log
(∏mj=1 pj
nj
∏mj=1 pj
nj
)=
m∑j=1
nj log
(pj
pj
)
= n
m∑j=1
pj log
(pj
pj
).
Or, g(x) = log(x) − x + 1 est une fonction concave qui atteint son maximum au
point x = 1 et g(1) = 0. Donc pour tout x ≥ 0
g(x) ≤ 0 ⇒ log(x) ≤ x− 1. (3.1)
En utilisant l’inegalite (3.1) on obtient que
nm∑
j=1
pj log
(pj
pj
)< n
m∑j=1
pj
(pj
pj
− 1
)≤ 0.
D’ou,
L(G) < L(Fn).
Ces deux dernieres definitions et theoreme sont tires du chapitre 2 de Owen(2001).
3.2 Intervalle de confiance pour µ
Dans cette section nous utilisons une procedure semblable a celle utilisee a la section
2.3 pour calculer un intervalle de confiance pour la moyenne µ. Sauf que ici nous utilisons
Chapitre 3. La vraisemblance empirique 16
la fonction de vraisemblance empirique a la place de la fonction de vraisemblance. Nous
presentons ci-apres la theorie pour calculer un intervalle de confiance pour la moyenne
µ a 100(1− α)%.
On denote par pi la probabilite que la variable aleatoire Xi prenne la valeur xi.
Le logarithme de la fonction de vraisemblance empirique est donne par
el(F ) = logn∏
i=1
pi
=n∑
i=1
log pi.
Afin de pouvoir maximiser el(F ) sous la contrainte∑n
i=1 pi = 1 nous utilisons la
methode de Lagrange. La fonction de Lagrange G s’ecrit comme suit
G =n∑
i=1
log pi + γ
( n∑i=1
pi − 1
).
En calculant la derivee partielle de G par rapport a pi, nous trouvons le maximum
de el(F ) :
∂G
∂pi
=1
pi
+ γ
= 0.
On peut ecrire aussi que
n∑i=1
pi∂G
∂pi
= n + γ
= 0.
Chapitre 3. La vraisemblance empirique 17
A partir de cette derniere egalite nous obtenons que n = −γ. Sous la contrainte∑ni=1 pi = 1, la log-vraisemblance empirique atteind son maximum lorsque pi = 1/n.
Ce dernier est donne par
maxPni=1 pi=1
el(F ) = −n log n. (3.2)
Pour calculer la log-vraisemblance empirique profil pour µ nous maximisons el(F )
sous une contrainte additionnelle. Cette contrainte prend la forme suivante
n∑i=1
piXi = µ ⇔n∑
i=1
pi
(Xi − µ
)= 0.
Nous considerons des valeurs de µ dans l’intervalle (min Xi, max Xi). La fonction de
Lagrange et la derivee partielle de G par rapport a pi s’ecrivent
G =n∑
i=1
log pi + γ
( n∑i=1
pi − 1
)− nλ
n∑i=1
pi
(Xi − µ
).
∂G
∂pi
=1
pi
+ γ − nλ
(Xi − µ
)
= 0.
De plus
n∑i=1
pi∂G
∂pi
=n∑
i=1
pi1
pi
+ γ − nλ
n∑i=1
pi
(Xi − µ
)
= 0,
d’ou n = −γ. Donc sous ces deux contraintes le maximum de el(F ) est atteint lorsque
pi =1
n{1 + λ(Xi − µ)
} . (3.3)
Chapitre 3. La vraisemblance empirique 18
Le parametre λ s’appelle le multiplicateur de Lagrange ; il resout l’equation suivante
g(λ) =n∑
i=1
Xi − µ
1 + λ(Xi − µ)= 0. (3.4)
Cette equation a plusieurs solutions en λ. La discussion qui suit cherche a determiner
l’intervalle Iλ des valeurs interessantes de λ de telle sorte que (3.4) ait une seule solution
dans Iλ. Rappelons que µ est fixe dans l’intervalle (min Xi, max Xi).
Maintenant, nous determinons l’intervalle Iλ tel que, la probabilite pi donnee par
(3.3) soit superieure a 0, c’est a dire tel que {1 + λ(Xi − µ)} > 0.
– Puisque max(Xi) > µ,
λ >−1
max(Xi − µ).
– Puisque min(Xi) < µ,
λ <−1
min(Xi − µ).
Nous concluons que l’intervalle des valeurs possibles de λ pour µ fixe, s’ecrit comme
Iλ =
( −1
max(Xi − µ),
−1
min(Xi − µ)
). (3.5)
La maximisation de la log-vraisemblance empirique el(F ) sous les deux contraintes,
permet de calculer la fonction de log-vraisemblance empirique profil comme suit
elp(µ) = maxPni=1 pi=1,
Pni=1 piXi=µ
el(µ)
=n∑
i=1
log1
n{1 + λ(Xi − µ)
}
= −n log n−n∑
i=1
log{1 + λ(Xi − µ)}. (3.6)
Chapitre 3. La vraisemblance empirique 19
Nous denotons par eρ(µ)/2 la difference entre le maximum de el(F ) sous une
contrainte, voir (3.2), et sous deux contraintes, voir (3.6) tel que
eρ(µ) = 2
{maxPni=1 pi=1
el(µ)− maxPni=1 pi=1 ,
Pni=1 piXi=µ
el(µ)
}
= 2
{− n log n + n log n +
n∑i=1
log{1 + λ(Xi − µ)
}
= 2n∑
i=1
log
{1 + λ(Xi − µ)
}.
Si µ0 = E(X) est la vraie moyenne, et si le moment d’ordre 3 pour X existe, Owen
(1990) montre que quand n tend vers l’infini
eρ(µ0) ∼ χ21.
Enfin, nous obtenons l’intervalle de confiance profil pour µ0 a un seuil de confiance
de 100(1− α)%. Il s’ecrit
ICve =
{µ0 : eρ(µ0) ≤ χ2
1−α,1
}. (3.7)
3.3 L’algorithme detaille de calcul
Soient (X1, . . . , Xn) des variables independantes et identiquement distribuees. Nous
supposons que min Xi < µ < max Xi. Cet algorithme nous permet de calculer la borne
superieure.
1. Posons t1 = X, t2 = max Xi.
2. Nous calculons µ = (t1 + t2)/2.
3. Nous calculons la solution λ qui resout l’equation (3.4) pour µ = (t1 + t2)/2.
4. Nous evaluons eρ(µ) a l’aide de la valeur de λ trouvee en 3.
Chapitre 3. La vraisemblance empirique 20
5. Nous comparons eρ(µ) et χ21−α,1.
– Si eρ(µ) > χ21−α,1 alors t2 = µ.
– Sinon t1 = µ.
6. On compare t1 et t2 tel que
– Si | t1 − t2 |< 10−5 on s’arrete et on note que la borne superieure est egale a
µ.
– Sinon on repete les etapes 2 a 5 jusqu’a ce que l’etape 6 soit verifiee.
La borne inferieure est calculee d’une facon similaire en remplacant seulement a la
premiere etape t2 par la plus petite observation des Xi qui est denotee par min Xi.
Dans ce qui suit nous expliquons en detail l’etape 3 de l’algorithme presente ci-
dessus. Afin de pouvoir calculer un intervalle de confiance pour la moyenne avec R et
avec SAS, nous utilisons deux fonctions permettant de trouver la solution λ de l’equation
(3.4).
Avec le progiciel R Nous avons utilise la fonction uniroot en specifiant une borne
inferieure et une borne superieure pour les valeurs possibles de λ, voir (3.5). Ces bornes
sont denotees par bi et bs respectivement dans l’annexe A.
Dans le progiciel SAS il n’y a pas de fonction qui calcule la solution λ de l’equation
(3.4). Nous avons programme a l’aide de la procedure IML une fonction sous forme d’un
algorithme. Nous devons execute les etapes suivantes :
– On decoupe l’intervalle Iλ = [bi, bs] en des sous intervalles de longueur 10−4
chacun. Tout les elements du tableau suivant sont les composantes du vecteur a.
bi bi + 10−4 bi + 2 ∗ 10−4 . . . bi + (k − 1) ∗ 10−4 bi + k ∗ 10−4 bs
– On cree un vecteur result qui contient la valeur de g(λ) = g(a[k]), avec a[k] =
bi + (k − 1)10−4 pour tout k = 1, . . . , A, ou A est tel que : bi + A10−4 ≤ bs et
bi + (A + 1)10−4 > bs.
– La fonction g(λ) est strictement decroissante par rapport a λ. Avec cette in-
formation nous calculons g(a[k]) et des qu’on trouve g(a[k]) < 0 c’est a dire
result[k] < 0, on arrete les iterations et on note par : ibi = a[k−1] et ibs = a[k].
– On cree un vecteur b de dimension y qui s’ecrit de la maniere suivante :
Chapitre 3. La vraisemblance empirique 21
ibi ibi + 10−7 ibi + 2 ∗ 10−7 . . . ibs− 2 ∗ 10−7 ibs− 10−7 ibs
– On cree un autre vecteur vecone de meme dimension que b et on calcule de
nouveau g(λ) = g(b[i]), avec b[1] = ibi. La valeur de g(λ) est remisee dans le
vecteur vecone.
– Nous calculons la valeur absolue des toutes les composantes du vecone et on les
mettent dans un autre vecteur qui s’appelle vecdeux.
– Nous denotons par solftek la plus petite valeur du vecdeux.
– Nous cherchons la valeur de λ qui nous permet d’obtenir solftek. Pour ce faire on
parcourt tout le vecteur vecdeux afin de trouver vecdeux[i] ≤ solftek. Quand
cette derniere condition est verifiee on denote alors λ = b[i].
– Finalement, la solution de l’equation (3.4) est egale a b[i].
Maintenant, nous presentons le code SAS qui calcule un intervalle de confiance a
95% pour la moyenne des variables X1 et X2. Nous observons 10 fois la variable X1 et
13 fois la variable X2.
ods printer file="sortie1.ps";
data one;
input X1 X2 @@;
cards;
0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.447904 0 0.814802 0.895326
1.659665 0.080676 . 2.328459 . 0.417263 . 0
/* nous remplacons les donnees manquantes par des points */
;
run;
%include "intervalle.sas";
title "intervalle de confiance pour X1";
%intek(data=one, var=X1);
title "intervalle de confiance pour X2";
%intek(data=one, var=X2);
ods printer close;
Les sorties fournies par SAS sont :
intervalle de confiance pour X1
Chapitre 3. La vraisemblance empirique 22
BINFVE BSUPVE
0.1290305 1.1317246
intervalle de confiance pour X2
BINFVE BSUPVE
0.070462 0.783999
Les intervalles de confiance pour les moyennes de X1 et X2 obtenus par le theoreme li-
mite centrale, voir (2.2), sont respectivement [0.219174, 0.765299] et [0.079588, 0.492984].
Les intervalles de confiance calcules par la vraisemblance empirique profil sont plus
longs que les intervalles de confiance du theoreme limite centrale.
3.4 Etude par simulation
Dans cette section nous appliquons la methode non parametrique aux simulations
du modele exponentiel avec masse a 0. Ensuite, nous presentons dans le tableau 3.2 les
resultats des trois methodes qui calculent l’intervalle de confiance pour la moyenne µ.
Ces methodes sont appliquees sur des donnees generees a partir d’une loi normale de
moyenne 5 et variance 16 tronquee a 0.
Exemple 3.1. (Modele exponentiel avec masse a 0 )
Considerons un echantillon aleatoire simple de taille n issu de la loi exponentielle
avec masse a zero donne par (2.3). Nous presentons dans le tableau ci-dessous pour
differentes valeurs de la probabilite de succes P (Y = 1), les estimes du taux de confiance
reel et les taux de non couverture a gauche et a droite de (3.7). Ce tableau permet de
comparer l’intervalle de confiance obtenu par la methode de la vraisemblance empirique
avec ceux obtenus par le theoreme limite centrale et la vraisemblance profil aux tableaux
2.1 et 2.2.
A la lumiere de ce tableau, nous remarquons que l’estime du taux de confiance reel
est inferieur au taux de confiance nominal fixe a 95%. La methode de la vraisemblance
empirique profil donne des intervalles de confiance avec des taux de non couverture
desequilibres. Mais le taux de non couverture a gauche est proche de la valeur 2.5%.
Chapitre 3. La vraisemblance empirique 23
Taux de non Taux de non Taux de
couverture estime couverture estime confiance reel
P (Y = 1) a gauche en (%) a droite en (%) estime en (%)
0.25 2.0 7.4 90.6
0.50 3.2 5.0 91.8
0.75 2.0 4.8 93.2
0.85 2.4 3.6 94.0
0.95 1.8 4.2 94.0
Tab. 3.1 – Taux de confiance reel et les taux de non couverture de l’intervalle de
confiance (3.7) pour les donnees simulees de l’exemple 3.1 avec n = 40
Le desequilibre est moins important que celui obtenu pour les intervalles de confiance
construits avec le theoreme limite centrale presentes au tableau 2.1.
Le programme R que nous avons utilise pour analyser les donnees de l’exemple 3.1
est presente en annexe E.
Exemple 3.2. (Normale tronquee a 0 )
Nous ecrivons X comme le produit de deux variables aleatoires independantes Y et
Z telles que
Y ∼ Bernoulli(p)
Z ∼(θ + σΦ−1(U)
)
avec U ∼ Uniforme[Φ(−θ/σ), 1
],
et Φ denote la fonction de repartition d’une variable normale centree reduite.
En vertu de cette loi l’esperance de X s’obtient de la maniere suivante
pE(Z) = p
∫∞0
ze−12 ( z−θ
σ )2
√2πσ
dz
∫∞0
e−12 ( z−θ
σ )2
√2πσ
dz. (3.8)
Lorsque θ = 5 et σ2 = 16, µ est egale a E(X) = 5.8169p.
Nous avons simule des echantillons de taille n = 40 de la loi normale tronquee a 0
avec θ = 5 et σ2 = 16. Ces simulations ont permis de calculer les taux de confiance et
les taux de non couverture a gauche et a droite des intervalles de confiance construit
selon les methodes (2.2), (2.5) et (3.7). Les resultats sont presentes au tableau 3.2.
Chapitre 3. La vraisemblance empirique 24
ptheoreme limite centrale modele exponentiel
tncg % tncd % tcr % tncg % tncd % tcr %
0.25 0.6 7.8 91.6 0.4 0.8 98.8
0.50 1.6 6.4 92.0 0.8 0.2 99.0
0.75 2.2 3.4 94.4 0.0 0.2 99.8
0.85 2.0 3.6 94.4 0.0 0.2 99.8
0.95 2.0 2.6 95.4 0.0 0.0 100
pvraisemblance empirique
tncg % tncd % tcr %
0.25 2.2 5.0 92.8
0.50 3.0 4.4 92.6
0.75 3.0 2.4 94.6
0.85 2.2 2.6 95.2
0.95 2.0 2.0 96.0
Tab. 3.2 – Taux de confiance reel et les taux de non couverture pour les donnees
simulees a partir d’une N(5, 16) tronquee a 0 avec n = 40
A la lumiere du tableau 3.2 nous remarquons que le taux de couverture s’ameliore
graduellement a mesure que la proportion de non zero p augmente. L’intervalle de
confiance construit par le theoreme limite centrale a un faible taux de couverture. En
appliquant le modele exponentiel, nous avons un probleme de sur-estimation du taux de
confiance reel. Nous obtenons des intervalles de confiance plus longs que necessaire. La
methode de la vraisemblance empirique profil donne des intervalles de confiance avec
des taux de non couverture plus equilibres. De plus la borne inferieure calculee par la
vraisemblance empirique est plus grande que celles calculees par les autres methodes.
3.5 Exemple
Dans le cadre de la verification des etats financiers des fonds nominatifs et collectifs,
administres par le curateur public du Quebec, le verificateur general du Quebec doit
estimer le montant moyen de l’erreur attribuable a l’integralite de l’enregistrement
des transactions affectant les actifs et les passifs du fonds nominatif pour l’exercice
termine le 31 mars 2004. Au 31 mars 2003, le curateur administrait le patrimoine de
10950 personnes sous regime public de protection et 3000 successions vacantes pour une
population totale de 13950. Parmi cette population, un echantillon aleatoire simple de
60 dossiers a ete preleve. Pour chacun de ces dossiers une analyse a ete effectuee pour
Chapitre 3. La vraisemblance empirique 25
identifier s’il y a erreur ainsi que la nature, la cause et le montant en erreur.
Le programme SAS qui suit calcule a 95% l’intervalle de confiance pour le montant
moyen de l’erreur.
data EF;
input x @@;
cards;
0 0 ... 0 43.06 95.98
;
run;
%include "curateur.sas";
title "intervalle de confiance pour le montant moyen de l’erreur";
%intek(data=EF, var=x);
Les bornes inferieure et superieure sont 0.366 et 7.677 respectivement. Dans cet
echantillon de taille 60 la proportion des valeurs non nulles est tres faible, 2/60 = 3.33%.
La borne inferieure de ce meme intervalle calculee en utilisant le theoreme limite centrale
est egale a −1.864. Il est clair que dans ce cas nous ne pouvons pas utiliser une methode
autre que la vraisemblance empirique profil pour calculer l’intervalle de confiance pour
le montant moyen de l’erreur.
Chapitre 4
Plan de sondage stratifie a deux
strates
Ce chapitre presente tout d’abord, la theorie de calcul de l’intervalle de confiance
pour la moyenne µ dans un plan de sondage a deux strates par la methode de la
vraisemblance empirique. Ensuite, la section 2 est consacree a un algorithme qui nous
permet de trouver les bornes inferieure et superieure de cet intervalle. Finalement, nous
simulons des donnees exponentielles avec masse a 0 afin de comparer les deux methodes
de construction d’un intervalle de confiance, par le theoreme limite centrale et par la
vraisemblance empirique profil.
4.1 Theorie de calcul de l’intervalle de confiance
Les strates sont des partitions de la population a l’etude. Un echantillon aleatoire
stratifie est tire en prenant un echantillon aleatoire fixe dans chacune des strates.
Nous etudions une population de taille N avec deux strates 1 et 2 de taille respectives
N1 et N2. Le poids de chacune de deux strates est egal a W1 = N1/N et W2 = N2/N .
Soient m et n les tailles des echantillons selectionnes dans les strates 1 et 2. Nous
observons donc x1, . . . , xm et y1, . . . , yn. Nous supposons que les fractions de sondage
m/N1 et n/N2 sont tres petites, de sorte que les unites tirees dans les deux strates
peuvent etre considerees comme des variables aleatoires independantes. On denote par
pi et qj les probabilites que les variables aleatoires Xi et Yj prennent les valeurs xi et
yj respectivement.
Chapitre 4. Plan de sondage stratifie a deux strates 27
Le logarithme de la fonction de vraisemblance empirique peut etre ecrit comme
elm,n =m∑
i=1
log pi +n∑
j=1
log qj. (4.1)
Sous ces contraintesm∑
i=1
pi = 1,n∑
j=1
qj = 1,
le maximum de elm,n est atteint lorsque pi = 1/m et qj = 1/n, a savoir
maxPmi=1 pi=1,
Pnj=1 qj=1
elm,n = −m log m− n log n. (4.2)
Dans un plan de sondage stratife a deux strates nous pouvons ecrire la moyenne
theorique µ en fonction des poids comme
µ = W1E(X) + W2E(Y )
= W1µ1 + W2µ2.
L’estimateur de µ correspondant est
µ = W1xm + W2yn.
ou xm et yn sont les moyennes echantillonnales.
Afin de pouvoir calculer la fonction log-vraisemblance empirique profil pour la
moyenne µ, nous devons maximiser l’equation (4.1) sous une contrainte additionnelle.
Cette troisieme contrainte s’ecrit
W1
m∑i=1
pixi + W2
n∑j=1
qjyj = µ.
La determination de la fonction du vraisemblance empirique profil elm,n(µ) a partir
de ce dernier probleme de maximisation est tres compliquee. Nous presentons ci-apres
la technique developpee par Chen et al. (2003) pour le calcul de elm,n(µ).
En utilisant la methode de Lagrange, nous trouvons que la log-vraisemblance empi-
rique profil pour µ1, µ2 est la somme de deux log-vraisemlance
elm,n(µ1, µ2) = −m∑
i=1
log
{1 + λ1(xi − µ1)
}−m log m
−n∑
j=1
log
{1 + λ2(yj − µ2)
}− n log n,
Chapitre 4. Plan de sondage stratifie a deux strates 28
ou λ1 et λ2 sont les solutions de ces deux equations
m∑i=1
(xi − µ1)
1 + λ1(xi − µ1)= 0,
n∑j=1
(yj − µ2)
1 + λ2(yj − µ2)= 0. (4.3)
Par definition, il existe une relation entre la vraisemblance empirique profil pour la
moyenne elm,n(µ) et celle de elm,n(µ1, µ2) tels que
elm,n(µ) = maxP2k=1 Wkµk=µ
elm,n(µ1, µ2). (4.4)
En appliquant la methode de Lagrange l’equation (4.4) devient
g(µ1, µ2, t) = elm,n(µ1, µ2)− t(W1µ1 + W2µ2 − µ)
La valeur de t est le multiplicateur de Lagrange. Nous prenons la derivee partielle de
g respectivement par rapport a µ1, µ2 et t. Puis en egalisant a 0 ces trois denieres
derivees, nous obtenons λ1 = W1t/m et λ2 = W2t/n. Ainsi nous calculons µ1(t) et µ2(t)
les solutions de l’equation (4.3). En effet, le maximum est atteint aux points µ1(t) et
µ2(t). On evalue l’equation (4.4) au point µ(t), nous pouvons ecrire que
elm,n
{µ(t)
}= elm,n
{µ1(t), µ2(t)
}
= −m∑
i=1
log
[1 + m−1W1t
{xi − µ1(t)
}]−m log m
−n∑
j=1
log
[1 + n−1W2t
{yj − µ2(t)
}]− n log n, (4.5)
Nous denotons par eρm,n{µ(t)}/2 la difference entre le maximum de elm,n sous deux
contraintes, voir (4.2), et le maximum sous trois contraintes, voir (4.5). Ainsi
eρm,n{µ(t)} = 2m∑
i=1
log
{1 + m−1W1t(xi − µ1)
}+ 2
n∑j=1
log
{1 + n−1W2t(yj − µ2)
}.
Si µ0 = W1E(X) + W2E(Y ) est la vraie moyenne, et si les moments d’ordre 3 pour
X et Y existent, Chen et al. (2003) montrent que quand n tends vers l’infini
eρm,n(µ0) ∼ χ21.
Chapitre 4. Plan de sondage stratifie a deux strates 29
Finalement, nous obtenons l’intervalle de confiance profil pour µ a un seuil de
confiance de 100(1− α)% qui s’ecrit
ICve =
{µ : eρm,n(µ) ≤ χ2
1−α,1
}. (4.6)
4.2 L’algorithme detaille de calcul
Soient (X1, . . . , Xm) et (Y1, . . . , Yn) deux echantillons aleatoires simples de taille
respectives m et n. En faisant la derivee de la fonction eρm,n{µ(t)} par rapport a t
nous trouvons que cette derniere est convexe. Puisque l’intervalle de confiance (4.6)
est l’ensemble des valeurs qui sont inferieures au quantile de la loi de khi-deux χ21−α,1,
en effet, les bornes inferieure et superieure sont les deux points d’intersection entre la
courbe de eρm,n{µ(t)} et la droite horizontale qui passe par le point (0, χ21−α,1).
Cependant, en suivant ces etapes nous pouvons calculer la borne inferieure de l’in-
tervalle de confiance pour la moyenne µ dans un plan de sondage a 2 strates.
1. Nous prenons une valeur initiale t = 0.
2. Nous calculons λ1 = W1t/m et λ2 = W2t/n.
3. Nous calculons les solutions µ1(t) et µ2(t) de l’equation (4.3).
4. Nous evaluons eρm,n{µ} a l’aide des valeurs trouvees en 3.
5. Nous comparons eρm,n{µ} et χ21−α,1.
(a) Si |eρm,n{µ}−χ21−α,1| est petite, on s’arrete et on note que la borne inferieure
est egale a W1µ1(t) + W2µ2(t).
(b) Sinon on prend t = t+ ε avec ε > 0, et on retourne a l’etape 2 jusqu’a ce que
l’etape 5.a soit verifiee.
La borne superieure est calculee d’une facon similaire en choisissant ε < 0.
Exemple 4.1. (Exponentielle tronquee a 0 )
Dans cette section nous faisons une etude par simulation afin de pouvoir calculer
un intervalle de confiance pour la moyenne µ a 95% dans un plan de sondage stratifie a
deux strates, par la vraisemblance empirique profil et par le theoreme limite centrale.
Chapitre 4. Plan de sondage stratifie a deux strates 30
Pour le theoreme limite centrale on utilise la formule suivante
ICtlc =[W1X + W2Y ± zα/2
√m−1W 2
1 s21 + n−1W 2
2 s22
],
s2i est la variance echantillonnale dans la strate i = 1, 2.
Considerons une population de taille N avec deux strates 1 et 2. On tire deux
echantillons aleatoires simples de taille m = 60 et n = 140 dans les strates 1 et 2.
Le poids de la strate 1 est egal a W1 = 0.4. Les echantillons sont issus de deux lois
exponentielles tronquees a 0 differentes. Les probabilites de succes dans les strates 1 et 2
sont denotees respectivement par px et py. En utilisant la parametrisation de l’equation
(2.3), nous ecrivons E[X] = pxλ1 et E[Y ] = pyλ2. Pour toutes les simulations nous
prenons λ1 = 1/px et λ2 = 1/py. Ainsi, la moyenne µ dans la population est egale a
µ = W1E[X] + W2E[Y ] = W1pxλ1 + W2pyλ2 = 1.
Nous presentons dans le tableau ci-dessous pour differentes valeurs de px et py, les
estimes du taux de confiance reel et les taux de non couverture a gauche et a droite.
px pyvraisemblance empirique theoreme limite centrale
tncg % tncd % tcr % tncg % tncd % tcr %
0.15 0.10 3.33 4.67 92.00 2.00 8.67 89.33
0.25 0.15 2.80 5.00 92.20 1.00 7.40 91.60
0.50 0.15 1.60 4.80 93.60 0.20 7.80 92.00
0.75 0.50 1.80 2.60 95.60 0.80 4.20 95.00
0.95 0.85 2.20 4.20 93.60 1.40 5.00 93.60
Tab. 4.1 – Taux de confiance reels et les taux de non couverture pour les donnees
simulees a partir de deux lois exponentielle differentes tronquees a 0 avec m = 60 et
n = 140
En vertu de ce tableau, nous voyons que le taux de confiance calcule par la methode
du theoreme limite centrale est toujours inferieur ou egal a celui trouve par la vraisem-
blance empirique profil. Le theoreme limite centrale donne des intervalles de confiance
avec des taux de non couverture tres desequilibres.
Le programme R que nous avons utilise pour faire cette simulation est presente en
annexe F.
Chapitre 4. Plan de sondage stratifie a deux strates 31
4.3 Exemple
Considerons une population de taille N = 1602 comtes avec deux strates N1 = 220
et N2 = 1382. Les strates 1 et 2 sont respectivement les regions nord-est et sud de
Etats-Unis, voir Lohr (1999) chapitre 4. Le poids de la strate 1 est egal a W1 = 0.14.
Le nombre d’acres dans un comte consacre a la ferme en 1992 a ete observe pour un
echantillon stratifie de taille 156 (m=21, n=135).
L’intervalle de confiance a 95% pour le nombre moyen d’acres consacre a la ferme
en 1992 calcule par la vraisemblance empirique profil est egal a
ICve =
[165 428, 236 069.7
]. (4.7)
Cet intervalle calcule avec le theoreme limite centrale est donne par
ICtlc =
[161 411, 229 387.3
]. (4.8)
Nous voyons que la borne inferieure de l’intervalle (4.7) est plus grande que celle de
l’intervalle (4.8). L’intervalle de confiance calcule par la vraisemblance empirique profil
est 3.9% plus long que l’intervalle de confiance du theoreme limite centrale. Le premier
intervalle est decale vers la droite par rapport au deuxieme.
Chapitre 5
Conclusion
Nous avons presente dans cet essai la theorie du calcul d’un intervalle de confiance
pour la moyenne.
Dans le cas d’un echantillon aleatoire simple contenant de nombreuses valeurs nulles,
l’intervalle de confiance decoulant du theoreme limite centrale n’a pas toujours un bon
taux de couverture. De plus il peut donner une borne inferieure negative meme si la
variable a l’etude prend des valeurs positives ou nulles. Ce probleme peut etre corrige si
on connaıt la distribution des donnees en ayant recours a des intervalles calcules a partir
de la vraisemblance profil pour la moyenne. Il est rare de connaıtre la vraie distribution
des donnees c’est pourquoi nous suggerons de construire un intervalle de confiance a
partir de la vraisemblance empirique profil. Les simulations faitent montrent que les
intervalles deduits de cette methode non parametrique sont souvent preferables a ceux
calcules a partir du theoreme limite centrale. Ils donnent des bornes inferieures positives
et des taux de non couverture plus equilibres et plus pres de leurs valeurs nominales.
Dans ce travail nous avons calcule des intervalles de confiance uniquement pour la
moyenne. Il serait interessant dans des travaux futurs d’etudier la methode de vraisem-
blance empirique profil pour construire des intervalles de confiance pour des parametres
plus complexes.
Bibliographie
Chen, J., Chen, S. Y., Rao, J. N. K. (2003). Empirical likelihood confidence intervals
for the mean of a population containing many zero values. La Revue Canadienne de
Statistique, 31 :53-68.
Freund, John E., Walpole, Ronald E. (1987). Mathematical Statistics, Fourth Edition.
Prentice-Hall, New Jersey.
Hajek, J. (1960). Limiting distributions in simple random sampling from a finite po-
pulation. Publication of the Mathematical Institute of the Hungarian Academy of
Sciences, 5 :361-374.
Hogg, Robert V., Craig, Allen T. (1995). Introduction to Mathematical Statistics. Pren-
tice Hall, New Jersey.
Kvanli, A. H., Shen, Y. K., Deng, L. Y. (1998). Construction of confidence intervals
for the mean of a population containing many zero values. Journal of Business and
Economic Statistics, 16 :362-368.
Lohr, Sharon L. (1999). Sampling : Design and Analysis. Duxbury, Etats-Unis.
Owen, Art B. (2001). Empirical Likelihood. Chapman and Hall/CRC, Etats-Unis.
Owen, Art B. (1990). Empirical likelihood confidence regions. The Annals of Statistics,
18 :90-120.
Venzon, D. J., Moolgavkar, S. H. (1988). A method for computing profile-likelihood-
based confidence intervals. Applied Statistics, 37 :87-94
Wu, C. (2005). Algorithmes et codes R pour la methode de la pseudo-vraisemblance
empirique dans les sondages. Techniques d’enquete, 31 :261-266.
Annexe A
Fonction R pour la vraisemblance
empirique dans un plan aleatoire
simple
####################################################################
# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #
# DE X EN SE BASANT SUR LA VRAISEMBLANCE EMPIRIQUE #
####################################################################
#Equation(3) de l’article de CHEN et al. (2003)
ftek<-function(lamb,xf,muf){sum((xf-muf)/(1+lamb*(xf-muf)))}
#Variable en entree
#x = Donnees de l’echantillon aleatoire simple
#En sortie: bornes d’intervalle de confiance
ma_fonction <- function(x)
{
diff<- 0.00001 #diff est la difference entre t1 et t2
alpha<-0.05
#*******************************************************************
# Calcul de la borne superieure de cet intervalle #
#*******************************************************************
t1<-mean(x) #t1 est la moyenne de x
t2<-max(x) #t2 est le maximum de x
repeat
{
mu<-((t1+t2)/2)
#On definit les bornes inferieure(bi) et superieure(bs)
Annexe A. Fonction R pour la vraisemblance empirique dans un plan aleatoire simple35
#pour toutes les valeurs possibles de lamb
bi<-(-1/max(x-mu))+0.000000001
bs<-(-1/min(x-mu))-0.000000001
#lamb est la solution de l’equation (3)
lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root
#Le rapport de vraisemblance profil de mu
er<-2*sum(log(1+(lamb*(x-mu))))
#Le (1-alpha)quantile de la loi de Khi-deux avec
#un degre de liberte
quantile<-qchisq((1-alpha),1)
if (er>quantile) t2<-mu
if(er<quantile) t1<-mu
if (abs(t1-t2)<diff) break
#bsupve est la borne superieure de cet intervalle
bsupve<-mu
}
#*******************************************************************
# Calcul de la borne inferieure de cet intervalle #
#*******************************************************************
t1<-mean(x) #t1 est la moyenne de x
t2<-min(x) #t2 est le minimum de x
repeat
{
mu<-((t1+t2)/2)
bi<-(-1/max(x-mu))+0.000001
bs<-(-1/min(x-mu))-0.000001
lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root
er<-2*sum(log(1+(lamb*(x-mu))))
quantile<-qchisq((1-alpha),1)
if (er>quantile) t2<-mu
if(er<quantile) t1<-mu
if (abs(t1-t2)<diff) break
#binfve est la borne inferieure de cet intervalle
binfve<-mu
}
list(ICve=c(binfve,bsupve)) #ICve est un intervalle de confiance
}
ma_fonction(pmax(0,rnorm(100)))
Annexe B
Macro SAS
/******************************************************************/
/******************************************************************/
/*** CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE ***/
/*** EN SE BASANT SUR LA VRAISAMBLANCE EMPIRIQUE PROFIL ***/
/*** ***/
/*** La macro intek nous permet de calculer cet intervalle ***/
/*** dans une population contenant plusieurs valeurs zero. ***/
/*** ***/
/*** Variables d’entree: ***/
/*** ***/
/*** data = est un fichier des donnees ***/
/*** x = est une variable du fichier ***/
/*** ***/
/*** Variables de sortie: ***/
/*** ***/
/*** bsupve = est la borne superieure de cet intervalle ***/
/*** binfve = est la borne inferieure de cet intervalle ***/
/*** ***/
/*** Remarque: ***/
/*** ***/
/*** Si on a plusieurs variables du fichier des donnees, ***/
/*** il faut qu’elles possedent les memes nombres ***/
/*** d’observations. C’est a dire nous mettons un point ***/
/*** a la place d’une donnee manquante. ***/
/*** ***/
/*** Exemple: ***/
Annexe B. Macro SAS 37
/*** ***/
/*** data lecture; ***/
/*** input x @@; ***/
/*** cards; ***/
/*** 0 0 0 0 0 0 0 2.447904 0.814802 1.659665 ***/
/*** ; ***/
/*** %include "intervalle.sas"; ***/
/*** %intek(data=lecture, var=x); ***/
/*** ***/
/******************************************************************/
/******************************************************************/
/*** ***/
/*** Programme realise par Tekaya Mohamed Ridha ***/
/*** (Aout 2005) ***/
/*** ***/
/******************************************************************/
/******************************************************************/
%macro intek(data=,var=);
proc iml;
use &data;
read all var{&var} into tx;
x=t(tx);
n=ncol(x);
qtil=cinv(0.95,1);
t1=sum(x)/n;
t2=min(x);
start ftek(x,mu,lamb); /*ftek est une fonction decroissante */
ftek=sum((x-mu)/(1+lamb*(x-mu)));
return (ftek); /*ftek est l’equation (3) de l’article de */
finish ftek; /* Chen et al. (2003)*/
*******************************************************************;
*** Calcul de la borne inferieure de cet intervalle ***;
*******************************************************************;
DO UNTIL(compar<0.00001);
mu=((t1+t2)/2);
bi=-1/(max(x-mu))+0.000000001; /*bi est la borne inferieure*/
/*pour les valeurs de lamb */
bs=-1/(min(x-mu))-0.000000001; /*bs est la borne superieure*/
/*pour les valeurs de lamb */
a=do(bi,bs,0.0001); /*on cree un vecteur a */
Annexe B. Macro SAS 38
/*on donne des valeurs */
result=10; /*initiales pour result et k*/
k=0;
DO UNTIL(result<0); /*losque la condition (result<0) est */
/*verifiee, on termine la boucle */
k=k+1;
lamb=a[k];
result=ftek(x,mu,lamb);
END;
ibi=a[k-1]; /*ibi est la derniere valeur du vecteur a */
/*ou (result>0) */
ibs=a[k]; /*ibs est la premiere valeur du vecteur a */
/*ou (result<0) */
b=do(ibi,ibs,0.0000001); /*on cree un vecteur b */
y=ncol(b);
vecone=j(1,y,.); /*vecone est un vecteur de meme dimension */
/*que le vecteur b */
DO i=1 to y by 1; /*pour toutes les valeurs du vecteur b on */
/*calcule ftek et nous mettons ces valeurs */
/*dans le vecteur vecone */
vecone[i]=ftek(x,mu,b[i]);
END;
vecdeux=abs(vecone); /*on calcule la valeur absolue de */
/*chaque valeur du vecteur vecone */
solftek=min(vecdeux); /*solftek est le minimum de toutes */
/*les valeurs du vecdeux */
DO i=1 to y by 1; /*lamb est la solution de l’equation (3) */
/*avec cette boucle nous trouvons lamb */
IF (vecdeux[i] <= solftek) THEN lamb=b[i];
END;
er=2*sum(log(((x-mu)*lamb)+1)); /*avec le lamb trouve, nous */
/*calculons er */
IF (er> qtil) THEN t2=mu;
ELSE t1=mu;
compar=abs(t1-t2);
END;
binfve=mu; /*binfve est la borne inferieure de cet intervalle */
*******************************************************************;
*** Calcul de la borne superieure de cet intervalle ***;
*******************************************************************;
Annexe B. Macro SAS 39
n=ncol(x);
qtil=cinv(0.95,1);
t1=sum(x)/n;
t2=max(x);
DO UNTIL(compar<0.00001);
mu=((t1+t2)/2);
bi=-1/(max(x-mu))+0.000000001; /*bi est la borne inferieure*/
/*pour les valeurs de lamb */
bs=-1/(min(x-mu))-0.000000001; /*bs est la borne superieure*/
/*pour les valeurs de lamb */
a=do(bi,bs,0.0001);
/*on donne des valeurs */
result=10; /*initiales pour res, result*/
k=0; /*et k */
DO UNTIL(result<0);
k=k+1;
lamb=a[k];
result=ftek(x,mu,lamb);
END;
ibi=a[k-1];
ibs=a[k];
b=do(ibi,ibs,0.0000001);
y=ncol(b);
vecone=j(1,y,.);
DO i=1 to y by 1;
vecone[i]=ftek(x,mu,b[i]);
END;
vecdeux=abs(vecone);
solftek=min(vecdeux);
DO i=1 to y by 1;
IF (vecdeux[i] <= solftek) THEN lamb=b[i];
END;
er=2*sum(log(((x-mu)*lamb)+1));
IF (er> qtil) THEN t2=mu;
ELSE t1=mu;
compar=abs(t1-t2);
END;
bsupve=mu; /*bsupve est la borne superieure de cet intervalle */
print binfve bsupve;
%mend;
Annexe C
Le programme R pour l’exemple 2.1
####################################################################
# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #
####################################################################
y<-rbinom(20000,1,0.75)
z<-rexp(20000,rate=0.75)
x<-y*z
don<-matrix(x,500,40)
stt<-function(x){(mean(x)-1)/(sqrt(var(x)/40))}
valeur.de.t<-apply(don,1,stt)
qqnorm(valeur.de.t)
abline(0,1)
stat1<-function(x){c(mean(x)-1.959964*(sqrt(var(x)/40)),
mean(x)+1.959964*(sqrt(var(x)/40)))}
nod<-apply(don,1,stat1)
nodbi<-nod[1,]
nodbs<-nod[2,]
un<-rep(1,500)
txreel<-(sum((un>nodbi)&(un<nodbs))/500)*100
ncg<-(sum(un<nodbi)/500)*100
nca<-(sum(un>nodbs)/500)*100
list(tx=c(ncg,txreel,nca))
Annexe D
Le programme R pour l’exemple 2.2
####################################################################
# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #
# AFIN DE TRACER LA FIGURE 2.2 #
####################################################################
y<-rbinom(40,1,0.75)
z<-rexp(40,rate=0.75)
x<-y*z #le vecteur x est issu d’une exponentielle avec masse a 0
n<-length(x)
max<-max(x)
k<-length(x[x<= 10e-16]) #k est le nombre des valeurs non nulles
erreur<-(n-k) #erreur est le nombre des valeurs nulles parmi n
lamch<-sum(x)/erreur #lamch est l’estimateur de lambda
much<-sum(x)/n
seuil<-(qchisq(0.95,1))
#*******************************************************************
# Rhomu est une fonction qui calcule 2*(l_p(much)-l_p(mu)) #
#*******************************************************************
denom<-((1-much/lamch)^k)*((much/(lamch^2))^erreur)*exp(-sum(x)/lamch)
#La fonction Rhomu est une fonction importante qu’on denote par "fimp"
Rhomu<-function(mu){-2*log(((1-(mu/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+
sqrt(((2*n*mu+sum(x)-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))
/2)))^k)*((mu/((((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)
Annexe D. Le programme R pour l’exemple 2.2 42
-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2)^2))^erreur)*exp(
(-sum(x))/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)-k*mu)
/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2))/denom)}
#*******************************************************************
# fRhomu est une fonction qui calcule [2*(l_p(much)-l_p(mu))]-seuil#
#*******************************************************************
#Il faut remplacer "fimp" par son expression pour pouvoir executer
#le programme
fRhomu<-function(mu){fimp-seuil}
#*******************************************************************
# Calcul des bornes inferieure et superieure de l’intervalle de #
# confiance pour mu avec la vraisemblance profil #
#*******************************************************************
binf<-uniroot(fRhomu,lower=10e-10,upper=much)$root
#binfmv est la borne inferieure
bsup<-uniroot(fRhomu,lower=much,upper=max)$root
#binfmv est la borne superieure
list(ICmv=c(binf,bsup))
#ICmv est un intervalle de confiance pour mu
********************************************************************
# Pour tracer la fonction (Rhomu) #
#*******************************************************************
muv<-seq(0,max,by=0.1) #muv est un intervalle des valeurs de mu
taille<-length(muv)
rhomu<-rep(0,taille) #on cree un vecteur de meme taille que muv
for (i in (1:taille)){rhomu[i]<-(Rhomu(muv[i]))}
mu<-muv[rhomu<8] #on choisi les valeurs de mu ou (rhomu<8)
rhomu<-rhomu[rhomu<8]
plot(mu,rhomu, type="l")
abline(seuil,0)
Annexe D. Le programme R pour l’exemple 2.2 43
####################################################################
# SIMULATION D’UNE EXPONENTIELLE AVEC MASSE A 0 #
# AFIN DE D’ESTIMER LE TAUX DE CONFIANCE REEL ET #
# LES TAUX DE NON COUVERTURE A GAUCHE ET A DROITE #
####################################################################
#Il faut remplacer sum(x) par sum dans la fonction "fimp".
y<-rbinom(20000,1,0.75)
z<-rexp(20000,rate=0.75)
x<-y*z
matrice<-matrix(x,500,40)
maxf<-function(x){max(x)}
max<-apply(matrice,1,maxf) #on cree un vecteur de taille 500 qui
#contient des maximums
kf<-function(x){length(x[x<= 10e-16])}
k<-apply(matrice,1,kf)
n=40
erreur<-(n-k)
sumf<-function(x){sum(x)}
sum<-apply(matrice,1,sumf)
lamch<-sum/erreur
much<-sum/n
seuil<-(qchisq(0.95,1))
#*******************************************************************
# Rho est une fonction qui calcule 2*(l_p(much)-l_p(mu)) #
#*******************************************************************
denom<-((1-much/lamch)^k)*((much/(lamch^2))^erreur)*exp(-sum/lamch)
Rho<-function(mu){fimp}
Rho1<-Rho(1)
txr<-((sum(Rho1<seuil))/500)*100 #txr est l’estimateur du taux de
Rho11<-Rho(1.0001) #confiance reel
compar1<-Rho1[Rho1>seuil]
compar11<-Rho11[Rho11>seuil]
ncag<-((sum (compar1>compar11))/500)*100
ncad<-((sum(compar1<compar11))/500)*100
list(tstx=c(txr,ncag,ncad))
Annexe E
Le programme R pour l’exemple 3.1
####################################################################
# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #
# EN SIMULANT UNE EXPONENTIELLE AVEC MASSE A 0 #
####################################################################
y<-rbinom(20000,1,0.95)
z<-rexp(20000,rate=0.95)
x<-y*z
matrice<-matrix(x,500,40)
esperance=1 #esperance est egale a E[x]=E[y]E[z]
mu=esperance
bif<-function(x){(-1/max(x-mu))+0.000000001}
bi<-apply(matrice,1,bif)
bsf<-function(x){(-1/min(x-mu))-0.000000001}
bs<-apply(matrice,1,bsf)
n=length(bs)
lamb<-rep(0,n)
erho1<-rep(0,n)
for(i in 1:n)
{
x<-matrice[i,]
ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))}
lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root
erho1[i]<-2*sum(log(1+(lamb[i]*(x-mu))))
}
seuil<-(qchisq(0.95,1))
txr<-((sum(erho1<seuil))/500)*100
Annexe E. Le programme R pour l’exemple 3.1 45
compar1<-erho1[erho1>seuil]
mu=esperance+0.00001
bif<-function(x){(-1/max(x-mu))+0.000000001}
bi<-apply(matrice,1,bif)
bsf<-function(x){(-1/min(x-mu))-0.000000001}
bs<-apply(matrice,1,bsf)
n=length(bs)
lamb<-rep(0,n)
erho11<-rep(0,n)
for(i in 1:n)
{
x<-matrice[i,]
ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))}
lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root
erho11[i]<-2*sum(log(1+(lamb[i]*(x-mu))))
}
compar11<-erho11[erho11>seuil]
ncag<-((sum(compar1>compar11))/500)*100
ncad<-((sum(compar1<compar11))/500)*100
list(touslestx=c(ncag,txr,ncad))
Annexe F
Fonction R pour la vraisemblance
empirique dans un plan stratifie
####################################################################
# CALCUL D’UN INTERVALLE DE CONFIANCE POUR LA MOYENNE #
# DANS UN PLAN DE SONDAGE A DEUX STRATES #
####################################################################
#La fonction fstr calcule les bornes inferieure et superieure avec
#la vraisemblance empririque profil et le theoreme limite centrale.
#La fonction fstr ne fonctionne pas si l’un deux vecteurs x ou y
#contient que des valeurs nulles.
# Variables en entree
# x = Donnees de la strate 1
# y = Donnees de la strate 2
# w1 = poids relatif de la strate 1
# En sortie: bornes d’intervalle de confiance
fstr<-function(x,y,w1)
{
w2=1-w1
m=length(x)
n=length(y)
e1<-mean(x)
e2<-max(x)
d1<-mean(y)
d2<-max(y)
seuil<-(qchisq(0.95,1))
#---------------AVEC LA VRAISEMBLANCE EMPIRIQUE PROFIL---------------#
Annexe F. Fonction R pour la vraisemblance empirique dans un plan stratifie 47
#---------------------------BORNE INFERIEURE-------------------------#
t=0
repeat
{
lamb1<-(w1*t)/m
lamb2<-(w2*t)/n
ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))}
ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))}
kx<-e2
repeat{
if (ftau1(kx)<0) break
if (ftau1(kx)>0) kx<-(kx-0.5)
}
ky<-d2
repeat{
if ((ftau2(ky))<0) break
if ((ftau2(ky))>0) ky<-(ky-0.5)
}
soltau1<-uniroot(ftau1,lower=0,upper=kx)$root
soltau2<-uniroot(ftau2,lower=0,upper=ky)$root
ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+
2*sum(log(1+((w2*t)/n)*(y-soltau2)))
if ((ertau >= 3.831459) && (ertau<= 3.851459)) break
if (ertau < 3.831459) t<-(t+0.1)
if (ertau > 3.851459) t<-(t-0.001)
}
btfve<-(w1*soltau1+w2*soltau2)
#------------------------BORNE SUPERIEURE------------------------#
t=0
repeat
{
lamb1<-(w1*t)/m
lamb2<-(w2*t)/n
ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))}
ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))}
kx<-e2
repeat{
if (ftau1(kx)<0) break
if (ftau1(kx)>0) kx<-(kx-0.5)
}
Annexe F. Fonction R pour la vraisemblance empirique dans un plan stratifie 48
ky<-d2
repeat{
if ((ftau2(ky))<0) break
if ((ftau2(ky))>0) ky<-(ky-0.5)
}
soltau1<-uniroot(ftau1,lower=0,upper=kx)$root
soltau2<-uniroot(ftau2,lower=0,upper=ky)$root
ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+
2*sum(log(1+((w2*t)/n)*(y-soltau2)))
if ((ertau >= 3.831459) && (ertau<= 3.851459)) break
if (ertau < 3.831459) t<-(t-0.1)
if (ertau > 3.851459) t<-(t+0.001)
}
btsve<-(w1*soltau1+w2*soltau2)
much=w1*e1+w2*d1
#---------------AVEC LE THEOREME LIMITE CENTRALE------------------#
zalpha<-(qnorm(0.975,0,1))
ybar.str<-w1*e1+w2*d1
cx<-(w1^2)/m
cy<-(w2^2)/n
var.ybar.str<-sum(cx*var(x)+cy*var(y))
#--------------------------BORNE INFERIEURE------------------------#
bftlc<-(ybar.str-zalpha*sqrt(var.ybar.str))
#------------------------BORNE SUPERIEURE--------------------------#
bstlc<-(ybar.str+zalpha*sqrt(var.ybar.str))
list(ICve=c(btfve,btsve),ICtlc=c(bftlc,bstlc),much=much)
} #Fin de la fonction.
fstr(x=,y=,w1=0.4)