algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane...
TRANSCRIPT
![Page 1: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/1.jpg)
Algorithmes rapides pour l’estimation de lamediane geometrique en grande dimension
Herve Cardot
Institut de Mathematiques de Bourgogne, Universite de Bourgogneavec Peggy Cenac (Univ. Bourgogne) et Pierre-Andre Zitt (Univ. Bourgogne)
Montpellier - Juin 2012
![Page 2: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/2.jpg)
Un exemple : audience TV (donnees de Mediametrie)
0 200 400 600 800 1000 1200 1400
0.0
0.2
0.4
0.6
0.8
1.0
minutes
TV
au
die
nce
![Page 3: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/3.jpg)
La mediane dans RUne notion ”centrale” en statistique depuis Laplace.
Pour une variable aleatoire reelle
”La” (pas necessairement unique) valeur m telle que P(X ≤ m) = 0.5 .
Une autre caracterisation de la mediane m
E (sign(X −m)) =
∫sign(X (ω)−m)dP(ω) = 0.
Puisque sign(X −m) = X−m|X−m| , elle verifie aussi
m = arg minz∈R
E |X − z | .
• Le quantile d’ordre α, pour α ∈]0, 1[, est defini par P(X ≤ qα) = α.Soit encore,
qα = arg minz∈R
E [|X − z |+ (2α− 1)(X − z)] .
![Page 4: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/4.jpg)
La mediane geometrique dans Rd (ou H Hilbert separable)
Rd muni de la norme euclidienne ‖ ‖, une generalisation naturelle de lamediane (Haldane, 1948)
m := arg minz∈H
E [‖X − z‖ − ‖X‖]
appelee L1-mediane ou mediane spatiale ou geometrique.
Note : le moment d’ordre 1 de ‖X‖ n’est pas forcement defini.
Propriete (Kemperman, 1987)Si l’espace H est strictement convexe, la mediane geometrique m estunique, sauf si le support X est sur une droite.
• Exemples d’espace strictement convexes :- espaces euclidiens Rd , avec d > 1,- espaces de Hilbert H separables (par ex. L2[0,T ])- Certains espaces de Banach (Lp, 1 < p <∞).
![Page 5: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/5.jpg)
Caracterisation de la mediane geometriqueNous supposons qu’il n’y a pas d’atomes (∀x ∈ H, P(X = x) = 0).
Alors G : H 7→ R definie par G (x) = E‖X − x‖, est strictement convexeet est Frechet differentiable
Φ(x) := ∇Gx = −E(
X − x
‖X − x‖
).
La mediane m est caracterisee par ∇Gm = 0.
Si E‖X −m‖−1 <∞, G a une derivee seconde au sens de Frechet, en m,Γm : H 7→ H,
Γm := E[
1
‖X −m‖
(IH −
(X −m)⊗ (X −m)
‖X −m‖2
)],
ou IH est l’identite dans H et u ⊗ v = 〈u, .〉v , pour (u, v) ∈ H2.
L’operateur Γm est borne et strictement positif. Il existe des constantes,∞ > E‖X −m‖−1 = λM > λm > 0,
λM‖u‖2 ≥ 〈Γmu, u〉 ≥ λm‖u‖2, ∀u ∈ H.
![Page 6: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/6.jpg)
Robustesse : la fonction d’influenceSoit une distribution P0 contaminee par une masse z ∈ H,
Pε,z = (1− ε)P0 + εδz .
La fonction d’influence
IFm(z) = limε→0
m(Pε,z)−m(P0)
ε
est une mesure de la sensibilite de la mediane a des petites perturbationsde la distribution cible.
Propriete
IFm(z) = Γ−1m
z −m
‖z −m‖et la ”gross error sensitivity” est bornee
sup{‖IFm(z)‖, z ∈ H} =1
λm.
• Cet indicateur de robustesse n’est pas borne pour la moyenne.
![Page 7: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/7.jpg)
Estimation dans Rd
Un echantillon de n realisations independantes, X1, . . . ,Xn.L’estimateur usuel de m (Gower, 1974, Vardi & Zhang, 2000, Gervini,2008) est caracterise par
n∑i=1
Xi − mn
‖Xi − mn‖= 0.
Approximations numeriques iteratives (Newton-Raphson or Weiszfeld)basees sur
n∑i=1
Xi − m
‖Xi − m‖= 0 ⇒ me+1 =
n∑i=1
pi (me) Xi .
Propriete (Haberman, 1989, Niemiro, 1992).Si H = Rd , quand n→ +∞,
√n (mn −m) N (0, Γ−1
m Var(S(X −m))Γ−1m )
ou S(u) = u/‖u‖, u ∈ Rd .
![Page 8: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/8.jpg)
Un algorithme recursif tres simple
Notre premier estimateur
mn+1 = mn + γnXn+1 −mn
‖Xn+1 −mn‖
ou les pas γn verifient ∀n, γn > 0, et∑n≥1
γn =∞ and∑n≥1
γ2n <∞.
Avantages
• Pour un echantillon de taille n de vecteurs de Rd : O(nd) operations.• Mise a jour automatique (estimation en ligne).
• Pas besoin de sauvegarder en memoire toutes les donnees.
![Page 9: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/9.jpg)
qui est un algorithme de Robbins-Monro (1951)
Cet algorithme de gradient stochastique peut aussi s’ecrire
mn+1 = mn − γn ( Φ(mn)︸ ︷︷ ︸gradient
+ζn+1),
avec ζn+1 = − Xn+1−mn
‖Xn+1−mn‖ − Φ(mn).
• Si les Xn sont i .i .d ., la suite ζn+1 est une difference de martingales,
E (ζn+1 | Fn) = 0 avec Fn = σ(X0, . . . ,Xn).
Par ailleurs,E(‖ζn+1‖2|Fn
)≤ 4.
![Page 10: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/10.jpg)
Hypotheses et commentairesA1 Le support de X n’est pas reduit a une droite.
A2 La loi de X est un melange de la forme µX = λµc + (1− λ)µd , avec
I µc verifie, ∀x ∈ H, µc({x}) = 0 et
∀A,∃CA ∈ [0,∞),∀α ∈ B(0,A), E(‖X − α‖−1
)≤ CA,
ou B(0,A) est la boule {α ∈ H, ‖α‖ ≤ A},I µd est une mesure discrete, µd =
∑i piδαi , qui ne charge pas la
mediane m. On note D the support de µd .
L’hypothese A1 assure l’unicite de la mediane (Kemperman, 1987),tandis que l’hypothese A2 est liee a la dimension. Elle implique qued ≥ 2. Elle peut se traduire en termes de petites boules
E(‖X −m‖−1
)=
∫ ∞0
P[‖X −m‖ ≤ t−1
]dt.
Si P [‖X −m‖ ≤ ε] ≤ Cεd , pour ε petit, alors
E(‖X −m‖−β
)<∞,
pour 0 ≤ β < d .
![Page 11: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/11.jpg)
Convergence dans les espaces de Hilbert
Resultat (Cardot, Cenac, Zitt 2010)Sous les hypotheses (A1) et (A2), la suite mn converge presque surementquand n tend vers l’infini,
‖mn −m‖ → 0, p.s.
Est-ce que ca marche vraiment ?
Un echantillon tire selon une loi normale
de moyenne (0, 0) et de variance
(10 33 2
).
La loi est symetrique, la mediane m est donc egale a la moyenne.
![Page 12: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/12.jpg)
Un exemple d’echantillon
-5 0 5
-4-2
02
4
X1
X2
![Page 13: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/13.jpg)
Meme pas, pour des exemples sans aucun piege ! ! !
mn+1 = mn +g
n3/4
Xn+1 −mn
‖Xn+1 −mn‖
0 2000 4000 6000 8000 10000
0.0
0.1
0.2
0.3
0.4
0.5
Iterations
MSE
RM, g=10RM, g=1AV, g=10AV, g=1
0 2000 4000 6000 8000 10000
0.00
0.02
0.04
0.06
0.08
0.10
iteration
MSE
RM, g=10RM, g=1AV, g=10AV, g=1
![Page 14: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/14.jpg)
Une formule magique : la moyennisationMoyennisation : Polyak & Juditsky (1992), ...
Considerons la moyenne des iterations passees, mn =1
n
n∑j=1
mj ,mn+1 = mn + γn
Xn+1 −mn
‖Xn+1 −mn‖mn+1 = mn +
mn+1 − mn
n + 1
Resultat (Cardot, Cenac, Zitt, 2011)• Sous les hypotheses precedentes, si γn = g/nα, 0.5 < α < 1, et pourune constante A > 0,
∃CA ∈ [0,∞),∀h ∈ B(0,A), E(‖X − (m + h)‖−2
)≤ CA.
alors √n (mn −m) N (0,∆) en distribution dans H,
ou∆ = Γ−1
m Var(S(X −m))Γ−1m
avec S(u) = u/‖u‖, u ∈ H.
![Page 15: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/15.jpg)
Est-ce que ca marche maintenant ?
200 echantillons de taille n = 2000.
g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10
0.00
0.05
0.10
0.15
0.20
0.25
Mean g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10
0.00
0.05
0.10
0.15
0.20
0.25
Averaging
![Page 16: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/16.jpg)
Comparaisons : precision et temps de calcul
Erreur d’estimation de la mediane
n=250 n=500 n=2000Estimator [Q1 median Q3] [Q1 median Q3] [Q1 median Q3]cγ = 0.2 0.45 0.60 0.80 0.38 0.53 0.69 0.25 0.35 0.47cγ = 0.6 0.21 0.29 0.40 0.15 0.21 0.29 0.06 0.09 0.12cγ = 1 0.15 0.22 0.31 0.11 0.16 0.21 0.05 0.08 0.10cγ = 2 0.15 0.21 0.30 0.09 0.15 0.20 0.05 0.07 0.10cγ = 5 0.13 0.19 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 10 0.13 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 15 0.12 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.08cγ = 25 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 50 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 75 0.14 0.20 0.27 0.09 0.14 0.19 0.05 0.07 0.09
Vardi & Zhang 0.12 0.18 0.25 0.09 0.12 0.17 0.04 0.06 0.08
En une seconde, on peut traiter, avec le langage R, un echantillon detaille
• n = 150 avec l’algorithme de Vardi & Zhang (2000)
• n = 4500 avec notre algorithme moyennise
• n = 90000 avec notre algorithme moyennise (appel a une routine C).
![Page 17: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/17.jpg)
Retour sur l’exemple des audiences individuelles
• Un echantillon de n = 5423 vecteurs Xi ∈ {0, 1}86400, (mesures a laseconde pendant 24 heures, le 6/09/2010).
![Page 18: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/18.jpg)
Mediane conditionnelleUn couple (X ,Z ) dans H × ROn note p(z) la densite de Z .
• Pour Z = z , il faut chercher le minimum en α ∈ H de la fonctionnelle
G (α, z) = p(z) E [‖Y − α‖ − ‖Y ‖|Z = z ] .
• En introduisant un noyau K et une fenetre h, une approximation
Gh(α, z) = E[
(‖Y − α‖ − ‖Y ‖) 1
hK
(Z − z
h
)]
• D’ou l’algorithme recursif initial (controle par 2 suites γn et hn),
mn+1(z) = mn(z) + γnYn+1 −mn(x)
‖Yn+1 −mn(x)‖1
hnK
(Zn+1 − z
hn
)et sa version moyennisee
mn+1(z) =1
n + 1
n+1∑i=1
mn(z).
![Page 19: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/19.jpg)
Mediane conditionnelle : convergence en loiOn considere des suites de la forme
γn = n−γ et hn = n−h
et une hypothese de regularite (avec β coef. de Holder).Resultat (Cardot, Cenac, Zitt, 2012)Si γ < 1, 2γ − h > 1, γ + βh > 1 et h > (2β + 1)−1, then :√
nhn (mn(z)−m(z)) N(
0,1
1 + hΓ−1ΣΓ−1
),
ou
Σ = p(z)
(∫K 2(u)du
)E
[(Y −m(z))⊗ (Y −m(z))
‖Y −m(z)‖2 |Z = z
]
Γ = E
[1
‖Y −m(z)‖
(IH −
(Y −m(z))⊗ (Y −m(z))
‖Y −m(z)‖2
)|Z = z
].
Remarques : une variance limite plus faible que l’approche statique(Cadre & Gannoun, 2000) ! ! !Mokkadem et al. (2009) : un resultat similaire en regression avec Y reelle.
![Page 20: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/20.jpg)
Sur l’interet pratique de la moyennisation
0.05 0.10 0.20 0.50 1.00 2.00 5.00 10.00
0.005
0.010
0.015
0.020
0.025
0.030
0.035
parameter c!
MSE
Robbins MonroAveraging
![Page 21: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/21.jpg)
Retour sur l’exemple des audiences individuelles
5 10 15 20 25
0.0
0.2
0.4
0.6
0.8
Hours
Audience
meanmedianq25q50q75q90
![Page 22: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/22.jpg)
Classification automatique non hierarchique dans Rd
On souhaite trouver une partition de Rd en k ensembles (classes)homogenes, chaque classe etant caracterisee par son centre θ` ∈ Rd ,` = 1, . . . , k, en minimisant la fonction g : Rdk 7→ R definie par
g(θ) = E(
min`=1,...,k
ϕ(‖X − θ`‖)),
ou ϕ est une fonction croissante (sur R+).
Deux cas particuliers :
• ϕ(u) = u2, conduit a proposer l’algorithme des k-means .
• ϕ(u) = |u|, conduit aux k-medians.
Une version recursive des k-means dans MacQueen (1967) et
des k-medians dans Cardot, Cenac, Monnez (2012).
![Page 23: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g](https://reader033.vdocuments.pub/reader033/viewer/2022050221/5f66dcd6e979074f6779f3ec/html5/thumbnails/23.jpg)
Quelques references
I Cadre, B. and Gannoun, A. (2000). Asymptotic normality of consistent estimateof the conditional L1-median. Pub. Inst. Stat. Univ. Paris, XXXXIV :13–33.
I Cardot, H., Cenac, P., and Zitt, P.-A. (2011). Efficient and fast estimation ofthe geometric median in Hilbert spaces with an averaged stochastic gradientalgorithm. To appear in Bernoulli.
I Cardot, H., Cenac, P. and Monnez, J-M. (2012). A fast and recursive algorithmfor clustering large datasets with k-medians. CSDA, 56, 1434-1449.
I Cardot, H., Cenac, P. and Zitt, P-A. (2012). Recursive estimation of theconditional geometric median in Hilbert spaces. Arxiv 1204.3213.
I Duflo, M. (1997). Random iterative models, volume 34 of Applications ofMathematics (New York). Springer-Verlag, Berlin.
I Kemperman, J. H. B. (1987). The median of a finite measure on a Banachspace. In Statistical data analysis based on the L1-norm and related methods(Neuchatel, 1987), pages 217–230. North-Holland, Amsterdam.
I Mokkadem, A., Pelletier, M., and Slaoui, Y. (2009). Revisiting Revesz stochasticapproximation method for the estimation of a regression function. Alea, 6,63–114.
I Polyak, B. and Juditsky, A. (1992). Acceleration of stochastic approximation.SIAM J. Control and Optimization, 30, 838–855.
I Vardi, Y. and Zhang, C.-H. (2000). The multivariate L1-median and associateddata depth. Proc. Natl. Acad. Sci. USA, 97(4) :1423–1426.