régularisation entropique du transport optimal pour l ... · distancesrégularisation...
TRANSCRIPT
![Page 1: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/1.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Régularisation Entropique du Transport Optimalpour l’Apprentissage Statistique
Soutenance de Thèse d’Aude Genevay
DMA - Ecole Normale Supérieure - CEREMADE - Université Paris Dauphine
13 Mars 2019
Travail effectué sous la direction de Gabriel Peyré
1/51
![Page 2: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/2.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Comparer des Mesures de Probabilité
continu
discret
semi-discret
! "! "
2/51
![Page 3: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/3.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cadre Discret
From Word Embeddings To Document Distances
Matt J. Kusner [email protected] Sun [email protected] I. Kolkin [email protected] Q. Weinberger [email protected]
Washington University in St. Louis, 1 Brookings Dr., St. Louis, MO 63130
Abstract
We present the Word Mover’s Distance (WMD),a novel distance function between text docu-ments. Our work is based on recent results inword embeddings that learn semantically mean-ingful representations for words from local co-occurrences in sentences. The WMD distancemeasures the dissimilarity between two text doc-uments as the minimum amount of distance thatthe embedded words of one document need to“travel” to reach the embedded words of anotherdocument. We show that this distance metric canbe cast as an instance of the Earth Mover’s Dis-tance, a well studied transportation problem forwhich several highly efficient solvers have beendeveloped. Our metric has no hyperparametersand is straight-forward to implement. Further, wedemonstrate on eight real world document classi-fication data sets, in comparison with seven state-of-the-art baselines, that the WMD metric leadsto unprecedented low k-nearest neighbor docu-ment classification error rates.
1. IntroductionAccurately representing the distance between two docu-ments has far-reaching applications in document retrieval(Salton & Buckley, 1988), news categorization and cluster-ing (Ontrup & Ritter, 2001; Greene & Cunningham, 2006),song identification (Brochu & Freitas, 2002), and multi-lingual document matching (Quadrianto et al., 2009).
The two most common ways documents are representedis via a bag of words (BOW) or by their term frequency-inverse document frequency (TF-IDF). However, these fea-tures are often not suitable for document distances due to
Proceedings of the 32nd International Conference on MachineLearning, Lille, France, 2015. JMLR: W&CP volume 37. Copy-right 2015 by the author(s).
‘Obama’
word2vec embedding
‘President’ ‘speaks’
‘Illinois’
‘media’
‘greets’
‘press’
‘Chicago’
document 2document 1Obamaspeaks
tothemedia
inIllinois
ThePresidentgreets
thepress
inChicago
Figure 1. An illustration of the word mover’s distance. Allnon-stop words (bold) of both documents are embedded into aword2vec space. The distance between the two documents is theminimum cumulative distance that all words in document 1 needto travel to exactly match document 2. (Best viewed in color.)
their frequent near-orthogonality (Scholkopf et al., 2002;Greene & Cunningham, 2006). Another significant draw-back of these representations are that they do not capturethe distance between individual words. Take for examplethe two sentences in different documents: Obama speaksto the media in Illinois and: The President greets the pressin Chicago. While these sentences have no words in com-mon, they convey nearly the same information, a fact thatcannot be represented by the BOW model. In this case, thecloseness of the word pairs: (Obama, President); (speaks,greets); (media, press); and (Illinois, Chicago) is not fac-tored into the BOW-based distance.
There have been numerous methods that attempt to circum-vent this problem by learning a latent low-dimensional rep-resentation of documents. Latent Semantic Indexing (LSI)(Deerwester et al., 1990) eigendecomposes the BOW fea-ture space, and Latent Dirichlet Allocation (LDA) (Bleiet al., 2003) probabilistically groups similar words into top-ics and represents documents as distribution over these top-ics. At the same time, there are many competing vari-ants of BOW/TF-IDF (Salton & Buckley, 1988; Robert-son & Walker, 1994). While these approaches produce amore coherent document representation than BOW, theyoften do not improve the empirical performance of BOWon distance-based tasks (e.g., nearest-neighbor classifiers)(Petterson et al., 2010; Mikolov et al., 2013c).
word2vec embedding ~ℝ300
Obama parleauxmediadans l’Illinois
LePrésident rencontre
la presse
à Chicago
Président parle
Chicago
rencontre
presse! "Figure 1 – Exemple de représentation de données sous forme de nuage depoint (extrait de Kusner ’15)
3/51
![Page 4: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/4.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cadre Semi-discret
!4/51
![Page 5: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/5.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cadre Semi-discret
!!"#4/51
![Page 6: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/6.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cadre Semi-discret
!!"#4/51
![Page 7: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/7.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cadre Semi-discret
!"*#4/51
![Page 8: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/8.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
5/51
![Page 9: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/9.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
ϕ-divergences (Czisar ’63)
Définition (ϕ-divergence)
Soit ϕ une fonction convexe semi-continue inférieurement telle queϕ(1) = 0, la ϕ-divergence Dϕ entre deux mesures α et β est définiepar :
Dϕ(α|β)def.=
∫
Xϕ(dα(x)
dβ(x)
)dβ(x).
Exemple (Divergence de Kullback Leibler)
DKL(α|β) =
∫
Xlog
(dαdβ
(x)
)dα(x) ↔ ϕ(x) = x log(x)
6/51
![Page 10: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/10.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 1
7/51
![Page 11: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/11.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 2
7/51
![Page 12: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/12.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 3
7/51
![Page 13: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/13.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 4
7/51
![Page 14: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/14.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 5
7/51
![Page 15: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/15.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 6
7/51
![Page 16: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/16.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 7
7/51
![Page 17: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/17.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 8
7/51
![Page 18: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/18.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 9
7/51
![Page 19: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/19.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Convergence Faible de MesuresDéfinition (Convergence Faible)
Soit (αn)n ∈M1+(X )N, α ∈M1
+(X ).La suite αn converge faiblement vers α, i.e.αn ⇀ α⇔
∫f (x)dαn(x)→
∫f (x)dα(x) ∀f ∈ Cb(X ).
Soit L une distance entre mesures, L métrise la convergencefaible SSI
(L(αn, α)→ 0⇔ αn ⇀ α
).
Exemple
Sur R, α = δ0 et αn = δ1/n : DKL(αn|α) = +∞.
0 1n = 10
7/51
![Page 20: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/20.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Maximum Mean Discrepancies (Gretton’06)
Definition (RKHS)
Soit H un espace de Hilbert avec noyau k , alors H est à NoyauReproduisant (RKHS) si et seulement si :
1 ∀x ∈ X , k(x , ·) ∈ H,2 ∀f ∈ H, f (x) = 〈f , k(x , ·)〉H.
Soit H un RKHS avec noyau k , la distance MMD entre deuxmesures de probabilité α et β est définie par :
MMD2k (α, β)
def.=
(sup
{f |||f ||H61}|Eα(f (X ))− Eβ(f (Y ))|
)2
= Eα⊗α[k(X ,X ′)] + Eβ⊗β[k(Y ,Y ′)]
−2Eα⊗β[k(X ,Y )].
8/51
![Page 21: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/21.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Le Transport Optimal (Monge 1781,Kantorovitch ’42)
• Coût de déplacer une unité de masse de x vers y : c(x , y)
! "x y
π(x,y)c(x,y)
• Quel est le couplage π qui minimise le coût total de bougerTOUTE la masse de α vers β ?
9/51
![Page 22: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/22.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La distance de WassersteinSoient α ∈M1
+(X ) et β ∈M1+(Y),
Wc(α, β) = minπ∈Π(α,β)
∫
X×Yc(x , y)dπ(x , y) (P)
Pour c(x , y) = ||x − y ||p2 , Wc(α, β)1/p est la distance deWasserstein.
10/51
![Page 23: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/23.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Transport Optimal vs. MMD
MMD
estimation en O(n2)
estimation robuste paréchantillions
capte mal les phénomènes loindes zones denses
Transport Optimal
estimation en O(n3 log(n))
malédiction de ladimension
s’adapte à la géometrie duproblème via la fonction de
coût c
Wc," � " = 1, c = || · ||1.52MMDk - k = - Configuration initiale Wc," � " = 1, c = || · ||1.5
2Wc - c =
!"
#
11/51
![Page 24: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/24.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
12/51
![Page 25: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/25.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La Régularisation Entropique (Cuturi ’13)
Soient α ∈M1+(X ) et β ∈M1
+(Y),
Wc (α, β)def.= minπ∈Π(α,β)
∫
X×Yc(x , y)dπ(x , y) (P)
où
H(π|α⊗ β)def.=
∫
X×Ylog
(dπ(x , y)
dα(x)dβ(y)
)dπ(x , y).
entropie relative du plan de transport π par rapport à la mesureproduit α⊗ β.
13/51
![Page 26: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/26.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La Régularisation Entropique (Cuturi ’13)
Soient α ∈M1+(X ) et β ∈M1
+(Y),
Wc,ε(α, β)def.= minπ∈Π(α,β)
∫
X×Yc(x , y)dπ(x , y) + εDϕ(π|α⊗ β) (Pε)
où
H(π|α⊗ β)def.=
∫
X×Ylog
(dπ(x , y)
dα(x)dβ(y)
)dπ(x , y).
entropie relative du plan de transport π par rapport à la mesureproduit α⊗ β.
13/51
![Page 27: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/27.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La Régularisation Entropique (Cuturi ’13)
Soient α ∈M1+(X ) et β ∈M1
+(Y),
Wc,ε(α, β)def.= minπ∈Π(α,β)
∫
X×Yc(x , y)dπ(x , y) + εH(π|α⊗ β), (Pε)
où
H(π|α⊗ β)def.=
∫
X×Ylog
(dπ(x , y)
dα(x)dβ(y)
)dπ(x , y).
entropie relative du plan de transport π par rapport à la mesureproduit α⊗ β.
13/51
![Page 28: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/28.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La Régularisation Entropique
Figure 2 – Influence du paramètre de régularisation ε sur le plan detransport π.
Intuition : La pénalisation entropique permet de ‘lisser’ le problèmeet d’empêcher l’overfitting / sur-apprentissage (comme larégularisation ridge sur les moindres carrés)
14/51
![Page 29: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/29.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Formulation Duale
Contrairement au transport classique, pas de contrainte sur le dual :
Wc (α, β) = maxu∈C(X )v∈C(Y)
∫
Xu(x)dα(x) +
∫
Yv(y)dβ(y) (D)
tel que {u(x) + v(y) 6 c(x , y) ∀ (x , y) ∈ X × Y}
avec f xyε (u, v)def.= u(x) + v(y)− εe u(x)+v(y)−c(x,y)
ε
15/51
![Page 30: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/30.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Formulation Duale
Contrairement au transport classique, pas de contrainte sur ledual :
Wc,ε(α, β) = maxu∈C(X )v∈C(Y)
∫
Xu(x)dα(x) +
∫
Yv(y)dβ(y)
− ε∫
X×Ye
u(x)+v(y)−c(x,y)ε dα(x)dβ(y) + ε.
= maxu∈C(X )v∈C(Y)
Eα⊗β[f XYε (u, v)
]+ ε, (Dε)
avec f xyε (u, v)def.= u(x) + v(y)− εe u(x)+v(y)−c(x,y)
ε
15/51
![Page 31: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/31.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
L’Algorithme de SinkhornConditions de premier ordre pour (Dε), concave en (u, v) :
eu(x)/ε =1
∫Y e
v(y)−c(x,y)ε dβ(y)
; ev(y)/ε =1
∫X e
u(x)−c(x,y)ε dα(x)
→ (u, v) vérifient une équation de point fixe.
Algorithme de Sinkhorn
Soit Kij = e−c(xi ,yj )
ε , a = euε ,b = e
vε .
a(`+1) =1
K(b(`) � β); b(`+1) =
1KT (a(`+1) �α)
Complexité de chaque iteration : O(n2),Convergence linéaire, constante se dégrade quand ε→ 0.
16/51
![Page 32: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/32.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
L’Algorithme de Sinkhorn
Conditions de premier ordre pour (Dε), concave en (u, v) :
eui/ε =1
∑mj=1 e
vi−cijε βj
; ev j/ε =1
∑ni=1 e
ui−cijε αi
→ (u, v) vérifient une équation de point fixe.
Algorithme de Sinkhorn
Soit Kij = e−c(xi ,yj )
ε , a = euε ,b = e
vε .
a(`+1) =1
K(b(`) � β); b(`+1) =
1KT (a(`+1) �α)
Complexité de chaque iteration : O(n2),Convergence linéaire, constante se dégrade quand ε→ 0.
16/51
![Page 33: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/33.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Extensions
• Autres regularisations : Dϕ(π|α⊗ β) avec ϕ convexe dedomaine R+.→ formulation duale sous forme d’espérance
• Transport ‘unbalanced’ (mesures de masse quelconque) avecrégularisation convexe → formulation duale sous formed’espérance
17/51
![Page 34: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/34.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
18/51
![Page 35: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/35.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Les Divergences de Sinkhorn
Problème du transport entropique : Wc,ε(α, α) 6= 0Solution proposée : introduction de termes correctifs pour‘débiaiser’ le transport régularisé
Définition (Divergences de Sinkhorn)
Soient α ∈M1+(X ) et β ∈M1
+(Y),
SDc,ε(α, β)def.= Wc,ε(α, β)− 1
2Wc,ε(α, α)− 1
2Wc,ε(β, β),
19/51
![Page 36: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/36.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Propriété d’Interpolation
Théorème (G., Peyré, Cuturi ’18), (Ramdas et al. ’17)
Les Divergences de Sinkhorn ont le comportement limite suivant :
quand ε→ 0, SDc,ε(α, β)→Wc(α, β), (1)
quand ε→ +∞, SDc,ε(α, β)→ 12MMD2
−c(α, β). (2)
Remarque : Pour avoir un MMD, −c doit induire un noyau définipositif. Pour c = || · ||p2 avec 0 < p < 2, le MMD associé s’appellel’Energy Distance.
20/51
![Page 37: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/37.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Illustration Numérique
SDc," � " = 102, c = || · ||1.52SDc," � " = 1, c = || · ||1.5
2
Wc," � " = 1, c = || · ||1.52
EDp � p = 1.5Configuration Initiale
Figure 3 – But : Retrouver les positions des Diracs par descente degradient. Cercles oranges : distribution cible β, croix bleues modèle apprisαθ∗ . En haut à droite : distribution initiale αθ0 .
21/51
![Page 38: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/38.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La ‘sample complexity’
Définition informelleEtant donnée une distance entre mesures, sa sample complexitycorrespond à l’erreur d’approximation lorsque l’on évalue cettedistance à l’aide d’échantillons des mesures.
→ Mauvaise sample complexity implique mauvaise généralisation(sur-apprentissage) car on colle trop au bruit des données.
Cas connus :• TO : E|W (α, β)−W (αn, βn)| = O(n−1/d)⇒ fléau de la dimension (Dudley ’84, Weed et Bach ’18)
• MMD : E|MMD(α, β)−MMD(αn, βn)| = O( 1√n
)
⇒ indépendant de la dimension (Gretton ’06)
Quid de E|Wε(α, β)−Wε(αn, βn)| ?
22/51
![Page 39: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/39.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Propriétés des Potentiels Duaux
Théorème (G., Chizat, Bach, Cuturi, Peyré ’19)
Soient X ,Y ⊂ Rd bornés , et c ∈ C∞. Alors les paires de potentielsduaux optimales (u, v) sont uniformément bornées dans le SobolevHbd/2c+1(Rd) et leur norme vérifie
||u||Hbd/2c+1 = O
(1 +
1εbd/2c
)et ||v ||Hbd/2c+1 = O
(1 +
1εbd/2c
),
avec des constantes dépendant de |X | (ou |Y| pour v), d , et∥∥c(k)∥∥∞ pour k = 0, . . . , bd/2c+ 1.
Hbd/2c+1(Rd) est un RKHS → le dual (Dε) est la maximisationd’une espérance dans une boule d’un RKHS.
23/51
![Page 40: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/40.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
‘Sample Complexity’ des Div. de SinkhornTheorème (Bartlett-Mendelson ’02)
Soit P ∈M1+(X ) , ` une fonction B-Lipschitz et H un RKHS avec
noyau k borné sur X par K . Alors
EP
[sup
{g |||g ||H6λ}EP`(g ,X )− 1
n
n∑
i=1
`(g ,Xi )
]6 2B
λK√n.
Théorème (G., Chizat, Bach, Cuturi, Peyré ’19)
Soient X ,Y ⊂ Rd bornés , et c ∈ C∞ L-Lipschitz. Alors
E|Wε(α, β)−Wε(αn, βn)| = O
(eκε√n
(1 +
1εbd/2c
)),
où κ = 2L|X |+ ‖c‖∞ et les constantes dépendent de |X |, |Y|, d ,et∥∥c(k)
∥∥∞ pour k = 0 . . . bd/2c+ 1.
24/51
![Page 41: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/41.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
‘Sample Complexity’ des Div. de Sinkhorn
En particulier, on obtient le comportement asymptotique suivant
E|Wε(α, β)−Wε(αn, βn)| = O
(eκε
εbd/2c√n
)quand ε→ 0
E|Wε(α, β)−Wε(αn, βn)| = O
(1√n
)quand ε→ +∞.
→ On retrouve la propriété d’interpolation,→ Une régularisation assez grande casse le fléau de la dimension.
25/51
![Page 42: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/42.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
26/51
![Page 43: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/43.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Les Modèles Génératifs
!"g
(y1, . . . , ym) ⇠ �(y1, . . . , ym) ⇠ �
#" "g= # !Z
XN
27/51
![Page 44: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/44.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Formulation du Problème
• β la mesure inconnue des données :nombre fini de points (y1, . . . , yN) ∼ β
• αθ le modèle paramétrique de la forme αθdef.= gθ#ζ :
pour obtenir x ∼ αθ, on tire z ∼ ζ et on prend x = gθ(z).
On cherche le paramètre optimal θ∗ défini par
θ∗ ∈ argminθ
SDc,ε(αθ, β)
NB : αθ et β ne sont connues QUE via leurs échantillons.
28/51
![Page 45: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/45.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
La Procédure d’Optimisation
On veut résoudre par descente de gradient
minθ
SDc,ε(αθ, β)
A chaque pas de descente k lieu d’approximer ∇θSDc,ε(αθ, β) :
• on approxime SDc,ε(αθ(k) , β) par SD(L)c,ε (αθ(k) , β) via
• minibatches : on tire n échantillons selon αθ(k) et m dans le jeude données (distribuées selon β),
• L iterations de Sinkhorn : on calcule une approximation de ladistance de transport entre les deux échantillons avec unnombre fixé d’itérations
• on calcule le gradient ∇θSD(L)c,ε (αθ(k) , β) par backpropagation
• on effectue un update θ(k+1) = θ(k) − Ck∇θSD(L)c,ε (αθ(k) , β)
29/51
![Page 46: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/46.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Le Calcul du Gradient en Pratique
(z1, . . . , zn) ⇠ ⇣
Modèle Génératif
g✓
C
c(xi, yj)i,j
C
= g✓#⇣(x1, . . . , xn) ⇠ ↵✓
zi
Données
Algorithme de Sinkhorn
L Sinkhorn steps
a =1
e�C/"b
b =1
e�C/"a
yi
c(xi, xj)i,j
c(yi, yj)i,j
SDc,"(↵✓, �) = Wc,"(↵✓, �)⇣Wc,"(↵✓, ↵✓)+Wc,"(�, �)
⌘�1
2
xi⇡(L) = diag(a(L)) e�C/✏ diag(b(L))
W (L)✏ =hC,⇡(L)iW (L)
c," = hC,⇡(L)i
(y1, . . . , ym) ⇠ �
Figure 4 – Schéma d’approximation de la Divergence de Sinkhorn à partird’échantillons (ici, gθ : z 7→ x est représenté sous forme d’un réseau deneurones à 2 couches).
30/51
![Page 47: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/47.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Résultats Numériques
SDc," � " = 1, c = || · ||22Wc," � " = 1, c = || · ||22
Figure 5 – Influence de la ‘normalisation’ de la Divergence de Sinkhorn(SDε) par rapport au transport régularisé (Wε). Les données sontgénérées uniformément à l’intérieur d’une ellipse, dont on souhaiteretrouver les paramètres A, ω (covariance et centre).
31/51
![Page 48: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/48.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Résultats Numériques - MNIST
Figure 6 – Influence des hyperparametres sur les chiffres générés.gauche : ε = 1, m = 200, L = 10 ; milieu : ε = 10−1, m = 200, L = 100 ;droite : ε = 10−1,m = 10, L = 300
32/51
![Page 49: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/49.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Apprendre la fonction de coûtEn grande dimension (e.g. pour des images), la distance euclidiennen’est pas pertinente → le choix du coût c est un problèmecomplexe.
Idée : le coût doit induire de grandes valeurs pour la Divergence deSinkhorn lorsque αθ 6= β pour bien différencier les échantillonssynthétiques (selon αθ) des ‘vraies’ données (selon β). (Li et al ’18)
On apprend un coût paramétrique de la forme :
cϕ(x , y)def.= ||fϕ(x)− fϕ(y)||p where fϕ : X → Rd ′ ,
Le problème d’optimisation devient un min-max sur (θ, ϕ)
minθ
maxϕ
SDcϕ,ε(αθ, β)
→ problème de type GAN, coût c joue le rôle du discriminateur.33/51
![Page 50: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/50.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Résultats Numériques - CIFAR10
(a) MMD (b) ε = 100 (c) ε = 1
Figure 7 – Points générés par αθ∗ entrainé sur CIFAR 10
MMD (Gaussian) ε = 100 ε = 10 ε = 1
4.56± 0.07 4.81± 0.05 4.79± 0.13 4.43± 0.07
Table 1 – Inception Scores sur CIFAR10 (expériences réalisées dans lemême cadre que le papier MMD-GAN (Li et al. ’18)).
34/51
![Page 51: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/51.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
35/51
![Page 52: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/52.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Motivations
• Sinkhorn algorithme purement discret : nécessited’échantillonner les mesures au préalable
• Méthode ‘batch’ : chaque iteration coute O(n2)
Idée : exploiter la formulation du TO régularisé comme maxd’espérance avec des méthodes d’optimisation stochastique.
• nécessite seulement de pouvoir générer des points selon lesmesures → pas de biais de discrétisation
• méthodes ‘en ligne’ : chaque itération coûte O(n)
36/51
![Page 53: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/53.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Formulation Semi-Duale
Si l’une des mesures est discrète, e.g.
βdef.=
n∑
i=1
βiδyi → v = (vi )ni=1def.= (v(xi ), . . . , v(xn) ∈ Rn.
En exploitant la condition de premier ordre du dual (relation entrev et u), on obtient la formulation semi-duale :
Wc,ε(α, β) = maxv∈Rn
Eα[gXε (v)
](Sε)
où g xε (v) =
m∑
j=1
viβi+
{−ε log
(∑ni=1 exp(vi−c(x ,yi )
ε
)βi ) si ε > 0,
minj (c(x , yi )− vi ) siε = 0.
37/51
![Page 54: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/54.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Semi-Discret : SGD
On cherche à résoudre
Wc,ε(α, β) = maxv∈Rn
Eα[gXε (v)
]def.= Gε(v) (Sε)
par montée de gradient sur Gε(v).
Problème : On ne sait pas calculer le gradient (α n’est pas connue)
Idée : A chaque itération, on tire x (k) ∼ α et ∇g x(k)
ε sertd’approximation pour ∇Gε.
38/51
![Page 55: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/55.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Semi-Discret : SGD
Les itérées de SGD sont de la forme :
v(k+1) = v(k) +C√k∇vg
x(k)
ε (v(k+1)) où x (k) ∼ α. (3)
Proposition (Convergence de SGD)
Soit v∗ε un minimiseur du semi-dual et v(k) def.= 1
k
∑ki=1 v
(k) lamoyenne des itérées de SGD. Alors
|Gε(v∗ε)− Gε(v(k))| = O(1/√k).
Complexité de chaque itération O(n).
39/51
![Page 56: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/56.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Semi-Discret : SGD - Application
(a) convergence de SGD (b) comparaison de SGD (bleu)pour différentes régularisations ε contre un algorithme discret
40/51
![Page 57: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/57.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Discret : SAGDeux mesures sont discrètes : α =
∑mj=1 αjδxj ; β =
∑ni=1 βiδyi .
Le semi dual devient un problème de maximization de m fonctions :
Wc,ε(α, β) = maxv∈Rn
1m
m∑
j=1
[gxjε (v)
](Sε)
On résout le problème avec l’algorithme Stochastic AveragedGradients (SAG)→ même idée que SGD mais approximation du gradient différente.
Proposition (Convergence de SAG)
Soit v∗ε un minimiseur du problème semi-dual. Alors v(k) vérifie
|Gε(v∗ε)− Gε(v(k))| = O(1/k).
Complexité de chaque iteration O(n).41/51
![Page 58: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/58.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Discret : SAG - Application
Figure 8 – Calcul de 595 ‘word mover’s distances’ 2 à 2 pour 35documents, représentés comme des histogrammes avec n = 20, 000.
42/51
![Page 59: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/59.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Continu : Formulation Duale
Idée : Remplacer les potentiels(u, v) dans le dual par leurexpansion dans un RKHS bien choisi
u(x)← 〈u, κ(·, x)〉H v(y)← 〈v , κ(·, y)〉H
Le problème devient
Wc,ε(α, β) = maxu∈C(X ),v∈C(X )
Eα⊗β[f XYε (u, v)
]+ ε, (Dε)
avec
f xyε (u, v)def.=〈u, κ(·, x)〉H + 〈v , κ(·, y)〉H
− ε exp
(〈u, κ(·, x)〉H + 〈v , κ(·, y)〉H − c(x , y)
ε
)
43/51
![Page 60: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/60.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Continu : Kernel-SGD
Soit H un RKHS avec noyau κ. Les itérées de Kernel-SGDs’écrivent :
{u(k) def.
=∑k
i=1 w(i)κ(·, xi )
v (k) def.=∑k
i=1 w(i)κ(·, yi )),
avec
{(xi )i=1...k ∼ α(yi )i=1...k ∼ β
et w (i) def.=
C√i
(1− exp
(u(i−1)(xi ) + v (i−1)(yi )− c(xi , yi )
ε
)),
Proposition (Convergence de Kernel-SGD)
Si α et β sont à support borné dans Rd , alors pour κ le noyau deMatern ou un noyau universel (e.g. Gaussien) les itérées (u(k), v (k))convergent vers une solution du dual (Dε).
44/51
![Page 61: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/61.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Continu : Kernel-SGD - Illustration
45/51
![Page 62: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/62.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Continu : Kernel-SGD - Accélération
A l’itération k , calcul de
{u(k−1)(xk) =
∑k−1i=1 w (i)κ(xk , xi )
v (k−1)(yk) =∑k−1
i=1 w (i)κ(yk , yi )
Problème : l’itération k a un coût O(k)
Idée : remplacer le noyau κ par une approximation de la forme
κ(x , x ′) = 〈ϕ(x), ϕ(x ′)〉 où ϕ : X → Rp.
→ Le coût de chaque itération est alors fixe O(p).
Exemples : Décomposition de Cholesky, Random Fourier Features(RFF)
46/51
![Page 63: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/63.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Cas Continu : Kernel-SGD - Accélération
0 2×103 4×103 6×103 8×103 1040.0
0.5
1.0
1.5
2.0
CPU time for SGD in RKHSclassicRFF D = 10RFF D = 50RFF D = 100Cholesky I = 5Cholesky I = 10
100 101 102 103 104 105 1060.5
0.6
0.7
0.8
0.9
1.0Convergence of the dual potential u with kernel-SGD
Cholesky - I = 5Cholesky - I = 10Cholesky - I = 15RFF - D = 5RFF - D = 20RFF - D = 50RFF - D = 100classic
Figure 9 – Effets de la procédure d’accélération le temps de calcul et laprécision
→ Pour 106 itérations, kernel-SGD prend 6 heures→ L’accélération RFF avec D = 20 prend 3 minutes, et obtient lamême précison !
47/51
![Page 64: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/64.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
1 Notions de Distance entre Mesures
2 Régularisation Entropique du Transport Optimal
3 Les Divergences de Sinkhorn : Interpolation entre TO et MMD
4 Apprentissage Non-Supervisé avec les Divergences de Sinkhorn
5 Optimisation Stochastique pour le Transport Régularisé
6 Conclusion
48/51
![Page 65: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/65.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Contributions Principales• Divergences de Sinkhorn :
• Débiaisage du transport régularisé,
SDc," � " = 1, c = || · ||1.52Wc," � " = 1, c = || · ||1.5
2
• Interpolation entre TO et MMD,• Application aux modèles génératifs (type GAN) grâce à la
différentiation automatique,• Sample complexity du transport régularisé→ une régularisation suffisante casse le fléau de ladimension,
• Méthodes d’optimisation en ligne pour le transport régularisésous toutes ses formes : discret / semi-discret / continu
49/51
![Page 66: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/66.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Contributions Principales
• Divergences de Sinkhorn :• Débiaisage du transport régularisé,• Interpolation entre TO et MMD,• Application aux modèles génératifs (type GAN) grâce à la
différentiation automatique,
• Sample complexity du transport régularisé→ une régularisation suffisante casse le fléau de ladimension,
• Méthodes d’optimisation en ligne pour le transport régularisésous toutes ses formes : discret / semi-discret / continu
49/51
![Page 67: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/67.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Contributions Principales
• Divergences de Sinkhorn :• Débiaisage du transport régularisé,• Interpolation entre TO et MMD,• Application aux modèles génératifs (type GAN) grâce à la
différentiation automatique,
• Sample complexity du transport régularisé→ une régularisation suffisante casse le fléau de ladimension,
• Méthodes d’optimisation en ligne pour le transport régularisésous toutes ses formes : discret / semi-discret / continu
49/51
![Page 68: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/68.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Contributions Principales
• Divergences de Sinkhorn :• Débiaisage du transport régularisé,• Interpolation entre TO et MMD,• Application aux modèles génératifs (type GAN) grâce à la
différentiation automatique,
• Sample complexity du transport régularisé→ une régularisation suffisante casse le fléau de ladimension,
• Méthodes d’optimisation en ligne pour le transport régularisésous toutes ses formes : discret / semi-discret / continu
49/51
![Page 69: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/69.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
En bref
Les Divergences de Sinkhorn présentent de bonnes propriétés pourles applications en apprentissage statistique, comme illustré sur lesmodèles génératifs :• propriétés géométriques héritées du transport• meilleure sample complexity grâce à la régularisation• algorithmes rapides pour l’utilisation dans les problèmes de ML.
50/51
![Page 70: Régularisation Entropique du Transport Optimal pour l ... · DistancesRégularisation EntropiqueDivergences de SinkhornApprentissageOptim. StochastiqueConclusion Cadre Discret From](https://reader033.vdocuments.pub/reader033/viewer/2022041520/5e2d90615e8d3b7f251c0e88/html5/thumbnails/70.jpg)
Distances Régularisation Entropique Divergences de Sinkhorn Apprentissage Optim. Stochastique Conclusion
Perspectives
• Barycentres de Divergences de Sinkhorn→ effet du débiaisage sur le barycentre ?
• Evaluation des modèles génératifs en utilisant les DS commemétrique sur les modèles appris
• Peut-on casser le fléau de la dimension pour l’estimation duTransport Optimal (non régularisé) ?
51/51