[dl輪読会]stackgan: text to photo-realistic image synthesis with stacked generative adversarial...
TRANSCRIPT
StackGAN: Text to Photo-realistic Image Synthesis with Stacked
Generative Adversarial NetworksM1 Shota SUGIHARA
書誌情報• StackGAN: Text to Photo-realistic Image Synthesis with
Stacked Generative Adversarial Networks• arXiv (https://arxiv.org/abs/1612.03242)• Submitted on 10 Dec 2016
• Authors: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, Dimitris Metaxas• 選定理由:⽣成モデルへの興味
2
概要• 多層化したGANで学習させることで,説明⽂のみから
256×256画素の画像を⽣成• GANを2段階に分ける.• Stage-I GAN
• 与えられた説明⽂とノイズから,元となる低解像度の画像を⽣成• Stage-II GAN
• 再び説明⽂の条件から,Stage-Iでの⽋損部分を修正するように⾼解像度の画像を⽣成
3
Stage-I GAN• 説明⽂をtext embedding 𝜑 𝑡 に変換• ⾼次元(𝜑 𝑡 >100次元)• 潜在変数の多様体が不連続になり,学習に好ましくない.
• Conditioning Augmentation• ガウス分布𝑁 𝜇 𝜑 𝑡 , ∑ 𝜑 𝑡�
� からランダムにサンプリング• 損失関数
5
Stage-II GAN• Stage-Iの低解像度画像を元に,⾼解像度の画像を⽣成する.• Stage-Iで⽣じた画像の歪み,情報の⽋損を修正するためtext
embedding 𝜑 𝑡 を再び条件に加える.• 損失関数• 𝑠*はStage-Iで⽣成された画像.
6
実験• テストデータは2種類• Caltech-UCSD Bird (CUB)
• 200種類の⿃を11788枚含むデータセット• Oxford-102
• 102種類の花を8189枚含むデータセット
• ⽐較対象:GAN-INT-CLS, GAWWN• 定量的評価:inception score, human rank (10⼈)
7
⽐較結果: CUB
9
• GAN-INT-CLSは⼤まかな特徴を捉えているだけであり,realisticな画像も⼗分な解像度も満たしていない.• GAWWNは条件変数を追加することでより良い結果が出たが,
説明⽂のみの条件では本物らしい画像を⽣成できない.• StackGANは説明⽂のみで,256×256画素のrealisticな画像⽣
成に成功した.
結果: Stage-I, II間• Stage-Iでは,凡そ最もらしい⾊や形を捉えているものの,細部
の⽋損や間違いが⾒られる.Stage-IIでは,詳細部分が修正され,より説明を反映した画像が⽣成されている.
12