generating videos with scene dynamics

21
Generating videos with scene Dynamics M1 桶智輝 2017/11/17 1

Upload: harmonylab

Post on 24-Jan-2018

273 views

Category:

Engineering


5 download

TRANSCRIPT

Page 1: Generating Videos with Scene Dynamics

GeneratingvideoswithsceneDynamics

M1 桶智輝 2017/11/17

1

Page 2: Generating Videos with Scene Dynamics

論⽂情報•タイトル• GeneratingvideoswithsceneDynamics

•発表学会• NIPS2016

•被参照数(2017/11/16現在)• 90件

•著者• CarlVondrick,Hamed Pirsiavash,AntonioTorralba(MIT,UniversityofMarylandBaltimoreCountry)

2

Page 3: Generating Videos with Scene Dynamics

概要• 3DGANを⽤いて動画を学習

3

Page 4: Generating Videos with Scene Dynamics

⽣成動画の特徴

4

Page 5: Generating Videos with Scene Dynamics

⽣成動画の特徴•ある部分は静⽌し、ある部分だけ動いている

5

Page 6: Generating Videos with Scene Dynamics

学習ネットワーク構成 - Generator

• ForegroundとBackgroundを分離

6

Page 7: Generating Videos with Scene Dynamics

学習ネットワーク構成 - Discriminator

•⼊⼒はサイズ64x64で32フレームの動画

7

Page 8: Generating Videos with Scene Dynamics

学習パラメータ• Adam(Learningrate:0.0002)• Momentum:0.5• Batchsize:64• w← N(σ2 =0.01,μ =0)

8

Page 9: Generating Videos with Scene Dynamics

実験•データ• Flickrから集めた5000時間overの動画

• アノテーションはなし• 1つの動画は64x64で32フレーム分

•実験• 動画⽣成タスク• 動画認識タスク• 未来動画⽣成タスク

9

Page 10: Generating Videos with Scene Dynamics

動画⽣成タスク -詳細•評価⼿法• 異なる3つのネットワークから⽣成される動画を雇った150⼈にどの動画が好きかをアンケート• ネットワーク種類

• VGANtwostream• 基本型

• VGANonestream• 基本形のGeneratorでBackgroundブランチのない型

• Autoencoder• Encoder部分はDiscriminatorの最終層が100次元Decoder部分はVGANtwostreamのGenaratorと同じ構成

10

Page 11: Generating Videos with Scene Dynamics

動画⽣成タスク -結果• VGAN twostreamの動画⽣成結果

11

Page 12: Generating Videos with Scene Dynamics

動画⽣成タスク -結果• GeneratorのMaskブランチ第3層を可視化• オブジェクトの位置を認識している

12

Page 13: Generating Videos with Scene Dynamics

動画⽣成タスク -結果• 定量的評価• VGANtwostreamの動画を好む⼈が他⼿法の動画を好む⼈と⽐較して多かった• 現実世界の動画と⽐較した追加実験でも他⼿法よりVGANtwostreamを好む⼈が多かった

13

Page 14: Generating Videos with Scene Dynamics

動画認識タスク -詳細•⾏動分類• 動画データセットUCF101の分類タスク• 他の教師なし学習の⼿法と⽐較

• VGANtwostreamで前タスクと同様に学習した後、UCF101でFinetuningしたもの

• 重みをランダムに初期化した後、UCF101でFinetuningしたもの

14

Page 15: Generating Videos with Scene Dynamics

動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習

Whatcategory?

15

Page 16: Generating Videos with Scene Dynamics

動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習•最終層をn-classsoftmax層に置き換え• UCF101を⽤いてカテゴリ分類問題としてFinetuning

1x1x1(n)

Whatcategory?

16

Page 17: Generating Videos with Scene Dynamics

動画認識タスク -結果

•他の教師なし⼿法と⽐較するとAccuracyが⾼い•教師あり学習には⼤きく離されている• Finetuningする際のデータが少なくても有効⻘:ランダムに初期化した重みにFinetuning⾚:VGANで学習した重みにFinetuning

17

Page 18: Generating Videos with Scene Dynamics

• Generatorへの⼊⼒を100次元ベクトルではなく画像を4回畳み込んだベクトルに•⼊⼒画像から32フレームの動画を⽣成

未来動画⽣成ネットワーク構成 - Genarator

18

Page 19: Generating Videos with Scene Dynamics

•⾚⽮印は特に動いてる部分•背景と物体の分離が少し⾒て取れる

未来動画⽣成ネットワーク構成 - Genarator

19

Page 20: Generating Videos with Scene Dynamics

未来動画⽣成ネットワーク構成 - Genarator

• Maskを可視化した結果•オブジェクトを認識できている

20

Page 21: Generating Videos with Scene Dynamics

まとめ• 3DGANを⽤いて動画を学習• 背景とオブジェクトを分離するVGANtwostream• 精度はまだ不⼗分だが動画⽣成に成功• 動画⽣成だけでなく動画認識の事前学習にも有効

21