generating videos with scene dynamics

GeneratingvideoswithsceneDynamics

M1 桶智輝 2017/11/17

1

論⽂情報•タイトル• GeneratingvideoswithsceneDynamics

•発表学会• NIPS2016

•被参照数（2017/11/16現在）• 90件

•著者• CarlVondrick,Hamed Pirsiavash,AntonioTorralba(MIT,UniversityofMarylandBaltimoreCountry)

2

概要• 3DGANを⽤いて動画を学習

3

⽣成動画の特徴

4

⽣成動画の特徴•ある部分は静⽌し、ある部分だけ動いている

5

学習ネットワーク構成 - Generator

• ForegroundとBackgroundを分離

6

学習ネットワーク構成 - Discriminator

•⼊⼒はサイズ64x64で32フレームの動画

7

学習パラメータ• Adam(Learningrate:0.0002)• Momentum:0.5• Batchsize:64• w← N(σ2 =0.01,μ =0)

8

実験•データ• Flickrから集めた5000時間overの動画

• アノテーションはなし• 1つの動画は64x64で32フレーム分

•実験• 動画⽣成タスク• 動画認識タスク• 未来動画⽣成タスク

9

動画⽣成タスク -詳細•評価⼿法• 異なる3つのネットワークから⽣成される動画を雇った150⼈にどの動画が好きかをアンケート• ネットワーク種類

• VGANtwostream• 基本型

• VGANonestream• 基本形のGeneratorでBackgroundブランチのない型

• Autoencoder• Encoder部分はDiscriminatorの最終層が100次元Decoder部分はVGANtwostreamのGenaratorと同じ構成

10

動画⽣成タスク -結果• VGAN twostreamの動画⽣成結果

11

動画⽣成タスク -結果• GeneratorのMaskブランチ第3層を可視化• オブジェクトの位置を認識している

12

動画⽣成タスク -結果• 定量的評価• VGANtwostreamの動画を好む⼈が他⼿法の動画を好む⼈と⽐較して多かった• 現実世界の動画と⽐較した追加実験でも他⼿法よりVGANtwostreamを好む⼈が多かった

13

動画認識タスク -詳細•⾏動分類• 動画データセットUCF101の分類タスク• 他の教師なし学習の⼿法と⽐較

• VGANtwostreamで前タスクと同様に学習した後、UCF101でFinetuningしたもの

• 重みをランダムに初期化した後、UCF101でFinetuningしたもの

14

動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習

Whatcategory?

15

動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習•最終層をn-classsoftmax層に置き換え• UCF101を⽤いてカテゴリ分類問題としてFinetuning

1x1x1(n)

Whatcategory?

16

動画認識タスク -結果

•他の教師なし⼿法と⽐較するとAccuracyが⾼い•教師あり学習には⼤きく離されている• Finetuningする際のデータが少なくても有効⻘：ランダムに初期化した重みにFinetuning⾚：VGANで学習した重みにFinetuning

17

• Generatorへの⼊⼒を100次元ベクトルではなく画像を4回畳み込んだベクトルに•⼊⼒画像から32フレームの動画を⽣成

未来動画⽣成ネットワーク構成 - Genarator

18

•⾚⽮印は特に動いてる部分•背景と物体の分離が少し⾒て取れる


19


• Maskを可視化した結果•オブジェクトを認識できている

20

まとめ• 3DGANを⽤いて動画を学習• 背景とオブジェクトを分離するVGANtwostream• 精度はまだ不⼗分だが動画⽣成に成功• 動画⽣成だけでなく動画認識の事前学習にも有効

21

generating videos with scene dynamics

Engineering