generating videos with scene dynamics
TRANSCRIPT
GeneratingvideoswithsceneDynamics
M1 桶智輝 2017/11/17
1
論⽂情報•タイトル• GeneratingvideoswithsceneDynamics
•発表学会• NIPS2016
•被参照数(2017/11/16現在)• 90件
•著者• CarlVondrick,Hamed Pirsiavash,AntonioTorralba(MIT,UniversityofMarylandBaltimoreCountry)
2
概要• 3DGANを⽤いて動画を学習
3
⽣成動画の特徴
4
⽣成動画の特徴•ある部分は静⽌し、ある部分だけ動いている
5
学習ネットワーク構成 - Generator
• ForegroundとBackgroundを分離
6
学習ネットワーク構成 - Discriminator
•⼊⼒はサイズ64x64で32フレームの動画
7
学習パラメータ• Adam(Learningrate:0.0002)• Momentum:0.5• Batchsize:64• w← N(σ2 =0.01,μ =0)
8
実験•データ• Flickrから集めた5000時間overの動画
• アノテーションはなし• 1つの動画は64x64で32フレーム分
•実験• 動画⽣成タスク• 動画認識タスク• 未来動画⽣成タスク
9
動画⽣成タスク -詳細•評価⼿法• 異なる3つのネットワークから⽣成される動画を雇った150⼈にどの動画が好きかをアンケート• ネットワーク種類
• VGANtwostream• 基本型
• VGANonestream• 基本形のGeneratorでBackgroundブランチのない型
• Autoencoder• Encoder部分はDiscriminatorの最終層が100次元Decoder部分はVGANtwostreamのGenaratorと同じ構成
10
動画⽣成タスク -結果• VGAN twostreamの動画⽣成結果
11
動画⽣成タスク -結果• GeneratorのMaskブランチ第3層を可視化• オブジェクトの位置を認識している
12
動画⽣成タスク -結果• 定量的評価• VGANtwostreamの動画を好む⼈が他⼿法の動画を好む⼈と⽐較して多かった• 現実世界の動画と⽐較した追加実験でも他⼿法よりVGANtwostreamを好む⼈が多かった
13
動画認識タスク -詳細•⾏動分類• 動画データセットUCF101の分類タスク• 他の教師なし学習の⼿法と⽐較
• VGANtwostreamで前タスクと同様に学習した後、UCF101でFinetuningしたもの
• 重みをランダムに初期化した後、UCF101でFinetuningしたもの
14
動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習
Whatcategory?
15
動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習•最終層をn-classsoftmax層に置き換え• UCF101を⽤いてカテゴリ分類問題としてFinetuning
1x1x1(n)
Whatcategory?
16
動画認識タスク -結果
•他の教師なし⼿法と⽐較するとAccuracyが⾼い•教師あり学習には⼤きく離されている• Finetuningする際のデータが少なくても有効⻘:ランダムに初期化した重みにFinetuning⾚:VGANで学習した重みにFinetuning
17
• Generatorへの⼊⼒を100次元ベクトルではなく画像を4回畳み込んだベクトルに•⼊⼒画像から32フレームの動画を⽣成
未来動画⽣成ネットワーク構成 - Genarator
18
•⾚⽮印は特に動いてる部分•背景と物体の分離が少し⾒て取れる
未来動画⽣成ネットワーク構成 - Genarator
19
未来動画⽣成ネットワーク構成 - Genarator
• Maskを可視化した結果•オブジェクトを認識できている
20
まとめ• 3DGANを⽤いて動画を学習• 背景とオブジェクトを分離するVGANtwostream• 精度はまだ不⼗分だが動画⽣成に成功• 動画⽣成だけでなく動画認識の事前学習にも有効
21