cvpr 2015 論文紹介(ntt研究所内勉強会用資料)

26
Copyright©2015 NTT corp. All Rights Reserved. ベベベベベベ CVPR ベベベ ベベ × ベベベベベベベベベ ベベ ベベベベ

Upload: -

Post on 15-Aug-2015

863 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

Copyright©2015 NTT corp. All Rights Reserved.

ベイズ勉強会

CVPR 読み会(画像 × 言語を中心に)

基メ部 基識G 牛久祥孝

Page 2: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

2Copyright©2015 NTT corp. All Rights Reserved.

CVPR2015 (6 月 7 日~ 12 日 )

カメラレディ論文公開: 5/24 ~• 個人 web ページで先んじて公開している• arXiv にも投稿する文化が広まりつつある

画像と自然言語、そして深層学習を中心にいくつかの論文を紹介

Page 3: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

3Copyright©2015 NTT corp. All Rights Reserved.

次々見つかる Deep Learning の応用先

• 画像認識 [Krizhevsky+, NIPS 2012]– 1000 クラス 130 万枚

• 機械翻訳 [Sutskever+, NIPS 2014]– 英仏 1200 万対訳対

Page 4: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

4Copyright©2015 NTT corp. All Rights Reserved.

• Google のやつのニュース

Page 5: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

5Copyright©2015 NTT corp. All Rights Reserved.

日本でも反響

• Gigazine 、「 Google が画像の説明文章を自動生成する技術を開発」、 2014 年 11月 19 日

• TechCrunch Japan 、「複雑な画像のキャプション(説明文)を自動生成するシステムを Google が研究開発中」、 2014 年 11月 19 日

• 日経 BP 、「 MS や Google が研究、画像説明文の自動生成機能」、 2014 年 11 月21 日

Page 6: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

6Copyright©2015 NTT corp. All Rights Reserved.

今年の CVPR のオーラルセッション

CNN 特化セッション(去年もあった)

画像と言語セッション( New! )

Page 7: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

7Copyright©2015 NTT corp. All Rights Reserved.

今年の CVPR のオーラルセッション

CNN 特化セッション(去年もあった)

画像と言語セッション( New! )

Neural Network による説明文生成が同時に 3 本オーラル発表ポスターでも MSR 等が説明文生成

Page 8: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

Copyright©2015 NTT corp. All Rights Reserved.

紹介論文1. Show and Tell: A Neural Image Caption

Generator [Vinyals+, CVPR 2015]2. Long-term Recurrent Convolutional Networks

for Visual Recognition and Description [Donahue+, CVPR 2015]

3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]

Page 9: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

9Copyright©2015 NTT corp. All Rights Reserved.

これまでの説明文生成

• これまでは、やや前時代的な組合せ– 他の画像の説明文をそのまま流用

[Farhadi+, ECCV 2010][Hodosh+, 2013]– 物体や動作、シーンを推定→テンプレートに

そって文生成[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]

Page 10: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

10Copyright©2015 NTT corp. All Rights Reserved.

Google NIC [Vinyals+, CVPR 2015]

Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]

• LSTM [Sutskever+, NIPS 2014]

を直列させて文生成する。

画像への文(単語列)は意味する単語

を意味する単語

Page 11: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

11Copyright©2015 NTT corp. All Rights Reserved.

生成された説明文の例

Page 12: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

12Copyright©2015 NTT corp. All Rights Reserved.

LRCN [Donahue+, CVPR 2015]

• CNN+stacked LSTM– 動作認識(下図左)– 画像説明文生成(下図中央)– 動画説明文生成(下図右)

Page 13: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

13Copyright©2015 NTT corp. All Rights Reserved.

生成された説明文の例

Page 14: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

14Copyright©2015 NTT corp. All Rights Reserved.

Visual-Semantic Alignments[Karpathy+Fei-Fei, CVPR 2015]

• 画像説明文生成は CNN+Bidirectional RNN– 他の手法とほぼ同一– 並列で Visual Semantic  Alignment を提案

Page 15: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

15Copyright©2015 NTT corp. All Rights Reserved.

画像領域と文の一部とのアライメント

Image-sentence score (右図)画像領域・説明文単語、

から計算

対応する画像・説明文ペアの score> 非対応ペアの score になるよう学習

Page 16: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

16Copyright©2015 NTT corp. All Rights Reserved.

アライメントの例

Page 17: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

17Copyright©2015 NTT corp. All Rights Reserved.

お互いにとても似ている

CNN(画像特徴量) RNN(文生成)Google NIC GoogLeNet ( 22 層

CNN )Fine Tuning あり

LSTM

LRCN VGG Net ( 19 層 CNN )Fine Tuning あり

Stacked LSTMs

Visual-Semantic Alignment AlexNet ( 7 層 CNN )Fine Tuning なし

BRNN → LSTM

表: Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較

Page 18: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

18Copyright©2015 NTT corp. All Rights Reserved.

[Ushiku+, ACM MM 2012] と比べると入力画像

[Ushiku+, ACM MM 2012] では:Fisher Vector + 線形分類オンライン学習

CVPR 2015 の各論文では:CNN (オンライン学習なのは一緒)

CVPR 2015 の各論文では:RNN とビームサーチで文をつなぐ

[Ushiku+, ACM MM 2012] では:キーフレーズと文法モデル、ビームサーチで文をつなぐ

文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に

尽く引用されていないが、全体の流れは非常に似ている

“ キーフレーズ”

Page 19: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

Copyright©2015 NTT corp. All Rights Reserved.

紹介論文4. Deep Neural Networks are Easilly Fooled:

High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015]

5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]

Page 20: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

20Copyright©2015 NTT corp. All Rights Reserved.

何の画像でしょうか?

Page 21: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

21Copyright©2015 NTT corp. All Rights Reserved.

何の画像でしょうか?

Page 22: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

22Copyright©2015 NTT corp. All Rights Reserved.

だまし画像生成 [Nguyen+, CVPR 2015]

Page 23: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

23Copyright©2015 NTT corp. All Rights Reserved.

だまし画像生成 [Nguyen+, CVPR 2015]

• 進化アルゴリズムを利用– 特定のクラスへの confidence が 99.99% にな

るように1. ピクセルごとにランダム初期値→進化2. 画像を生成する Neural Net を進化 [Stanley,

2007]

Page 24: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

24Copyright©2015 NTT corp. All Rights Reserved.

特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]

• [Nguyen+, CVPR 2015] は出力のみを見て画像を生成 – CNN の途中のレイヤーなどは無視– 各層での学習結果を直接可視化出来るか?

• 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・

– Max pooling したユニットの情報が必要– ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]

Page 25: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

25Copyright©2015 NTT corp. All Rights Reserved.

特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]

画像の正則化今の画像の特徴量

目的の特徴量画素(タテ xヨコ x チャネル数)

損失関数        =

正則化項     =

Page 26: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

26Copyright©2015 NTT corp. All Rights Reserved.

特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]

• 勾配降下法によって最適化

を入力したときの

の各レイヤを可視化すると・・・