leveraging visual question answeringfor image-caption ranking （関東cv勉強会 eccv 2016...

ECCV 2016読み会　Leveraging Visual Question Answering

for Image-Caption Ranking

牛久祥孝losnuevetoros

お前は誰だ？～ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ～ 2016.3NTT コミュニケーション科学基礎研究所

2016.4 ～東京大学大学院情報理工学系研究科知能機械情報学専攻講師 ( 原田・牛久研究室 )

転職して 9 か月教員であることにも慣れました

牛久学生B

学生A

学生に慕われる教員の図


牛久学生B

学生A

学生に慕われる教員の図牛久さん今日の服装チャラいっすねｗｗｗ（※ユニクロです）

学生B


牛久学生A

学生に弄ばれる教員の図牛久さん今日の服装チャラいっすねｗｗｗ（※ユニクロです）

なんか今日は先生の服、メンナクっぽさがないですね。（※身に覚えがない）

関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会• 2016 年 2 月 ICCV 読み会

• 2016 年 7 月 CVPR 読み会• 2016 年 12 月 ECCV 読み会 ←いまここ

関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会　弱教師あり物体検出の研究• 2016 年 2 月 ICCV 読み会　カフェラテいれる際に、スチームミルクを　作り忘れていたらアラートだす研究• 2016 年 7 月 CVPR 読み会　飲んだくれの画像を生成する研究• 2016 年 12 月 ECCV 読み会 ←いまここ

危惧される批判：あいつ変な論文しか読めないんじゃね？• 論文に数式出てこないし• 専門分野もってなさそうだし• 服装チャラいらしいし

本日の論文• 自分の専門分野（視覚 × 言語の融合）から• しっかりした研究を


Visual Question Answering をImage-Caption Ranking に活用する…？

本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果

Every Picture Tells a Story [Farhadi+, ECCV 2010]

世界初の画像入力→キャプション出力論文1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して、まるごと再利用

<Horse, Ride, Field>

Every Picture Tells a Story [Farhadi+, ECCV 2010]

再利用？新規生成？

• 再利用• 新規生成– テンプレート主語＋動詞の文を生成しよう– 非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力データセット


• 再利用– A small gray dog on a leash.

• 新規生成– テンプレート主語＋動詞の文を生成しよう– 非テンプレート







• 新規生成– テンプレート

dog ＋ stand A dog stands.⇒– 非テンプレート







• 新規生成– テンプレート

dog ＋ stand A dog stands.⇒– 非テンプレート

A small white dog standing on a leash.





cf. 非テンプレート型新規キャプション生成画像の内容を表す少数の単語列（フレーズ）の推定＋単語列を文法モデルによって連結→キャプション

[Ushiku+, ACM MM 2012]

最近の Neural Image Captioning との比較[Wu+, CVPR 2016][You+, CVPR 2016]

1. 単語 / 単語列を推定する部分　 FV+SVM か CNN かの違い2. 文法モデルを含めて連結する部分　対数線形モデルか RNN かの違い

Image-Caption Ranking

画像キャプション再利用アプローチの別名全部での画像 or キャプションが存在するとする

• 画像クエリによるキャプション検索– 画像にキャプションが再利用される確率を定義

• 逆：キャプションによる画像検索

ある画像とキャプションの関連の強さ

今日紹介する論文では…Multimodal Neural Language Models [Kiros+, TACL 2015] を採用

: 画像特徴量19 層 VGGNet の出力 4096 次元

: キャプション特徴量隠れ層 1024 次元の GRU による RNN の出力 1024 次元: 学習する線形変換画像特徴からキャプション特徴への変換に相当

Visual Question Answering (VQA)画像に関する質問に答える QA システム• Visual Turing Challenge [MalinowskiL+Fritz, 2014]

• VQA ChallengeCVPR 2016 併設のコンペティション（弊研究室： Abstract Image 部門で世界 1 位）

[Malinowski+, ICCV 2015]

よくある手口： VQA= 多クラス分類問題

質問文What objects arefound on the bed?

応答bed sheets, pillow

画像画像特徴量

質問特徴量

統合された表現ベクトル

表現ベクトル通常のクラス識別

今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA モデル

（は要素積）

:19 層 VGGNet の出力 4096 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス

キャプション + 質問に答える VQA-Caption

言語データのみ用いる質問応答 (QA) システム

質問文What kind of foodIs in the picture?

応答pizza

キャプションA couple of pieces ofpizza with vegetableslices on them.

キャプション特徴量

質問特徴量

統合された表現ベクトル

今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA-Caption モデル

（は要素積）

: 最頻 1000 単語による bag-of-words モデル 1000 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス

着眼

多くの VQA 事例を学習したシステム→画像キャプション生成も得意なのでは？

What is the colourof the comforter? blue, white

What is on therefrigerator? magnet, paper

What objectsare found onthe bed?

bed sheets, pillow


Visual Question Answering をImage-Caption Ranking に活用する…？

本日の論文の概要• VQA を中間表現（後述）に用いることを提案– VQA モデル→画像の中間表現– VQA-Caption モデル→キャプションの中間表現

• Image-Caption Ranking で用いる特徴量に追加→検索精度が向上した– 入力画像に対するキャプション検索– 入力キャプションに対する画像検索

関連研究：中間表現• Semantic Mid-Level Visual Representations

Attributes, Parts, Poselets, Objects, Actions, Contextual information

• 中間表現を用いるメリット–既存タスクの高精度化– Zero-shot learning (↓ は [Elhoseiny+, ICCV 2013])

本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼

がならの値は 0 に近い

がならの値は負の値

𝑢𝐼(3)=log 𝑃 𝐼(Yes∨Is it clean ? , 𝐼)


がならの値は…？


𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )


がなら値は 0 に近い（シーンとして、もし men がいたら　どうなるかということで決まる）


𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )

本論文が提案する中間表現キャプション側の VQA-Caption アクティべーション番目の成分𝑢𝐶

がなら値は 0 に近い


𝑢𝐶(5)=log 𝑃𝐶 (Pizza∨What kind of food is in the picture ? ,𝐶)

A couple of pieces of pizza with vegetable slices on them.

Two boats on shore near an ocean.

中間表現を元の特徴と統合したい• （再掲）

最後に統合： Score-level fusion

• （再掲）

少し先に統合： Representation-level fusion

実験設定• MS COCO データセット– 8万強のキャプション付き画像で学習– 5000枚のテストデータ

• VQA データセット–実は MS COCO の画像を利用したデータセット– VQA中間表現： 1000枚の訓練用画像から 3つずつ QA例をサンプリング→ 3000 次元の表現ベクトル

• 評価方法– Image-Caption Ranking としての評価– Recall@(1,5,10)

State-of-the-art の成績一覧

本論文が Baseline として採用しているMultimodal Neural Language Models [Kiros+, TACL 2015]

State-of-the-art との比較 Score-level fusion 2 パターン• VQA-grounded only: 中間表現のみ利用• VQA-aware: Score-level fusion そのもの

State-of-the-art との比較 Representation-level fusion 2 パターン• VQA-agnostic: もとの特徴量のみ利用• VQA-aware: Representation-level fusion そのもの

… あれ？

2 つの手法の差は何？• どっちも「もとの特徴量のみ使用」のはず• でも下の方が精度が高い

2つの VQA-agnostic• Multimodal Neural Language Models [Kiros+, TACL 2015]

• Representation-level fusion VQA-agnosticさらに 1回の線形変換と活性化関数を経ている→より deep になり、精度が向上している

定性的な比較（画像検索）提案手法がうまくいった例

提案手法で失敗するようになった例

定性的な比較（画像検索）提案手法がうまくいった例

提案手法で失敗するようになった例

論文による考察「提案手法の VQA中間表現によって、 bat と言われると helmet も写った画像を探すようになった。」

どちらの中間表現も寄与しているの？• Deeper VQA-agnostic

• xxx-only representation-level fusion– どちらかの中間表現のみを用いた場合

• Full representation-level fusion

VQA で学習したなら Caption の学習は不要？• 画像当たりのキャプションの数と精度

• キャプションが多いほうが精度が高い– VQA で学習しても多くのキャプションが必要– VQA とキャプションで持つ情報が異なる

中間表現はどれくらいの次元にすればいい？

まとめと所感• VQA を中間表現（後述）に用いることを提案• Image-Caption Ranking で用いる特徴量に追加– 検索精度が向上した–ほかのタスクにも有用である可能性はある

• 「我々の知る限り最高精度」 by 著者– 画像検索は [Wang+, CVPR 2016] のほうが上

• 危惧は解消できたか– 専門分野もってなさそうだし– 論文に数式出てこないし

leveraging visual question answeringfor image-caption ranking （関東cv勉強会 eccv 2016...

Engineering