leveraging visual question answeringfor image-caption ranking (関東cv勉強会 eccv 2016...
TRANSCRIPT
![Page 1: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/1.jpg)
ECCV 2016読み会 Leveraging Visual Question Answering
for Image-Caption Ranking
牛久 祥孝losnuevetoros
![Page 2: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/2.jpg)
お前は誰だ?~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成
• 大規模画像分類
2014.4 ~ 2016.3NTT コミュニケーション科学基礎研究所
2016.4 ~ 東京大学 大学院情報理工学系研究科知能機械情報学専攻 講師 ( 原田・牛久研究室 )
![Page 3: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/3.jpg)
転職して 9 か月教員であることにも慣れました
牛久学生B
学生A
学生に慕われる教員の図
![Page 4: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/4.jpg)
転職して 9 か月教員であることにも慣れました
牛久学生B
学生A
学生に慕われる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)
![Page 5: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/5.jpg)
学生B
転職して 9 か月教員であることにも慣れました
牛久学生A
学生に弄ばれる教員の図牛久さん今日の服装チャラいっすねwww(※ユニクロです)
なんか今日は先生の服、メンナクっぽさがないですね。(※身に覚えがない)
![Page 6: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/6.jpg)
関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会• 2016 年 2 月 ICCV 読み会
• 2016 年 7 月 CVPR 読み会• 2016 年 12 月 ECCV 読み会 ←いまここ
![Page 7: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/7.jpg)
関東 CV 勉強会の幹事です国際会議読み会はこの 2 年皆勤賞• 2015 年 6 月 CVPR 読み会 弱教師あり物体検出の研究• 2016 年 2 月 ICCV 読み会 カフェラテいれる際に、スチームミルクを 作り忘れていたらアラートだす研究• 2016 年 7 月 CVPR 読み会 飲んだくれの画像を生成する研究• 2016 年 12 月 ECCV 読み会 ←いまここ
![Page 8: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/8.jpg)
危惧される批判:あいつ変な論文しか読めないんじゃね?• 論文に数式出てこないし• 専門分野もってなさそうだし• 服装チャラいらしいし
![Page 9: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/9.jpg)
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
![Page 10: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/10.jpg)
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
Visual Question Answering をImage-Caption Ranking に活用する…?
![Page 11: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/11.jpg)
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
![Page 12: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/12.jpg)
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
![Page 13: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/13.jpg)
Every Picture Tells a Story [Farhadi+, ECCV 2010]
世界初の画像入力→キャプション出力論文1. 画像の <object, action, scene> を MRF で推定
2. <object, action, scene> が同じキャプションを検索して、まるごと再利用
<Horse, Ride, Field>
![Page 14: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/14.jpg)
Every Picture Tells a Story [Farhadi+, ECCV 2010]
![Page 15: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/15.jpg)
再利用?新規生成?
• 再利用• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 16: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/16.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート主語+動詞の文を生成しよう– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 17: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/17.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート
dog + stand A dog stands.⇒– 非テンプレート
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 18: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/18.jpg)
再利用?新規生成?
• 再利用– A small gray dog on a leash.
• 新規生成– テンプレート
dog + stand A dog stands.⇒– 非テンプレート
A small white dog standing on a leash.
A small gray dogon a leash.
A black dogstanding in grassy area.
A small white dogwearing a flannelwarmer.
入力 データセット
![Page 19: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/19.jpg)
cf. 非テンプレート型新規キャプション生成画像の内容を表す少数の単語列(フレーズ)の推定+単語列を文法モデルによって連結→キャプション
[Ushiku+, ACM MM 2012]
最近の Neural Image Captioning との比較[Wu+, CVPR 2016][You+, CVPR 2016]
1. 単語 / 単語列を推定する部分 FV+SVM か CNN かの違い2. 文法モデルを含めて連結する部分 対数線形モデルか RNN かの違い
![Page 20: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/20.jpg)
Image-Caption Ranking
画像キャプション再利用アプローチの別名全部での画像 or キャプションが存在するとする
• 画像クエリによるキャプション検索– 画像にキャプションが再利用される確率を定義
• 逆:キャプションによる画像検索
ある画像とキャプションの関連の強さ
![Page 21: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/21.jpg)
今日紹介する論文では…Multimodal Neural Language Models [Kiros+, TACL 2015] を採用
: 画像特徴量19 層 VGGNet の出力 4096 次元
: キャプション特徴量隠れ層 1024 次元の GRU による RNN の出力 1024 次元: 学習する線形変換画像特徴からキャプション特徴への変換に相当
![Page 22: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/22.jpg)
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
![Page 23: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/23.jpg)
Visual Question Answering (VQA)画像に関する質問に答える QA システム• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA ChallengeCVPR 2016 併設のコンペティション(弊研究室: Abstract Image 部門で世界 1 位)
[Malinowski+, ICCV 2015]
![Page 24: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/24.jpg)
よくある手口: VQA= 多クラス分類問題
質問文What objects arefound on the bed?
応答bed sheets, pillow
画像 画像特徴量
質問特徴量
統合された表現ベクトル
表現ベクトル通常のクラス識別
![Page 25: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/25.jpg)
今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA モデル
(は要素積)
:19 層 VGGNet の出力 4096 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス
![Page 26: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/26.jpg)
キャプション + 質問に答える VQA-Caption
言語データのみ用いる質問応答 (QA) システム
質問文What kind of foodIs in the picture?
応答pizza
キャプションA couple of pieces ofpizza with vegetableslices on them.
キャプション特徴量
質問特徴量
統合された表現ベクトル
![Page 27: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/27.jpg)
今日紹介する論文では…VQA 原著論文のモデル [Antol+, ICCV 2015] を採用VQA-Caption モデル
(は要素積)
: 最頻 1000 単語による bag-of-words モデル 1000 次元: 隠れ層 512 次元の LSTM による RNN2 層の出力 2048 次元: 表現ベクトル 1024 次元: 学習する線形変換とバイアス
![Page 28: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/28.jpg)
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
![Page 29: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/29.jpg)
着眼
多くの VQA 事例を学習したシステム→画像キャプション生成も得意なのでは?
What is the colourof the comforter? blue, white
What is on therefrigerator? magnet, paper
What objectsare found onthe bed?
bed sheets, pillow
![Page 30: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/30.jpg)
本日の論文• 自分の専門分野(視覚 × 言語の融合)から• しっかりした研究を
Visual Question Answering をImage-Caption Ranking に活用する…?
![Page 31: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/31.jpg)
本日の論文の概要• VQA を中間表現(後述)に用いることを提案– VQA モデル→画像の中間表現– VQA-Caption モデル→キャプションの中間表現
• Image-Caption Ranking で用いる特徴量に追加→検索精度が向上した– 入力画像に対するキャプション検索– 入力キャプションに対する画像検索
![Page 32: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/32.jpg)
関連研究:中間表現• Semantic Mid-Level Visual Representations
Attributes, Parts, Poselets, Objects, Actions, Contextual information
• 中間表現を用いるメリット–既存タスクの高精度化– Zero-shot learning (↓ は [Elhoseiny+, ICCV 2013])
![Page 33: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/33.jpg)
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が ならの値は 0 に近い
が ならの値は負の値
𝑢𝐼(3)=log 𝑃 𝐼(Yes∨Is it clean ? , 𝐼)
![Page 34: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/34.jpg)
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が ならの値は…?
が ならの値は負の値
𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )
![Page 35: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/35.jpg)
本論文が提案する中間表現画像側の VQA アクティべーション番目の成分𝑢𝐼
が なら値は 0 に近い(シーンとして、もし men がいたら どうなるかということで決まる)
が ならの値は負の値
𝑢𝐼(9)=log 𝑃 𝐼(Helmets∨What are the men wearing on their heads? , 𝐼 )
![Page 36: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/36.jpg)
本論文が提案する中間表現キャプション側の VQA-Caption アクティべーション番目の成分𝑢𝐶
が なら値は 0 に近い
が ならの値は負の値
𝑢𝐶(5)=log 𝑃𝐶 (Pizza∨What kind of food is in the picture ? ,𝐶)
A couple of pieces of pizza with vegetable slices on them.
Two boats on shore near an ocean.
![Page 37: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/37.jpg)
中間表現を元の特徴と統合したい• (再掲)
![Page 38: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/38.jpg)
最後に統合: Score-level fusion
• (再掲)
![Page 39: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/39.jpg)
少し先に統合: Representation-level fusion
![Page 40: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/40.jpg)
本日の流れ• Image-Caption Ranking とは• Visual Question Answering とは• 本研究の着想と手法• 実験結果
![Page 41: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/41.jpg)
実験設定• MS COCO データセット– 8万強のキャプション付き画像で学習– 5000枚のテストデータ
• VQA データセット–実は MS COCO の画像を利用したデータセット– VQA中間表現: 1000枚の訓練用画像から 3つずつ QA例をサンプリング→ 3000 次元の表現ベクトル
• 評価方法– Image-Caption Ranking としての評価– Recall@(1,5,10)
![Page 42: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/42.jpg)
State-of-the-art の成績一覧
本論文が Baseline として採用しているMultimodal Neural Language Models [Kiros+, TACL 2015]
![Page 43: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/43.jpg)
State-of-the-art との比較 Score-level fusion 2 パターン• VQA-grounded only: 中間表現のみ利用• VQA-aware: Score-level fusion そのもの
![Page 44: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/44.jpg)
State-of-the-art との比較 Representation-level fusion 2 パターン• VQA-agnostic: もとの特徴量のみ利用• VQA-aware: Representation-level fusion そのもの
![Page 45: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/45.jpg)
… あれ?
2 つの手法の差は何?• どっちも「もとの特徴量のみ使用」のはず• でも下の方が精度が高い
![Page 46: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/46.jpg)
2つの VQA-agnostic• Multimodal Neural Language Models [Kiros+, TACL 2015]
• Representation-level fusion VQA-agnosticさらに 1回の線形変換と活性化関数を経ている→より deep になり、精度が向上している
![Page 47: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/47.jpg)
定性的な比較(画像検索)提案手法がうまくいった例
提案手法で失敗するようになった例
![Page 48: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/48.jpg)
定性的な比較(画像検索)提案手法がうまくいった例
提案手法で失敗するようになった例
論文による考察「提案手法の VQA中間表現によって、 bat と言われると helmet も写った画像を探すようになった。」
![Page 49: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/49.jpg)
どちらの中間表現も寄与しているの?• Deeper VQA-agnostic
• xxx-only representation-level fusion– どちらかの中間表現のみを用いた場合
• Full representation-level fusion
![Page 50: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/50.jpg)
VQA で学習したなら Caption の学習は不要?• 画像当たりのキャプションの数と精度
• キャプションが多いほうが精度が高い– VQA で学習しても多くのキャプションが必要– VQA とキャプションで持つ情報が異なる
![Page 51: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/51.jpg)
中間表現はどれくらいの次元にすればいい?
![Page 52: Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)](https://reader035.vdocuments.pub/reader035/viewer/2022081507/586f70811a28ab10258b4bc9/html5/thumbnails/52.jpg)
まとめと所感• VQA を中間表現(後述)に用いることを提案• Image-Caption Ranking で用いる特徴量に追加– 検索精度が向上した–ほかのタスクにも有用である可能性はある
• 「我々の知る限り最高精度」 by 著者– 画像検索は [Wang+, CVPR 2016] のほうが上
• 危惧は解消できたか– 専門分野もってなさそうだし– 論文に数式出てこないし