we are humor beings: understanding and predicting visual humor (関東cv勉強会 cvpr 2016...

38
CVPR 2016読読読 We Are Humor Beings: Understanding and Predicting Visual Humor 牛牛 牛牛 losnuevet oros

Upload: -

Post on 06-Jan-2017

731 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

CVPR 2016読み会 We Are Humor Beings:

Understanding and Predicting Visual Humor

牛久 祥孝losnuevetoros

Page 2: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

関東 CV 発表者の当日あるある直前まで発表資料作ってる

[https://pbs.twimg.com/profile_images/415822443333156864/sCzQlhA4_400x400.jpeg]

Page 3: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

関東 CV 発表者の当日あるある…?午前中に引越し(中野周辺→浅草周辺)

Page 4: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

関東 CV 発表者の当日あるある…?午前中に引越し(中野周辺→浅草周辺)

関東 CV 史上初では?!

Page 5: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

お前は誰だ?~ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ~ 2016.3 NTT コミュニケーション科学基礎研究所2016.4 ~ 東京大学 大学院情報理工学系研究科知能機械情報学専攻 講師 ( 原田・牛久研究室 )

Page 6: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

教員のおしごと:授業

Page 7: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

学生の姿勢

Page 8: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

学生の姿勢(現実)

Page 9: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

CaptionBot

https://www.captionbot.ai/

Page 10: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

CaptionBot:they seem 😐😐😐😐😐😐😐😐😐😐😐😐😐😐.

Page 11: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

どうする…?諦める。

より面白い授業にしよう!• 魅力的な題材にするのはもちろん• 所々で笑いも取っていきたい( cf. 落語)

Page 12: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

今回読む論文スライド素材の参考になるかな…?

Page 13: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

Humor の理論Incongruity Theory ( 不調和説 )1. 予測と実際のズレ(不調和)に気づく2. 改めてコンテキストを理解→面白いと感じる

Page 14: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

Humor の理論Superiority Theory ( 優越説 )• 自分が優越感を感じると面白いと感じる• 「他人の不幸は蜜の味」

Page 15: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

Humor の理論Relief Theory ( 安堵説 )• 心理的抑圧の開放• ドッキリかけられた人が笑う理由?

僕の実体験:男が真夜中に僕の部屋に入って、僕の真上に立って見下ろすんだ。あげく噛みついてきて、血を吸い、またふらふらと出て行ったんだ…

Page 16: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

Humor の理論Relief Theory ( 安堵説 )• 心理的抑圧の開放• ドッキリかけられた人が笑う理由?

僕の実体験:男が真夜中に僕の部屋に入って、僕の真上に立って見下ろすんだ。あげく噛みついてきて、血を吸い、またふらふらと出て行ったんだ…

Page 17: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

本論文の目的ユーモアを理解し構築できる計算モデル• 画像を対象にした研究は世界初※• 不調和説に関連する 2 つの機能を実現– 入力画像のオモシロ度判定– オモシロ度に関連しているオブジェクトの発見

• 上記のために独自のデータセットを収集※ 画像に面白いキャプションを付ける研究はある→ 著者らの主張:「 ・オモシロ度判定・オモシロ度に関連する オブジェクトの推定は既知ではない」 [Wang+Wen, NAACL 2015]

Page 18: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

ターゲット画像: Abstract Scenes

パーツを配置してアニメ画像を作成するインターフェース [Zitnick+Parikh, CVPR 2013]

メリットは?• オブジェクトが既知• その位置も既知→ ユーモアの理解にフォーカスできる!

人手で配置

150 種のオブジェクトが使える!

Page 19: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

オモシロ度判定

Page 20: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

AVH データセットの作成Abstract Visual Humor (AVH) データセット入力画像のオモシロ度学習用1. Visual Question Answering 用に作られたデータ [Antol+, ICCV 2015]から 3200 枚を使用(面白くない画像候補群)

2. 先ほどのインターフェースを用いてクラウドソーシング上で面白い画像 3200 枚分の作成を依頼(面白い画像候補群)

Page 21: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

AVH データセットの作成Abstract Visual Humor (AVH) データセット3. 別の人々にオモシロ度の 5 段階評価を依頼(画像あたり 10人)→ 平均値を画像のオモシロ度と定義( 5 に近いほど面白い)オモシロ度 0.1 オモシロ度 1.5

オモシロ度 4.0 オモシロ度 4.0

Page 22: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

オモシロ度判定のための特徴量抽出Scene-Level Features150個ある物体の…• それぞれの個数を並べた Bag-of-Word ベクトル( 150 次元)• x 座標 ,y 座標を並べたベクトル( 300 次元)複数個ある場合は座標の平均を用いる• 各オブジェクトを 150 次元の分散表現( word2vec みたいなもの)に変換したときの、画像全体での分散表現の平均( 150 次元)

Page 23: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

オモシロ度判定実験の概要• 番目の画像のオモシロ度に対してサポートベクター回帰• 枚の画像に対しての重み付き誤差の平均

正解のオモシロ度が低いほど誤差が大きく重みづけられる→逆にした方が良かったんじゃ…?

本論文唯一の数式!!!

Page 24: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

オモシロ度判定実験の結果ベースライン:全データのオモシロ度の平均を推定値として出力

上から SVR+ 分散表現の平均( 150次元) SVR+ オブジェクトの個数( 150次元) SVR+ オブジェクトの位置( 300次元) SVR+ 上記 3 つの直列( 600次元)

Page 25: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

オモシロ度判定実験の考察

• 座標情報と個数情報がほぼ同一性能– 「どちらにもオブジェクトの occurrence 情報があった為であると考えれば自然な結果」 by 著者

• 分散表現は性能が一番わるい– 「位置情報が無いので」 by 著者

• 組み合わせても性能の向上は得られず

Page 26: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白い画像⇔面白くない画像変換~オモシロ度に関連しているオブジェクトの推定

Page 27: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

FOR データセットの作成Funny Object Replaced (FOR) データセットオモシロ度に関連しているオブジェクトの推定→ そのオブジェクトを変えることで• 面白い画像を面白くない画像に• 面白くない画像を面白い画像に 変換できる!

面白い画像 ーネズミを料理に変更→ 面白くない画像

Page 28: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

FOR データセットの作成Funny Object Replaced (FOR) データセット1. AVH データセットでオモシロ度が閾値以上のもの

3028 枚を利用2. クラウドソーシングで面白くない画像の作成を依頼、面白い / 面白くない画像ペアを整備

– 画像あたり 5 人にタスクを依頼– オモシロ度は平均で 2.66→1.10 に低下

面白い画

面白くな

い画像

Page 29: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白い⇔面白くない変換の要求機能

• 今の画像で面白さ / 面白くなさの主因となっているオブジェクトの推定「ネズミが面白さの主因だ」• 代わりに配置するオブジェクトの推定「代わりに料理を置けばつまらなくなる」実現機構は以下の通り1. 入力画像のオブジェクトごとに特徴量抽出2. オブジェクト毎に面白さ / 面白くなさの主因になっている or いない の 2 値分類3. 主因と推定されたオブジェクトを入力として代わりのオブジェクトを推定する多値分類

Page 30: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白い⇔面白くない変換のための特徴量抽出

Instance-Level Features• 各オブジェクトの分散表現( word2vec の様なもの、 150 次元)→おばあちゃん自体の分散表現• 各オブジェクトの周辺にあるオブジェクトの分散表現の重み付き和( 150 次元)– 重み:周辺オブジェクトとの距離の逆数→ スケートボードやサッカーボール、木などの分散表現の和

今、「おばあちゃん」オブジェクトから特徴量を抽出したいと仮定して…

Page 31: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白さ主因オブジェクト判定実験の概要例 入力:各オブジェクトを一通り  正解:おばあちゃんだけ yes 、その他は no

ベースライン 4 つ• Priors (do not replace)もうずっと no しか言わない(ので何も置換しない)• Priors (tendency)各オブジェクトの置換頻度が訓練データで閾値以上なら yes• Anomaly detection (threshold distance / top-K objects)オブジェクトの分散表現と周辺オブジェクトの分散表現の和のコサイン類似度が…

– 閾値以下のものは全て yes– 低い K 個は全て yes提案手法4層の多層パーセプトロン +ReLU+ モーメント SGD

Page 32: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白さ主因オブジェクト判定実験の結果• Avg. Cl. Acc.クラスごとの 2値分類精度の平均• Acc.単純に全テストサンプルでの 2値分類精度(なので面白さと「関係ある」クラスに比べて、  「関係ない」クラスが支配的)

Page 33: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

面白さ主因オブジェクト判定実験の考察

• ベースライン一つ目:何でも no と言えば、 Acc. では一位• ベースライン二つ目:訓練データの頻度を使えば、 Avg.

Cl. Acc. では 2 番目に良い「 Anomaly detection は教師なしだけど、このベースラインは教師ありの方法なので」 by 著者

• 提案手法は平均で、 3.67 個のオブジェクトを「面白さと関連する」と判定「特に人や動物などは、面白さの主因だと判定されやすい」

Page 34: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

代替オブジェクト推定実験の概要例 入力:面白さと関連しているオブジェクト    (テスト画像データ作成時にクラウドソーシング上で     置換されたオブジェクトを入力として利用)  正解:データセット作成時の置換で実際に利用された     オブジェクトベースライン 2 つ• Priors訓練データセットで最も頻度の高かったオブジェクト 5 つを出力

• Anomaly detection(オモシロ度推定で用いた)全オブジェクトの分散表現の和から置換したいオブジェクトの分散表現を引き算→「置換後の画像全体の特徴量はこれに似ているはず」(本当か…?)→引き算の結果に近い分散表現をもつオブジェクト 5 つを出力提案手法5層の多層パーセプトロン +ReLU+ モーメント SGD で上位 5 つを出力

Page 35: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

代替オブジェクト推定実験の結果と考察面白い画像から面白くない画像への変換• データセットはこの変換で作成→定量評価可能• Top-5 accuracy (5 つ推定した中に正解があればよい )

• 傾向は面白さ主因オブジェクト推定実験の結果と同様– MLP いれて Pirorsよりも 5% しか良くならないというのは…

• 提案手法は屋内なら” plant” 屋外なら” butterfly” を必ず Top-1に出力している– 「各テスト画像について 2番目の推定結果のほうが 定性的には良いオブジェクトを選んでいる」

Page 36: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

代替オブジェクト推定の例• 面白い画像を面白くない画像へ変換した例

• クラウドソーシングで入出力にオモシロ度を付与平均で 2.69 から 1.64 にオモシロ度が低下

Page 37: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

代替オブジェクト推定の例• 面白くない画像を面白い画像へ変換した例

• クラウドソーシングで出力にオモシロ度を付与平均で 2.14 のオモシロ度 「比較的高い」 by 著者

Page 38: We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

まとめと所感視覚情報とユーモアとの関係をモデル化する第一歩• アニメ画像データセットを作成して画像認識をパス• 入力画像の面白さ推定• 入力画像のオブジェクトと面白さの関連性の推定所感• 氷山の一角に取り組みました、という印象

実は心理学的にもユーモアの統一理論は無いらしい• 技術的新規性が少なくてもスポットライト採択される問題自身の新規性やデータセット公開などが貢献

• 論文入力したら、適切に笑いとりつつ説明してくれる勉強会用スライドが自動生成されたら素敵ですね