cvpr2015 reading "understainding image virality" (in japanese)
TRANSCRIPT
Copyright©2014 NTT corp. All Rights Reserved.
CVPR2015 reading“Understanding image virality”
Akisato Kimura <[email protected]> [@_akisato]
1
1ページで内容を説明
• どちらがSNSで「ウケる」画像かを当てます.
• 普通の画像特徴量では人間に勝てません.
• Relative attributesに基づく高次特徴を使うと人間に勝てます.• Chance (50%) < 画像特徴量 (58.5%) < 人間 (60%) < 提案法 (68%)
• 画像のどのような性質が寄与するかを一部明らかにします.
2
論文の構成
1. Introduction2. Related work3. Datasets and ground-truth virality
i. How to compute viralityii. Datasets (most/least viral, random pairs,
categories)4. Understanding image virality
i. Intrinsic contextii. Other contexts (vicinity, temporal, textual)
5. Conclusions
3
Virality とは何か?
http://dictionary.goo.ne.jp/leaf/jn2/271801/m0u/viral/
4
Viralityをどのように定量化するか
【著者の主張】リツイートやお気に入りの数は「virality」ではなく「人気度」ではないか?
5
「著者の考える」Viralityとpopularityの違い
• Popularityとviralityの相関は-0.02 (ほとんどない)
• 測りたいのはツイートのviralityではなく,tweetのリンク先のコンテンツのviralityである.
• Popularity = ツイートのRTやfavの数,virality = リンク先コンテンツが何回投稿されたか.
6
米国発,少し行儀の良い 2ch のようなもの.
ComputerVision subreggit:https://www.reddit.com/r/computervision/
Submission(スレ)
Popularity = upvotes (アゲ)- downvotes (サゲ)
7
Redditをもっと知りたい方は
参考資料はこちら
http://mogeromogero.web.fc2.com/yaruoreddit.html
https://i.imgur.com/1GCmf9Q.jpg
8
Viralityの定量化
High virality =
• 何度も投稿されている.
• いずれかの投稿でたくさんのpopularityがある.*
画像 h の投稿回数
全画像の平均投稿回数
画像 h の n 回目の投稿での(相対)popularity
* いずれの投稿でも… ではないかという気もするが,一端棚上げ.
9
データセット その1 (Viral Images)
• [Lakkaraju+ ICWSM13] のRedditデータを利用
• 4年間,132,000 個のコンテンツ(画像以外も含む).
• この中から
• 画像が含まれており,
• 100以上の投稿があるsubredditを採用.
• 最終的に,
• 10,000枚の画像,20 subreddits, �𝑚𝑚 = 6.7
• このデータが以降すべてのデータセットの元.
10
データセット その2・3
データセット その2 (Viral and Non-Viral Images)
• データセットその1の中で,先ほど定義したviralityの上位/下位250枚を選択.
データセット その3 (Random Pairs)
• (テスト用) Virality上位250枚と,中央値よりも小さいviralityを持つ画像との対を適当に作る.
• (テスト用) Virality下位250枚と,中央値よりも大きいviralityを持つ画像との対を適当に作る.
• (学習用) 中央値よりも大きいviralityの画像と,中央値よりも小さい画像との対を適当に4,500個.
11
データセット その4 (Viral Categories)
• Redditカテゴリを5個に絞る.
• Funny, WTF (なんと), aww (ったく), atheism, gaming
• 特定の一つのカテゴリでのみ高いviralityを得る画像を,各カテゴリで85枚ずつ選択.
12
ようやく本題です
与えられた画像のviralityを予測したいのですが,よく考えると大変難しい問題です.
何も面白くないですよね,よく見慣れた「アレ」ですから…
アレ……あれ?
The Last Supper Scientists Last Supper
13
ようやく本題です
なぜ右側の画像がviralityが高いと思えるのでしょう?
「最後の晩餐」を知っているから.
希代の科学者の肖像画を知っているから.
画像のviralityは文脈に大きく依存.文脈の考慮なしにviralityを予測することは非常に困難.
先にぼやけた画像を見たから.
「科学者達の最後の晩餐」という題名があまりにもシュールすぎるから.(適当)
The Last Supper Scientists Last Supper
14
4つの文脈
1. Intrinsic context• たぶんこれは文脈じゃない
• とは言えこれが今回の解析の中心.
2. Vicinity context• 対象の画像の近くにある視覚要素の影響
3. Temporal context• 対象の画像を見る前に見ていた視覚要素の影響
4. Textual context• 対象の画像に関係する非視覚要素の影響
(テキストを中心に今回は解析)
15
文脈その1 Intrinsic context
まずは,対象の画像だけを与えて予測する.
• [計算機] 一般的な画像特徴量 (Decuf6, GIST, HOG, tinyImages) + SVM
• [人間] AMT
データセット4のカテゴリ予測
• 人間 (88%) >> 計算機 (62%) >> chance (20%)
データセット2のvirality予測
• 人間 (65%) > chance (50%)• 他の文脈を知らないと,人間でも正しい予測ができない.
• 見たことがあるかどうか,Reddit熟練者であるかどうか,これらの要素は予測精度にまったく影響しない.
16
文脈その1 Intrinsic context
まずは,対象の画像だけを与えて予測する.
• [計算機] 一般的な画像特徴量 (Decuf6, GIST, HOG, tinyImages) + SVM
• [人間] AMT
データセット4のカテゴリ予測
• 人間 (88%) >> 計算機 (62%) >> chance (20%)
データセット?のvirality予測
• 計算機 (53%) ≒ chance (50%)• データセット2で評価 + 学習データを増やしても,59%止まり.
• 普通に知られている画像特徴量と非線形識別器を組み合わせたくらいでは,まったく歯が立たない.
17
文脈その1 Intrinsic context
少々問題を簡単にします.
• [問題] データセット3のrelative virality予測• 「どちがの画像かウケそうか?」がわかれば実用上十分
• [計算機] 人間がラベル付けしたrelative attributes 52種• 画像の対を提示,どちらが所定のattributeが強いかを回答.
18
文脈その1 Intrinsic context
解くべき問題の事前検討をする.
• [計算機] 人間作成relative attribute 52種から,viralityが向上するようgreedyにattributeを選択.
• 相関の高いattributeを順に選んでいけば良いわけではないことに注意. (特定のattributeの組は逆作用となる)
Sexual単独ではviralityと正の相関を持つが,greedyに選択する際にはnegativeの方が良い.
最初のattributeは所与であるとする.この後でどのようなattributeを加えるとよりviralityが高まるか調べる.
19
文脈その1 Intrinsic context
解くべき問題の事前検討をする.
• [計算機] 人間作成relative attribute 52種から,viralityが向上するようgreedyにattributeを選択.
• 相関の高いattributeを順に選んでいけば良いわけではないことに注意. (特定のattributeの組は逆作用となる)
データセット2(もどき)でのrelative attribute予測
• 手動特徴自動選択 (81%) > 人間 (72%) > 計算機 (62%)
20
文脈その1 Intrinsic context
本当に解くべき問題を解く.
• [問題] データセット3のrelative virality予測
• [計算機]- Relative attributesを学習で獲得
(特徴量=Decaf6,識別器=linear SVM)
- 先ほどの検討で選ばれた上位5つのrelative attributesを特徴量としてrelative viralityを予測.
• Relative attributeの予測精度
- [-1,0,1]の3値: 45% (SynthGen) – 70% (Animal)- [-1,1]の2値: 65% (Explicit) – 88% (Animal)
21
文脈その1 Intrinsic context
本当に解くべき問題を解く.
• [問題] データセット3のrelative virality予測
• [計算機]- Relative attributesを学習で獲得
(特徴量=Decaf6,識別器=linear SVM)
- 先ほどの検討で選ばれた上位5つのrelative attributesを特徴量としてrelative viralityを予測.
• [結果] 計算機 (68%) > 手動特徴自動選択 (65%) > 人間(60%) > chance (50%)
22
文脈その2 Vicinity context
周辺に配置された画像にどの程度影響されるか?を調べてみる.
• 提示する画像:データセット3の画像対 + いずれかに類似するもしくは適当に選んだ画像2枚
提示された4枚すべてをviralityの順に並び替える.
提示された4枚のうちDS内の2枚をviralityの順に並び替える.
23
文脈その2 Vicinity context
提示された4枚すべてをviralityの順に並び替える.
提示された4枚のうちDS内の2枚をviralityの順に並び替える.
• 適当な画像を混ぜて評価させると,途端にviralityの予測が悪くなる.なぜ?
• 評価対象を2枚に絞ると,viralityの予測精度が落ちないで済む.
• Visual searchのpop upでは説明できない.
24
文脈その3 Temporal context
あまり適切な実験ではなさそうなので,パス.
• 4つの異なる解像度 (8x8, 16x16, 32x32, 360x360) で画像を用意.
• 粗い方から細かい方へ順に提示,viralityをそれぞれで予測してもらう.
• 結果:8x8=47% 16x16=49% 32x32=51% 360x360=62%
25
文脈その4 Textual context
周辺テキストがviralityにどの程度影響を与えるか?
• 画像とそのタイトル,どちらを先に見せるかで(relative) viralityの予測精度が変化するか?を調査.
• 注: テキストの中身の善し悪しは評価していない.
先に画像対を見せ,後でそのタイトルを見せる.
• 画像のみ 62% タイトルも追加 63%• あまり変わらない.
先に画像のタイトルを見せ,後で画像対を見せる.
• タイトルのみ 47% 画像も追加 53%• 画像だけを見せたとき (62%) より悪くなる!
26
最後に 関連研究
Viralityを扱っている論文はたくさんある.• [Leskovec+ TWeb2007] [Shakarian+ 2013]
Viral marketingを一つの例としたネットワークダイナミクスのモデル
• [Suh+ SocialCom10] [Nagarajan+ ICWSM10] [Diakopoulos+ ICWSM14] ニュースツイートを対象にどのような内容が拡散するか
• (その他大勢)
Image viralityも初出ではない.• [Guerini+ SocialCom13] Google+ に投稿された画像がより多くの+1
を獲得するための要因を調査.
• [Lakkaraju+ ICWSM13] Redditで繰り返し投稿されるコンテンツを対象に,upvotesを数多く獲得するための要因を調査.
• [Khosla+ WWW14] 一般的な画像特徴量及びソーシャル上の統計量から,Flickrでの画像閲覧数を予測.
• [Ishiguro+ ICDM12] と類似する内容.
• [Wang+ ACL15] 画像のviralityが高まるように,画像の説明文を自動的に生成.
27
所感 その1
• Viralityという,評価も予測も非常に難しい尺度を予測しようという試みは非常に興味深い.
• 2年前にadjective noun pairsの論文を読んだときも同じような所感を持ち,結果として非常に多くの引用がなされる論文となった.
• この論文も以降多くの論文で引用されるか?は,viralityの予測モデルが公開されるかどうかに依存.
• AMTによるラベリングを除けば実装は容易,早期にフォローアップすることは十分可能.
28