人間の視覚的注意を予測するモデル -...
DESCRIPTION
2010年の信号処理シンポジウムでレビュー講演をした際の資料をアップします.今となっては最新ではないかもしれませんが…TRANSCRIPT
![Page 1: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/1.jpg)
人間の視覚的注意を予測するモデル~ 動的ベイジアンネットワークに基づく
最新のアプローチ ~
木村 昭悟 (きむら あきさと)日本電信電話(株)
NTTコミュニケーション科学基礎研究所E-mail: akisato at ieee dot org
![Page 2: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/2.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 2
Ready ?
Where would you focus?
人間は映像中から重要と思われる情報を瞬時に判断できる。
![Page 3: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/3.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 3
特徴統合理論 [Treisman et al. 1980]
• いくつかの基本的な特徴量(輝度・色など)を抽出し処理することで、各々 feature map を生成。
• Feature map を統合することで、saliency map(SM) を生成。• Saliency map内で最も輝度値が大きくなる箇所に
最初に視線が向けられる。
入力画像
Saliency map
![Page 4: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/4.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 4
これをもし計算機上で実現できれば…
• 与えられた映像のみから人間が注目しやすい領域を自動的に特定できる。
• 人間と同様に、重要性に応じて視覚情報を能動的に取捨選択できるシステムの構築が可能に。
(菊池・荻野・浅田 © 2009日本ロボット学会誌)
(Gao and Vasconcelos © 2004 NIPS)
(Su and Takahashi © 2010 VISAPP)
視覚補助 ロボットビジョン 物体認識
![Page 5: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/5.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 5
今日お話しすること
• 人間の映像注視行動を高速かつ高精度に模擬する計算モデルについて のお話
具体的には…
• Saliency map: 視覚的注意の計算モデルの基本
• 視覚的注意の確率モデル
• 拡張モデル: より精緻なモデルへ
• 応用: 領域分割、物体検出、物体認識学習
![Page 6: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/6.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 6
Saliency map
![Page 7: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/7.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 7
Saliency map の計算モデル
• 数多くの研究がなされている
– Itti, Koch & Niebur @ IEEE Trans PAMI 1998:• 特徴統合理論を源流とする生理学モデル [Koch 1985]
の計算モデル実装
– Itti & Baldi @ CVPR2003:• 各種画像特徴の事前分布と事後分布との相違の検出
– Frintrop @ 2005, Gao & Vasconcelos @ ICCV2007:• Itti モデル + トップダウン情報の考慮
– Avraham & Lindenbaum @ IEEE PAMI 2009:• テンプレート照合をベースとした特異性の検出
![Page 8: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/8.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 8
Saliency map の計算
intensity color orientation motion
Feature extraction & recursive Gaussian convolution
Center-surround differences & normalization
Across-scale summation & normalization
Linear combination
Featuremaps
Conspicuitymaps
Input image
Saliency map
(Itti and Koch © 2000 Vision Research)
(Itti, Koch and Niebur © 1998IEEE Trans PAMI)
![Page 9: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/9.jpg)
Presented by Akisato Kimura Page 9
Saliency mapモデルの問題点
• 与えられた入力画像について決定論的にSMが計算される。• SM内で最も輝度値が大きい領域に最初に視線が向く。
→ 同じ映像が与えられると、誰がいつその映像を見ても同じ場所に視線が向く ことを主張
→ 明らかに人間の直感と乖離
入力画像
Saliency map (extracted by Itti-Koch model)
Page 9信号処理シンポジウム レビュー講演 2010.11.25
![Page 10: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/10.jpg)
Presented by Akisato Kimura
視線位置が変動する要因
• 「トップダウンな制御」が支配的と考えられていた
– 視聴者の趣味や嗜好:好き/嫌いなものに目が向く、粗探しをする
– 映像を見る目的:探し物をしている、車を運転している、時刻が知りたい
– 映像文脈、先見的な知識:ジャンル特有の映像の見方、字幕の出る位置
• 計算モデルでもトップダウン情報の導入が進んだ
– Peters & Itti @ CVPR2007– Navalpakkam & Itti @ CVPR2006
信号処理シンポジウム レビュー講演 2010.11.25 Page 10
![Page 11: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/11.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 11
では、この例ではどうでしょうか?
• 斜め30度に傾いた線を見つけてみて下さい。
• どちらの例が早く見つけられましたか?
– 左の方が簡単でしたね (たぶん)
• でも、ちょっとおかしいと思いませんか?
– 早く見つける = 目的の箇所に早く視線を向ける
– 目的は一緒なのに、視線位置が変化する、の?
↓ これです ↓
![Page 12: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/12.jpg)
Presented by Akisato Kimura
この現象をどう説明するのか?
• 信号検出理論 を用いた解釈が有用
信号検出理論
• 軍事目的の統計理論が発祥 [Peterson 1954]
– ノイズの多いレーダー信号を受け取ったときに、どのような基準で敵がいる・いないを判断するか?
• 直後に、心理学での意思決定に転用 [Tanner 1954]
– 以降、刺激検出力に関する心理物理学の理論として定着
• 以降、通信理論や信号処理など幅広く利用される
• 視覚探索課題への転用はごく最近 [Eckstein 2000]
信号処理シンポジウム レビュー講演 2010.11.25 Page 12
![Page 13: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/13.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 13
信号検出理論を用いた解釈
• 実際に知覚されるsaliencyは、入力された視覚刺激に対して
常に一定ではなく、ガウス分布に従って得られる確率的数量であると仮定。
• 実際に知覚されたsaliencyが最も大きな領域に視線が向く。
Target
Distracters
![Page 14: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/14.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 14
Stochastic saliency model
Kimura, Pang, Takeuchi, Miyazato, Yamato, Kashino“A stochastic model of human visual attention with a dynamic Bayesian network,”conditionally accepted to IEEE Trans. PAMI, September 2010.
![Page 15: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/15.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 15
確率モデルの概略
Saliency map (SM)
• 映像入力によって人間が受ける視覚刺激の強さを表現
<従来技術>
Stochastic saliency map (SSM)
• 信号検出理論 [Eckstein 2000] に基づき、 刺激に対する応答をガウス分布でモデル化
Eye movement patterns (EMP)
• 視線移動の戦略を制御する人間の内部状態をモデル化(動かしたい or 動かしたくない)
• 映像入力とは独立に決定される
Eye-focusing density map
• Bottom-up/Top-down情報を統合することで、視線が向く確率の高い領域を推定
Top-down
Bottom-up
![Page 16: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/16.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 16
動的ベイジアンネットワークによる表現
Eye-focusing density maps
Stochastic saliency maps
(deterministic) saliency maps
Eye movement patterns
Bottom-up
Top-down
Action
Response
Stimulus
Intention
Input videoInput
Given in advance
To be estimated
刺激どんな視覚情報が入ってきたか?
応答刺激をどう受け取ったか?
行動・視線移動の大きさは意図で決まる・応答が大きい箇所に視線が向く
意図視線を動かしたいかどうか?
![Page 17: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/17.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 17
確率モデルの処理
Stochasticsaliency map
(Time = t )
“passive” or “active”
Saliencymap
Input frame(Time = t )
Eye-focusingdensity map
Eyemovement pattern
SaliencySaliency
Prob. s.t. it takes the highest = 0.55
Prob. s.t. it takes the highest = 0.01
視覚系内部の観測雑音を考慮(信号検出理論)
時間連続性
“passive” or “active”Stochastic
saliency map(Time = t-1 )
![Page 18: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/18.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 18
Saliency map の抽出
• Itti model [Itti 1998] を利用
– 特徴統合理論に基づき、映像の各フレームから独立にSMを生成
– 基本特徴量の空間的なコントラストを多重解像度処理によって抽出し統合
• 抽出に用いた基本特徴量
– 輝度
– 補色 (赤/緑、青/黄)
– 方向 (0, π/4, π/2, 3π/4)
– 運動 (水平、垂直)
intensity color orientation motion
Feature extraction & recursive Gaussian convolution
Center-surround differences & normalization
Across-scale summation & normalization
Linear combination
Featuremaps
Conspicuitymaps
Input image
Saliency map
![Page 19: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/19.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 19
• SMを観測とする Gaussian状態空間モデル
• SSMの分布 (を決める平均・分散) は、SMを観測とする Kalman filter により解析的に導出可能。
Stochastic saliency map の推定
Stochastic saliency maps
(deterministic) saliency maps
Response
Stimulus1
2
モデル
SSMがガウス分布を介し、SMとして観測される。
SSMの時間方向での連続性を仮定。
![Page 20: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/20.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 20
Eye-focusing density map の推定 (1)
• 信号検出理論 に基づく確率計算
Eye-focusing density maps
Eye movement patterns
Action
Response
Intention
Stochastic saliency maps
1
モデル
映像中の位置 x(t) において実際に観測された応答(=SSMの実現値)が、それ以外の位置での応答よりも大きくなるときに、位置 x(t) に視線が向く。
![Page 21: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/21.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 21
信号検出理論に基づく確率計算
1. 右側PDFの1点sを固定
2. 左側PDFからの出力がsよりも小さくなる確率を計算
3. 右側PDFの値sを少しずつ動かしながら1-2を繰り返す
![Page 22: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/22.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 22
Eye-focusing density mapの推定 (2)
• EMPを隠れ状態とする 隠れマルコフモデル (HMM)
Eye-focusing density maps
Action
Response
Intention
Stochastic saliency maps
33
2Eye movement patterns
モデル
入力と独立に遷移するEMPによって視線移動の大きさを制御
EMP状態遷移確率
視線移動距離に関するPDF
![Page 23: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/23.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 23
Eye movement patternとその意味
視線移動距離を小さく抑える
大きな視線移動をある程度許容
![Page 24: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/24.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 24
Eye-focusing density mapの推定 (3)
• サンプリングを用いた密度推定
– EMPに依存する部分からMarkov chain Monte Carlo (MCMC) でサンプリング
– SFMに依存する部分でサンプルの重みを決定
SFMから決定 EMPから決定
![Page 25: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/25.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 25
サンプルベース密度推定の詳細
• サンプリングを2段階に分割
Samplingfrom
EMP part
Samples at time t-1 Samples at time t
Weightingwith
SFM partRe-
sampling… … …
SFMから決定 EMPから決定
MCMCサンプリングによりサンプリング処理量を平準化
木構造を用いた繰り返し演算・並列化により高速化
![Page 26: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/26.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 26
モデルパラメータの学習
• 映像入力、及び対応する視線位置測定結果を用いて、モデルパラメータを自動的に学習。
EMPモデルパラメータEMPモデルパラメータSSMモデルパラメータSSMモデルパラメータ
入力映像
EMアルゴリズムを用いてモデルパラメータを推定
EMアルゴリズムを用いてモデルパラメータを推定
ビタビ学習を用いてモデルパラメータを推定
ビタビ学習を用いてモデルパラメータを推定
視線位置系列
視線測定機器を用いて実際の視線位置を測定
Saliency mapを抽出
![Page 27: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/27.jpg)
Presented by Akisato Kimura
脱線: 視線位置測定機器とその仕組み
• 近赤外線を眼球に投射し、その反射像から推定。
• 様々な形態の機器が開発されています。
信号処理シンポジウム レビュー講演 2010.11.25 Page 27
(© 2010 Tobii Corp.)
(Ohno, Mukawa & Yoshikawa © 2002 Proc. ETRA)
プルキニエ像(投射近赤外の
網膜反射像)
瞳孔中心
据え置き型 ディスプレイ一体型
携帯型
![Page 28: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/28.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 28
Demonstration
![Page 29: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/29.jpg)
Presented by Akisato Kimura
アルゴリズムの実行例
信号処理シンポジウム レビュー講演 2010.11.25 Page 29
![Page 30: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/30.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 30
Evaluations
![Page 31: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/31.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 31
実験条件
• 公開データベース CRCNS eye-1※1を使用
– 映像: 100本、MPEG-1、640x480 pixels、30fps– 視線データ: 各映像4~6名分、240fps– ”Original experiments” と称する映像群(50本)
及び対応する視線測定結果を使用
• モデルパラメータの学習: 5-fold cross validation– 40本をパラメータ学習に、残り10本を評価に用いる
• 計算機スペック
– CPU: Intel Core2 Quad Q6600 (2.40GHz)– GPU: NVIDIA GeForce 8800GT
(112 cores, 512MB VRAM)
※1 http://crcns.org/data-sets/eye/eye-1
![Page 32: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/32.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 32
評価尺度
• Normalized scanpath saliency (NSS)– ランダムな視線移動に対する有意差を測定する尺度
1. 出力画像のピクセル値を、平均=0、分散=1となるように正規化
2. 各フレームについて、被験者の視線位置での出力画像のピクセル値を抽出。
3. 上記ピクセル値のフレーム平均を取り、NSSを算出。
NSS=1.75正規化した
ピクセル値の分布
出力画像
正規化
![Page 33: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/33.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 33Page 33
実験結果 (1/3)
• 被験者の視線位置との一致性の比較
信号検出理論を用いた視線位置推定により大幅な精度向上
EMPの導入によりさらなる精度向上
Saliency map
SMをSSMにしても直接の効果はない
![Page 34: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/34.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 34
Extended model
Kimura, Pang, Takeuchi, Yamato, Kashino“Dynamic Markov random fields for stochastic modeling of visual attention,”Proc. ICPR2008, December 2008.
![Page 35: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/35.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 35
• SMを観測とする Gaussian状態空間モデル
• 空間的な関係性を考慮していない!
– Saliencyが高い箇所の周辺もsaliencyが高いはず
Stochastic saliency map の推定
Stochastic saliency maps
(deterministic) saliency maps
Response
Stimulus1
2
モデル
SSMがガウス分布を介し、SMとして観測される。
SSMの時間方向での連続性を仮定。
![Page 36: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/36.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 36
空間的な関係性を考慮すると
• 動的マルコフ確率場 によるモデル化
– Saliencyの時空間的な関係を統一的に記述
– ナイーブ平均場近似により、初期モデルとほぼ同様のコストで視線位置を推定
動的マルコフ確率場 (dynamic MRF)時間方向のダイナミクスを取り込んだマルコフ確率場 (MRF) の拡張
: 観測
: 隠れ状態
時刻 t時刻 t-1 時刻 t+1
![Page 37: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/37.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 37
SSM推定処理の概要
• SSMの時間方向での連続性を仮定。
• SSMがガウス分布を介し、SMとして観測される。
• SSMの空間的な連続性も同様に仮定。
Stochastic saliency maps
Saliency maps
(y の近傍)
![Page 38: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/38.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 38Page 38
実験結果
• 平均NSSの比較– 提案法 with MRF >> Itti-Koch model (約2倍)
– 提案法 with MRF > 提案法 without MRF (約1.2倍)
0
0.5
1
1.5
2
2.5
3
3.5
4
Itti-Koch model previous model proposed model
Ave
rage
NSS s
core
![Page 39: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/39.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 39
Applications
Akamine, Fukuchi, Kimura, Takagi“Fully automatic extraction of salient objects in near real-time,”the Computer Journal, November 2010.
福地、宮里、木村、赤嶺、高木、大和“グラフコストの逐次更新を用いた映像顕著領域の自動抽出,”電子情報通信学会 論文誌 D、2009年8月
![Page 40: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/40.jpg)
Presented by Akisato Kimura
映像領域分割
• 問題設定
– 映像から、興味の対象である領域 (物体領域) を、背景などそれ以外の領域 (背景領域) と区別して抽出
• 有力な解法: Graph cuts– 領域分割の問題をMRFの最尤推定問題として定式化
– このMRF最尤推定問題はMRFと等価なグラフの最小カット問題に置き換えられる[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]
– 最小カット問題を多項式時間で解くアルゴリズムがある[Ford & Fulkerson 1956] [Boykov & Jolly 2001]
– Computer vision系研究における流行技術の1つ
信号処理シンポジウム レビュー講演 2010.11.25 Page 40
(参考文献)石川 ”コンピュータビジョン 最先端ガイド1 “, 第2章 グラフカット
![Page 41: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/41.jpg)
Presented by Akisato Kimura
Graph cutsを用いた領域分割
• Interactive graph cuts [Boykov & Jolly 2001]
– 手動で与えられたラベル(「物体」 or 「背景」)を用いたgraph cutsに基づく静止画像分割の手法
信号処理シンポジウム レビュー講演 2010.11.25 Page 41
入力画像 ラベル
分割結果
(手動ラベリング)画像特徴分布をGMMでモデル化
Features for “obj” Features for “bkg”
グラフ作成およびグラフカット
この部分を何とかしたい!
![Page 42: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/42.jpg)
Presented by Akisato Kimura
顕著性を手がかりとする領域分割
• 「視覚的注意の確率モデル」の出力結果を手がかりとすれば、自動抽出を実現可能に
信号処理シンポジウム レビュー講演 2010.11.25 Page 42
入力映像
視線位置推定•人間の視覚特性を模擬する統計モデルを独自に構築
•そのモデルに基づいて、注目しやすい画像中の位置を自動的に推定
注目領域抽出•推定視線位置周辺の画像特徴、及び構成要素の空間的連続性を考慮して、主要構成要素を自動抽出
![Page 43: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/43.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 43
自動領域抽出方法の構成
入力フレーム
統計モデル構築
注目対象の特徴量尤度 非注目対象の特徴量尤度
注目点推定 抽出結果
注目領域事前確率
特徴量尤度
逐次更新
ポイント 1注目点推定の結果から大まかな「もの」の場所を自動的に特定
ポイント 2現在の抽出結果を未来のモデル構築に利用、安定した抽出を実現
ポイント 1
ポイント 2
尤度
尤度
![Page 44: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/44.jpg)
Presented by Akisato Kimura
注目領域抽出方法の効果
信号処理シンポジウム レビュー講演 2010.11.25 Page 44
入力映像
1. 先頭フレームのみ手動でラベル付け
+抽出領域の追跡([Kohli 2007] 等に対応)
2. 顕著性に基づき事前確率を自動設定
+領域追跡なし([Fu 2008] 等に対応)
3. 注目位置に基づき事前確率を自動設定
+事前確率を逐次更新(提案技術)
先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。
「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。
提案技術は、上記2つの問題を同時に解決。
![Page 45: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/45.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 45
Demonstration
Sekhon、木村、南、坂野、前田“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”電子情報通信学会 PRMU & IBISML研究会、2010年9月
木村、南、坂野、前田、杉山“対話型映像認識理解のための動的学習戦略に関する試み,”(発表予定)電子情報通信学会 PRMU研究会、2010年12月
![Page 46: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/46.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 46
人間の発達初期段階を模した物体認識学習
• 映像顕著性に基づく視覚情報フィルタリングにより、事前知識を仮定せずに重要領域を自動的に抽出
• 抽出された領域に対して蓄積された知識を用いて自動/手動でアノテーション
入力映像注目位置推定 重要領域抽出
特徴抽出 – 画像認識モデル学習
視覚特性に基づく処理で人間が目を向けそうな箇所を自動的に推定(その付近に「もの」があるだろうという仮説)
「もの」のありそうな箇所から、「もの」
らしい領域を自動的に抽出
「もの」らしい領域から画像特徴量を抽出、その特徴量と蓄えた知識から「もの」が何であるか?に関する情報を提示
「もの」に関する教示情報と「もの」の画像特徴量と
から、それらの関係性を学習し、知識として蓄積
教示情報
![Page 47: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/47.jpg)
Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 47
デモシステム
![Page 48: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/48.jpg)
まとめ
人間の映像注視行動を高速かつ高精度に模擬する計算モデルについて ご紹介しました。
具体的には Saliency map 視覚的注意の確率モデル その応用(領域分割、物体認識学習)
今後の課題は… より広範囲にわたるトップダウン制御の実現 音響信号に起因する注意の計算モデル Multi-modal attention estimation
48 信号処理シンポジウム レビュー講演 2010.11.25
![Page 49: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/49.jpg)
Acknowledgments (敬称略)
信号処理シンポジウム レビュー講演 2010.11.2549
Collaborators 竹内龍人、大和淳司、柏野邦夫 @ NTT CS Labs. 高木茂、宮里洸司、福地賢、赤嶺一馬 @ 沖縄高専
Derek Pang @ Stanford Univ. Clement Leung @ Univ. Toronto 南泰浩、坂野鋭、前田英作、杉山弘晃 @ NTT CS Labs.
Supporters Laurent Itti @ Univ. Southern California, USA Minho Lee @ Kyungpook Univ., South Korea
![Page 50: 人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -](https://reader034.vdocuments.pub/reader034/viewer/2022050808/54b6de7a4a7959ca538b4789/html5/thumbnails/50.jpg)
Thank you for your kind attention.
信号処理シンポジウム レビュー講演 2010.11.2550
Questions / comments ?
Corresponding authorAkisato Kimura, Ph.D @ NTT CS Labs.