人間の視覚的注意を予測するモデル－...

人間の視覚的注意を予測するモデル～動的ベイジアンネットワークに基づく

最新のアプローチ～

木村昭悟 (きむらあきさと)日本電信電話(株)

NTTコミュニケーション科学基礎研究所E-mail: akisato at ieee dot org

Presented by Akisato Kimura信号処理シンポジウムレビュー講演 2010.11.25

Ready ?

Where would you focus?

人間は映像中から重要と思われる情報を瞬時に判断できる。


特徴統合理論 [Treisman et al. 1980]

• いくつかの基本的な特徴量（輝度・色など）を抽出し処理することで、各々 feature map を生成。

• Feature map を統合することで、saliency map（SM）を生成。• Saliency map内で最も輝度値が大きくなる箇所に

最初に視線が向けられる。

入力画像

Saliency map


これをもし計算機上で実現できれば…

• 与えられた映像のみから人間が注目しやすい領域を自動的に特定できる。

• 人間と同様に、重要性に応じて視覚情報を能動的に取捨選択できるシステムの構築が可能に。

（菊池・荻野・浅田 © 2009日本ロボット学会誌）

(Gao and Vasconcelos © 2004 NIPS)

（Su and Takahashi © 2010 VISAPP）

視覚補助ロボットビジョン物体認識


今日お話しすること

• 人間の映像注視行動を高速かつ高精度に模擬する計算モデルについてのお話

具体的には…

• Saliency map：視覚的注意の計算モデルの基本

• 視覚的注意の確率モデル

• 拡張モデル：より精緻なモデルへ

• 応用：領域分割、物体検出、物体認識学習


Saliency map


Saliency map の計算モデル

• 数多くの研究がなされている

– Itti, Koch & Niebur @ IEEE Trans PAMI 1998:• 特徴統合理論を源流とする生理学モデル [Koch 1985]

の計算モデル実装

– Itti & Baldi @ CVPR2003:• 各種画像特徴の事前分布と事後分布との相違の検出

– Frintrop @ 2005, Gao & Vasconcelos @ ICCV2007:• Itti モデル＋トップダウン情報の考慮

– Avraham & Lindenbaum @ IEEE PAMI 2009:• テンプレート照合をベースとした特異性の検出


Saliency map の計算

intensity color orientation motion

Feature extraction & recursive Gaussian convolution

Center-surround differences & normalization

Across-scale summation & normalization

Linear combination

Featuremaps

Conspicuitymaps

Input image

Saliency map

（Itti and Koch © 2000 Vision Research）

（Itti, Koch and Niebur © 1998IEEE Trans PAMI）

Presented by Akisato Kimura

Saliency mapモデルの問題点

• 与えられた入力画像について決定論的にSMが計算される。• SM内で最も輝度値が大きい領域に最初に視線が向く。

→ 同じ映像が与えられると、誰がいつその映像を見ても同じ場所に視線が向くことを主張

→ 明らかに人間の直感と乖離

入力画像

Saliency map (extracted by Itti-Koch model)

Page 9信号処理シンポジウムレビュー講演 2010.11.25


視線位置が変動する要因

• 「トップダウンな制御」が支配的と考えられていた

– 視聴者の趣味や嗜好：好き/嫌いなものに目が向く、粗探しをする

– 映像を見る目的：探し物をしている、車を運転している、時刻が知りたい

– 映像文脈、先見的な知識：ジャンル特有の映像の見方、字幕の出る位置

• 計算モデルでもトップダウン情報の導入が進んだ

– Peters & Itti @ CVPR2007– Navalpakkam & Itti @ CVPR2006

信号処理シンポジウムレビュー講演 2010.11.25


では、この例ではどうでしょうか？

• 斜め30度に傾いた線を見つけてみて下さい。

• どちらの例が早く見つけられましたか？

– 左の方が簡単でしたね（たぶん）

• でも、ちょっとおかしいと思いませんか？

– 早く見つける＝目的の箇所に早く視線を向ける

– 目的は一緒なのに、視線位置が変化する、の？

↓ これです ↓


この現象をどう説明するのか？

• 信号検出理論を用いた解釈が有用

信号検出理論

• 軍事目的の統計理論が発祥 [Peterson 1954]

– ノイズの多いレーダー信号を受け取ったときに、どのような基準で敵がいる・いないを判断するか？

• 直後に、心理学での意思決定に転用 [Tanner 1954]

– 以降、刺激検出力に関する心理物理学の理論として定着

• 以降、通信理論や信号処理など幅広く利用される

• 視覚探索課題への転用はごく最近 [Eckstein 2000]



信号検出理論を用いた解釈

• 実際に知覚されるsaliencyは、入力された視覚刺激に対して

常に一定ではなく、ガウス分布に従って得られる確率的数量であると仮定。

• 実際に知覚されたsaliencyが最も大きな領域に視線が向く。

Target

Distracters


Stochastic saliency model

Kimura, Pang, Takeuchi, Miyazato, Yamato, Kashino“A stochastic model of human visual attention with a dynamic Bayesian network,”conditionally accepted to IEEE Trans. PAMI, September 2010.


確率モデルの概略

Saliency map (SM)

• 映像入力によって人間が受ける視覚刺激の強さを表現

＜従来技術＞

Stochastic saliency map (SSM)

• 信号検出理論 [Eckstein 2000] に基づき、刺激に対する応答をガウス分布でモデル化

Eye movement patterns (EMP)

• 視線移動の戦略を制御する人間の内部状態をモデル化（動かしたい or 動かしたくない）

• 映像入力とは独立に決定される

Eye-focusing density map

• Bottom-up/Top-down情報を統合することで、視線が向く確率の高い領域を推定

Top-down

Bottom-up


動的ベイジアンネットワークによる表現

Eye-focusing density maps

Stochastic saliency maps

(deterministic) saliency maps

Eye movement patterns

Bottom-up

Top-down

Action

Response

Stimulus

Intention

Input videoInput

Given in advance

To be estimated

刺激どんな視覚情報が入ってきたか？

応答刺激をどう受け取ったか？

行動・視線移動の大きさは意図で決まる・応答が大きい箇所に視線が向く

意図視線を動かしたいかどうか？


確率モデルの処理

Stochasticsaliency map

(Time = t )

“passive” or “active”

Saliencymap

Input frame(Time = t )

Eye-focusingdensity map

Eyemovement pattern

SaliencySaliency

Prob. s.t. it takes the highest = 0.55

Prob. s.t. it takes the highest = 0.01

視覚系内部の観測雑音を考慮（信号検出理論）

時間連続性

“passive” or “active”Stochastic

saliency map(Time = t-1 )


Saliency map の抽出

• Itti model [Itti 1998] を利用

– 特徴統合理論に基づき、映像の各フレームから独立にSMを生成

– 基本特徴量の空間的なコントラストを多重解像度処理によって抽出し統合

• 抽出に用いた基本特徴量

– 輝度

– 補色（赤/緑、青/黄）

– 方向（0, π/4, π/2, 3π/4）

– 運動（水平、垂直）

intensity color orientation motion

Feature extraction & recursive Gaussian convolution

Center-surround differences & normalization

Across-scale summation & normalization

Linear combination

Featuremaps

Conspicuitymaps

Input image

Saliency map


• SMを観測とする Gaussian状態空間モデル

• SSMの分布（を決める平均・分散）は、SMを観測とする Kalman filter により解析的に導出可能。

Stochastic saliency map の推定



Response

Stimulus1

2

モデル

SSMがガウス分布を介し、SMとして観測される。

SSMの時間方向での連続性を仮定。


Eye-focusing density map の推定（１）

• 信号検出理論に基づく確率計算


Eye movement patterns

Action

Response

Intention


1

モデル

映像中の位置 x(t) において実際に観測された応答（＝SSMの実現値）が、それ以外の位置での応答よりも大きくなるときに、位置 x(t) に視線が向く。


信号検出理論に基づく確率計算

1. 右側PDFの1点sを固定

2. 左側PDFからの出力がsよりも小さくなる確率を計算

3. 右側PDFの値sを少しずつ動かしながら1-2を繰り返す


Eye-focusing density mapの推定（２）

• EMPを隠れ状態とする隠れマルコフモデル (HMM)


Action

Response

Intention


33

2Eye movement patterns

モデル

入力と独立に遷移するEMPによって視線移動の大きさを制御

EMP状態遷移確率

視線移動距離に関するPDF


Eye movement patternとその意味

視線移動距離を小さく抑える

大きな視線移動をある程度許容


Eye-focusing density mapの推定 (3)

• サンプリングを用いた密度推定

– EMPに依存する部分からMarkov chain Monte Carlo (MCMC) でサンプリング

– SFMに依存する部分でサンプルの重みを決定

SFMから決定 EMPから決定


サンプルベース密度推定の詳細

• サンプリングを２段階に分割

Samplingfrom

EMP part

Samples at time t-1 Samples at time t

Weightingwith

SFM partRe-

sampling… … …

SFMから決定 EMPから決定

MCMCサンプリングによりサンプリング処理量を平準化

木構造を用いた繰り返し演算・並列化により高速化


モデルパラメータの学習

• 映像入力、及び対応する視線位置測定結果を用いて、モデルパラメータを自動的に学習。

EMPモデルパラメータEMPモデルパラメータSSMモデルパラメータSSMモデルパラメータ

入力映像

ＥＭアルゴリズムを用いてモデルパラメータを推定

ＥＭアルゴリズムを用いてモデルパラメータを推定

ビタビ学習を用いてモデルパラメータを推定

ビタビ学習を用いてモデルパラメータを推定

視線位置系列

視線測定機器を用いて実際の視線位置を測定

Saliency mapを抽出


脱線：視線位置測定機器とその仕組み

• 近赤外線を眼球に投射し、その反射像から推定。

• 様々な形態の機器が開発されています。


（© 2010 Tobii Corp.）

（Ohno, Mukawa & Yoshikawa © 2002 Proc. ETRA）

プルキニエ像（投射近赤外の

網膜反射像）

瞳孔中心

据え置き型ディスプレイ一体型

携帯型


Demonstration


アルゴリズムの実行例



Evaluations


実験条件

• 公開データベース CRCNS eye-1※１を使用

– 映像： 100本、MPEG-1、640x480 pixels、30fps– 視線データ：各映像4～6名分、240fps– ”Original experiments” と称する映像群（５０本）

及び対応する視線測定結果を使用

• モデルパラメータの学習： 5-fold cross validation– 40本をパラメータ学習に、残り１０本を評価に用いる

• 計算機スペック

– CPU: Intel Core2 Quad Q6600 (2.40GHz)– GPU: NVIDIA GeForce 8800GT

(112 cores, 512MB VRAM)

※１ http://crcns.org/data-sets/eye/eye-1


評価尺度

• Normalized scanpath saliency (NSS)– ランダムな視線移動に対する有意差を測定する尺度

1. 出力画像のピクセル値を、平均=0、分散=1となるように正規化

2. 各フレームについて、被験者の視線位置での出力画像のピクセル値を抽出。

3. 上記ピクセル値のフレーム平均を取り、NSSを算出。

NSS=1.75正規化した

ピクセル値の分布

出力画像

正規化

Presented by Akisato Kimura信号処理シンポジウムレビュー講演 2010.11.25 Page 33

実験結果（１／３）

• 被験者の視線位置との一致性の比較

信号検出理論を用いた視線位置推定により大幅な精度向上

EMPの導入によりさらなる精度向上

Saliency map

SMをSSMにしても直接の効果はない


Extended model

Kimura, Pang, Takeuchi, Yamato, Kashino“Dynamic Markov random fields for stochastic modeling of visual attention,”Proc. ICPR2008, December 2008.


• SMを観測とする Gaussian状態空間モデル

• 空間的な関係性を考慮していない！

– Saliencyが高い箇所の周辺もsaliencyが高いはず

Stochastic saliency map の推定



Response

Stimulus1

2

モデル

SSMがガウス分布を介し、SMとして観測される。

SSMの時間方向での連続性を仮定。


空間的な関係性を考慮すると

• 動的マルコフ確率場によるモデル化

– Saliencyの時空間的な関係を統一的に記述

– ナイーブ平均場近似により、初期モデルとほぼ同様のコストで視線位置を推定

動的マルコフ確率場 (dynamic MRF)時間方向のダイナミクスを取り込んだマルコフ確率場 (MRF) の拡張

：観測

：隠れ状態

時刻ｔ時刻ｔ－１時刻ｔ＋１


SSM推定処理の概要

• SSMの時間方向での連続性を仮定。

• SSMがガウス分布を介し、SMとして観測される。

• SSMの空間的な連続性も同様に仮定。


Saliency maps

（y の近傍）

Presented by Akisato Kimura信号処理シンポジウムレビュー講演 2010.11.25 Page 38

実験結果

• 平均ＮＳＳの比較– 提案法 with MRF ＞＞ Itti-Koch model （約２倍）

– 提案法 with MRF ＞提案法 without MRF （約１．２倍）

0

0.5

1

1.5

2

2.5

3

3.5

4

Itti-Koch model previous model proposed model

Ave

rage

NSS s

core


Applications

Akamine, Fukuchi, Kimura, Takagi“Fully automatic extraction of salient objects in near real-time,”the Computer Journal, November 2010.

福地、宮里、木村、赤嶺、高木、大和“グラフコストの逐次更新を用いた映像顕著領域の自動抽出,”電子情報通信学会論文誌 D、2009年8月


映像領域分割

• 問題設定

– 映像から、興味の対象である領域（物体領域）を、背景などそれ以外の領域（背景領域）と区別して抽出

• 有力な解法： Graph cuts– 領域分割の問題をMRFの最尤推定問題として定式化

– このMRF最尤推定問題はMRFと等価なグラフの最小カット問題に置き換えられる[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]

– 最小カット問題を多項式時間で解くアルゴリズムがある[Ford & Fulkerson 1956] [Boykov & Jolly 2001]

– Computer vision系研究における流行技術の1つ


（参考文献）石川 ”コンピュータビジョン最先端ガイド1 “, 第2章グラフカット


Graph cutsを用いた領域分割

• Interactive graph cuts [Boykov & Jolly 2001]

– 手動で与えられたラベル（「物体」 or 「背景」）を用いたgraph cutsに基づく静止画像分割の手法


入力画像ラベル

分割結果

（手動ラベリング）画像特徴分布をGMMでモデル化

Features for “obj” Features for “bkg”

グラフ作成およびグラフカット

この部分を何とかしたい！


顕著性を手がかりとする領域分割

• 「視覚的注意の確率モデル」の出力結果を手がかりとすれば、自動抽出を実現可能に


入力映像

視線位置推定•人間の視覚特性を模擬する統計モデルを独自に構築

•そのモデルに基づいて、注目しやすい画像中の位置を自動的に推定

注目領域抽出•推定視線位置周辺の画像特徴、及び構成要素の空間的連続性を考慮して、主要構成要素を自動抽出


自動領域抽出方法の構成

入力フレーム

統計モデル構築

注目対象の特徴量尤度非注目対象の特徴量尤度

注目点推定抽出結果

注目領域事前確率

特徴量尤度

逐次更新

ポイント 1注目点推定の結果から大まかな「もの」の場所を自動的に特定

ポイント 2現在の抽出結果を未来のモデル構築に利用、安定した抽出を実現

ポイント 1

ポイント 2

尤度

尤度


注目領域抽出方法の効果


入力映像

1. 先頭フレームのみ手動でラベル付け

＋抽出領域の追跡（[Kohli 2007] 等に対応）

2. 顕著性に基づき事前確率を自動設定

＋領域追跡なし（[Fu 2008] 等に対応）

3. 注目位置に基づき事前確率を自動設定

＋事前確率を逐次更新（提案技術）

先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。

「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。

提案技術は、上記２つの問題を同時に解決。


Demonstration

Sekhon、木村、南、坂野、前田“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”電子情報通信学会 PRMU & IBISML研究会、2010年9月

木村、南、坂野、前田、杉山“対話型映像認識理解のための動的学習戦略に関する試み,”（発表予定）電子情報通信学会 PRMU研究会、2010年12月


人間の発達初期段階を模した物体認識学習

• 映像顕著性に基づく視覚情報フィルタリングにより、事前知識を仮定せずに重要領域を自動的に抽出

• 抽出された領域に対して蓄積された知識を用いて自動／手動でアノテーション

入力映像注目位置推定重要領域抽出

特徴抽出 – 画像認識モデル学習

視覚特性に基づく処理で人間が目を向けそうな箇所を自動的に推定（その付近に「もの」があるだろうという仮説）

「もの」のありそうな箇所から、「もの」

らしい領域を自動的に抽出

「もの」らしい領域から画像特徴量を抽出、その特徴量と蓄えた知識から「もの」が何であるか？に関する情報を提示

「もの」に関する教示情報と「もの」の画像特徴量と

から、それらの関係性を学習し、知識として蓄積

教示情報


デモシステム

まとめ

人間の映像注視行動を高速かつ高精度に模擬する計算モデルについてご紹介しました。

具体的には Saliency map 視覚的注意の確率モデルその応用（領域分割、物体認識学習）

今後の課題は… より広範囲にわたるトップダウン制御の実現音響信号に起因する注意の計算モデル Multi-modal attention estimation

48 信号処理シンポジウムレビュー講演 2010.11.25

Acknowledgments （敬称略）


Collaborators 竹内龍人、大和淳司、柏野邦夫＠ NTT CS Labs. 高木茂、宮里洸司、福地賢、赤嶺一馬＠沖縄高専

Derek Pang @ Stanford Univ. Clement Leung @ Univ. Toronto 南泰浩、坂野鋭、前田英作、杉山弘晃＠ NTT CS Labs.

Supporters Laurent Itti @ Univ. Southern California, USA Minho Lee @ Kyungpook Univ., South Korea

Thank you for your kind attention.


Questions / comments ?

Corresponding authorAkisato Kimura, Ph.D @ NTT CS Labs.

人間の視覚的注意を予測するモデル －...

Technology

人間の視覚的注意を予測するモデル－...