20120408発表資料

NIPS2011読み会発表資料

Why The Brain Separates Face Recognition

From Object Recognition

Takuya Minagawa

概要

“Why The Brain Separates Face Recognition From

Object Recognition”

J.Z.Leibo, J.Mutch and T.Poggio (@MIT)

「なぜ、脳は顔認識と物体認識の回路を分けたのか？」

脳には顔に対して選択的に反応する領域がある。それはなぜか。

解剖学的な観点ではなく、計算モデルの観点から、説明を試みる

結論：

視点の変化や照明の変化にロバストな認識を行うために、回路を分ける必要があった。

概要

脳の視覚皮質の画像処理プロセス

顔に選択的に反応する領域

視覚皮質の計算モデル（HMAXモデル）

視点/照明変化のためのHMAXモデルの拡張

拡張HMAXモデルによる顔/物体認識実験

結論：なぜ顔認識を分けたのか？

視覚皮質の画像処理プロセス

背側経路(dorsal stream)

腕を伸ばして何かを掴むなどの際に利用される、行動に関わる経路。”Where”経路

腹側経路(ventral stream)

それが犬か、猫か、などを認識する、知覚に関わる経路。”What”経路

“瞬間的な認識”の画像処理モデル

霊長類は、目や注意の動きが起こらない程度の短い時間（100msec）画像を見せただけで、認識することができる。

瞬間的な認識(Rapid Categorization)では腹側経路のフィードフォワードパスのみ使用される

画像が十分な時間提示された場合、「注意」が働きフィードバックパスが活性化される。

色情報は瞬間的な認識においては重要ではない。

腹側経路のフィードフォワードパス

腹側経路の階層構造

腹側経路の階層構造

階層が上位に位置するほど、複雑な刺激に対して選択性を持つようになる。

階層が上位になるほど、位置、サイズなどに対する普遍性が上がる。

カバーする受容野の大きさも同時に広くなる。

上位の階層ほど可塑性が高い。

学習に対して早く柔軟に対応する。

顔に選択的に反応する脳の領域マカクザルの脳

顔の向きに選択的に反応個人の顔に選択的に反応

向きの違いには反応せず

視覚皮質の計算モデル

Hubel & Wieselの階層モデル：単純型細胞(Simple Cell)

ある形状に対して選択的に反応

複雑型細胞(Complex Cell)

単純細胞からの出力を受け取る。

位置とスケールの選択性を除去する。

単純型細胞と複雑型細胞で交互に処理される。

単純型細胞

ある特定の信号(位置、大きさ、形状)に対して最も強く反応する。

テンプレートマッチング

信号の形が変わると、それに伴って反応も減っていく。

ガウス関数で近似。

V1において反応する形状の例

複雑型細胞

ある領域内、あるスケール範囲内にある、同一の形状に対する選択性を持つ単純型細胞からの信号受け取る。

そのうち最大の入力を選択する

位置とサイズに対する普遍性実現の例


Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

S1, S2: 単純型細胞

C1,C2: 複雑型細胞

S1 & C1≒ V1 & V2

S2 ≒ PIT

C2 ≒ PIT & AIT

Machine Learning ≒ AIT

& PFC


S1：入力画像に対し、様々な方向/スケールのガボールフィルタをかける

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning


C1：近傍位置/スケールのS1から入力を受け取り、最大値を出力

Max

S1

C1

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning


S2： C1からの入力と、事前に取得したN個の形状パッチとの類似度を出力する。

Shape patch

Pi

C1 Output

X

2exp ir PX

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

形状パッチは事前に学習画像からランダムに取得しておく。


C2： S2から入力を受け取り、各形状毎に全ての位置/スケールで最大の信号を出力する

Max

Machine Learning： C2の出力ベクトル（各形状の最大類似度）から機械学習を用いてカテゴリを学習。 Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

S2

C2

Max

物体の変形への耐性

以下の変形は、どの物体のカテゴリにも共通

以下の変形は、物体のカテゴリ毎に見えが違う

位置の変化スケールの変化回転（画像平面上）

向きの変化照明の変化

HMAXモデルの拡張

n

j

jjtt

w xwxr1

2

,2

1expmax)(

視点に変化に頑健なHMAXモデル

• S3/C3層を追加

• S3層は様々な顔の向きのテンプレートを持つ

• C3層では、すべての顔の向きを統合

テンプレート

（位置t）

S/Cユニットの出力モデル

Sユニットへの入力

応答

実験視点変化および照明変化について実験

視点変化： S2パッチx2000

S3パッチx10人x71視点

C3ユニットx10

照明変化： S2パッチx80

S3パッチx80人x15照明

C3ユニットx80

パッチ作成に使用した画像と学習/試験画像は別

学習画像数：１枚 (1-shot learning)

試験画像を入力し、学習画像との類似度を算出

視点変化に対する実験（試験/学習画像例）

視点変化に対する実験結果

照明変化に対する実験（試験/学習画像例）

木金属ガラス

照明変化に対する実験

結論

視覚皮質の腹側経路における生理学の知見に基づいたモデルを用いて、視点や照明に頑健な認識を行うためには、そのカテゴリ専用のモジュール（回路）を構築してやる必要がある。

マカクザルのML/MF、およびAM領域は拡張HMAXモデルのC2, S3, C3ユニットに対応する。

顔のような３次元的構造を持つものは、視点の変化によって見え方が大きく変わるため、独自のモジュールを持つ必要がある。

顔認識は、専用のリソースを与える必要があるほど重要

人体認識のモジュールも見つかっているが、同様の理由と推察できる。

Any Questions?

20120408発表資料

Technology