20120408発表資料

27
NIPS2011読み会発表資料 Why The Brain Separates Face Recognition From Object Recognition Takuya Minagawa

Upload: takuya-minagawa

Post on 21-Jun-2015

3.623 views

Category:

Technology


2 download

DESCRIPTION

Why The Brain Separates Face Recognition From Object Recognition

TRANSCRIPT

Page 1: 20120408発表資料

NIPS2011読み会発表資料

Why The Brain Separates Face Recognition

From Object Recognition

Takuya Minagawa

Page 2: 20120408発表資料

概要

“Why The Brain Separates Face Recognition From

Object Recognition”

J.Z.Leibo, J.Mutch and T.Poggio (@MIT)

「なぜ、脳は顔認識と物体認識の回路を分けたのか?」

脳には顔に対して選択的に反応する領域がある。それはなぜか。

解剖学的な観点ではなく、計算モデルの観点から、説明を試みる

結論:

視点の変化や照明の変化にロバストな認識を行うために、回路を分ける必要があった。

Page 3: 20120408発表資料

概要

脳の視覚皮質の画像処理プロセス

顔に選択的に反応する領域

視覚皮質の計算モデル(HMAXモデル)

視点/照明変化のためのHMAXモデルの拡張

拡張HMAXモデルによる顔/物体認識実験

結論:なぜ顔認識を分けたのか?

Page 4: 20120408発表資料

視覚皮質の画像処理プロセス

背側経路(dorsal stream)

腕を伸ばして何かを掴むなどの際に利用される、行動に関わる経路。”Where”経路

腹側経路(ventral stream)

それが犬か、猫か、などを認識する、知覚に関わる経路。”What”経路

Page 5: 20120408発表資料

“瞬間的な認識”の画像処理モデル

霊長類は、目や注意の動きが起こらない程度の短い時間(100msec)画像を見せただけで、認識することができる。

瞬間的な認識(Rapid Categorization)では腹側経路のフィードフォワードパスのみ使用される

画像が十分な時間提示された場合、「注意」が働きフィードバックパスが活性化される。

色情報は瞬間的な認識においては重要ではない。

Page 6: 20120408発表資料

腹側経路のフィードフォワードパス

Page 7: 20120408発表資料

腹側経路の階層構造

Page 8: 20120408発表資料

腹側経路の階層構造

階層が上位に位置するほど、複雑な刺激に対して選択性を持つようになる。

階層が上位になるほど、位置、サイズなどに対する普遍性が上がる。

カバーする受容野の大きさも同時に広くなる。

上位の階層ほど可塑性が高い。

学習に対して早く柔軟に対応する。

Page 9: 20120408発表資料

顔に選択的に反応する脳の領域 マカクザルの脳

顔の向きに選択的に反応 個人の顔に選択的に反応

向きの違いには反応せず

Page 10: 20120408発表資料

視覚皮質の計算モデル

Hubel & Wieselの階層モデル: 単純型細胞(Simple Cell)

ある形状に対して選択的に反応

複雑型細胞(Complex Cell)

単純細胞からの出力を受け取る。

位置とスケールの選択性を除去する。

単純型細胞と複雑型細胞で交互に処理される。

Page 11: 20120408発表資料

単純型細胞

ある特定の信号(位置、大きさ、形状)に対して最も強く反応する。

テンプレートマッチング

信号の形が変わると、それに伴って反応も減っていく。

ガウス関数で近似。

V1において反応する形状の例

Page 12: 20120408発表資料

複雑型細胞

ある領域内、あるスケール範囲内にある、同一の形状に対する選択性を持つ単純型細胞からの信号受け取る。

そのうち最大の入力を選択する

位置とサイズに対する普遍性実現の例

Page 13: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

Page 14: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

S1, S2: 単純型細胞

C1,C2: 複雑型細胞

S1 & C1≒ V1 & V2

S2 ≒ PIT

C2 ≒ PIT & AIT

Machine Learning ≒ AIT

& PFC

Page 15: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

S1: 入力画像に対し、様々な方向/スケールのガボールフィルタをかける

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

Page 16: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

C1: 近傍位置/スケールのS1から入力を受け取り、最大値を出力

Max

S1

C1

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

Page 17: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

S2: C1からの入力と、事前に取得したN個の形状パッチとの類似度を出力する。

Shape patch

Pi

C1 Output

X

2exp ir PX

Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

形状パッチは事前に学習画像からランダムに取得しておく。

Page 18: 20120408発表資料

視覚皮質の計算モデル(HMAXモデル)

C2: S2から入力を受け取り、各形状毎に全ての位置/スケールで最大の信号を出力する

Max

Machine Learning: C2の出力ベクトル(各形状の最大類似度)から機械学習を用いてカテゴリを学習。 Tuning

Tuning

Max

Max

S1

C1

S2

C2

Machine Learning

S2

C2

Max

Page 19: 20120408発表資料

物体の変形への耐性

以下の変形は、どの物体のカテゴリにも共通

以下の変形は、物体のカテゴリ毎に見えが違う

位置の変化 スケールの変化 回転(画像平面上)

向きの変化 照明の変化

Page 20: 20120408発表資料

HMAXモデルの拡張

n

j

jjtt

w xwxr1

2

,2

1expmax)(

視点に変化に頑健なHMAXモデル

• S3/C3層を追加

• S3層は様々な顔の向きのテンプレートを持つ

• C3層では、すべての顔の向きを統合

テンプレート

(位置t)

S/Cユニットの出力モデル

Sユニットへの入力

応答

Page 21: 20120408発表資料

実験 視点変化および照明変化について実験

視点変化: S2パッチx2000

S3パッチx10人x71視点

C3ユニットx10

照明変化: S2パッチx80

S3パッチx80人x15照明

C3ユニットx80

パッチ作成に使用した画像と学習/試験画像は別

学習画像数:1枚 (1-shot learning)

試験画像を入力し、学習画像との類似度を算出

Page 22: 20120408発表資料

視点変化に対する実験(試験/学習画像例)

Page 23: 20120408発表資料

視点変化に対する実験結果

Page 24: 20120408発表資料

照明変化に対する実験(試験/学習画像例)

木 金属 ガラス

Page 25: 20120408発表資料

照明変化に対する実験

Page 26: 20120408発表資料

結論

視覚皮質の腹側経路における生理学の知見に基づいたモデルを用いて、視点や照明に頑健な認識を行うためには、そのカテゴリ専用のモジュール(回路)を構築してやる必要がある。

マカクザルのML/MF、およびAM領域は拡張HMAXモデルのC2, S3, C3ユニットに対応する。

顔のような3次元的構造を持つものは、視点の変化によって見え方が大きく変わるため、独自のモジュールを持つ必要がある。

顔認識は、専用のリソースを与える必要があるほど重要

人体認識のモジュールも見つかっているが、同様の理由と推察できる。

Page 27: 20120408発表資料

Any Questions?