introduce to multimodal deep learning for robust rgb-d object recognition

３次元タスクにおけるディープラーニングの最新動向②　MDL for RGB-D　

2016/7/30 株式会社ウェブファーマー

大政　孝充

今回取り上げるのはこれ

[1]A. Eitel, et al.”Multimodal Deep Learning for Robust RGB-D Object Recognition”, arXiv:1057.06821v2, 2015

CNNを使った教師あり手法でRGB-Dデータから物体認識を行った！

ポイントは３つ

①  モデルの構造は、RGB streamとDepth streamに分け、上位層でこれらを合体させる

②  深さ情報はカラー化して入力する ③  深さ情報に独自のdata augmentationを行う

ポイント①　モデルの構造

色情報を畳み込むRGB streamと深さ情報を畳み込むdepth streamがあり、上位層で合体する

RGB stream

[1]のFigure 1より depth stream

学習の流れ（１）

CaffeNet学習済みモデルのパラメータをコピペする

CaffeNet

学習の流れ（2）

入力画像XとラベルYで教師あり学習させる

X Y

minW I ,θ I

L softmax W IgI di;θ I( )( ), yi( )i=1

N

∑


depth stream側も同様にCaffeNetのコピペと学習を行う

D Y

minWD ,θD

L softmax WDgD di;θ D( )( ), yi( )i=1

N

∑


それぞれのstreamから出力層を取り除く

D

X


上位層に両者を合体させる層を設ける

D

X


目標値Yで上位層の部分だけ教師あり学習させる

D

X

Y

minW f ,θD ,θ I ,θ F

L softmax W f f gI ,gD⎡⎣ ⎤⎦;θF( )( ), yi( )

i=1

N

∑

学習させるのはここだけ

ポイント②　深さ情報はカラー化する

近い場所から遠くなるに連れて、赤〜緑〜青とする

この画像の深さはこうなる

遠い近い

ポイント③　独自のaugmentation

1)  使える深さ情報のdata数が少ない 2)  実際に機器（kinectなど）から得られる深さ情報はノイズが多い

独自のaugmentationで解決

深さ情報dataに関して２つの問題点がある

独自のaugmentation（1）

ノイズパターンをどっかからK個引っ張ってくる

Ρ= Ρ1,!,ΡK{ }

Ρ1 ΡK!

独自のaugmentation（2）

50%の確率でノイズを含める

di = di

Ρk !di

⎧⎨⎪

⎩⎪

ifelse

p =1 withp ~ Β 0.5{ }k ~U 1,K{ }

○：アダマール積 B：ベルヌーイ分布 U：離散一様分布

ノイズを含めない場合

結果

state-of-the-artsな結果となった

introduce to multimodal deep learning for robust rgb-d object recognition

Data & Analytics