introduce to multimodal deep learning for robust rgb-d object recognition

15
3次元タスクにおけるディープラーニングの 最新動向② MDL for RGB-D 2016/7/30 株式会社ウェブファーマー 大政 孝充

Upload: -

Post on 12-Jan-2017

250 views

Category:

Data & Analytics


0 download

TRANSCRIPT

3次元タスクにおけるディープラーニングの最新動向② MDL for RGB-D 

2016/7/30 株式会社ウェブファーマー

大政 孝充

今回取り上げるのはこれ

[1]A. Eitel, et al.”Multimodal Deep Learning for Robust RGB-D Object Recognition”, arXiv:1057.06821v2, 2015

CNNを使った教師あり手法でRGB-Dデータから物体認識を行った!

ポイントは3つ

①  モデルの構造は、RGB streamとDepth streamに分け、上位層でこれらを合体させる

②  深さ情報はカラー化して入力する ③  深さ情報に独自のdata augmentationを行う

ポイント① モデルの構造

色情報を畳み込むRGB streamと深さ情報を畳み込むdepth streamがあり、上位層で合体する

RGB stream

[1]のFigure 1より depth stream

学習の流れ(1)

CaffeNet学習済みモデルのパラメータをコピペする

CaffeNet

学習の流れ(2)

入力画像XとラベルYで教師あり学習させる

X Y

minW I ,θ I

L softmax W IgI di;θ I( )( ), yi( )i=1

N

学習の流れ(3)

depth stream側も同様にCaffeNetのコピペと学習を行う

D Y

minWD ,θD

L softmax WDgD di;θ D( )( ), yi( )i=1

N

学習の流れ(4)

それぞれのstreamから出力層を取り除く

D

X

学習の流れ(5)

上位層に両者を合体させる層を設ける

D

X

学習の流れ(6)

目標値Yで上位層の部分だけ教師あり学習させる

D

X

Y

minW f ,θD ,θ I ,θ F

L softmax W f f gI ,gD⎡⎣ ⎤⎦;θF( )( ), yi( )

i=1

N

学習させるのは ここだけ

ポイント② 深さ情報はカラー化する

近い場所から遠くなるに連れて、赤〜緑〜青とする

この画像の深さは こうなる

遠い 近い

ポイント③ 独自のaugmentation

1)  使える深さ情報のdata数が少ない 2)  実際に機器(kinectなど)から得られる深さ情報はノイズが多い

独自のaugmentationで解決

深さ情報dataに関して2つの問題点がある

独自のaugmentation(1)

ノイズパターンをどっかからK個引っ張ってくる

Ρ= Ρ1,!,ΡK{ }

Ρ1 ΡK!

独自のaugmentation(2)

50%の確率でノイズを含める

di = di

Ρk !di

⎧⎨⎪

⎩⎪

ifelse

p =1 withp ~ Β 0.5{ }k ~U 1,K{ }

○:アダマール積 B:ベルヌーイ分布 U:離散一様分布

ノイズを含めない場合

結果

state-of-the-artsな結果となった