動作認識におけるディープラーニングの最新動向2sequential dl for har

Post on 12-Jan-2017

1.058 Views

Category:

Data & Analytics

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

動作認識におけるディープラーニングの 最新動向② Sequential DL for HAR

2016/3/15 株式会社ウェブファーマー

大政 孝充

今回取り上げるのはこれ

[1]M.Baccouche, F.Mamalet, C.Wolf, C.Garcia, A.Baskurt. “Sequential deep learning for human action recognition.” In Human Behavior Understanding, page 29-39. Apringer, 2011.

3D-CNNとRNNを組み合わせることで、認識率を向上させた!

まず基本 3D-CNNとは?

[1]のFigure 1, Figure2より

2DのCNN

3D-CNN

vijwy = tanh bij + wijm

pqv(i−1)m(x+p)(y+q)

q=0

Qi−1

∑p=0

Pi−1

∑m∑

⎝⎜⎜

⎠⎟⎟ vij

wyz = tanh bij + wijmpqv(i−1)m

(x+p)(y+q)(z+r )

r=0

Ri−1

∑q=0

Qi−1

∑p=0

Pi−1

∑m∑

⎝⎜⎜

⎠⎟⎟

時間軸方向 に展開

詳細はこちら→http://www.slideshare.net/ssuser07aa33

もうひとつ基本 RNNとは?

入力層 出力層中間層

ある時刻の出力が次の時刻の入力へと回帰する →つまり情報が次の時刻に記憶される!

これが全体の構造!

[1]のFigure 3より

これが全体の構造!

3D-CNNで特徴をもとめ

これが全体の構造!

それをさらにRNNにかける

3D-CNNの部分はこうだ!

[1]のFigure 1より

3D-CNNな部分の詳細(1)

input画像を3Dで畳み込む 連続する9シーンのうち 5シーンで畳み込む

3D-CNNな部分の詳細(2)

あとは通常の2D-CNNで畳み込み、 プーリング、全結合し、クラスごとに出力

3D-CNNな部分の詳細(3)

これをどんどん学習させると・・・

3D-CNNな部分の詳細(4)

C3層に3×8×5=120次元の 特徴ベクトルが形成される

→これをRNNに入力する

RNNな部分の詳細(1)

一連のシーンのうち 最初の9シーンを切り出し

3D-CNNへ入力

特徴ベクトルをt=1のデータとしてRNNへ入力

t=1におけるRNNからの出力

RNNな部分の詳細(2)

次の9シーンを切り出し 3D-CNNへ入力

t=2におけるRNNからの出力

特徴ベクトルをt=2のデータとしてRNNへ入力

RNNな部分の詳細(3)

最後の9シーンを切り出し 3D-CNNへ入力

出力をt=nのデータとしてRNNへ入力

t=nにおけるRNNからの出力

RNNな部分の詳細(4)

これをどんどん学習させる

RNNな部分の詳細(5)

テスト時には、t=nの出力結果をもって判断する!

top related