回帰型deep convolutional neural networkによる人検出と部位の位置推定

1
回帰型 Deep Convolutional Neural Network による人検出と部位の位置推定 山下 隆義 福井 宏 村瀬 将之 山内 悠嗣 藤吉 弘亘 中部大学 ■研究背景 ■提案手法 ■評価実験 - 回帰型 DCNN を用いた 人と部位 ( 頭部,両足 ) の位置の同時推定 入力画像 畳み込み層 特徴マップ Pooling 層 出力層 全結合層 畳み込み層 Pooling 層 全結合層 - 運転支援システムにおける人検出 →歩行者と車までの距離が重要 一般的な距離推定法 提案するアプローチ 距離推定 距離推定 →・人と部位の位置の同時推定を1つの識別器で推定 ・人部位の位置情報から人と車までの距離を推定 ■距離推定方法 0.01 0.1 1 0.0001 0.001 0.01 0.1 Miss rate False Positive Per Window 回帰型DCNN 単体のDCNN 1 0.0001 0.001 0.01 0.1 1 10 Miss Rate False Positive per Image 回帰型DCNN 31.77% 単体のDCNN 38.38%   0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 →・複数の回帰推定を1つのネットワークで推定 ・人部位の位置情報を与えることで,より人検出に 有効な特徴表現が可能 人検出 人部位の位置推定 頭部の x,y 座標 人部位の位置推定 右足の x,y 座標 人部位の位置推定 左足の x,y 座標 - 人の位置を利用することでカメラまでの 距離を推定 →人の位置は DCNN の人部位の推定結果を 使用 ■今後の予定 - 使用するデータセットと DCNN の構造 ・Daimler Mono Pedestrian Benchmark Dataset - 歩行者画像:31,320 枚 (250,560 枚に拡張 ) - 背景画像 :254,356 枚 ・INRIA Person Dataset - 歩行者画像:2,100 枚 (50,000 枚に拡張 ) - 背景画像 :50,000 枚 →頭部と両足の位置にアノテーションを付与 ●人検出精度の比較 ●人部位の位置推定精度の比較 ●実シーンにおける距離推定精度 - 人部位の位置推定精度と距離推定精度の向上 距離推定 データ例 人とカメラの 距離 [m] 推定距離 [m] 誤差 [%] 5 10 15 4.89 9.26 14.12 2.2 5.3 5.8 INRIA Person Dataset Dimler Mono Pedestrian Dataset 手法 部位回帰のみ 検出と部位回帰 パーツ 頭部 左足 右足 平均 パーツ 頭部 左足 右足 平均 8.1 8.7 9.9 8.9 6.1 5.9 10.7 7.6 6.5 8.0 9.2 7.9 4.2 5.3 9.4 6.3 INRIA Daimler 約 25% の精度向上 約 7% の精度向上 →単体の DCNN と比べて (b) INRIA Person Dataset (a) Daimler Mono Pedestrian Benchmark Dataset INRIA Daimler 約 1.0pixel の精度向上 約 1.3pixel の精度向上 →単体の DCNN と比べて →10m 以上離れた場合でも 5% 程度の誤差で距離を推定可能 人部位の位置ずれ精度 [pixel] 人部位の位置推定結果 ・画像上の y 座標 ・人とカメラの距離: 人検出 人部位の位置推定 人と部位の位置推定 IS3-19 カメラ :焦点距離 :画像の縦のサイズ ・人と部位 ( 頭部と両足 ) の位置を同時に推定する回帰型 Deep Convolutional Neural Network を提案 ・回帰型 Deep Convolutional Neural Network で推定した両足の位置を用いて人と車までの距離推定 ・回帰型 DCNN を用いることで人検出と部位の位置推定の精度が向上し,人とカメラが 10m 以上離れても約 5% の誤差で距離を推定可能 手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output Conv Max Pooling Maxout Conv Max Pooling Maxout Conv Max Pooling Maxout # of unit # of unit # of unit 検出用 96x48x1 8,5x3 2x2 2 16,5x4 2x2 2 32,5x4 2x2 2 1,000 500 100 Softmax 2 回帰用 96x48x1 8,5x3 2x2 2 16,5x4 2x2 2 32,5x4 2x2 2 1,000 500 100 Sigmoid 6 提案手法 96x48x1 8,5x3 2x2 2 16,5x4 2x2 2 32,5x4 2x2 2 1,000 500 100 Sigmoid 8 手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output Conv Max Pooling Maxout Conv Max Pooling Maxout Conv Max Pooling Maxout # of unit # of unit # of unit 検出用 64x128x3 20,9x5 2x2 2 64,5x3 2x2 2 32,3x3 2x2 2 1,000 500 100 Softmax 2 回帰用 128x64x3 20,9x5 2x2 2 64,5x3 2x2 2 32,3x3 2x2 2 1,000 500 100 Sigmoid 6 提案手法 128x64x3 20,9x5 2x2 2 64,5x3 2x2 2 32,3x3 2x2 2 1,000 500 100 Sigmoid 8

Upload: mprgchubuuniversity

Post on 30-Jul-2015

260 views

Category:

Engineering


4 download

TRANSCRIPT

Page 1: 回帰型Deep Convolutional Neural Networkによる人検出と部位の位置推定

回帰型Deep Convolutional Neural Network による人検出と部位の位置推定山下 隆義 福井 宏 村瀬 将之 山内 悠嗣 藤吉 弘亘

中部大学

■研究背景

■提案手法

■評価実験

- 回帰型 DCNNを用いた 人と部位 ( 頭部,両足 ) の位置の同時推定

入力画像

畳み込み層

特徴マップ

Pooling 層

出力層

全結合層畳み込み層 Pooling 層

全結合層

- 運転支援システムにおける人検出→歩行者と車までの距離が重要一般的な距離推定法

提案するアプローチ距離推定

距離推定

→ ・人と部位の位置の同時推定を1つの識別器で推定 ・人部位の位置情報から人と車までの距離を推定

■距離推定方法

0.01

0.1

1

0.0001 0.001 0.01 0.1

Mis

s ra

te

False Positive Per Window

回帰型DCNN単体のDCNN

1

0.0001 0.001 0.01 0.1 1 10

Mis

s Ra

te

False Positive per Image

回帰型DCNN 31.77%単体のDCNN 38.38%  

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

→ ・複数の回帰推定を1つのネットワークで推定 ・人部位の位置情報を与えることで,より人検出に  有効な特徴表現が可能

人検出

人部位の位置推定頭部の x,y 座標

人部位の位置推定右足の x,y 座標

人部位の位置推定左足の x,y 座標

- 人の位置を利用することでカメラまでの 距離を推定→人の位置はDCNNの人部位の推定結果を 使用

■今後の予定

- 使用するデータセットとDCNNの構造 ・Daimler Mono Pedestrian Benchmark Dataset - 歩行者画像:31,320 枚 (250,560 枚に拡張 ) - 背景画像 : 254,356 枚

 ・INRIA Person Dataset - 歩行者画像:2,100 枚 (50,000 枚に拡張 ) - 背景画像 : 50,000 枚

→頭部と両足の位置にアノテーションを付与

●人検出精度の比較

●人部位の位置推定精度の比較

●実シーンにおける距離推定精度

- 人部位の位置推定精度と距離推定精度の向上

距離推定データ例

人とカメラの距離 [m]

推定距離 [m]

誤差 [%]

5 10 15

4.89 9.26 14.12

2.2 5.3 5.8

INRIA Person Dataset Dimler Mono Pedestrian Dataset

手法

部位回帰のみ

検出と部位回帰

パーツ

頭部 左足 右足平均

パーツ

頭部 左足 右足平均

8.1 8.7 9.9 8.9 6.1 5.9 10.7 7.6

6.5 8.0 9.2 7.9 4.2 5.3 9.4 6.3

INRIADaimler

:約 25%の精度向上:約 7%の精度向上→単体のDCNNと比べて

(b) INRIA Person Dataset(a) Daimler Mono Pedestrian Benchmark Dataset

INRIADaimler

:約 1.0pixel の精度向上:約 1.3pixel の精度向上

→単体のDCNNと比べて

→10m以上離れた場合でも 5%程度の誤差で距離を推定可能

人部位の位置ずれ精度 [pixel]

人部位の位置推定結果

・画像上の y座標 :

・人とカメラの距離:

人検出 人部位の位置推定

人と部位の位置推定

IS3-19

カメラ

:焦点距離:画像の縦のサイズ

・ 人と部位 ( 頭部と両足 ) の位置を同時に推定する回帰型Deep Convolutional Neural Network を提案・回帰型Deep Convolutional Neural Network で推定した両足の位置を用いて人と車までの距離推定・回帰型DCNNを用いることで人検出と部位の位置推定の精度が向上し,人とカメラが 10m以上離れても約 5%の誤差で距離を推定可能

手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output

ConvMax

PoolingMaxout ConvMax

PoolingMaxout ConvMax

PoolingMaxout# ofunit

# ofunit

# ofunit

検出用 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Softmax

2

回帰用 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Sigmoid

6

提案手法 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Sigmoid

8

手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output

ConvMax

PoolingMaxout ConvMax

PoolingMaxout ConvMax

PoolingMaxout# ofunit

# ofunit

# ofunit

検出用 64x128x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Softmax

2

回帰用 128x64x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Sigmoid

6

提案手法 128x64x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Sigmoid

8