回帰型deep convolutional neural networkによる人検出と部位の位置推定

回帰型Deep Convolutional Neural Network による人検出と部位の位置推定山下隆義　福井宏　村瀬将之　山内悠嗣　藤吉弘亘

中部大学

■研究背景

■提案手法

■評価実験

- 回帰型 DCNNを用いた人と部位 ( 頭部，両足 ) の位置の同時推定

入力画像

畳み込み層

特徴マップ

Pooling 層

出力層

全結合層畳み込み層 Pooling 層

全結合層

- 運転支援システムにおける人検出→歩行者と車までの距離が重要一般的な距離推定法

提案するアプローチ距離推定

距離推定

→ ・人と部位の位置の同時推定を１つの識別器で推定　・人部位の位置情報から人と車までの距離を推定

■距離推定方法

0.01

0.1

1

0.0001 0.001 0.01 0.1

Mis

s ra

te

False Positive Per Window

回帰型DCNN単体のDCNN

1

0.0001 0.001 0.01 0.1 1 10

Mis

s Ra

te

False Positive per Image

回帰型DCNN 31.77%単体のDCNN 38.38%　　

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

→ ・複数の回帰推定を１つのネットワークで推定　・人部位の位置情報を与えることで，より人検出に　　有効な特徴表現が可能

人検出

人部位の位置推定頭部の x,y 座標

人部位の位置推定右足の x,y 座標

人部位の位置推定左足の x,y 座標

- 人の位置を利用することでカメラまでの距離を推定→人の位置はDCNNの人部位の推定結果を　使用

■今後の予定

- 使用するデータセットとDCNNの構造　・Daimler Mono Pedestrian Benchmark Dataset - 歩行者画像：31,320 枚 (250,560 枚に拡張 ) - 背景画像　： 254,356 枚

　・INRIA Person Dataset - 歩行者画像：2,100 枚 (50,000 枚に拡張 ) - 背景画像　： 50,000 枚

→頭部と両足の位置にアノテーションを付与

●人検出精度の比較

●人部位の位置推定精度の比較

●実シーンにおける距離推定精度

- 人部位の位置推定精度と距離推定精度の向上

距離推定データ例

人とカメラの距離 [m]

推定距離 [m]

誤差 [%]

5 10 15

4.89 9.26 14.12

2.2 5.3 5.8

INRIA Person Dataset Dimler Mono Pedestrian Dataset

手法

部位回帰のみ

検出と部位回帰

パーツ

頭部左足右足平均

パーツ

頭部左足右足平均

8.1 8.7 9.9 8.9 6.1 5.9 10.7 7.6

6.5 8.0 9.2 7.9 4.2 5.3 9.4 6.3

INRIADaimler

：約 25%の精度向上：約 7%の精度向上→単体のDCNNと比べて

(b) INRIA Person Dataset(a) Daimler Mono Pedestrian Benchmark Dataset

INRIADaimler

：約 1.0pixel の精度向上：約 1.3pixel の精度向上

→単体のDCNNと比べて

→10m以上離れた場合でも 5%程度の誤差で距離を推定可能

人部位の位置ずれ精度 [pixel]

人部位の位置推定結果

・画像上の y座標：

・人とカメラの距離：

人検出人部位の位置推定

人と部位の位置推定

IS3-19

カメラ

：焦点距離：画像の縦のサイズ

・人と部位 ( 頭部と両足 ) の位置を同時に推定する回帰型Deep Convolutional Neural Network を提案・回帰型Deep Convolutional Neural Network で推定した両足の位置を用いて人と車までの距離推定・回帰型DCNNを用いることで人検出と部位の位置推定の精度が向上し，人とカメラが 10m以上離れても約 5%の誤差で距離を推定可能

手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output

ConvMax

PoolingMaxout ConvMax


PoolingMaxout# ofunit

# ofunit

# ofunit

検出用 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Softmax

2

回帰用 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Sigmoid

6

提案手法 96x48x1 8,5x3 2x22 16,5x4 2x22 32,5x4 2x22 1,000 500 100Sigmoid

8

手法 Input Layer1 Layer2 Layer3 Layer4 Layer5 Layer6 Output

ConvMax



PoolingMaxout# ofunit

# ofunit

# ofunit

検出用 64x128x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Softmax

2

回帰用 128x64x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Sigmoid

6

提案手法 128x64x3 20,9x5 2x22 64,5x3 2x22 32,3x3 2x22 1,000 500 100Sigmoid

8

回帰型deep convolutional neural networkによる人検出と部位の位置推定

Engineering