deconvolutional single shot detector のマルチタスク化によ...

1
Deconvolutional Single Shot Detector のマルチタスク化による物体検出の高精度化 EP14089 中瀬架 指導教授:山下隆義 1. はじめに 物体検出は自動運転や産業用ロボットにおいて重要なタ スクであり,高精度化が大きな課題である.深層学習による 物体検出法として, Deconvolutional Single Shot Detector (DSSD) が提案されている [1]DSSD による物体検出は 中間層の小さい特徴マップより原画像における物体を予測 する際に,矩形の大きさや位置に誤差が生じることがある. そこで,本研究では, DSSD を物体検出とセグメンテーショ ンのマルチタスク化し,セグメンテーションの結果を物体 検出に反映することで,物体検出の高精度化を図る. 2.Deconvolutional Single Shot Detector マルチスケールな物体検出法に Single Shot MultiBox Detector (SSD) がある [2]SSD VGGNet をベースに 後層の複数の層で物体検出を行う.SSD の改良版である DSSD は,ネットワークの後層に Deconvolution 層を追加 し,アップサンプリングした高解像度の特徴マップを利用 することで,小さなスケールの物体検出が可能となる. 3. 提案手法 提案手法では,物体検出とセグメンテーションを同時に 行うために,DSSD Decoder にセグメンテーション用の Deconvolution 層を追加する.また, Decoder で物体検出と セグメンテーションを行い,Non-Maximum Suppression (NMS) 時にセグメンテーションの結果を物体検出に反映 する.提案するネットワークの構造を図 1 に示し,以下に 各処理の詳細について述べる. VGG-16 input Segmentation 予測レイヤ DeconvolutionNon-max suppression Conv4_3 Conv5_3 fc7 Conv6_2 Conv7_2 Conv8_2 Conv9_2 Detection Deconv. Deconv. Deconv. Deconv. Deconv. Deconv. Deconv. Deconvolution(3) 特徴マップの結合 1: 提案手法のネットワーク構造 3.1.Decoder の改良と各タスクの出力 提案手法では,図 2(a) のように,Encoder の特徴マッ プと Decoder の特徴マップを要素ごとに総和して結合す る.これにより,Decoder の高解像度な特徴マップからの 物体検出及びセグメンテーションが可能となる.物体検出 とセグメンテーションの出力方法を図 2(b) に示す.結合し た特徴マップに対して畳み込みと Deconvolution を行い, 物体の位置を予測する Localization map と,物体のカテ ゴリを予測する Confidence map,セグメンテーションを する Segmentation map 3 つを出力する. ReLU 特徴マップ from SSD DeconvolutionDeconv. (a) 特徴マップの結合 Deconv. Deconv. Deconv. 特徴マップ Conv. Localization Confidence Segmentation Conv. Df boxDf box×クラス数 クラス数 × 座標オフセット Default box(Df box) = [4, 4, 6, 6, 6, 4] (b) 各タスクの出力 2: 提案手法の Decoder と予測レイヤ 3.2. セグメンテーション結果を反映した NMS 物体検出時に NMS を用いる際,セグメンテーション結 果を物体検出に反映することで,正確な矩形の検出が期待 できる.セグメンテーション結果より物体の外接矩形 S 求め,物体検出により予測した矩形 D との重なり率 (IoU) を求める.そして,物体のクラス確率 pc と合わせ正規化 するため平均を求める.式 (1) にクラス確率を求める式を 示す. score = ( p c + ( area (D S) area (D S) )) /2 (1) ここで,area( ) は面積を求める関数である.提案手法 では上記の score NMS に用いる. 4. 評価実験 提案手法による物体検出とセグメンテーションの効果を 示すために,評価実験を行う. 4.1. 評価方法 評価には 40 種類のアイテムを含む ARC2017 RGB-D Dataset を使用する.学習には,1,210 枚の画像を Data Augmentation した 36,300 枚を用いる.評価には 200 を用いる.比較する手法は,物体検出は SSD DSSD,セ グメンテーションは SegNet を用いる.また,提案手法 1 はセグメンテーションを反映しない NMS,提案手法 2 反映した NMS を用いたネットワークを示す. 4.2. 実験結果 物体検出及びセグメンテーションの比較結果を表 1 に示 す.ここで,識別率は検出した矩形のクラス正解率,重な り率は教師と予測した矩形の重なりの割合,GA Global AccuracyCA Class Accuracy を示している.提案手 2 は,DSSD と比べて識別率が約 3%向上した.提案手 1 と提案手法 2 を比較すると,重なり率が約 2.7%向上 しており,セグメンテーション結果を NMS に反映した効 果を確認した.また,SegNet と比較して,提案手法はマ ルチタスク化の効果により,Mean IoU を含む全てのセグ メンテーション精度を向上させることができた. 1: 精度比較 [%] 手法 検出 セグメンテーション 識別率 未検出率 重なり率 GA CA Mean IoU SSD 86.45 29.86 81.28 - - - DSSD 88.43 30.19 81.37 - - - SegNet - - - 78.19 72.16 53.97 提案手法 1 90.47 29.97 80.95 91.80 87.31 78.30 提案手法 2 91.50 29.68 83.68 91.80 87.31 78.30 物体検出とセグメンテーション例を図 3 に示す.提案手 2 は,従来の DSSD と比較すると,見切れたペットボ トルに対しても検出できている.また,提案手法 1 よりも 矩形のずれが補正されていることがわかる.一方セグメン テーションにおいて,提案手法は SegNet と比較して,ノ イズが減少していることがわかる. (a) DSSD (b) 提案手法 1 (c) 提案手法 2 (d) SegNet (e) 提案手法 3: 物体検出とセグメンテーションの例 5. おわりに 本研究では,物体検出とセグメンテーションを同時に行 DSSD を提案し,この有効性を確認した.今後は,ネッ トワーク構造の見直しと高速化を目指す. 参考文献 [1] C. Fu, et al., “DSSD: Deconvolutional Single Shot Detector”, arXiv, no.1701.06659, 2017. [2] W. Liu, et al., “SSD: Single Shot MultiBox Detec- tor”, ECCV, pp. 21-37, 2016.

Upload: others

Post on 20-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Deconvolutional Single Shot Detector のマルチタスク化によ …mprg.jp/data/FLABResearchArchive/Bachelor/B17/Abstract/nakase.pdfDeconvolutional Single Shot Detector のマルチタスク化による物体検出の高精度化

Deconvolutional Single Shot Detectorのマルチタスク化による物体検出の高精度化EP14089 中瀬架 指導教授:山下隆義

1.はじめに物体検出は自動運転や産業用ロボットにおいて重要なタ

スクであり,高精度化が大きな課題である.深層学習による物体検出法として,Deconvolutional Single Shot Detector(DSSD) が提案されている [1].DSSD による物体検出は中間層の小さい特徴マップより原画像における物体を予測する際に,矩形の大きさや位置に誤差が生じることがある.そこで,本研究では,DSSDを物体検出とセグメンテーションのマルチタスク化し,セグメンテーションの結果を物体検出に反映することで,物体検出の高精度化を図る.2.Deconvolutional Single Shot Detector

マルチスケールな物体検出法に Single Shot MultiBoxDetector (SSD)がある [2].SSDは VGGNetをベースに後層の複数の層で物体検出を行う.SSD の改良版であるDSSDは,ネットワークの後層にDeconvolution層を追加し,アップサンプリングした高解像度の特徴マップを利用することで,小さなスケールの物体検出が可能となる.3.提案手法提案手法では,物体検出とセグメンテーションを同時に

行うために,DSSDのDecoderにセグメンテーション用のDeconvolution層を追加する.また,Decoderで物体検出とセグメンテーションを行い,Non-Maximum Suppression(NMS) 時にセグメンテーションの結果を物体検出に反映する.提案するネットワークの構造を図 1に示し,以下に各処理の詳細について述べる.

VGG-16

input

Segmentation

予測レイヤ

Deconvolution層

Non-max suppression

Conv4_3

Conv5_3 fc7

Conv6_2Conv7_2

Conv8_2Conv9_2

Detection

Deconv.

Deconv.

Deconv.

Deconv.

Deconv.

Deconv.

Deconv. Deconvolution層(3層)

特徴マップの結合

図 1 : 提案手法のネットワーク構造3.1.Decoderの改良と各タスクの出力提案手法では,図 2(a) のように,Encoder の特徴マッ

プと Decoder の特徴マップを要素ごとに総和して結合する.これにより,Decoderの高解像度な特徴マップからの物体検出及びセグメンテーションが可能となる.物体検出とセグメンテーションの出力方法を図 2(b)に示す.結合した特徴マップに対して畳み込みと Deconvolution を行い,物体の位置を予測する Localization mapと,物体のカテゴリを予測する Confidence map,セグメンテーションをする Segmentation mapの 3つを出力する.

ReLU

特徴マップ from SSD

Deconvolution層∑

Deconv.

(a) 特徴マップの結合

Deconv.Deconv.Deconv.

特徴マップ

Conv.

Localization Confidence Segmentation

Conv.

Df box数 Df box数×クラス数クラス数

×座標オフセット

Default box(Df box) = [4, 4, 6, 6, 6, 4]

(b) 各タスクの出力図 2 : 提案手法の Decoderと予測レイヤ

3.2.セグメンテーション結果を反映したNMS物体検出時に NMSを用いる際,セグメンテーション結

果を物体検出に反映することで,正確な矩形の検出が期待できる.セグメンテーション結果より物体の外接矩形 S を求め,物体検出により予測した矩形Dとの重なり率 (IoU)を求める.そして,物体のクラス確率 pc と合わせ正規化するため平均を求める.式 (1)にクラス確率を求める式を示す.

score =

(pc +

(area (D ∩ S)

area (D ∪ S)

))/2 (1)

ここで,area(・)は面積を求める関数である.提案手法では上記の scoreを NMSに用いる.4.評価実験提案手法による物体検出とセグメンテーションの効果を

示すために,評価実験を行う.4.1.評価方法評価には 40 種類のアイテムを含む ARC2017 RGB-D

Dataset を使用する.学習には,1,210 枚の画像を DataAugmentationした 36,300 枚を用いる.評価には 200枚を用いる.比較する手法は,物体検出は SSDとDSSD,セグメンテーションは SegNetを用いる.また,提案手法 1はセグメンテーションを反映しない NMS,提案手法 2は反映した NMSを用いたネットワークを示す.4.2.実験結果物体検出及びセグメンテーションの比較結果を表 1に示

す.ここで,識別率は検出した矩形のクラス正解率,重なり率は教師と予測した矩形の重なりの割合,GAはGlobalAccuracy,CAは Class Accuracyを示している.提案手法 2は,DSSDと比べて識別率が約 3%向上した.提案手法 1と提案手法 2を比較すると,重なり率が約 2.7%向上しており,セグメンテーション結果を NMSに反映した効果を確認した.また,SegNet と比較して,提案手法はマルチタスク化の効果により,Mean IoUを含む全てのセグメンテーション精度を向上させることができた.

表 1 : 精度比較 [%]

手法検出 セグメンテーション

識別率 未検出率 重なり率 GA CA Mean IoU

SSD 86.45 29.86 81.28 - - -

DSSD 88.43 30.19 81.37 - - -

SegNet - - - 78.19 72.16 53.97

提案手法 1 90.47 29.97 80.95 91.80 87.31 78.30

提案手法 2 91.50 29.68 83.68 91.80 87.31 78.30

物体検出とセグメンテーション例を図 3に示す.提案手法 2 は,従来の DSSD と比較すると,見切れたペットボトルに対しても検出できている.また,提案手法 1よりも矩形のずれが補正されていることがわかる.一方セグメンテーションにおいて,提案手法は SegNetと比較して,ノイズが減少していることがわかる.

(a) DSSD (b) 提案手法 1 (c) 提案手法 2

(d) SegNet (e) 提案手法図 3 : 物体検出とセグメンテーションの例

5.おわりに本研究では,物体検出とセグメンテーションを同時に行

う DSSDを提案し,この有効性を確認した.今後は,ネットワーク構造の見直しと高速化を目指す.参考文献[1] C. Fu, et al., “DSSD: Deconvolutional Single Shot

Detector”, arXiv, no.1701.06659, 2017.

[2] W. Liu, et al., “SSD: Single Shot MultiBox Detec-tor”, ECCV, pp. 21-37, 2016.