eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

23
ECCV2016 Pedestrian Behavior nderstanding and Prediction with Deep Neural Networks 石石

Upload: yasunori-ishii

Post on 22-Jan-2017

37 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

ECCV2016Pedestrian Behavior nderstanding and Prediction with

Deep Neural Networks

石井

Page 2: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

この論文でやりたいこと「固定カメラでの人の移動予測」赤:人が歩いてきた経路緑:本手法で予測した移動経路青:本手法で予測している未来の経路

Page 3: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

既存手法• Optical Flow を使う方法

– 重なり後の復帰に曖昧性が残る• Topic Model を使う方法 [18-21]• Trajectory をクラスタリングする方法 [22,23]

– シーンの過去の統計的動きを学習• Katani の方法 [24]

– 静的シーンで単一物体経路計画 – ☓ :複数人,シーン変化

• Agent-based Method[12,15,17,25,26]– 個々の動き,インタラクションをモデル化– ☓ :事前のルール決めが必要でルール外のシーンでの保証無し

Page 4: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Deep Learning を使う方法• 様々な画像認識で高精度な学習方法– 物体識別,検出,追尾,セグメンテーション

• Dense Optical Flow との組合せ– 動きセグメンテーション,アクション認識– ☓ : Optical Flow  → 人物交差時の曖昧性問題

• Dynamic Texture との組合せ– フレーム間の動き情報を逐次利用– ☓ :長期予測ができない

Page 5: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

本論から外れて.• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs   [40]• LSTM autoencoder で表現学習• 画像再構成,画像予測

https://arxiv.org/pdf/1502.04681.pdf

Page 6: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

本論から外れて.• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs   [40]: 動画から再構成と予測

https://arxiv.org/pdf/1502.04681.pdf

Page 7: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

基本的アイデア• b) 動きの座標列をチャネルに格納( Input )• c) 動きの座標列特徴を学習• d) (b) の M 時刻後の動きを予測 (Output)

動きの座標列から M 時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

Page 8: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

入力データの作り方• b) 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• c) 生成ベクトルを並べ (di,dj…) ,入力ボクセルの M 時刻後の位置 Ii,Ij に代入

同じ座標

同じ座標

Page 9: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

M 時刻後のベクトル生成と埋め込み• 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• 各時刻の座標から M 時刻後の移動位置へのベクトル列を算出

Page 10: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Behavior-CNN

• Conv(3x3)3 つ→ max pooling (2x2)• Location Bias map をチャネル毎に加算• Conv(3x3)3 つ→ Deconv(4x4)=> 予測出力

Page 11: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Behavior-CNN

• Loss 関数– : 予測データ – : 正解データ–M : バイナリマスク( di がある場所 1, di が無い場所 0)• 要素ごとに積 (○ : Hadamard product operator )

Page 12: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Behavior-CNN

• 学習のコツ– End-to-End では学習がうまくいかない– 1) (b) までを初期値ランダムで学習– 2) (b) を固定し, (c),(d),(e) を学習– 3) (b) から (e) までを fine-tuning

Page 13: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

簡易評価(データセット)• Dataset I: Pedestrian Walking Route Dataset

– 4000sec, 12684 pedestrians (annotated)• 4990 セットを利用: 90% を学習に利用,残りをテスト

• Dataset2: 独自データ – 797 pedestrians (annotated)

• 550 セットを利用:学習,テストは上記同様

• 20 frame 毎にアノテーション• 入力画像サイズ : 256x256• 5 フレームを学習し,次の 5 フレームを予測

256

256

Page 14: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

簡易評価( Bias Map の効果)• Bias Map ( 畳込みの途中で足し込む元画像 ): 下図

( 黄 )• 評価– 効果の有り / 無し– テスト画像のみフリッピングによるロバスト性

Bias Map 有りが効果有りフリッピングにロバスト

Page 15: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

何故か急にロボットの移動実験• 8x8 グリッドに区切って,ロボットの移動予測• 正解との相関が 0.88, 0.91 等高め• (d) :障害物ありパタンでも相関高め 0.97

Page 16: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

学習されたフィルタ調査• 学習結果で入力を畳込み (Feature Map)• 反応の強い所を表示– 上段:右上に行こうとしている特徴が 33番フィルタに出現– 下段:左下に行こうとしている特徴が 59番フィルタに出現

Page 17: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

学習フィルタを変えた評価• 3x3 で学習したものを 1x1 に変更– 性能劣化

Page 18: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

この4節は,査読後に追加した感満載

Page 19: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

実験• 評価: Dataset I, Dataset II – 手動アノテーションと自動追尾 (KLT) で評価– 特徴量学習が効果あり– 一番性能が良い

Page 20: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

実験• 評価: Dataset I, Dataset II – 手動アノテーションと自動追尾 (KLT) で評価– 特徴量学習が効果あり– 一番性能が良い

Page 21: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

実験• 評価: Dataset I, Dataset II – 長期予測:4秒後の動きを予測• 先程までが何秒後の予測か記載無し...

53%しかでていない...

Page 22: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

実験• 評価: Dataset I, Dataset II – Tracking 手法の事前情報として利用– L2誤差で比較

Page 23: Eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

まとめ• 動きをスパースなボリュームデータとしてエンコード• ロケーションマップを入れることで学習特徴の意味的特徴も学習• 様々なアプリに利用可能