eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Post on 22-Jan-2017

37 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ECCV2016Pedestrian Behavior nderstanding and Prediction with

Deep Neural Networks

石井

この論文でやりたいこと「固定カメラでの人の移動予測」赤:人が歩いてきた経路緑:本手法で予測した移動経路青:本手法で予測している未来の経路

既存手法• Optical Flow を使う方法

– 重なり後の復帰に曖昧性が残る• Topic Model を使う方法 [18-21]• Trajectory をクラスタリングする方法 [22,23]

– シーンの過去の統計的動きを学習• Katani の方法 [24]

– 静的シーンで単一物体経路計画 – ☓ :複数人,シーン変化

• Agent-based Method[12,15,17,25,26]– 個々の動き,インタラクションをモデル化– ☓ :事前のルール決めが必要でルール外のシーンでの保証無し

Deep Learning を使う方法• 様々な画像認識で高精度な学習方法– 物体識別,検出,追尾,セグメンテーション

• Dense Optical Flow との組合せ– 動きセグメンテーション,アクション認識– ☓ : Optical Flow  → 人物交差時の曖昧性問題

• Dynamic Texture との組合せ– フレーム間の動き情報を逐次利用– ☓ :長期予測ができない

本論から外れて.• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs   [40]• LSTM autoencoder で表現学習• 画像再構成,画像予測

https://arxiv.org/pdf/1502.04681.pdf

本論から外れて.• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs   [40]: 動画から再構成と予測

https://arxiv.org/pdf/1502.04681.pdf

基本的アイデア• b) 動きの座標列をチャネルに格納( Input )• c) 動きの座標列特徴を学習• d) (b) の M 時刻後の動きを予測 (Output)

動きの座標列から M 時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

入力データの作り方• b) 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• c) 生成ベクトルを並べ (di,dj…) ,入力ボクセルの M 時刻後の位置 Ii,Ij に代入

同じ座標

同じ座標

M 時刻後のベクトル生成と埋め込み• 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• 各時刻の座標から M 時刻後の移動位置へのベクトル列を算出

Behavior-CNN

• Conv(3x3)3 つ→ max pooling (2x2)• Location Bias map をチャネル毎に加算• Conv(3x3)3 つ→ Deconv(4x4)=> 予測出力

Behavior-CNN

• Loss 関数– : 予測データ – : 正解データ–M : バイナリマスク( di がある場所 1, di が無い場所 0)• 要素ごとに積 (○ : Hadamard product operator )

Behavior-CNN

• 学習のコツ– End-to-End では学習がうまくいかない– 1) (b) までを初期値ランダムで学習– 2) (b) を固定し, (c),(d),(e) を学習– 3) (b) から (e) までを fine-tuning

簡易評価(データセット)• Dataset I: Pedestrian Walking Route Dataset

– 4000sec, 12684 pedestrians (annotated)• 4990 セットを利用: 90% を学習に利用,残りをテスト

• Dataset2: 独自データ – 797 pedestrians (annotated)

• 550 セットを利用:学習,テストは上記同様

• 20 frame 毎にアノテーション• 入力画像サイズ : 256x256• 5 フレームを学習し,次の 5 フレームを予測

256

256

簡易評価( Bias Map の効果)• Bias Map ( 畳込みの途中で足し込む元画像 ): 下図

( 黄 )• 評価– 効果の有り / 無し– テスト画像のみフリッピングによるロバスト性

Bias Map 有りが効果有りフリッピングにロバスト

何故か急にロボットの移動実験• 8x8 グリッドに区切って,ロボットの移動予測• 正解との相関が 0.88, 0.91 等高め• (d) :障害物ありパタンでも相関高め 0.97

学習されたフィルタ調査• 学習結果で入力を畳込み (Feature Map)• 反応の強い所を表示– 上段:右上に行こうとしている特徴が 33番フィルタに出現– 下段:左下に行こうとしている特徴が 59番フィルタに出現

学習フィルタを変えた評価• 3x3 で学習したものを 1x1 に変更– 性能劣化

この4節は,査読後に追加した感満載

実験• 評価: Dataset I, Dataset II – 手動アノテーションと自動追尾 (KLT) で評価– 特徴量学習が効果あり– 一番性能が良い

実験• 評価: Dataset I, Dataset II – 手動アノテーションと自動追尾 (KLT) で評価– 特徴量学習が効果あり– 一番性能が良い

実験• 評価: Dataset I, Dataset II – 長期予測:4秒後の動きを予測• 先程までが何秒後の予測か記載無し...

53%しかでていない...

実験• 評価: Dataset I, Dataset II – Tracking 手法の事前情報として利用– L2誤差で比較

まとめ• 動きをスパースなボリュームデータとしてエンコード• ロケーションマップを入れることで学習特徴の意味的特徴も学習• 様々なアプリに利用可能

top related