eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

ECCV2016Pedestrian Behavior nderstanding and Prediction with

Deep Neural Networks

石井

この論文でやりたいこと「固定カメラでの人の移動予測」赤：人が歩いてきた経路緑：本手法で予測した移動経路青：本手法で予測している未来の経路

既存手法• Optical Flow を使う方法

– 重なり後の復帰に曖昧性が残る• Topic Model を使う方法 [18-21]• Trajectory をクラスタリングする方法 [22,23]

– シーンの過去の統計的動きを学習• Katani の方法 [24]

– 静的シーンで単一物体経路計画 – ☓ ：複数人，シーン変化

• Agent-based Method[12,15,17,25,26]– 個々の動き，インタラクションをモデル化– ☓ ：事前のルール決めが必要でルール外のシーンでの保証無し

Deep Learning を使う方法• 様々な画像認識で高精度な学習方法– 物体識別，検出，追尾，セグメンテーション

• Dense Optical Flow との組合せ– 動きセグメンテーション，アクション認識– ☓ ： Optical Flow 　→　人物交差時の曖昧性問題

• Dynamic Texture との組合せ– フレーム間の動き情報を逐次利用– ☓ ：長期予測ができない

本論から外れて．• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs 　 [40]• LSTM autoencoder で表現学習• 画像再構成，画像予測

https://arxiv.org/pdf/1502.04681.pdf

本論から外れて．• Dynamic Texture?– Unsupervised Learning of Video Representations

using LSTMs 　 [40]: 動画から再構成と予測

https://arxiv.org/pdf/1502.04681.pdf

基本的アイデア• b) 動きの座標列をチャネルに格納（ Input ）• c) 動きの座標列特徴を学習• d) (b) の M 時刻後の動きを予測 (Output)

動きの座標列から M 時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

入力データの作り方• b) 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• c) 生成ベクトルを並べ (di,dj…) ，入力ボクセルの M 時刻後の位置 Ii,Ij に代入

同じ座標

同じ座標

M 時刻後のベクトル生成と埋め込み• 人毎に M 時刻後の位置を基準に各時刻のベクトルを生成• 各時刻の座標から M 時刻後の移動位置へのベクトル列を算出

Behavior-CNN

• Conv(3x3)3 つ→ max pooling (2x2)• Location Bias map をチャネル毎に加算• Conv(3x3)3 つ→ Deconv(4x4)=> 予測出力

Behavior-CNN

• Loss 関数– : 予測データ – : 正解データ–M : バイナリマスク（ di がある場所 1, di が無い場所 0)• 要素ごとに積 (○ : Hadamard product operator )

Behavior-CNN

• 学習のコツ– End-to-End では学習がうまくいかない– 1) (b) までを初期値ランダムで学習– 2) (b) を固定し， (c),(d),(e) を学習– 3) (b) から (e) までを fine-tuning

簡易評価（データセット）• Dataset I: Pedestrian Walking Route Dataset

– 4000sec, 12684 pedestrians (annotated)• 4990 セットを利用： 90% を学習に利用，残りをテスト

• Dataset2: 独自データ　– 797 pedestrians (annotated)

• 550 セットを利用：学習，テストは上記同様

• 20 frame 毎にアノテーション• 入力画像サイズ : 256x256• 5 フレームを学習し，次の 5 フレームを予測

256

256

簡易評価（ Bias Map の効果）• Bias Map ( 畳込みの途中で足し込む元画像 ): 下図

( 黄 )• 評価– 効果の有り / 無し– テスト画像のみフリッピングによるロバスト性

Bias Map 有りが効果有りフリッピングにロバスト

何故か急にロボットの移動実験• 8x8 グリッドに区切って，ロボットの移動予測• 正解との相関が 0.88, 0.91 等高め• (d) ：障害物ありパタンでも相関高め 0.97

学習されたフィルタ調査• 学習結果で入力を畳込み (Feature Map)• 反応の強い所を表示– 上段：右上に行こうとしている特徴が 33番フィルタに出現– 下段：左下に行こうとしている特徴が 59番フィルタに出現

学習フィルタを変えた評価• 3x3 で学習したものを 1x1 に変更– 性能劣化

この４節は，査読後に追加した感満載

実験• 評価： Dataset I, Dataset II – 手動アノテーションと自動追尾 (KLT) で評価– 特徴量学習が効果あり– 一番性能が良い

実験• 評価： Dataset I, Dataset II – 長期予測：４秒後の動きを予測• 先程までが何秒後の予測か記載無し．．．

５３％しかでていない．．．

実験• 評価： Dataset I, Dataset II – Tracking 手法の事前情報として利用– L2誤差で比較

まとめ• 動きをスパースなボリュームデータとしてエンコード• ロケーションマップを入れることで学習特徴の意味的特徴も学習• 様々なアプリに利用可能

eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

Technology