eccv2016 pedestrian behavior understanding and prediction with deep neural netwowks

24
ECCV2016 Pedestrian Behavior understanding and Prediction with Deep Neural Networks Shuai Yi, Hongsheng Li, Xaogang Wnag 2016/11/13 石井

Upload: yasunori-ishii

Post on 22-Jan-2017

44 views

Category:

Technology


1 download

TRANSCRIPT

ECCV2016Pedestrian Behavior understanding and Prediction with Deep Neural Networks

Shuai Yi, Hongsheng Li, Xaogang Wnag

2016/11/13石井

この論文でやりたいこと「固定カメラでの人の移動予測」赤:人が歩いてきた経路緑:本手法で予測した移動経路青:本手法で予測している未来の経路

既存手法• Optical Flowを使う方法

– 重なり後の復帰に曖昧性が残る

• Topic Modelを使う方法[18‐21]• Trajectoryをクラスタリングする方法[22,23]

– シーンの過去の統計的動きを学習

• Kataniの方法[24]– 静的シーンで単一物体経路計画

– ☓:複数人,シーン変化

• Agent‐based Method[12,15,17,25,26]– 個々の動き,インタラクションをモデル化

– ☓:事前のルール決めが必要でルール外のシーンでの保証無し

Deep Learningを使う方法

• 様々な画像認識で高精度な学習方法– 物体識別,検出,追尾,セグメンテーション

• Dense Optical Flowとの組合せ– 動きセグメンテーション,アクション認識

– ☓:Optical Flow → 人物交差時の曖昧性問題

• Dynamic Textureとの組合せ– フレーム間の動き情報を逐次利用

– ☓:長期予測ができない

本論から外れて.

• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]

• LSTM autoencoderで表現学習

• 画像再構成,画像予測

https://arxiv.org/pdf/1502.04681.pdf

本論から外れて.

• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]: 動画から再構成と予測

https://arxiv.org/pdf/1502.04681.pdf

基本的アイデア

• b)動きの座標列をチャネルに格納(Input)• c)動きの座標列特徴を学習

• d) (b)のM時刻後の動きを予測(Output)

動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

基本的アイデア

• b)動きの座標列をチャネルに格納(Input)• c)動きの座標列特徴を学習

• d) (b)のM時刻後の動きを予測(Output)

動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習

順に見ていきます

入力データの作り方• b)人毎にM時刻後の位置を基準に各時刻のベクトルを生成

• c)生成ベクトルを並べ(di,dj…),入力ボクセルのM時刻後の位置Ii,Ijに代入

同じ座標

同じ座標

M時刻後のベクトル生成と埋め込み• 人毎にM時刻後の位置を基準に各時刻のベクトルを生成

• 各時刻の座標 からM時刻後の移動位置 へのベクトル列を算出

Behavior‐CNN

• Conv(3x3)3つ→max pooling (2x2)• Location Bias mapをチャネル毎に加算

• Conv(3x3)3つ→Deconv(4x4)=>予測出力

Behavior‐CNN

• Loss関数

– ∗ : 予測データ

– ∗ : 正解データ

– M : バイナリマスク(diがある場所1, diが無い場所0)• 要素ごとに積 (○ : Hadamard product operator )

Behavior‐CNN

• 学習のコツ

– End‐to‐Endでは学習がうまくいかない

– 1) (b)までを初期値ランダムで学習

– 2) (b)を固定し,(c),(d),(e)を学習

– 3) (b)から(e)までをfine‐tuning

簡易評価(データセット)

• Dataset I: Pedestrian Walking Route Dataset – 4000sec, 12684 pedestrians (annotated)

• 4990 セットを利用:90%を学習に利用,残りをテスト

• Dataset2: 独自データ– 797 pedestrians (annotated)

• 550セットを利用:学習,テストは上記同様

• 20 frame毎にアノテーション

• 入力画像サイズ : 256x256• 5フレームを学習し,次の5フレームを予測

256

256

簡易評価(Bias Mapの効果)

• Bias Map (畳込みの途中で足し込む元画像):下図(黄)• 評価

– 効果の有り/無し

– テスト画像のみフリッピングによるロバスト性

Bias Map有りが効果有りフリッピングにロバスト

何故か急にロボットの移動実験

• 8x8グリッドに区切って,ロボットの移動予測

• 正解との相関が0.88, 0.91等高め

• (d):障害物ありパタンでも相関高め 0.97

学習されたフィルタ調査

• 学習結果で入力を畳込み(Feature Map)• 反応の強い所を表示

– 上段:右上に行こうとしている特徴が33番フィルタに出現

– 下段:左下に行こうとしている特徴が59番フィルタに出現

学習フィルタを変えた評価

• 3x3で学習したものを1x1に変更

– 性能劣化

この4節は,査読後に追加した感満載

実験• 評価:Dataset I, Dataset II 

– 手動アノテーションと自動追尾(KLT)で評価

– 特徴量学習が効果あり

– 一番性能が良い

実験• 評価:Dataset I, Dataset II 

– 手動アノテーションと自動追尾(KLT)で評価

– 特徴量学習が効果あり

– 一番性能が良い

実験• 評価:Dataset I, Dataset II 

– 長期予測:4秒後の動きを予測

• 先程までが何秒後の予測か記載無し...

53%しかでていない...

実験• 評価:Dataset I, Dataset II 

– Tracking手法の事前情報として利用

– L2誤差で比較

まとめ

• 動きをスパースなボリュームデータとしてエンコード

• ロケーションマップを入れることで学習特徴の意味的特徴も学習

• 様々なアプリに利用可能