ECCV2016Pedestrian Behavior understanding and Prediction with Deep Neural Networks
Shuai Yi, Hongsheng Li, Xaogang Wnag
2016/11/13石井
既存手法• Optical Flowを使う方法
– 重なり後の復帰に曖昧性が残る
• Topic Modelを使う方法[18‐21]• Trajectoryをクラスタリングする方法[22,23]
– シーンの過去の統計的動きを学習
• Kataniの方法[24]– 静的シーンで単一物体経路計画
– ☓:複数人,シーン変化
• Agent‐based Method[12,15,17,25,26]– 個々の動き,インタラクションをモデル化
– ☓:事前のルール決めが必要でルール外のシーンでの保証無し
Deep Learningを使う方法
• 様々な画像認識で高精度な学習方法– 物体識別,検出,追尾,セグメンテーション
• Dense Optical Flowとの組合せ– 動きセグメンテーション,アクション認識
– ☓:Optical Flow → 人物交差時の曖昧性問題
• Dynamic Textureとの組合せ– フレーム間の動き情報を逐次利用
– ☓:長期予測ができない
本論から外れて.
• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]
• LSTM autoencoderで表現学習
• 画像再構成,画像予測
https://arxiv.org/pdf/1502.04681.pdf
本論から外れて.
• Dynamic Texture?– Unsupervised Learning of Video Representations using LSTMs [40]: 動画から再構成と予測
https://arxiv.org/pdf/1502.04681.pdf
基本的アイデア
• b)動きの座標列をチャネルに格納(Input)• c)動きの座標列特徴を学習
• d) (b)のM時刻後の動きを予測(Output)
動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習
基本的アイデア
• b)動きの座標列をチャネルに格納(Input)• c)動きの座標列特徴を学習
• d) (b)のM時刻後の動きを予測(Output)
動きの座標列からM時刻後の動きの座標列を予測するネットワーク (Behavior CNN) を学習
順に見ていきます
Behavior‐CNN
• Conv(3x3)3つ→max pooling (2x2)• Location Bias mapをチャネル毎に加算
• Conv(3x3)3つ→Deconv(4x4)=>予測出力
Behavior‐CNN
• Loss関数
– ∗ : 予測データ
– ∗ : 正解データ
– M : バイナリマスク(diがある場所1, diが無い場所0)• 要素ごとに積 (○ : Hadamard product operator )
Behavior‐CNN
• 学習のコツ
– End‐to‐Endでは学習がうまくいかない
– 1) (b)までを初期値ランダムで学習
– 2) (b)を固定し,(c),(d),(e)を学習
– 3) (b)から(e)までをfine‐tuning
簡易評価(データセット)
• Dataset I: Pedestrian Walking Route Dataset – 4000sec, 12684 pedestrians (annotated)
• 4990 セットを利用:90%を学習に利用,残りをテスト
• Dataset2: 独自データ– 797 pedestrians (annotated)
• 550セットを利用:学習,テストは上記同様
• 20 frame毎にアノテーション
• 入力画像サイズ : 256x256• 5フレームを学習し,次の5フレームを予測
256
256
簡易評価(Bias Mapの効果)
• Bias Map (畳込みの途中で足し込む元画像):下図(黄)• 評価
– 効果の有り/無し
– テスト画像のみフリッピングによるロバスト性
Bias Map有りが効果有りフリッピングにロバスト
学習されたフィルタ調査
• 学習結果で入力を畳込み(Feature Map)• 反応の強い所を表示
– 上段:右上に行こうとしている特徴が33番フィルタに出現
– 下段:左下に行こうとしている特徴が59番フィルタに出現