カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i...

37
修士論文 カメラ位置毎の学習に基づく 視点不変な人物姿勢推定 大学大学院 29 2 13

Upload: others

Post on 26-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

修士論文

カメラ位置毎の学習に基づく視点不変な人物姿勢推定

指導教員 美濃 導彦 教授

京都大学大学院情報学研究科修士課程知能情報学専攻

高木 和久

平成 29年 2月 13日

Page 2: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

i

カメラ位置毎の学習に基づく視点不変な人物姿勢推定高木 和久

内容梗概

本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

物の姿勢を推定することを目的とする.カメラが上方に設置される場合には,人

物からの相対的なカメラ位置により人物の見えが変化するというカメラ位置依

存性の問題が生じる.そこで,相対的カメラ位置ごとに特化した弱推定器の学

習と,相対的カメラ位置の推定に基づいた最適な弱推定器の選択による人物姿

勢推定を行うことにより,カメラ位置依存性への対処を目指す.学習の際には,

計算コストの観点から,出来るだけ粗く相対的カメラ位置の離散化を行うこと

が望ましい.そこで,互いに冗長な弱推定器の学習を出来るだけ抑制するよう

な離散化の方法を求め,計算コストを削減することを目指す.同じ深度画像に

対する推定結果が似た弱推定器は互いに冗長だと定義し,細かい離散化から始

めて冗長な弱推定器同士を階層的にマージしていくことにより,効率的な相対

的カメラ位置の離散化方法を求める.

今回提案した手法の有効性を評価するために,以下の 3つの実験を行った.ま

ず,従来手法との推定精度比較を行い,カメラ位置依存性への対処性能を評価

した.実験により全関節の平均で 1.43ポイントの精度向上と,特にカメラ位置

依存性が高い胸部で 9.38ポイントの精度向上を確認し,カメラ位置依存性への

対処性能の向上を示した.次に,相対的カメラ位置の階層的マージによって求

められた離散化に対して,分割数ごとの推定精度と学習時間の関係性を評価し

た.分割数が増えるごとに学習時間が線形に増加する一方で,推定精度は増加

率も上昇し,非線形に増加することを確認した.最後に,実環境への応用可能

性を評価した.人物と棚とのインタラクションにおいて,人物が触れた引き出

しを推定する精度が,33.3%となることを確認した.

Page 3: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

ii

View-invariant Human Pose Estimation with

Camera Location Specific Learning

Kazuhisa Takagi

Abstract

This paper aims to estimate human pose from observation through depth

camera installed above human heads. In such an observation, human appear-

ances are variant to relative camera locations to each person. Our method deals

with this problem by training specialized estimators for each relative camera lo-

cation and selecting the most suitable estimator for a given depth image. In

training, it is desirable to coarsely discretize relative camera locations in terms

of computational cost. In order to reduce computational cost, our method finds

a coarse discretization where redundant estimators are not trained. The re-

dundancy between two discrete relative camera locations can be defined as the

similarity of their estimators’ results for the same depth images. Our method

first finely discretizes relative camera locations, and hierarchically merges re-

dundant discrete relative camera locations, so that one can find the effective

discretization.

The following three experiments show the effectiveness of our method. Firstly,

to evaluate the invariance to camera locations, we conduct the experiment to

compare our method with existing one in estimating precision. It shows 1.43

points improvement on average, and especially 9.38 points improvement in esti-

mating chest position, whose appearance is the most variant to relative camera

locations. Secondly, we evaluate the trade-off relation between estimating pre-

cision and training time in each discretization number. It shows training time is

linearly proportional to the discretization number. On the otherhand, the esti-

mating precision is growing exponentially along with the discretization number.

Finally, to evaluate the applicability to a real environment, we investigate the

precision of estimating which drawer is pulled out. And it shows our method

achieves 33.3% estimating precision in the real environment.

Page 4: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

カメラ位置毎の学習に基づく視点不変な人物姿勢推定

目次

第 1章 緒論 1

第 2章 関連研究 3

第 3章 カメラ位置毎の学習に基づく人物姿勢推定 6

3.1 問題設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2 人物中心座標系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3 相対的カメラ位置毎の弱推定器の学習 . . . . . . . . . . . . . . . . . . 8

3.3.1 相対的カメラ位置の離散化 . . . . . . . . . . . . . . . . . . . . 8

3.3.2 弱推定器の学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.4 弱推定器選択による人物姿勢推定 . . . . . . . . . . . . . . . . . . . . . 11

3.5 離散相対的カメラ位置の推定 . . . . . . . . . . . . . . . . . . . . . . . . . 12

第 4章 相対的カメラ位置離散化方法の最適化 13

4.1 情報利得に基づく弱推定器間の冗長性の計算 . . . . . . . . . . . . . 13

4.2 階層的マージによる離散化方法の最適化 . . . . . . . . . . . . . . . . . 14

第 5章 視点不変な人物姿勢推定に関する評価実験 18

5.1 実装上の設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.1.1 弱推定器として用いる学習ベースの手法 . . . . . . . . . . . 18

5.1.2 相対的カメラ位置推定 . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2 学習データ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.3 カメラ位置依存性への対処性能の評価 . . . . . . . . . . . . . . . . . . 20

5.3.1 人物姿勢の推定精度に関する指標 . . . . . . . . . . . . . . . . 20

5.3.2 比較実験の結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . 21

5.4 相対的カメラ位置の離散化方法の評価 . . . . . . . . . . . . . . . . . . 23

5.4.1 最適化により求められた分割法 . . . . . . . . . . . . . . . . . 24

5.4.2 分割数ごとの学習時間と推定精度の関係性 . . . . . . . . . 24

5.5 実環境への適用可能性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.5.1 実験の設定と評価指標 . . . . . . . . . . . . . . . . . . . . . . . . 25

5.5.2 実環境実験の結果と考察 . . . . . . . . . . . . . . . . . . . . . . 26

Page 5: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第 6章 結論 29

謝辞 30

参考文献 31

Page 6: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第1章 緒論

近年,コンピュータビジョンの分野では,1台のカメラから得られる画像や画

像列から写っている人物の姿勢を推定する研究が数多く行われている.中でも

深度画像を用いた手法は,人物の服装や照明の変化に頑健であり (図 1),人物

領域の切り出しが容易であるという利点から,高い精度を達成している [1–3].

こういった人物姿勢推定は,街角や店舗内などで,不審な行動をとる人物の検

知や,人物が手に取った商品を推定することによるマーケティング活用などに

役立つことが期待できる.一般に,街角などで人物の観測を行う場合には,視

野の広さを確保し,障害物や他人による隠れに対処するために,人物の頭部よ

りも高い位置にカメラを設置することが多い (図 1).また,近年では人物を追

跡するように自動で向きを変えるカメラが設置される場合もある.

カメラを上方に設置して人物姿勢推定を行う場合には,人物の姿勢,向き,そ

して体型や髪型,服装などの外見の多様性の問題に加えて,透視投影の影響に

より,人物の向きの変化では再現出来ないような,人物に対する相対的なカメ

ラ位置による人物の見えの変化の問題が新たに生じる (図 2).本研究ではこの

問題を,カメラ位置依存性の問題と呼ぶこととする.

従来,深度画像を用いた人物姿勢推定の分野では,様々な手法が提案されて

いる [4].これらは大きく分けて,人物骨格モデルを用いてトップダウン式に推

定を行うモデルベースの手法 [2, 5–7]と,大量の深度画像と正解データの組を

図 1: 深度画像と上方設置の利点

図 2: カメラ位置依存性の問題

1

Page 7: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

学習データとして用いて機械学習により推定を行う学習ベースの手法 [1,3,8,9]

の 2つに大別される.特に,学習ベースの手法では,予め様々な体型の人物を

撮影して得られる深度画像を用いて学習を行うことで対象人物の体型の変化に

対応している.しかしながら,学習ベースの手法は深度画像を 1枚のグレース

ケール画像として扱うことで学習を可能としており,上方にカメラを設置する

場合には透視投影により前述のカメラ位置依存性の問題が生じる.従来の学習

ベースの手法はこの問題を考慮していない.

本研究では,近年合成データを用いて学習ベースで人物姿勢推定を行う方法

がいくつか提案され [1, 3, 9],今後も機械学習の発展が期待できる学習ベース

の手法に着目する.そして,離散化した相対的カメラ位置ごとの人物姿勢推定

器の学習と推定対象の深度画像の相対的カメラ位置に応じた推定器選択により,

カメラ位置依存性の問題の解決を目指す.本手法ではまず,離散相対的カメラ

位置それぞれにおいて,学習ベースの手法を弱推定器として学習する.この時,

それぞれの離散相対的カメラ位置から撮影された深度画像を用いて学習を行い,

その位置からの人物の見えに特化した弱推定器を作る.そして,推定対象の深

度画像が撮影された相対的カメラ位置に適した弱推定器を選択して推定を行い,

カメラ位置依存性の問題への対処を目指す.

離散相対的カメラ位置は,細かく離散化するほど推定精度が向上することが

予想される.一方で,細かすぎる離散化は学習データの必要性から現実的では

ないため,カメラ位置依存性の問題に上手く対処しながら,分割数が少なくな

るように相対的カメラ位置を離散化することが望ましい.そのため,本研究で

は,同じ深度画像に対する推定結果が似たものになる弱推定器同士は冗長であ

ると考え,冗長な弱推定器を出来るだけ作成しないような離散化の方法を調べ

る.このためにまず,相対的カメラ位置を細かく離散化したものを用意する.そ

して,冗長な弱推定器に対応する離散相対的カメラ位置同士を階層的にマージ

していき,最適な離散化方法を求める.

以降,2章で深度画像を用いた人物姿勢推定に関する従来手法と,その他関

連手法に関して述べる.そして,3章で多視点データ学習による人物姿勢推定

手法について述べ,4章で相対的カメラ位置の離散化方法の最適化手法につい

て述べる.5章で人物姿勢推定の精度評価に関する実験・評価を行い,最後に,

6章で本研究の結論と今後の展望を述べる.

2

Page 8: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第2章 関連研究

従来の深度画像を用いた人物姿勢推定の手法は,大きくモデルベースの手

法 [2,5–7]と学習ベースの手法 [1,3,8,9]に分けられる.モデルベースの手法は,

人体の各部位の大きさを予め求め,得られた深度画像に最も良くフィッティング

する人物姿勢を求めるというアプローチを取る.モデルベースの手法では,ボー

ンモデルを深度画像から得られる 3D点群にフィッティングすることで人物姿勢

を推定する手法 [2,5,6]や,ボーンモデルは用いず,人物の中心から各関節まで

の測地線距離を予め求めた各部位の大きさから計算しておき,その距離を用い

て姿勢を推定する手法 [7]などがある.モデルベースの手法はいずれも,人物の

各部位の大きさを推定したのちに,その大きさを前提として,対象人物の姿勢

を推定する.各部位の大きさを推定するためには,対象人物が特定の姿勢を取

るなどの協力をする必要があるが,この制約は,実環境でカメラを意識せずに

活動する人物の姿勢を推定するのには適さない.

一方,学習ベースの手法は,様々な姿勢,向き,外見の人物を撮影して得ら

れる深度画像を事前に用意し,学習ベースで人物姿勢を求める.学習ベースの

手法には,深度画像の各部位領域を切り出してデータベースを作成し,部位領

域ごとのマッチングにより姿勢を推定するという手法 [8]や,局所特徴量に基い

て画素ごとに処理を行い,姿勢を推定する手法 [1,3,9]などがある.学習ベース

の手法は,様々な体型の人物を撮影して得られる深度画像を学習に用いること

で,対象人物の各部位の大きさの推定を明示的には行わずに人物姿勢の推定を

行うことができ,特定の姿勢を取らせる必要がない.そのため,対象が姿勢推

定に協力的でない場合にも適用が可能である.局所特徴量に基いた手法の中で

も,Shottonら [1]は,対象画素の周辺 2画素の組に対しての深度差を複数の組

に関して求め,それらを並べたものを局所特徴量としている.そしてRandom

Forest [10]を用いて画像内の各画素がどの部位に属するのかを分類し,その分

類結果を用いて関節位置を推定している.周辺 2画素の選び方を,深度により

正規化することで,人物からカメラまでの距離の変化に頑健な推定を可能とし

ている.また,この手法を改良し,実行速度や障害物への頑健性を高めたもの

がいくつか提案されている [3, 9].Rafiら [9]は,Shottonらの分類ラベルに加

えて,新たに障害物ラベルを追加し,同様の方法で分類することで,人物の手

前に障害物がある場合に関節位置の推定精度が向上することを示した.さらに,

3

Page 9: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

Yubら [3]は,Shottonらの手法と同様の特徴量を用いて,3次元空間における

基準点から人物の各関節位置までの相対ベクトルの推定と,そのベクトルによ

る基準点の移動を反復的に行う手法を提案し,実時間での人物姿勢推定を実現

している.これらの手法ではいずれも,学習データを 3DCGソフトなどを用い

て作成し,十分多様な人物の姿勢,向き,外見を含むことで,それらへの対処を

可能としている.一方で,深度画像を 3Dデータとしてではなく,1枚のグレー

スケール画像として扱うため,カメラが上方に設置されるような場合には,カ

メラ位置依存性の問題が発生し,推定精度が低下する.

またごく最近,Haqueら [11]により,カメラ位置依存性の問題への対処を目

指した学習ベースの手法が提案された.Haqueらは,深度画像から得られる 3D

点群の視点を変換することにより,カメラ位置依存性の問題に対処している.こ

の手法では,関節の局所領域ごとに,Spatial Transformer Networks [12]と呼ば

れる手法を用いて視点変換を行っている.そして得られた変換後の点群を写像

した深度画像を入力として,畳み込みニューラルネットワーク [13]に基づいた

Iterative Error Feedback(IEF) [14]という手法で関節位置の推定を行う.視点変

換と関節位置の推定を反復的に行うことで,カメラ位置不変な人物姿勢推定を

可能にしている.一方で,視点変換を行う際には,オクルージョンへの対処が

必要となる.このとき,局所的および大域的な情報を考慮に入れる方が上手く

対処できると考えられるが,Haqueらの手法では,関節の局所領域ごとに視点

変換を行っているため,大域的な情報が失われている.本研究では,局所的お

よび大域的な情報を用いてオクルージョンに対処するような学習ベースの手法

を相対的カメラ位置ごとの弱推定器として用いることで,この問題に対処して

いる.

一方,人物姿勢推定以外でも,カメラ位置依存性の問題への対処を行った研

究がなされている.人物行動認識の分野では,Rahmaniら [15]が,深度画像列

の行動特徴量を得る前段階として,深度画像列内の各フレームに対して,畳み

込みニューラルネットワーク (CNN) [13]によりカメラ位置不変の人物姿勢特

徴量を抽出する手法を提案している.この手法では,3DCGソフトにより,い

くつかの人物姿勢それぞれに対して,多様な相対的カメラ位置から取得した深

度画像を生成し,それらを用いて,相対的カメラ位置に関わらず人物姿勢をク

ラス分類するCNNを学習した.学習されたCNNでは,最終層に近づくほど各

ニューロンはカメラ位置不変に反応することが期待できる.Rahmaniらは実際

4

Page 10: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

に,最終層の直前の層の出力を特徴量とすることで,カメラ位置不変な行動認

識が可能であることを示した.本研究は,3DCGソフトにより多様なカメラ位

置から撮影された深度画像を学習データとする点でRahmaniらのアプローチに

似ている.しかし,この手法により得られる特徴量は,人物姿勢をクラス分類

するためのものであり,3次元空間における厳密な関節の位置を推定すること

を前提としていない.そのため,人物姿勢推定の問題にそのまま用いることは

難しい.

5

Page 11: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第3章 カメラ位置毎の学習に基づく人物姿勢推定

従来の学習ベース手法は,ある相対的カメラ位置から撮影された大量の深度

画像を用いて学習を行うことにより,その相対的カメラ位置で精度の高い人物

姿勢推定を行うことが出来る [1,3,8,9].その一方で,別の相対的カメラ位置で

は,カメラ位置依存性の問題により推定精度が低下する.そこで,本研究では

従来の学習ベースの手法を弱推定器として複数用意し,離散化した相対的カメ

ラ位置ごとの人物の見えに特化するように個別に学習を行う.そして,推定対

象の深度画像が撮影された離散相対的カメラ位置の弱推定器を選択することに

より,カメラ位置依存性の問題への対処を目指す.

本章ではまず,設置された 1つのカメラを用いて人物姿勢を推定する場合の

問題設定を行い,次に,手法の議論を行う際に重要となる人物中心座標系につ

いて述べる.その後,学習段階,推定段階それぞれの手法の詳細を述べる.

3.1 問題設定本節では今回対象とする人物姿勢推定の問題設定を行う.まず,人物姿勢推定

は,一般に,与えられた深度画像 Iに写っている人物の全ての関節 j(= 1, . . . , K)

に対して,カメラ中心座標系における関節の 3次元位置 x̂j ∈ R3×1を求める問

題として定義される.特に本研究では,カメラ中心座標系における 3次元位置

x ∈ R3×1がどの関節もしくは背景なのかを表した確率分布P(j|I, x)を計算したのちに,その分布の 3次元位置 xに関する極大点を関節位置 x̂jとして推定する

アプローチを想定する.

また,設置されている 1台のカメラから得られる深度画像を用いることを前

提とし,カメラの設置方向 (ロール ϕr,ピッチ ϕp,ヨー ϕy)と設置位置は変更

する度に計測することを想定する.さらに,カメラの向きが頻繁に変更される

環境での応用や,カメラの向きが自動で変化するようなシステムでの応用も想

定する.このとき,学習コストの観点から,カメラの設置方向と設置位置が変

化する度に学習を行うことは現実的ではない.そのため,カメラの設置方向と

設置位置は学習段階においては未知とし,学習は設置前に一度だけ,任意の設

置方法を網羅出来るように行うものとする.一方,設置した後に行う推定段階

においては設置方法は既知とする.なお,簡単のために,一般性を失うことな

く,カメラのロール ϕrはピッチ ϕpの変化が鉛直方向の変化になるように固定

6

Page 12: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 3: 人物中心座標系とカメラ中心座標系

するものとする.

3.2 人物中心座標系本研究では,人物からの相対的カメラ位置に基づき,カメラ位置依存性の問

題に対処する.そこで具体的な手法の議論を行う前段階として,本節ではまず,

人物中心座標系における相対的カメラ位置を定義し,次に,カメラ中心座標系

における人物位置から相対的カメラ位置を求める方法について述べる.

まず,人物中心座標系における相対的カメラ位置 lは,極座標 l = (r, θh, θv)T

で表すものとし,原点Oは人物の重心位置とする (図 3).このとき,r, θh, θvは

それぞれ,人物中心座標系における動径,水平方向の偏角,鉛直方向の偏角を

表している.次に,始線については,通常,人物の正面の向き dを始線とする

のに対し,本研究では,カメラの設置水平角方向 ϕyにより定義する.これによ

り,人物中心座標系は人物の向き dに依存しないものとなり,人物の姿勢,向

き,外見の変化と,本研究で対処を目指す相対的カメラ位置の変化を分けて考

えることが出来る.具体的には,人物中心座標系の始線は,カメラの設置水平

角方向 ϕyとは逆向きとし (図 3上からの視点),簡単のために地面や床とは平行

とする (図 3横からの視点).

以上のように人物中心座標系を定義したとき,相対的カメラ位置は深度画像内

の人物位置によって変化し,カメラの世界座標系での設置位置が既知であっても,

7

Page 13: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

相対的カメラ位置は未知となる.相対的カメラ位置と人物位置は既知のカメラ

の設置俯角 ϕpを用いて相互に変換が可能であり,深度画像から求められるカメ

ラ中心座標系における人物の重心位置を,図 3のように g = (gx, gy, gz)T ∈ R3×1

とすると,次式のように lに変換する事が出来る.

(θh, θv) =

(arctan

(gxgz

), ϕp − arctan

(gygz

)), (1)

r =gz

cos(θv) cos(θh). (2)

3.3 相対的カメラ位置毎の弱推定器の学習相対的カメラ位置により人物の見えが変化するというカメラ位置依存性の問

題に対処するために,まず相対的カメラ位置ごとにそこから撮影した人物の見

えに特化した人物姿勢の弱推定器を学習する.このとき,仮に相対的カメラ位

置が連続値であるとすると,用意すべき弱推定器の数が無限になり,学習は現

実的ではない.そこで学習段階では,相対的カメラ位置の離散化と,離散化し

た相対的カメラ位置ごとに適した人物姿勢の弱推定器を学習を行う.

3.3.1 相対的カメラ位置の離散化

相対的カメラ位置の離散化にあたり,前述の人物中心座標系での相対的カメ

ラ位置 l = (r, θh, θv)を考える.まず,動径 rについては,rの変化に頑健な推

定を行うことのできる従来手法が提案されている [1,3,9].これらを弱推定器と

して用いることで,rは無視することが出来る.そこで,残りの水平,鉛直方

向の偏角 (θh, θv)のみをいくつかの連続した領域で区切ることにより,相対的カ

メラ位置を離散化する.

本研究ではm(= 1, . . . ,M)番目の離散相対的カメラ位置 Lを Lmのように表

す.離散相対的カメラ位置 Lは相対的カメラ位置 lの集合として表され,互い

に重複せず,相対的カメラ位置 lの取りうる全ての範囲を網羅しているものと

する.相対的カメラ位置を離散化した例を図 4に示す.図 4では,人物の重心

を原点とする球面極座標 (r, θh, θv)において,動径 rは無視して,水平方向の偏

角 θh,鉛直方向の偏角 θvを分割することにより相対的カメラ位置を離散化した

場合の例を表している.また,図内の深度画像はそれぞれ,離散相対的カメラ

位置LがL1, L7の例を示している.図 4における離散化方法は一例であり,離

散化方法の詳細については,第 4章で述べる.

8

Page 14: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 4: 相対的カメラ位置離散化例 (M=9の場合)

図 5: 多視点データ学習 (M=9の場合)

3.3.2 弱推定器の学習

上記のように (θh, θv)によって区切られた離散相対的カメラ位置 Lmごとに,

人物の姿勢,向き,外見についての多様性を持つ学習データ Tmを用いて,人

物姿勢の弱推定器 fLm を学習する (図 5).本研究では,N パターンの人物の姿

勢,向き,外見の組を用意し,そこから以下の式で表されるような学習データ

9

Page 15: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

Tmを生成し学習に用いる.

Tm = {(Imn ,ymn )|n = 1, . . . , N} (3)

ここで,Imn は,n番目の姿勢,向き,外見の人物が,m番目の離散相対的カメ

ラ位置から撮影された場合の深度画像を表しており,ymn ∈ R3×Kは,その時の

人物の関節 jの 3次元位置 ymnj ∈ R3×1をK個の関節分だけ並べたものを表して

いる (ymn = (ymn1, . . . , y

mnK)).

学習データTmは全ての離散相対的カメラ位置Lm(m = 1, . . . ,M)に対して必

要となるため,相対的カメラ位置 lに関して多様である必要がある.また同時

に,人物の姿勢,向き,外見の変化に頑健な推定のために,それらに関しても

多様であることが望ましい.著者が調べた限りにおいて,これらの条件を満た

すデータセットは従来は存在しなかった.そのため,本研究では人物姿勢デー

タセット (CMU Mocap [16])と,3DCGソフト (Poser Pro 2014 [17])を用いて,

以下のように独自に学習データ T = {Tm}m=1,...,M を生成した.まず,人物姿勢

データセット内の姿勢と,3DCGソフト内の人物フィギュアの向き,種類 (髪型,

服装),体型を無作為に組み合わせ,N パターンの人物の姿勢,向き,外見 (体

型,髪型,服装)の組を用意する.そして,3DCGソフトにそれらを 1組ずつ読

み込ませ,それぞれに対して相対的カメラ位置 lを Lm内から無作為に選択し,

深度画像と人物の関節位置の組を合成したものを Tmとする.この処理を全て

の離散相対的カメラ位置 Lm(m = 1, . . . ,M)に対して行うことにより,全ての

離散相対的カメラ位置に対応する学習データ T を生成する.なお,合成する全学習データ数は#(T ) = MN となる.

以上の処理によって,得られた学習データ T を用いて,離散相対的カメラ位置 Lmそれぞれに対応する弱推定器 fLmを学習する.弱推定器 fLmは,多様な

姿勢,向き,外見のパターンに対して生成した学習データを用いて学習を行う

ため,姿勢,向き,外見の多様性に対して頑健な推定を行うことが期待できる.

また,離散相対的カメラ位置 Lmから生成されたデータのみで学習を行ってい

るため,特に Lmから撮影された深度画像に対して精度の高い推定を行うこと

が期待できる.

10

Page 16: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

3.4 弱推定器選択による人物姿勢推定推定段階では,推定対象の深度画像が撮影された相対的カメラ位置に適した

弱推定器の選択を行うことにより,カメラ位置依存性の問題への対処を目指す.

前節の方法で学習した弱推定器 fLm(m = 1, . . . ,M)から,推定対象の深度画

像 Iが撮影された相対的カメラ位置 l∗に対応する弱推定器 fL∗を選択し,人物

姿勢推定を行う.これは,次式 (5)のように,深度画像 Iの画素 uに対応する 3

次元位置 xuが関節 jである確率分布 P(j|I, xu)の推定として記述できる.

P(j|I, xu) = fL∗(I, u) (4)

= P (j|I, xu, L∗) (5)

ここで,P(j|I, xu, L∗)は,離散相対的カメラ位置がL∗と仮定した時の,深度画

像 Iの画素 uに対応する 3次元位置 xuに対する弱推定器 fL∗による推定結果を

表している.

式 (5)により得られた深度画像 Iに対する確率分布P(j|I, xu)を用いて,カメ

ラ中心座標系における関節 jの 3次元位置 xjを求める.P(j|I, x)は,深度画像Iに対応するカメラ中心座標系で 3次元位置 xが関節 jである確率分布なので,

各関節 jに対して,3次元位置 xに関する極大点のうちで,最も確率の高いもの

を 3次元関節位置 xj とする.この極大点探索には,Shottonらの手法 [1]と同

様に,Mean Shift [18]を用いる.Shottonらの手法ではMean Shiftの中で,各

関節 jに対して,以下の式で表される重み付きガウシアンカーネル kjを用いて

おり,本研究でも同じものを用いた.

kj(x) =∑u∈UI

wuj exp

− ∥∥∥∥∥x− xu

β

∥∥∥∥∥2 (6)

ここで,関節 jに対する各画素 uの重み wuj は,画素 uに対応する 3次元位置

を xuとすると,確率 P(j|I, xu)と xuのカメラからの距離 z(xu)を用いて,

wuj = P(j|I, xu) · z(xu)2 (7)

で表される.重みの計算にカメラからの距離 z(xu)を用いることで,カメラか

ら人物までの距離が遠いほど極大点探索に用いる画素数が少なく,極大点が手

前になりやすい問題に対処している.なお,Shottonらの手法は,式 (6)におけ

るバンド幅 βについて,グリッドサーチにより最適な値を求めた結果,関節 j

11

Page 17: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

全体の平均が 6.5cmとなったと述べており,関節 jごとの具体的な値は明示さ

れていなかった.そのため,本手法では,全関節に対して等しく β = 6.5cmと

した.また,Shottonらと同様に,Mean Shiftにより極大点を求める前に,確

率 P(j|I, xu)が 0.14以下の場合には,重みwujを 0として扱うものとした.

3.5 離散相対的カメラ位置の推定式 (5)において重要となる離散相対的カメラ位置L∗を,深度画像 I内の人物

位置推定に基いて求める.具体的な処理は以下の通りであり,流れを図 6に示

す.まず,深度画像 Iに写っている人物のカメラ中心座標系における位置 g∗を,

背景差分と連結成分セグメンテーション [19]などの人物位置推定の手法により

求める.そして,求めた人物位置 g∗を,3.2節の式 (1),(2)により,人物中心座

標系における相対的カメラ位置 l∗に変換する.最後に,l∗ ∈ Lmとなるような

Lmを L∗とする.

図 6: 相対的カメラ位置の推定 (M=9の場合)

12

Page 18: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第4章 相対的カメラ位置離散化方法の最適化

離散相対的カメラ位置ごとに弱推定器を学習して,深度画像に対して人物姿

勢を推定する際には,離散相対的カメラ位置が細かく分割されているほど,相

対的カメラ位置を連続とした場合の近似を小さい誤差で行える.その一方で,分

割が細かくなるほど,事前に学習する弱推定器の数が多くなり,学習コストが

増加する.そこで本章では,冗長な弱推定器を出来るだけ学習しないように相

対的カメラ位置を離散化することにより,学習コストを削減する.

このために,まず弱推定器間の冗長性の定義と計算方法について述べる.そ

して,冗長な弱推定器を出来るだけ学習しないように相対的カメラ位置を離散

化するアルゴリズムを提案する.

4.1 情報利得に基づく弱推定器間の冗長性の計算冗長な弱推定器の学習を出来るだけ抑制するように相対的カメラ位置を離散

化するためには,まず,弱推定器間の冗長性を定義する必要がある.本研究で

は,第 3章で述べたように,弱推定器として従来の学習ベースの手法から任意

の手法を選択して用いることを想定している.そのため,手法に関わらず冗長

性の定義が可能であることが望ましい.そこで,手法に依存する弱推定器のパ

ラメタ等に基づく指標は用いず,同じ深度画像の同じ画素に対する推定結果が

どの程度似たものになるかどうかに基いて,弱推定器間の冗長性を定義する.

任意の 2つの離散相対的カメラ位置 L′, L′′に対応する弱推定器 f ′L, f

′′L間の冗

長性は対象とする人物の姿勢,向き,外見ごとに異なる.したがって,入力に依

らない弱推定器間の冗長性を定義するためには,様々な深度画像に対する冗長

性を考慮に入れる必要がある.そこで,多様な深度画像からなるテスト画像群

Iを,3.3.2項と同様の方法で合成する.また,冗長性の計算では背景画素に対

する推定結果よりも人物領域画素の推定結果が重視されることが望ましいため,

合成の際に Iごとに人物領域を囲む人物矩形も同時に出力するものとし,その

中に含まれる画素集合をUIとする.そして,以下に示す式 (8)のように,各深

度画像 Iの各画素 u(∈ UI)に対する弱推定器 f ′L, f

′′L間の冗長性 s(I, u|f ′

L, f′′L)の

テスト画像群 I内の全画素に関する平均を弱推定器間の冗長性とする.

S(fL′ , fL′′) = − 1∑I∈I #(UI)

∑I∈I

∑u∈UI

s(I, u|fL′ , fL′′) (8)

13

Page 19: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

このとき,計算コストの観点から,テスト深度画像群 Iは 2つの位置 L′, L′′か

ら撮影された深度画像のみからなり,その他の位置から撮影される深度画像は

含まないものとする.人物姿勢,向き,外見の組Ntestパターンそれぞれに対し

て,L′, L′′から撮影された深度画像群 I ′, I ′′を用意し,それらを合わせたものをIとする (I = I ′ ∪ I ′′, I ′ ∩ I ′′ = ∅).また,各画像 Iの各画素 u(∈ U)に対する

弱推定器による推定結果は確率分布となるため,冗長性 sの計算のために,確

率分布間の類似性を定義できる指標が必要となる.そこで,情報利得の計算方

法の一種で,確率分布間の距離を表す指標として知られるKLダイバージェン

ス [18]を用いる.KLダイバージェンスは,次式で定義される.

DKL(P ∥ Q) =∑j∈J

P(j) logP(j)

Q(j)(9)

KLダイバージェンスは,DKL(P ∥ Q)は確率分布 Pが確率分布Qに比べ,ど

の程度情報量が増加したのかを表している.したがって,ある深度画像のある

画素に対する 2つの弱推定器の推定結果をそれぞれ P,Qとして式 (9)を計算す

ることにより,2つの推定結果間の冗長性を表現する事が出来る.すなわち,情

報量の増加が少ないほど,弱推定器同士は互いに冗長だと判断できる.ここで,

KLダイバージェンスは対称性がなく (DKL(P ∥ Q) ̸= DKL(Q ∥ P)),2つの弱

推定器による推定結果のどちらをPとし,どちらをQとするのかについて,一

貫性を持たせる必要がある.そこで,以下の式 (10)により,テスト深度画像 I

の画素 uに対する弱推定器間の冗長性 sを定める.

s(I, u|fL′ , fL′′) =

DKL(fL′(I, u) ∥ fL′′(I, u)) (I ∈ I ′)

DKL(fL′′(I, u) ∥ fL′)(I, u) (I ∈ I ′′)(10)

4.2 階層的マージによる離散化方法の最適化相対的カメラ位置の離散化には,多くの方法が考えられる.それらの方法を

全て試して最適な離散化方法を求めるのは,計算コストの観点から現実的では

ない.一方で,少数の離散化方法の候補に限定し,そこから最適なものを求め

ようとすると,候補の選び方が難しく,選び方によっては最適もしくはそれに

準ずる離散化方法を求められなくなる.そこで本節では,細かい粒度の離散化

から,冗長な弱推定器に対応する離散相対的カメラ位置同士を目標分割数にな

るまで階層的にマージすることにより,最適な離散化方法を求める.細かい粒

14

Page 20: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

度の離散化から階層的にマージを行うことで,それよりも粗い粒度の離散化で

あれば,全ての離散化方法を候補として考える事ができる.また,実際に弱推

定器を学習して互いの冗長性を計算することで,弱推定器同士の冗長性を厳密

に再現することが出来る.

まず初めに行う細かい粒度の離散化では,出来るだけ階層的マージ後の離散

化方法の候補が多様になるように,特殊な分け方にはせず,相対的カメラ位置

を水平偏角,鉛直偏角でそれぞれ θminずつ等分割する.このときの全ての離散

相対的カメラ位置の集合をLmaxとする.次に,階層的マージを行うためにその

離散化方法における各弱推定器の学習を行う.このとき,弱推定器の学習に第

3章と同じだけの量の学習データを用意することは,学習コストの観点から現

実的ではない.そのため,それぞれの弱推定器に与える学習データ数N は,弱

推定器それぞれが離散相対的カメラ位置ごとに特化するのに十分な量を用いる

ものとし,今回は経験的にN = 1, 000ずつ各弱推定器の学習に用いた.そして,

学習された弱推定器 fL′ , fL′′ 間の冗長性 S(fL′ , fL′′)を計算する.前節で述べた

ように,冗長性の計算にはテスト画像群に対する推定結果を用いるため,推定

とその結果を統合するための時間がかかる.一方で,弱推定器 fL′ , fL′′間の冗長

性 S(fL′ , fL′′)は,離散相対的カメラ位置が隣接する場合には離れている場合に

比べて高くなると予想できるため,ある弱推定器と最も冗長性が高くなる弱推

定器は隣接していると考えられる.そのため,冗長性の計算コストを削減する

為に,隣接している離散相対的カメラ位置の組でのみマージが行われるものと

し,その組に対して冗長性の計算を行う.

さらに,図 7における始線上の鉛直平面を中央平面とし,その中央平面を基

準とする左右の対称性を考える.弱推定器それぞれに与える学習データにおけ

る深度画像の見えの多様性は,左右対称であるため,それによって学習される

弱推定器の性質も,左右対称となると考えられる.そのことから,階層的マー

ジの反復数を削減するために,階層的マージを左右対称に行うものとする.左

右対称にマージを行うために,全ての隣接する離散相対的カメラ位置の組に対

する冗長性の計算結果を用いて左右対称な冗長性を計算する.中央平面に対し

て,左側,右側にある離散相対的カメラ位置の集合をそれぞれ,Lleft,Lrightと

表し,Lleft,Lrightの要素はそれぞれLleftm , Lright

m (m = 1, . . . ,MLR)と表す (図 7).

また,Llefta とLright

b は,a = bのときに左右対称であるとし,マージの各階層で

15

Page 21: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 7: 左右対称マージ

の全ての離散相対的カメラ位置の集合Lを次式のように表す.

L = Lleft ∪ Lright (11)

このとき,(Llefta , Lleft

b )と (Lrighta , Lright

b )の 2つの組に関する左右対称な冗長性

Ssym(a, b)は,次式により計算できる.

Ssym(a, b) =1

2

(S(fLleft

a, fLleft

b

)+ S

(fLright

a, fLright

b

))(12)

そして最後に,この式によって求められた左右対称の冗長性が最も高い離散相

対的カメラ位置の組をマージする.具体的には,次式により左右対称な冗長性

が最も高くなる a, bを求め,

a, b = arg maxa,b=1,...,MLR

Ssym(a, b) (13)

(Llefta , Lleft

b )と (Lrighta , Lright

b )をそれぞれ次の代入式によりマージする.

L ← L\{Llefta , Lleft

b , Lrighta , Lright

b }, (14)

L ← L ∪ {Lleftab , Lright

ab }, (15)

where Lleftab = Lleft

a ∪ Lleftb , Lright

ab = Lrighta ∪ Lright

b

16

Page 22: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 7において,互いに左右対称な離散相対的カメラ位置の組を色付きで示し

ている.Llefta = Lright

a かつLleftb = Lright

b であるような a, bに対して,Ssym(a, b)

が最も高かった場合 (例:図 7で赤色の組の場合)には 1組のみのマージとなり,

それ以外の場合 (例:図 7で青色の組の場合)には 2組のマージとなる.以上の

階層的マージを,分割数が目標分割数Mになるまで続ける.具体的な処理の流

れをAlgorithm1に示す.

Algorithm 1 階層的マージによる離散化方法最適化

Lmaxにより分割

{fL}L∈Lmaxのそれぞれを学習

while #(L) > M do

for L′ in L do

for L′′ in {L ∈ L|Lが L′と隣接している } doS(fL′ , fL′′)を計算

end for

end for

式 (12-15)により左右対称マージを行い,Lを更新マージ後の離散相対的カメラ位置の弱推定器を学習

end while

return L

17

Page 23: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第5章 視点不変な人物姿勢推定に関する評価実験

本研究ではまず,提案手法がカメラ位置依存性の問題にどの程度対処できて

いるのかを評価するために,従来手法との比較実験を行う.次に,相対的カメ

ラ位置の離散化方法の最適化により求められる分割において,分割数と計算時

間,推定精度の関係性を実験により求め,考察を行う.そして,実データを用

いた実験を行い,本手法の応用可能性の評価を行う.

5.1 実装上の設定5.1.1 弱推定器として用いる学習ベースの手法

以降の実験では,リアルタイムで高精度な人物姿勢推定手法として知られる

Shottonらの手法 [1]を離散相対的カメラ位置ごとの弱推定器とする.第 3章で

述べたように,3次元位置 xに関する極大点の中で確率が最大となるものを関

節 jの 3次元位置 x̂jとする.このとき,Shottonらの手法で求められた x̂jは厳

密な関節位置ではなく,関節のカメラ側の肌表面上の位置である.したがって,

実際の関節位置 xjを求めるためには,x̂jをカメラからの奥行き方向に移動させ

る必要がある.Shottonらは,関節部位 jごとに異なる奥行き方向のオフセット

δjを,交差検証によるグリッドサーチを用いて求めているが,関節ごとの具体

的な数値は示しておらず,平均で 3.9cmであったという点を示している.その

ため,本研究では,関節部位ごとの奥行方向のオフセット δjを,人体寸法デー

タ集 [20]で示されている各関節部位の大きさに基いて下の表 1のように定めた.

なお Shottonらと同様に,関節は頭,首,胸,腰,肩 (左右),肘 (左右),手首

(左右),手 (左右),膝 (左右),足首 (左右),足 (左右)の 18関節とした (図 8右).

関節 頭 首 胸 腰 肩 肘 手首 手 膝 足首 足 平均

オフセット (cm) 10 7.0 9.5 9.5 6.5 4.1 2.6 1.0 4.1 4.1 2.0 4.7

表 1: 関節ごとのオフセット

5.1.2 相対的カメラ位置推定

3.5節に述べたように,推定段階において,背景差分,収縮膨張処理および連

結成分セグメンテーション [19]により人物位置の推定を行う.それぞれの段階

18

Page 24: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

におけるパラメタは経験的に以下のように定めた.背景差分では背景との深度

差が 10cm以上となる画素を前景とし,収縮膨張では 8近傍による収縮を 4回

繰り返したのちに膨張を 4回繰り返すものとした.そして,連結成分セグメン

テーションでは,Wuら [19]の手法を用いて,画素数が最も多い連結成分を人

物領域とした.最後に人物重心は,人物領域の重心画素に対応する 3次元位置

とした.

5.2 学習データ本研究では,人物の姿勢,向き,外見およびカメラの相対位置・向きに関す

る多様性を持った学習データを,3DCGソフト Poser Pro2014 [17]を用いて生

成した.

人物の姿勢,向き,外見の多様性に関しては,日常生活を送る日本人の成人

男女を対象とすることを前提とし,以下のような多様性をもたせた.

• 姿勢:モーションキャプチャにより得られた人物姿勢を大量に含む CMU

Mocapデータセット [16]を用いて,人物姿勢群を用意した.人物姿勢群か

ら,無作為に選択した姿勢が多様になるようにするため,任意の 2つの人

物姿勢は互いに少なくとも 1つの関節の位置が 5cm以上離れるようにデー

タを間引いた.また,日常の生活では取り得ないと考えられる行動に含ま

れる姿勢は予め取り除いた.結果,姿勢の選択肢は,502,044種類となった.

• 向き:今回,実世界への応用適用可能性を調べるための実験の設定として,物体とのインタラクションを対象とする.そのため,人物が後ろを向いて

いるような問題は前提とせず,人物の水平方向の向きは,図 3における始

線方向を 0°としたときに,-120°から 120°までの範囲で一様に変化する

ものとした.

• 外見:日本人の成人男女を対象とした推定を行うことを前提とし,人物モデルとして,Poser Pro 2014の成人男女の人物モデル 2つを用いた.また,

身長に関しては文部科学省の学校保健統計調査 26年度 [21]における 17歳

の身長の平均 (男性: 170.7cm,女性: 157.9cm)と標準偏差 (男性: 5.6,女

性: 5.33)を用いた.

また,Shottonらの手法 [1]においては,人物姿勢推定の前段階として,人物

の部位を下図 8左で色分けしたように 31部位に分け,各画素がどの部位に属す

るのかを確率的に推定して関節位置を求める.そこで,深度画像の各画素がど

19

Page 25: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 8: Shottonらの手法における部位ラベル (左)と関節位置 (右)

の部位に属するのかという情報を保持しておく必要があるため,Poser Pro 2014

で学習データを生成する際に,同時にラベル画像として人物の各部位と背景に

色がつけられた輝度画像 (図 8左)を出力した.

今回行う実験を通して,従来手法,提案手法ともに,人物の姿勢,向き,外見の

組N = 15, 000パターンから生成した学習データを用いた.すなわち,従来手法

では計15, 000組,相対的カメラ位置の分割数がMの提案手法では計15, 000×M組の学習データを用いた.

5.3 カメラ位置依存性への対処性能の評価本節では,カメラ位置依存性への対処性能を評価するために,提案手法の分

割数はM = 13とし,Shottonらの手法を従来手法として,関節位置推定精度に

関する比較を行う.テストデータとしては学習データと同様に生成した 100枚

の深度画像を用いるものとし,このテストデータに対する推定精度の量的,質

的評価を行う.

5.3.1 人物姿勢の推定精度に関する指標

人物の関節位置推定結果の精度を求めるための量的指標としては,Shotton

ら [1]の研究と同様に,AP(Average Precision)を用いる.ここでAPは次式の

ような,ある許容範囲 (半径 tcmの球)をもった適合率である.

APj =関節 jの推定結果の誤差が tcm未満の画像数

テスト画像数(16)

本実験では,Shottonらと同様,t = 10とした.また,見えていないと推定さ

れた関節に関しては,その画像を除外してAPを計算するものとした.

20

Page 26: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 9: 関節位置推定精度の比較

5.3.2 比較実験の結果と考察

提案手法と従来手法の推定精度を量的に評価した結果を図 9に示している.ま

ず平均に関しては,1.43ポイント精度が向上しており,従来手法に比べて,カ

メラ位置依存性に対処出来ていることが確認出来た.関節ごとにみると,特に

胸の位置推定精度の向上が著しく,9.38ポイント,平均と比べて 7倍近くの精度

向上が見られた.これは,他の部位に比べて相対的カメラ位置の変化の影響を

受けやすいためであると考えられる.胸は他の部位と比べて,隣接する部位と

の相対的な位置関係がほとんど変化せず,相対的カメラ位置が一定としたとき

の見えの変化は多様ではない.その一方で,透視投影の影響により,相対的カ

メラ位置の変化に伴う見えの変化は多様である.そのため,他の部位に比べて,

胸はカメラ位置依存性が高い.特にこの結果から,提案手法はカメラ位置依存

性に対処出来ていると考察できる.また,他の関節の結果をみると,肘よりも

先の腕の関節全てにおいて精度が向上している.これは,従来手法では相対的

カメラ位置全体をまとめて学習しており,提案手法では,鉛直偏角 θvが大きい

相対的カメラ位置と小さい相対的カメラ位置を別々に学習しているからだと考

えられる.腕の関節は,相対的カメラ位置の鉛直偏角 θvが小さくなるほど隠れ

21

Page 27: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

(a) (b) (c) (d)

図 10: 提案手法 (上段)と従来手法 (下段)の質的評価

やすくなり,大きくなるほど隠れにくくなる.従来手法では相対的カメラ位置

全体をまとめて学習を行うため,鉛直偏角 θvが大きい相対的カメラ位置から撮

影された深度画像に対しても,隠れていると推定されることが多くなる.それ

に対して,提案手法では,鉛直偏角 θvが大きい相対的カメラ位置のみを対象と

して学習を行うため,隠れていると推定せず,比較的正確に関節位置が推定で

きる.

次に,推定精度を質的に比較したものを図 10に示す.提案手法の推定結果

を上段に,従来手法の推定結果を下段に示しており,精度が向上している例を

(a),(b)に,精度が低下した例を (c)に,共に精度が低い例を (d)に示している.

図内の青線で囲まれている部分は,各推定結果における人物矩形を拡大したも

のを示している.(a),(b)に関しては,主に腕の関節において精度向上が確認で

きる.特に手首に関して,従来手法では隠れていると判断されてしまうのに対

して,提案手法では比較的正確に推定が出来ている.これは,量的評価に対す

る考察として述べたように,腕の関節は相対的カメラ位置ごとに隠れやすさが

変わるためだと考えられる.一方 (c)では,特に左肘や左足首で推定精度が低下

しているのに加えて,胸でも推定精度が低下している.これは,(c)の深度画像

中の人物の体軸の傾きに適した弱推定器が選択出来ていないからだと考えられ

る.通常人物が床に対して直立している場合には,相対的カメラ位置の水平偏

22

Page 28: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 11: 最適化により求められた分割法

角 θhが小さくなるほど深度画像中の体軸の傾きは小さくなる.一方で,(c)で

は相対的カメラ位置の水平偏角 θhが小さいにも関わらず,深度画像中の人物の

体軸が傾いている.そのため,提案手法で選択される弱推定器は体軸が傾いて

いない場合に適したものとなる一方で,対象の深度画像中の人物の体軸は傾い

ているため,推定精度が下がっていると考えられる.そして,(d)に関しては,

複雑な姿勢であるため,共に対応できず,頭部や胸以外の関節ほとんどで誤っ

た推定が行われているか,隠れていると推定されていると考えられる.

5.4 相対的カメラ位置の離散化方法の評価本節では,第 4章で述べた相対的カメラ位置離散化方法の最適化により得ら

れた分割方法を用いた場合に,学習時間と推定精度のトレードオフがどのよう

になるのかを評価する.目標分割数をM = 9, 11, 12, 13とした場合に得られる

分割法それぞれに対して,第 3章で述べた提案手法の推定精度と,学習時間に関

する実験と考察を行う.なお,今回の実験は 2.7GHz, 12コアの計算機で行った.

23

Page 29: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 12: 分割数と学習時間,推定精度の関係性

5.4.1 最適化により求められた分割法

目標分割数をM = 9, 11, 12, 13とした場合に得られる分割法を図 11に示す.

この最適化を行う際の各パラメタは以下の通りに設定した.テスト深度画像群

Iは,人物の姿勢,向き,外見N = 100パターンから生成したものを用いるも

のとした.また,分割は,水平偏角,鉛直偏角で θmin = 10◦ずつ行うものとし

た.このとき,カメラの横方向の画角としてはKinect v2 [22]の 70◦を想定し,

初めに行う細かい粒度の分割数は 63(= 70◦ × 90◦ ÷ θ2min)とした.

5.4.2 分割数ごとの学習時間と推定精度の関係性

分割数がM = 9, 11, 12, 13とした場合の推定精度と学習時間の関係性を図 12

のグラフに示している.推定精度の指標としては 5.3節と同じものを用いた.

Shottonらの手法における学習は特徴量抽出とRandom Forestの構築の 2つに

分けられるが,今回示した学習時間は,全ての弱推定器のRandom Forestの構

築にかかった時間を示している.なお,示した時間とは別に 1つの弱推定器に

与えるN = 15, 000組あたり,特徴量抽出にはおよそ 8時間,学習データの生

成にはおよそ 2時間がかかる.

24

Page 30: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

人物A 人物B 人物C

図 13: 実験対象人物

学習時間は,学習が必要な弱推定器の数が増加するのに伴い,比例して増加

している.一方で,推定精度は,分割数が増えるごとに増加率も増えている.こ

のことから,実際の応用では推定精度の観点から,時間が許す限り分割数を増

やすことが理想的だと考えられる.

5.5 実環境への適用可能性5.5.1 実験の設定と評価指標

実環境における本手法の適用可能性を確認するための実験として,店舗内で

人物がどの商品を手に取ったのかを推定する問題を想定し,人物が図 14のよう

な棚の中のどの引き出しに触れたのかを推定する精度の評価実験を行う.

人物がある 1つの引き出しに触れる瞬間とその前後数フレームに撮影された

深度画像を並べた深度画像列に対して,その深度画像列で人物が触れた引き出

しの推定を行い,その推定精度を指標として評価する.具体的には,まず深度

画像列内の全深度画像に対して各引き出しから手までの距離を計算し,その中

で最も距離が小さかった引き出しを推定結果とする.そしてその推定結果が正

しい深度画像列の比率を引き出し推定の精度として評価を行う.このとき,引

き出しから手までの距離は,引き出しに近い方に推定された手関節からの距離

とする.また,引き出しの持ち手の中心位置を引き出しそのものの位置とする.

今回実験の対象とする人物は体型の異なる 3人の人物 (図 13)とし,それぞれ

に図 14内のように番号が振られた 33箇所の引き出しの中から 1箇所ずつを引

き出させる.すなわち,推定対象の深度画像列は計 99列用意する.撮影した実

データの詳細を表 2に示す.

25

Page 31: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

図 14: 実データ取得環境

対象人物数1人あたり深度画像列数

深度画像列内深度画像数

深度画像列内平均深度画像数

3人 33列 19~108枚 約 38枚

表 2: 実データの構成

5.5.2 実環境実験の結果と考察

実環境における本手法の適用結果の質的評価として,典型的な成功例と失敗

例を図 15に示す.(a),(b)は引き出しの推定が成功した例を示しており,(c)は

引き出しの推定に失敗した例を示している.(a)では手の位置が引き出し近くに

推定されており,引き出しの推定が上手くいっていることがわかる.一方で,学

習データに含まれていないような複雑な姿勢を取っているため,手以外の関節,

特に左肩や左肘,腰の推定が上手く行っていない.(b)では,手の位置が引き出

し上に推定されている.これは,引き出しが人物領域の一部だと推定されてい

るからだと考えられる.ここで,引き出しは棚から分離することが出来ないた

め,引き出し上に手の位置が推定されても,インタラクション対象の引き出し

26

Page 32: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

(a) (b) (c)

図 15: 実データに対する推定結果の質的評価

推定精度 (%) 人物A 人物B 人物C 平均

1段ミス許容 87.9 84.8 69.7 80.8

1段ミス非許容 36.4 30.3 33.3 33.3

表 3: 実データの推定精度

の推定精度は低下しづらい.一方で,実際の応用環境では,人物は商品棚から

分離することの出来る商品の推定を行う.そのため,特に商品が大きい場合な

どで,商品上に手の位置が推定されることにより,インタラクション対象の商

品の推定精度が低下することがあり得る.そのため,実際の応用環境では,商

品と人物の領域を出来るだけ厳密に区別することが理想的だと考えられる.(c)

では,頭頂部が手だと推定されている.(c)内の人物は,学習データに含まれて

いないような複雑な姿勢を取っているため,全体的に推定が誤り,引き出しの

推定に失敗している.

次に,実環境における本手法の適用可能性に関する量的評価を表 3に示す.今

回の実験環境では,図 14に示したように,横 23cm,縦 8cmの引き出しを対象

とした.しかし,実際の応用環境において人物がどの商品を手に取ったのかを

推定する場合には,今回の実験環境における引き出し間の距離に比べ,商品間

の距離が大きくなることがあり得る.そのような応用環境に対する適用可能性

を調べるために,5.5.1項で述べた推定精度指標に加えて,上下 1段のミスを許

容する場合の推定精度の評価を行った.

まず,人物間の精度の差に関する考察を行う.人物Aに対する推定精度は他

27

Page 33: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

の 2人に比べて高い.これは,人物Aの身長が,今回生成した学習データの身

長の分布の平均値に最も近いためだと考えられる.

次に,合成データに対する推定精度との比較に関する考察を述べる.表 3に

おける実データの推定精度は,合成データに対する手関節の推定精度AP(5.3.1

項)と対応させることが出来る.今回の実験環境では,横 23cm,縦 8cmの引き

出しを対象としたため,上下 1段のミスを非許容とする場合の精度は t = 4と

したAPに対応し,許容する場合の精度は t = 8としたAPに対応する.このと

き,5.3節における提案手法の合成データに対する手関節の推定精度 12.2%に比

べて,表 3における全人物の平均精度 (1段ミス許容: 80.8%,1段ミス非許容:

33.3%)の方が高い.tの値が小さいにも関わらず実データの推定精度の方が高

くなるのは,実データの方が合成テストデータに比べて,姿勢の多様性が低い

からだと考えられる.実データでは,図 13のように,比較的単純な姿勢を取る

ことが多い.その一方で合成テストデータは学習データと同様の方法で生成す

るため,5.2節で述べたように姿勢が多様となる.そのため,合成テストデータ

よりも実データの方が推定が簡単になり,精度が向上していると考えられる.

最後に,実データの有効性に関する考察を行う.本実験では,店舗内におい

て人物がどの商品を手に取ったのかを推定するという問題を応用先として想定

した.この問題を解くことにより得られた情報の利用先としては,マーケティ

ング等が考えられる.このとき,上下 1段のミスを許容した場合,すなわち商

品間の距離が 16cm離れている場合に得られる 80.8%の推定精度であれば,マー

ケティングでの利用に有益な情報を得ることができると考えられる.その一方

で,上下 1段のミスを許容しない場合,すなわち商品間の距離が 8cm離れてい

る場合に得られる推定精度 33.3%は低く,大幅な精度向上が望まれる.この精

度向上を実現するためには,学習データを増やし,前傾等といった姿勢や体型

の変化に対処出来るようにする必要があると考えられる.

28

Page 34: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

第6章 結論

本研究では,上方に設置された深度カメラを用いて,人物姿勢推定を行う際

に生じるカメラ位置依存性の問題への対処を目指した.離散化した相対的カメ

ラ位置ごとに特化した弱推定器を予め学習しておき,推定対象の深度画像にお

ける人物とカメラとの位置関係に適した弱推定器を選択することにより,カメ

ラ位置依存性の問題への対処を図った.また,冗長な弱推定器を学習しないよ

うな相対的カメラ位置の離散化方法を求め,学習コストの削減を目指した.冗

長性を同じ画像に対する弱推定器の推定結果間の情報利得に基いて定義し,細

かい粒度の離散化から冗長性の高い弱推定器に対応する離散相対的カメラ位置

を階層的にマージしていくことにより,互いに非冗長な弱推定器のみを学習す

る離散化方法を求めた.そして,カメラ位置依存性への対処性能および,離散

化分割数ごとの推定精度と計算時間のトレードオフ,実データへの適用可能性

に関する実験を行った.特に,カメラ位置依存性への対処性能に関する実験に

おいて,従来手法に比べて提案手法の精度が向上しており,従来手法よりもカ

メラ位置依存性に対処出来ていることを確認した.

また,今後の展望としては,人物の外見の多様性を増やした実験と,関節ご

とに異なるカメラ位置依存性への対処が考えられる.今回の実験では,合成に

より得た学習データにおける人物の外見の多様性が低く,実データ実験におい

て手以外の関節の推定精度が低くなった.そのため,その多様性を高くし,実験

を行っていく必要がある.また本研究では,人物重心を基準として弱推定器選

択を行ったが,透視投影による人物の見えの変化の仕方は,厳密には関節ごと

に異なる.そのため,関節位置推定と弱推定器選択を交互に行うような枠組み

を用いることにより,関節ごとのカメラ位置依存性への対処が可能となり,推

定精度が向上することが予想される.

29

Page 35: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

謝辞

本研究を進めるにあたり,多くの御教示,熱心な御指導を賜りました美濃導

彦教授,飯山将晃准教授に深く感謝致します.また,本研究全体を通して親身

になって御指導を賜りました橋本敦史助教に心より感謝致します.最後に,研

究生活を楽しいものにして下さった美濃研究室の皆様に感謝致します.

30

Page 36: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

参考文献

[1] Girshick, R., Shotton, J., Kohli, P., Criminisi, A. and Fitzgibbon, A.: Effi-

cient regression of general-activity human poses from depth images, 2011

IEEE ICCV , IEEE, pp. 415–422 (2011).

[2] Ye, M. and Yang, R.: Real-time simultaneous pose and shape estimation for

articulated objects using a single depth camera, Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition, pp. 2345–2352

(2014).

[3] Yub Jung, H., Lee, S., Seok Heo, Y. and Dong Yun, I.: Random tree walk

toward instantaneous 3D human pose estimation, Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition, pp. 2467–2474

(2015).

[4] Chen, L., Wei, H. and Ferryman, J.: A survey of human motion analysis

using depth imagery, Pattern Recognition Letters , Vol. 34, No. 15, pp.

1995–2006 (2013).

[5] Besl, P. J. and McKay, N. D.: Method for registration of 3-D shapes,

Robotics-DL tentative, International Society for Optics and Photonics, pp.

586–606 (1992).

[6] Ganapathi, V., Plagemann, C., Koller, D. and Thrun, S.: Real-time human

pose tracking from range data, European conference on computer vision,

Springer, pp. 738–751 (2012).

[7] Schwarz, L. A., Mkhitaryan, A., Mateus, D. and Navab, N.: Human skele-

ton tracking from depth data using geodesic distances and optical flow,

Image and Vision Computing , Vol. 30, No. 3, pp. 217–226 (2012).

[8] Charles, J. and Everingham, M.: Learning shape models for monocular

human pose estimation from the Microsoft Xbox Kinect, 2011 IEEE ICCV

Workshop, IEEE, pp. 1202–1208 (2011).

[9] Rafi, U., Gall, J. and Leibe, B.: A semantic occlusion model for human pose

estimation from a single depth image, Proceedings of the IEEE Confer-

ence on Computer Vision and Pattern Recognition Workshops , pp. 67–74

(2015).

31

Page 37: カメラ位置毎の学習に基づく 視点不変な人物姿勢 …...i カメラ位置毎の学習に基づく視点不変な人物姿勢推定 高木和久 内容梗概 本研究では,街角や店舗内などで上方に設置された深度カメラを用いて,人

[10] Liaw, A. and Wiener, M.: Classification and regression by randomForest,

R news , Vol. 2, No. 3, pp. 18–22 (2002).

[11] Haque, A., Peng, B., Luo, Z., Alahi, A., Yeung, S. and Fei-Fei, L.: Towards

Viewpoint Invariant 3D Human Pose Estimation, European Conference on

Computer Vision, Springer, pp. 160–177 (2016).

[12] Jaderberg, M., Simonyan, K., Zisserman, A. et al.: Spatial transformer

networks, Advances in Neural Information Processing Systems , pp. 2017–

2025 (2015).

[13] LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hub-

bard, W. and Jackel, L. D.: Backpropagation applied to handwritten zip

code recognition, Neural computation, Vol. 1, No. 4, pp. 541–551 (1989).

[14] Carreira, J., Agrawal, P., Fragkiadaki, K. and Malik, J.: Human Pose Es-

timation with Iterative Error Feedback (2015).

[15] Rahmani, H. and Mian, A.: 3d action recognition from novel viewpoints,

CVPR, June (2016).

[16] University, C. M.: Motion Capture Database.

[17] Micro, S.: Poser Pro 2014.

[18] Bishop, C. M.: Pattern recognition, Machine Learning , Vol. 128 (2006).

[19] Wu, K., Otoo, E. and Suzuki, K.: Two strategies to speed up connected

component labeling algorithms, Lawrence Berkeley National Laboratory

(2008).

[20] 工業技術院生命工学工業技術研究所: 設計のための人体寸法データ集, 人

間生活工学研究センター,日本出版サービス (発売) (1996).

[21] 文部科学省: 学校保健統計調査 26年度.

[22] Microsoft: Kinect.

32