多視点映像技術の概要 -...

複数のカメラで撮影した多視点映像から，実空間の３次元モデルを生成することができる。このような３次元モデルは，仮想空間内で高い自由度で扱うことができることから，立体像制作への応用が期待されている。本稿では，多視点映像から３次元モデルを生成する手法を，多眼視とステレオ視に分類して紹介する。また，生成した３次元モデルから，光線追跡法に基づいて，インテグラル方式の立体像を生成する技術について解説する。

１．はじめに当所では，インテグラルフォトグラフィー（IP：Integral Photography）の原理を用いた，特殊なメガネを必要としないインテグラル立体テレビの研究を進めている。インテグラル立体テレビの撮影は，多数の微小レンズが２次元に並べられたレンズアレーを通して，高解像度カメラで撮影するのが一般的である。このとき，撮影画像には，撮像素子の前に設置されたレンズアレーによって，微小レンズの数に応じた多数の小さな画像（要素画像）が撮影される。要素画像は，被写体からさまざまな方向に発する光線群を記録したものである。この要素画像が微小レンズの数だけ集まった要素画像群を高解像度の２次元ディスプレーに表示し，その表面にレンズアレーを設置すると，要素画像中のある１画素から発せられた光線は微小レンズの光学主点＊１

光学系を薄い１枚のレンズに置き換えたときの，レンズと光軸（レンズの中心と焦点とを通る直線）との交点。

＊１を通る直線上の方向にのみ進む。その結果，実空間と同様の光線が再現されるため，メガネなしで立体視することができる（詳細は本特集号の解説「インテグラル方式の概要」を参照）。しかし，この手法で遠方の被写体を撮影すると，レンズアレーの設置されている範囲の光線しか観測することができないため，表示させた際に，立体感の少ない，平面的な立体像しか再現することができない。この再生像は，実空間の光線空間を忠実に再現しているが，現行の２次元のテレビ放送におけるズームのように，３次元空間を拡大して提示するような立体像においては，十分な奥行きを再現できないという課題がある。この課題を克服する１つの方法として，複数のカメラで撮影した多視点映像から要素画像群を生成する手法がある１）。この手法では，始めに多視点映像から被写体の３次元モデルを生成し，そのモデルとレンズアレー，ディスプレーを計算機内の仮想空間に配置し，ディスプレーの各画素に表示すべき画素値を光線追跡法によって求め，要素画像群を生成する。この場合，モデルを生成することにより，カメラ間の光線を内挿によって取得することができるため，少ないカメラ台数で広い角度をカバーすることができるという利点がある。また，仮想空間で計算を行うことにより，レンズアレーや撮像素子を

多視点映像技術の概要

久富健介■

解説

NHK技研 R&D/No.144/2014.318

ボクセル

撮像面

シルエット

カメラ

光学主点被写体

再現されない凹部

自由に設定することが可能となり，現実空間では困難な大きいサイズのレンズアレーを設定することができるため，大規模な被写体や遠方の被写体に十分な立体感をつけて再生像を生成することができる。本稿では，多視点映像から３次元モデルを生成する技術を紹介したあと，３次元モデルからインテグラル立体像を生成する技術について解説する。

２．多視点映像からの３次元モデルの生成多視点映像から３次元モデルを生成する手法は，全てのカメラ画像を用いて一度にモデルを生成する多眼視による手法と，２台のカメラペアから順次生成したモデルを統合するステレオ視による手法に大別することができる。2.1 多眼視による３次元モデル生成手法多眼視による手法の１つとして，視体積交差法が挙げられる。視体積交差法はシルエット法とも呼ばれ，各カメラ映像について，被写体のシルエットを黒，その他の領域を白で表したシルエット画像と呼ばれる２値画像を用いて３次元モデルを生成する手法である。１図に示すように，撮影領域（もしくは，被写体が存在する可能性がある領域）の３次元空間を小さな立方体（ボクセル）に区切り，ボクセルを等間隔に配置する。このとき，被写体の内側にあるボクセルは，シルエット画像に投影すると，その投影点は全てのシルエット画像において黒い領域の内側に含まれる。この原理を用いて，配置した各ボクセルを順番にシルエット画像に投影し，１枚でも投影点が黒い領域に含まれない場合には，そのボクセルを削除し，全てのシルエット画像において黒い領域に含まれる場合には残す処理を行うと黄色い領域が残る。この領域を３次元モデルとして抽出するのが視体積交差法である。被写体の凹部はシルエットに反映されないため，この手法は原理的に凹部を復元できないなど精度に課題があるが，比較的安定して３次元モデルを取得できることから，３次元モデルを生成する際の初期形状として用いることが多い。また，パラメーター調整が少なく，計算量が比較的少ないため，実用的なアプリケー

１図視体積交差法

NHK技研 R&D/No.144/2014.3 19

（a）視体積交差法で生成した３次元モデル

（c）ドラマ内で使われたデジタルエキストラ

（b）１つのデジタルエキストラを複製して制作した群衆シーン

ションに用いられる。２図は，視体積交差法で生成した人物モデルを，デジタルエキストラとしてドラマに応用した例である。２名の役者を24台のハイビジョンカメラで撮影し，その多視点映像から視体積交差法を用いて，２図（a）のような３次元の人物モデルを生成した。このモデルを複製して配置することで数百人規模の群衆シーンを生成した２）。２図（b）は１名のデジタルエキストラを複製して制作した群衆シーンのテストシーケンスで，２図（c）は実際のドラマで使われたシーンの一例である。視体積交差法に類似した手法として，Voxel Coloring３）がある。この手法では，被写体表面にあるボクセルは，そのボクセルが見えているカメラに投影したとき，投影先の複数のカメラの画素値が同じになると仮定し，各ボクセルを，そのボクセルが見えるカメラに投影し，投影先の複数の画素値を取得する。そして，それらの画素値の分散が小さいボクセルを残し，大きいボクセルを削除することで３次元モデルを生成する。この手法では凹部の復元もできるが，ボクセルごとに独立に削除して形状復元を行うことから，表面の連続性が保たれないという課題があった。そこで，視体積交差法で求めた初期形状の表面のボクセルを内側に向けて移動し，周辺のボクセルとの連続性を保ちつつ，投

２図デジタルエキストラ

３図伝統舞踊のアーカイブシステム

（協力：（社）観世九皐会）

NHK技研 R&D/No.144/2014.320

1

1

画像面

左カメラ右カメラB

p q

f

影誤差（投影先の複数の画素値の差）が小さくなるような位置を探索する手法が提案されている４）。３図は，この手法を用いて40台の多視点映像から，伝統舞踊の３次元アーカイブシステム用に生成した能演者の３次元モデルである９）。さらに近年では，視体積交差法で初期形状を求めたあと，表面の付近の各ボクセルを複数のカメラに投影し，投影誤差の分布を求め，最適化手法を用いて表面形状の精度を上げる試みが行われている。４図は，グラフカット５）と呼ばれる二分割最適化手法＊２＊２

各点の間の関係を表す評価値が定義された点群において，評価値が最小（あるいは最大）となるように，点群を２つに分ける手法。

を用いて生成した３次元モデルである６）。３図よりも少ない24台のカメラから，表面形状が精度よく復元されている。2.2 ステレオ視による３次元モデル生成手法ステレオ視による３次元モデル生成手法は，多数のカメラから２台を選び，その２台

４図グラフカットを用いた３次元モデル生成

５図ステレオ視による奥行き推定

入力画像３次元モデル

（協力：（社）観世九皐会）

NHK技研 R&D/No.144/2014.3 21

のカメラ画像間の対応関係を，各画素について求め，三角測量の原理を用いて奥行きを推定する手法である。例えば，５図のように２台のカメラが平行に並んでいる場合，左画像のある画素 pに対応する，右画像上の画素 qが見つかると，pと qの座標位置から，青枠の三角形の相似の関係を用いて，（１）式により奥行きを求めることができる。

（１）

ただし，f，B，xL，xRはそれぞれ，焦点距離，カメラ間の基線長，pの座標，qの座標である。これを左画像の全ての画素について求めると，画素ごとの奥行き値が２次元に並んだ距離画像を取得することができる。この距離画像は，左画像の撮影位置からの距離値が並んだものであるため，左画像の撮影位置から見えない側面や背面などの領域の３次元情報は含まれていない。そのため，この距離画像を３次元空間に展開しても，左画像の撮影位置から視点がずれると，３次元情報のない欠落領域が穴のように提示されてしまう。そのため，側面等を含む３次元モデルを生成するには，複数の距離画像を統合する必要がある。カメラ配置についても，多眼視とステレオ視では異なる傾向がある。多眼視では，カメラ間の距離が比較的長く，全周囲もしくは比較的多くの方向から撮影することが多い。一方，ステレオ視では２台のカメラ間の距離は比較的短く，必ずしも多方向から撮影する必要はない。また，ステレオ視は，２台のカメラから奥行き推定が可能であることから，多眼視に比べて少ないカメラ台数で構成されることが多い。３次元モデル生成手法については，この他にも３次元モデルとカメラパラメーターを同時に推定するStructure from Motion７）や，影の濃淡から面の方向を推定するStructure from Shading８）など，さまざまな手法が提案されており，撮影方法や撮影環境，使用用途によって使い分けも必要となる。

３．インテグラル立体像の生成２章で紹介した手法を用いて３次元モデルを生成すると，計算機上の仮想空間で，実空間よりも高い自由度で要素画像群を生成することができる。この章では，要素画像群を生成する際の，モデルやレンズアレーなどの仮想空間内の配置について紹介したあと，要素画像群の生成処理について解説する。６図のように，仮想空間内に基準となるレンズアレーを配置するとき，被写体の３次元モデルをレンズアレー付近に配置する。要素画像群の表示面は，レンズアレーの焦点距離だけレンズアレーから離した位置に設置する。３次元モデルは，レンズアレーの奥または手前，もしくは奥と手前をまたぐように配置してもよい。要素画像群は，ディスプレーの各画素について，光線追跡法を行うことにより生成することができる。すなわち，各画素とその画素から最近傍のレンズアレー中の微小レンズの光学主点とを結ぶ直線を考える。そして，その直線とモデルとが交差する点のうち，最も視点に近い交点の画素値を画素に付与する。この処理を全ての画素について実行すると，要素画像群を生成することができる。７図は，能演者の３次元モデルから生成した要素画像群である。この要素画像群を高解像度ディスプレーに表示し，レンズアレー越しに観察すると，８図のように視点によって見え方が異なる立体像を再生することができる。前景の能演者と背景の松との位置関係が，視点により変わっていることが確認できる。この３次元モデルは２章の多眼

NHK技研 R&D/No.144/2014.322

最近傍のマイクロレンズ対象画素

交点

３次元モデル

視点

レンズアレー

要素画像の表示面

焦点距離

仮想空間

左右

上

下

６図要素画像群の生成方法（水平断面を表す図）

７図要素画像群

８図インテグラル立体像（再撮）

NHK技研 R&D/No.144/2014.3 23

視による手法で生成されているため，背景が含まれていない。背景となる能舞台は，コンピューター・グラフィックス（CG：Computer Graphics）で作成した。立体テレビ放送を考慮すると，実空間の背景も含めて立体像を再現できることが期待される。そのためには，取り囲み撮影はカメラ自身が写りこんでしまうため望ましくなく，現行テレビ放送のカメラ配置のように，片サイドから撮影した映像から，背景も含めて３次元モデルを生成することが必要となる。その場合，視体積交差法などの全方向からの撮影映像を前提とした多眼視による手法を用いることが困難となる。本特集号の報告「多視点映像からのインテグラル立体像生成手法」は，そのような背景から検討された手法である。

４．おわりに本稿では，多視点映像から３次元モデルを生成する手法を多眼視とステレオ視の観点から解説した。また，３次元モデルの応用の一例として，メガネなしで立体視が可能となるインテグラル方式の立体像への応用技術について解説した。これらの技術を用いて，インテグラル立体像の撮影条件が緩和され，より多様なコンテンツの撮影が可能になることを期待している。

NHK技研 R&D/No.144/2014.324

参考文献1）片山，岩舘：“3次元モデルからインテグラル・フォトグラフィ立体像への変換手法の検討，”映情学技報，Vol.32，No.44，pp.17-20（2008）

2）久富，冨山，片山，岩舘，松永，井藤，石原：“『デジタルエキストラ』を用いた映像制作手法，”映情学誌，Vol.66，No.11，pp.J426-J433（2012）

3）S. Seitz and C. Dyer：“Photorealistic Scene Reconstruction by Voxel Coloring，”International Journal of Computer Vision，35（2），pp.151-173（1999）

4）冨山，片山，折原，岩舘：“局所的形状特徴に拘束された3次元形状復元手法とそのリアルタイム動画表示，”映情学誌，Vol.61，No.4，pp.471-481（2007）

5）Y. Boykov and V. Kolmogorov：“Computing Geodesics and Minimal Surfaces via GraphCuts，”In IEEE ICCV，pp.26-33（2003）

6）K. Hisatomi，K. Tomiyama，M. Katayama and Y. Iwadate：“3D Archive System forTraditional Performing Arts，”International Journal of Computer Vision，Vol.94，No.1，pp.78-88（2011）

7）C. Tomasi and T. Kanade：“Shape and Motion from Image Streams under Orthography：AFactorization Method，”International Journal of Computer Vision，Vol.9，No.2，pp.137-154（1992）

8）A. P. Pentland：“Local Shading Analysis，”IEEE Transactions on Pattern Analysis andMachine Intelligence，Vol.6，pp.170-187（1984）

9）片山，冨山，久富，岩舘：“3次元モデルを用いた伝統舞踊アーカイブ，”アート・ドキュメンテーション学会年次大会シンポジウム予稿集，pp.36-41（2008）

ひさとみけんすけ

久富健介1999年入局。静岡放送局，技術局を経て，2007年から放送技術研究所において，３次元映像処理，３次元形状復元の研究に従事。現在，放送技術研究所立体映像研究部専任研究員。

NHK技研 R&D/No.144/2014.3 25

多視点映像技術の概要 -...

Documents