「実世界と仮想世界」を繋ぎ「人と人」を結ぶ 拡張現実 ... -...
TRANSCRIPT
「実世界と仮想世界」を繋ぎ「人と人」を結ぶ拡張現実インタラクションAugmented Reality Interaction that
Couples a Virtual World with the Real World and Connects Person to Person
蔵田武志∗1∗2Takeshi KURATA
興梠正克∗1Masakatsu KOUROGI
大隈隆史∗1Takashi OKUMA
酒田信親∗1∗2Nobuchika SAKATA
葛岡英明∗2Hideaki KUZUOKA
西村拓一∗1Takuichi NISHIMURA
∗1産業技術総合研究所National Institute of Advanced Industrial Science and Technology (AIST)
∗2筑波大学University of Tsukuba
筆者らのグループでは、1999年よりウェアラブル拡張現実インタラクションに関する研究を実施している。本稿では、まず、カメラや慣性センサ群を用いたセンサフュージョンに基づく拡張現実技術により、ユーザ・コンピュータ間の直感的なインタラクションを可能にするウェアラブルビジュアルインタフェース「Weavy」の研究成果について述べる。次に、遠隔作業者間の円滑なコミュニケーション支援のための新しいインタフェースであるウェアラブルアクティブカメラ・レーザ (WACL)、及びタンジブルテーブルトップ (TTT)インタフェースについて簡単に紹介する。
1. はじめに
携帯・着用型のカメラやセンサから得られる画像やデータは、着用者およびその周囲の状況を把握するための重要な情報源である。もし、コンピュータが自律的にこれらのデータからユーザの状況を認識し、そのユーザが知りたい情報や受けたいサービスをタイミングよくわかりやすく提供することができれば、気の利いた着用型アシスタントを実現することができる。また、コンピュータにすべて状況判断させるのではなく、例えば、熟練指示者やオペレータがそのような画像やセンサデータ(を加工したもの)に基づいて遠隔地の状況を理解し、的確な指示をわかりやすく対話相手に提示できれば、効率的な遠隔協調作業支援が可能となる。筆者らの拡張現実インタラクションに関する研究の狙いは、このような人とコンピュータ、人と人との直感的で円滑な対話を、センシング技術とウェアラブル拡張現実インタフェースやタンジブルインタフェースにより実現し、デジタルデバイド、熟練指示者不足、安全管理などの諸問題を解消することである。
2. ウェアラブルビジュアルインタフェース(Weavy)
まず、ウェアラブルビジュアルインタフェース「ウィービー(Weavy: Wearable Visual Interface)」について紹介する(図1)[11]。このWeavyの特徴は、コンピュータビジョン、センサフュージョン、拡張現実情報提示などの技術をウェアラブルインタフェースと組み合わせ、環境側に手を加えることなくユーザ自身やその周囲のセンシングを実現し、実世界に仮想世界を重ね合わせた直感的なインタラクション環境を提供できる
連絡先: 蔵田武志,産業技術総合研究所情報技術研究部門,305-8568 茨城県つくば市梅園 1-1-1 中央第2,[email protected]
ところにある。以下、これまでの研究成果について簡潔に紹介する。
2.1 パーソナルポジショニングまず特徴的なのは、腰部の加速度・ジャイロ・磁気センサに
よるデッドレコニング、及び頭部装着カメラから得られる画像を用いた絶対位置・方位推定手法を組み合わせ、ユーザの位置・方位を獲得するパーソナルポジショニング機能である [7, 5]。歩行動作に伴う加速度、角速度の時系列パターンを認識することで、歩行動作による相対移動を検出する。その結果を角速度と組み合わせてどの方向にどれだけ歩いたかを積算するため、少ない計算資源、低遅延、高更新レートで結果が得られる。小型ジャイロから得られる角速度にはかなりのノイズが含まれるため、その補正には重力加速度及び地磁気データが用いられる。しかしながら、ジャイロのみならず各センサの性能限界や、
地磁気の乱れなどによる誤差の蓄積はデッドレコニング共通の問題点である。筆者らは、撮影視点位置・方位情報を含む登録画像と入力画像との対応付けにより、絶対位置・方位の補正を実現している([8, 4])。ただし、この対応付けには比較的多くの計算資源が必要であり、登録画像が存在しないと結果が得られないといった欠点がある。Weavyのパーソナルポジショニング機能は、このような特性の異なるセンサ・手法をカルマンフィルタの枠組みで相補的に融合することで実現されている。図 2は、国際ロボット展(東京ビッグサイト:2003年 11月)
において、本システムを用いて拡張現実ナビゲーションを実施した際の移動軌跡と各時点の拡張現実映像を示している(始点・終点は同一、10分間で 350mの移動、画像による補正はなし)。この例が示すように、パーソナルポジショニング機能を用いることで、ユーザの位置や見ている方向に応じて注釈(見ているものの説明やウェブリンクなど)を実映像に重ね合わせて提示することが可能となる。
図 1: ウェアラブルシステムの外観と展示会などでの着用者の様子
図 2: パーソナルポジショニング機能を用いた屋内 AR ナビゲーション
2.2 ウェアラブルセンサと環境側センサの統合によるパーソナルポジショニング
インディペンダブルで(自律性が高いため適用範囲が広く)、ディペンダブルな(信頼できる)センシングを実現するためには、環境側センサのない空間でも機能し、環境側センサ(リファレンス)が利用できる場合には、より高精度な位置・方位情報を取得できるような枠組みが必要となる [10]。図 3は、屋外において GPS(I-O DATA社製 SDGPS)をリファレンスとして利用した場合のユーザの移動軌跡を地図上に頂上したものである(歩行距離:約 1650m、所要時間:約 12分間)[6]。図3左下は、GPS 単体の位置追跡結果と提案手法による追跡結果、及び実際の移動軌跡を示し、図右下は GPSから得られる位置情報を約 20秒間仮想的に遮断した場合の移動軌跡を示す。
2.3 ハンドジェスチャインタフェースと実世界文字認識パーソナルポジショニング機能により、ユーザに対して拡張
現実環境を提示することができるようになるが、例えば、目の前に表示された注釈情報を選択してさらに詳細な情報を得るな
図 3: GPS とデッドレコニングの統合によるパーソナルポジショニング
どのインタラクションのためには、さらに別の機能が必要となる。もちろん、マウスや携帯電話のキーボードなどでもその役割を果たすことは可能であるが、筆者らは、とっさに何かを指示する場合や簡単な操作で十分な場合にわざわざ入力デバイスを持つ必要がなく、また直感的に使えるという利点を持つハンドジェスチャインタフェースについての研究を実施している。手の検出・追跡のために、まず、動き補償付き低解像度フ
レーム間画像差分を用いて、少ない計算量(手の追跡時の 7%)で手の出現をモニタリングする。これにより、ハンドジェスチャ未使用時はウェアラブルコンピュータの計算リソースを他の処理に振り分けることができる。手が出現したと判断されると、出現時の手の色情報と、事前に登録された輪郭情報を用いた重点サンプリングを含むパーティクルフィルタ [9]による手の追跡処理を起動する。現状では、ポインティング、クリック、ドラッグ動作に対応する手振りを用いたシステムとの対話が可能である。看板や標識、ポスターなど実環境中の文字情報を取り込むこ
とができれば、その場その場の文字情報に関連した情報サービスを即座に受けることができる。Weavyの実世界文字認識(実世界 OCR)機能では、まず、テクスチャ解析により画像中の文字らしい領域を文字認識の候補として抽出し [3]、それらの中から選択された領域に対して文字認識をすることで、キーボードを使わずに実世界中の文字情報を獲得することができる。図 4 は、2つのデモ会場(ワシントン大学:2003 年 8 月,
カンタベリ大学:2004年 2月)でのハンドジェスチャインタフェースの実演の様子を示している。一時的な隠れや照明変化にロバストであることがわかる。図 5 は、入力の度にキー配置が変化する仮想キーボードを用いて暗証番号をハンドジェス
2
図 4: 一時的な隠れや照明変化にロバストな手の追跡
図 5: ハンドジェスチャで暗証番号を入力している様子
チャで入力している様子、図 6 は、ハンドジェスチャインタフェースと実世界 OCRを組み合わせた例である。
2.4 拡張現実情報提示のための 3次元物体追跡対象物体を3次元的に追跡することで、作業支援に有効な3
次元拡張現実環境を構築することができる(図 7)。実物体と仮想物体の3次元的な位置合わせに用いるセンサや方法は、各応用システムに応じて適切に選択する必要がある。コンピュータビジョン技術による位置合わせは、原理的に環境や対象側に計測用デバイスを配置する必要がないことから、ウェアラブルシステムに適していると言える。筆者らは、マーカを用いずに実物体と仮想物体との位置合わせを実現するために、特徴点追跡に基づくボトムアップ手法と3次元対象モデルの当てはめに基づくトップダウン手法の統合アプローチ、及び対象物体のアピアランスの自動登録による、自然特徴点を用いた 3 次元位置姿勢推定手法を開発している [15, 16]。また、従来、仮想物体の表示のためには、CGモデル作成や対象物体計測など多くの手作業が必要であり、これがAR応用の普及の妨げとなっていたが、それらコンテンツのデザインや実世界情報(物体形状、テクスチャなど)の収集を、半自動で効果的に行うステレオ HMD コンテンツオーサリングシステムについても研究中である。
図 6: 実世界 OCRによる翻訳サービスの例
図 7: 3次元拡張現実マニュアル
3. 遠隔協調作業支援のためのウェアラブル・タンジブルインタフェース
3.1 ウェアラブルアクティブカメラ・レーザ(WACL)遠隔協調作業支援のためのウェアラブルインタフェース装置
として、ヘッドマウントディスプレイ(HMD)とカメラからなるヘッドセットが典型例としてあげられる (図 1参照)。ヘッドセットの着用者は、HMDによりさまざまな種類の映像や文字情報を見ることができる。また、頭部着用カメラの視点が着用者の視点とほぼ一致するため、遠隔地の共同作業者に着用者の意図を伝えやすいという利点がある。一方、ウェアラブル用の HMD は歩行などの動作で支障をきたさないように単眼用のものが多いにも関わらず、実作業空間を見ながら行動する際に視界の妨げとなることがあり、さらに、ディスプレイ上の映像と実作業空間との対応を付けるのに慣れが必要であるという問題があった。頭部着用型カメラに関しても、視点が頻繁に変化しすぎるために、遠隔地の共同作業者が本当に見たい場所を安定してみることができないという点も指摘されている。筆者らは、ハンズフリー、アイフリーで頭部非拘束なウェア
ラブルインタフェースとして、肩や胸に着用するウェアラブルアクティブカメラ・レーザ(WACL、図 8)を提案し、WACL
を用いた遠隔作業支援システムを開発した [17]。WACL は、カメラとレーザポインタを一体化したヘッド部を小型のパン・チルトアクチュエータ上に搭載した着用型デバイスである。遠隔地にいる共同作業者がこのWACL を操作することにより、着用者の姿勢変化にあまり影響されずにその着用者の周辺状況を観測することができるとともに、レーザポインタで実作業空間の特定の場所を直接指し示しながら着用者と対話することが可能である。また、モーションセンサデータや、画像のアフィン変換による位置合わせ結果に基づくスタビライズ機能を用いることにより、着用者が体を動かしてもカメラ・レーザヘッド部の向きをある程度安定させることができる。
3.2 ユーザースタディウェアラブルインタフェース装置が重要な役割を果たすと考
えられる遠隔協調作業として、移動を伴う作業を実施する作業者と、遠隔地からその作業者に指示を送る熟練者との協調作業を想定することができる。本プロジェクトでは、そのようなタスクにおいて、作業者がヘッドセットを着用した場合と、WACLを着用した場合とで、人間支援に関わる各要因である、作業完了時間、対話の仕方(使用した単語数)、及び疲労度や使いやすさなどの印象においてどのような違いが出るのかを調査するため、16名の作業者と2名の熟練指示者を組み合わせ
3
図 8: ウェアラブルアクティブカメラ・レーザ(WACL)
てユーザテストを実施した [13, 14]。なお、本ユーザテストで用いた指示者側のインタフェースは、従来型の単純なGUIとマウスによる簡易なものとした。まず、作業完了時間であるが、全体的な作業完了時間に統
計的に有意な差はなく、詳細な手順指示が必要な場合はヘッドセットの方が有利、指示者の見たい場所と作業者が注視したい場所が異なる場合はWACLの方が有利であった。対話の仕方については、詳細な手順指示が必要な場合はヘッドセットの方が発話数が少なく、どのセクションでも視点変更のための発話数はWACLの方が少なかった。アンケート及びインタビューによる印象の主観評価においては、WACLは、着用時の違和感が少ない、視覚的に見易い(実世界が見易い、視覚的アシスト [レーザポインタ] が見易い、視覚的アシストと実世界の指示対象との対応付けが容易)、作業の疲労感が少ないという点において、作業者に優れた印象を与えていたことがわかった。一方、指示者側は、WACLは視界を制御できるため状況把握しやすい反面、詳細な手順指示が必要な場面では、発話数が増えWACL着用者への指示の方が疲れるという印象を受けていた。このように、映像や説明図などを提示できないという意味で
視覚的な表現力に劣るWACLを用いて、作業完了時間がヘッドセットと同等になり、作業者への印象がよいという結果は、WACLの持つ遠隔協調作業支援における有用性を示していると言える。図 9の表は、ヘッドセットとWACL、それぞれの持つ特徴を要約したものである。
3.3 CWDによる視覚的アシスト提示WACLインタフェースは、作業者に優れた印象を与える一
方で、詳細な説明が必要な場面では、指示者に負担を強いるというコミュニケーションの非対称性 [2]を引き起こしていることが、本ユーザスタディにより判明した。この非対称性を取り除くために、図 10に示すように付加的なディスプレイ装置として CWS(Chest Worn Display)[17]をWACLと併用することで、より高度な視覚的アシスト(映像上へのスケッチ、オンラインマニュアルなど)を提示できるよう改良した。このCWDの配置は、ハンズ・フリー、アイ・フリー、ヘッド・フリーであるというWACLの利点をなるべく損なわないように
図 9: ヘッドセットとWACLの特徴の要約
図 10: WACL と CWD を併用した国際会議でのデモの様子(左:ISWC2004、右:ISMAR2004にて)
配慮されているが、その主観・客観評価のため、すでにいくつかの国際会議でデモを実施し印象を調査するとともに、より厳密な評価実験を実施中である。
3.4 指示者側タンジブルテーブルトップインタフェース前述のWACLに関するユーザテストで用いた指示者側イン
タフェースは、従来型の単純なGUIとマウスによる簡易なインタフェースであり、指示者と作業者が一対一という状況を想定していた。実際には、指示者と作業者が一対多という状況の方が現実的であるが、そのためにGUIを多機能化していくと、操作のモードが階層的になるため、機能の切り替えのために作業時間が増加したり、モードを変更し忘れて誤操作を誘発するなどの問題が発生する。そこで筆者らは、図 11に示すような指示者側のタンジブルテーブルトップ (TTT)インタフェースを開発した [12]。この TTT インタフェースは、テーブルトップディスプレイとしての大型タッチパネル付き LCD
(40 inch)と、そのディスプレイ上の物理タグとしての3次元計測用超音波発信機からなる。
4
図 11: 作業者側ウェアラブルインタフェースと指示者側 TTT
インタフェース
物理タグは、作業者タグとツールタグの2種類に大別される。各タグにはGUIオブジェクト(ウィンドウ)が割り当てられており、タグを移動させるとそのウィンドウも同時に移動する。指示者は作業者から送られてくるライブ映像、もしくはそのライブ映像からキャプチャしたり、クリップボードからペーストした静止画に対し、タッチスクリーンで注釈を描画することができる。現在利用可能なツールタグは、クリップボード、マップ、そしてマニュアルの3種類である。両手を使った操作はタンジブルユーザインタフェースに備わる優れた特徴の1つであるが、注目すべきは、例えば、利き手で注釈を描画しながらもう一方の手でタグを把持するといった、自然な非対称両手操作がこの TTT インタフェースにより自発的に促されることである。
4. まとめ
現状では、センシングの結果から得られるユーザの状況というのは、何を見ているか、見ているものの位置姿勢がどうなっているか、どこにいるのかといったプリミティブなものである。センシングと情報提示の間に、データマイニングやユーザ・環境モデリングを伴う高度な状況把握技術を導入し、より直感的に、人とコンピュータ、人と人を繋ぐ技術を開発することが今後の課題である。
最後に、本稿で紹介した研究成果のうち、パーソナルポジショニング、ハンドジェスチャ、及び実世界OCRについては、メディアドライブ株式会社と共同で製品化し、実世界リンクビジュアルインターフェース開発キット [1]として販売されている。今後、この開発キットを用いて筆者らの想定していないような応用分野が開拓されることを期待している。
参考文献[1] 実 世 界 リ ン ク ビ ジュア ル イ ン タ フェー ス 開 発 キット,
http://adv.mediadrive.jp/product/link visual/.
[2] M. Billinghurst, S. Bee, J. Bowskill, and H. Kato. Asymme-tries in collaborative wearable interfaces. In Proc. ISWC99,pp. 133–140, 1999.
[3] K. Jung, K. I. Kim, T. Kurata, M. Kourogi, and J. Han.Text scanner with text detection technology on image se-quences. In Proc. ICPR2002, Vol. 3, pp. 473–476, 2002.
[4] M. Kourogi and T. Kurata. A method of personal posi-tioning based on sensor data fusion of wearable camera andself-contained sensors. In In Proc. MFI2003, pp. 287–292,2003.
[5] M. Kourogi and T. Kurata. Personal positioning based onwalking locomotion analysis with self-contained sensors anda wearable camera. In Proc. ISMAR03, pp. 107–114, 2003.
[6] 興梠正克, 蔵田武志. Gpsと歩行動作解析に基づくデッドレコニングの統合によるパーソナルポジショニング. 第 19 回人工知能学会全国大会 (JSAI2005), pp. IA3–03, 2005.
[7] M. Kourogi, T. Kurata, and K. Sakaue. A panorama-basedmethod of personal positioning and orientation and its rea-time applications for wearable computers. In Proc. 5th Int’lSymp. on Wearable Computers (ISWC2001), pp. 107–114,2001.
[8] M. Kourogi, T. Kurata, K. Sakaue, and Y. Mu-raoka. A real-time panorama-based technique for an-notation overlay on video frames. In Web Proc.2nd Int’l Workshop on Augmented Reality (IWAR),http://hci.rsc.rockwell.com/iwar/99/WebProceedings/Kourogi/.
[9] T. Kurata, T. Kato, M. Kourogi, J. Keechul, and K. Endo.A functionally-distributed hand tracking method for wear-able visual interfaces and its applications. In Proc.MVA2002, pp. 84–89, 2002.
[10] 蔵田武志, 興梠正克, 西田佳史, 中村嘉志, 西村拓一. ウェアラブル側センサとインフラ側センサの協調とそのイベント空間情報支援への応用. 第 17 回人工知能学会全国大会(JSAI2003), No.3E1-07, 2003.
[11] T. Kurata, T. Okuma, M. Kourogi, T. Kato, and K. Sakaue.VizWear: Toward human-centered interaction throughwearable vision and visualization. In Proc. 2nd IEEEPacific-Rim Conf. on Multimedia (PCM2001), pp. 40–47,2001.
[12] T. Kurata, T. Oyabu, N. Sakata, M. Kourogi, andH. Kuzuoka. Tangible tabletop interface for an expert tocollaborate with remote field workers. In Proc. 1st In-ternational Conference on Collaboration Technology (Col-labTech2005), 2005.
[13] T. Kurata, N. Sakata, M. Kourogi, H. Kuzuoka, andM. Billinghurst. The advantages and limitations of a wear-able active camera/laser in remote collaboration. In Con-
5
ference Supplement (Interactive Poster) of the ACM Con-ference on Computer Supported Cooperative Work (CSCW2004), 2004.
[14] T. Kurata, N. Sakata, M. Kourogi, H. Kuzuoka, andM. Billinghurst. Remote collaboration using a shoulder-worn active camera/laser. In Proc. 8th IEEE InternationalSymposium on Wearable Computers (ISWC2004), pp. 62–69, 2004.
[15] T. Okuma, T. Kurata, and K. Sakaue. Fiducial-less 3-dobject tracking in ar systems based on the integration of top-down and bottom-up approaches and automatic databaseaddition. In Proc. The Second International Symposium onMixed and Augmented Reality (ISMAR03), pp. 342–343,2003.
[16] T. Okuma, T. Kurata, and K. Sakaue. A natural feature-based 3d object tracking method for wearable augmentedreality. In Proc. The 8th IEEE International Workshop onAdvanced Motion Control (AMC’04), pp. 451–456, 2004.
[17] N. Sakata, T. Kurata, T. Kato, M. Kourogi, andH. Kuzuoka. WACL: Supporting telecommunications us-ing wearable active camera with laser pointer. In ISWC2003, pp. 53–56, 2003.
6