複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make...

6
FUJITSU. 64, 5, p. 498-503 09, 2013498 あらまし 近年,ユーザーがより自然な形で操作するためのユーザーインターフェースとして NUI Natural User Interface)が求められている。富士通研究所ではNUIの実現に向けて, ジェスチャー認識技術,視線検出技術,音声認識技術といったセンシング技術を用いて ユーザーをモニタリングし,その操作意図を理解することで端末を操作する非接触ユー ザーインターフェースの開発を進めている。特に,単体のセンシング技術で様々な操作 を実現すると,ユーザーに不自然な動作を強いることになるため,複数のセンシング技 術を効果的に統合することで,より自然なユーザーインターフェースを実現するための 研究を進めている。今回,センシング技術としてジェスチャー認識技術と視線検出技術 を統合することで,単体で操作するよりも自然な非接触ユーザーインターフェースを開 発した。 本稿では,現在開発している各センシング技術の概要,統合の方向性と課題,開発し た技術と今後の課題について述べる。 Abstract Recently users have come to demand a natural user interface (NUI) so that they can operate devices naturally, as an alternative to a graphical user interface (GUI). At Fujitsu Laboratories, with the aim of achieving an NUI, we are developing touchless user interfaces that make it possible to monitor usersbehavior through intelligent sensing technologies, such as gesture recognition, eye tracking and speech recognition, and then understand usersintent to enable them to operate a device in a natural way. It is difcult to achieve this by using individual sensing technologies. Therefore, we have developed a way to ensure a device operation by integrating multiple sensing technologies for natural motion detection. Both gesture recognition and eye tracking technologies are combined in the developed interface, which gives the users the feeling that they are interacting more naturally and effectively with devices than they would if only individual sensing technologies are utilized. This paper describes an overview of the developed sensing technologies, the merits and problems regarding their combination, the developed interface, and future work. 皆川明洋   小田切淳一   堀田悦伸   中島 哲   Liu Wei Fan Wei 複数のセンシング技術を活用した 非接触ユーザーインターフェース Touchless User Interface Utilizing Several Types of Sensing Technology

Upload: others

Post on 13-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5, p. 498-503 (09, 2013)498

あ ら ま し

近年,ユーザーがより自然な形で操作するためのユーザーインターフェースとして

NUI(Natural User Interface)が求められている。富士通研究所ではNUIの実現に向けて,ジェスチャー認識技術,視線検出技術,音声認識技術といったセンシング技術を用いて

ユーザーをモニタリングし,その操作意図を理解することで端末を操作する非接触ユー

ザーインターフェースの開発を進めている。特に,単体のセンシング技術で様々な操作

を実現すると,ユーザーに不自然な動作を強いることになるため,複数のセンシング技

術を効果的に統合することで,より自然なユーザーインターフェースを実現するための

研究を進めている。今回,センシング技術としてジェスチャー認識技術と視線検出技術

を統合することで,単体で操作するよりも自然な非接触ユーザーインターフェースを開

発した。

本稿では,現在開発している各センシング技術の概要,統合の方向性と課題,開発し

た技術と今後の課題について述べる。

Abstract

Recently users have come to demand a natural user interface (NUI) so that they can operate devices naturally, as an alternative to a graphical user interface (GUI). At Fujitsu Laboratories, with the aim of achieving an NUI, we are developing touchless user interfaces that make it possible to monitor users’ behavior through intelligent sensing technologies, such as gesture recognition, eye tracking and speech recognition, and then understand users’ intent to enable them to operate a device in a natural way. It is difficult to achieve this by using individual sensing technologies. Therefore, we have developed a way to ensure a device operation by integrating multiple sensing technologies for natural motion detection. Both gesture recognition and eye tracking technologies are combined in the developed interface, which gives the users the feeling that they are interacting more naturally and effectively with devices than they would if only individual sensing technologies are utilized. This paper describes an overview of the developed sensing technologies, the merits and problems regarding their combination, the developed interface, and future work.

● 皆川明洋   ● 小田切淳一   ● 堀田悦伸   ● 中島 哲   ● Liu Wei● Fan Wei

複数のセンシング技術を活用した非接触ユーザーインターフェース

Touchless User Interface Utilizing Several Types of Sensing Technology

Page 2: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5 (09, 2013) 499

複数のセンシング技術を活用した非接触ユーザーインターフェース

された2枚の連続した画像から肌の差分を検出し,肌(手)の動きを算出する。この算出された動きに対して,あらかじめ対応させた操作,例えば,カーソルの右への移動や下方向への画面のスクロールのような操作が実行される。一般に,ハンドジェスチャーによる操作のうち,手を振って行うことができる操作,例えばメニューの項目を決定したり,特定の方向に特定の量だけスクロールしたりする操作のような瞬間的な動作による操作では,ユーザーへの負荷があまりない。一方,手の情報を長時間にわたって使う操作,例えばカーソルを同じ位置に維持するため,一定の位置で手を保持したり,手の位置に応じてカーソルを移動したりする操作では,ユーザーは手を挙げ続ける必要があるため,負荷が大きいと同時に,不自然な動作になりやすいといった課題が挙げられる。

ま え が き

近年,人間の自然な動作に対応して応答するインターフェースによって,ユーザーの負荷を低減するNUI(Natural User Interface)の研究が多くの研究機関で進められている。(1),(2)

富士通研究所では,ユーザーとの接点であるICTのフロントエンドにおけるインターフェースをより使いやすくすることを目指し,ジェスチャー認識,視線検出,音声認識などの人をセンシングする技術を活用したNUIの研究が進めている(図-1)。一方で,これらのセンシング技術を単独で用いてインターフェースを構築しようとすると,全ての操作の実現が困難だったりユーザーに不自然な動作を強いたりすることになる。そこで,NUIへの一つのアプローチとして,ドコモタブレットARROWS Tab LTE F-01Dへ搭載したジェスチャー認識技術と,FMV ESPRIMO FH98/JDやFH78/LDへ搭載した視線アシスト機能とを統合することで,更なる使いやすさを実現する「非接触ユーザーインターフェース技術」を開発した。

ジェスチャー認識技術の概要

本章では,富士通研究所が保有するジェスチャー認識技術について概説する。このジェスチャー認識技術はハンドジェスチャー認識技術と呼ばれるものであり,図-2(a)のように端末の前で手を振ることで操作する。(3)

技術の概要としては,図-2(b)のように,撮影

ま え が き

ジェスチャー認識技術の概要

図-1 ユーザーインターフェースの変遷 図-2 手振りによるジェスチャー認識の概要

CUI GUI NUI1980 2010

視線検出

音声認識

CUI:Character User Interface GUI:Graphical User Interface NUI:Natural User Interface

ジェスチャー認識フレームt フレームt+1

差分解析結果

(b)手振りジェスチャーの差分解析

(a)ハンドジェスチャーによる操作

Page 3: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5 (09, 2013)500

複数のセンシング技術を活用した非接触ユーザーインターフェース

スの総称である。しかし,従来のマルチモーダルインターフェースでは,それぞれが疎な結合によって構成されているため,マルチモーダルで利用される動作と,同じセンシングを単独で利用される動作は基本的に変化がない。したがって,ほかのセンシングによって代替できない操作については,単独のセンシングにおける以下の課題がそのまま現れるため,これらの課題を回避する必要があった。(1) 自然な動作による操作の実現(負荷の大きな動作の回避)一般にインターフェースでは,長時間操作してもユーザーの負荷が少なく,扱いやすい操作が望まれる。そのため,長時間同じ姿勢を保持して行う操作や,不自然な格好による動作での操作を回避することが重要である。(2) センシング情報の統合による新たな情報の抽出(操作意図に応じた動作の検出)操作意図のある動作とない動作とが類似していたり同じであったりした場合,操作意図の有無を動作ごとに判断する必要がある。ジェスチャー認識の例では,ある手の動きに対して認識させたい手の動作なのか,それとも無意識にユーザーが動かした手の動作なのかを判断することに相当し,また音声認識の例では,独り言なのか操作を意図した発言なのかを判断することに相当する。タッチパネルでは,タッチという物理的な行動によってユーザーの操作意図が判断できるが,非接触ユーザーインターフェースでは,この判断が難しい。特に,自然な動作で操作するNUIではこの問題が顕著に現れることから,ユーザーの操作意図を正しく認識することがNUIのインターフェースでは重要である。同時に,マルチモーダルインターフェースにおける新たな課題を以下に示す。(3) センサー数の増大によるコストの増大使用するセンサー数は端末のコストの増大となることから,センサー数の低減はマルチモーダルインターフェースにおける重要な課題の一つである。

NUIの枠組みによるインターフェースの実現のためにはこれらの課題を解決する必要がある。

視線検出技術の概要

富士通研究所の視線検出技術では,角膜での光の反射による検出方式(角膜反射法)を用いる。角膜での反射を検出するために,近赤外光をLEDによって照射し,近赤外カメラで撮影した画像から,目の瞳孔と角膜反射を検出し,それらの位置関係に基づいて視線の方向を算出する。その原理を図-3に示す。技術の詳細については,参考文献(4)を参照されたい。視線に基づくインターフェースは,特定の位置にカーソルを移動するような操作を得意とする一方で,決定操作のようなコマンド入力を実現しようとした場合,例えば,コマンド入力を特定のキーで与え,そのキーの位置に視線を移動しなければならないなどの不自然な視線の動作を伴うことが操作上の課題として挙げられる。

統合のメリットと課題

これらのセンシング技術を統合したマルチモーダルインターフェースによって,それぞれの課題を解消し,使いやすいインターフェースを実現する。(5)マルチモーダルインターフェースは,複数のセンシング技術を用い,それぞれのセンシングに応じた多様な入力方法を併用するインターフェー

視線検出技術の概要

統合のメリットと課題

図-3 視線検出技術の概要

視線

角膜反射

瞳孔瞳孔と角膜反射の例

画像例

瞳孔 角膜反射

Page 4: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5 (09, 2013) 501

複数のセンシング技術を活用した非接触ユーザーインターフェース

開発した技術

前章の観点に基づき,今回,画面のスクロールと拡大・縮小を非接触で行う統合インターフェースを試作した。操作体系としてはスクロール操作と拡大・縮小の中心位置の情報を視線によって,また拡大・縮小操作はジェスチャーによって操作するものである。開発したインターフェースに関して,前章の三つの課題に対応づけて説明する。まず,第一の負荷が大きい動作の回避については,二通りの方法で実現した。一つは統合による最適な操作の割当てである。「ジェスチャー認識技術の概要」と「視線検出技術の概要」の章で述べたように,ジェスチャー認識と視線検出による操作では,コマンド操作がより得意なジェスチャー情報と,カーソル操作がより得意な視線情報とを統合することから,それぞれに得意な操作を相補的に組み合わせることが可能である。これによって,得意でない操作を行う必要がなくなり,自然な動作に近付けることができる(図-4)。もう一つは,操作に対応させる動作を変更することで不自然な動作を回避するものである。ジェスチャー認識では,端末に操作意図を認識させるために意図的に大きな動作や通常行わない動作を使用することがある。手振りジェスチャーは動きを検出する必要があるため,ユーザーに大きな動

開発した技術作を強いることになる。そこで,高速な動作や大きな動作を回避し,低速な動作や小さな動作だけで操作を実現するため,手をかざす動作で操作ができるジェスチャー認識を開発した。第二の操作意図に応じた動作の検出に対しては,マルチモーダルインターフェースの利点を生かし,あるセンシング情報から操作意図の有無を判断し,別のセンシング情報の検出結果に利用することで,課題の解決を図る。視線情報は,今見ている座標を表すだけでなく,時間的な推移によって一つのものを注視しているかどうかが分かる。ユーザーの注視の度合いが高ければ,ほかのセンサーで検出された動作は操作のために行われたとみなすことができる反面,注視の度合いが少なければ,操作のための動作ではない可能性が高い。このような観察に基づき,視線情報から集中度を算出し,ジェスチャー認識に対する独自のフィルターを集中度から作成することで,意図したジェスチャーだけを検出する。この結果,小さな動作を割り当てた今回の場合でも,不要なジェスチャーの検出を抑制することが可能となる。第三のセンサー数の増大によるコストの増大に関しては,一つの入力センサーを複数の情報を検出するのに利用することでセンサー数を低減した。具体的には,視線を検出するのに使用する近赤外カメラおよびLEDをジェスチャー認識にも使用することでセンサーを共用化し,コストの低減を図った。今回のセンサーの共用化により,ジェスチャー認識に用いる入力画像として近赤外カメラの画像を用いることになる。この画像では,近くの物体が明るく撮影され,遠くの物体が暗く撮影されることになるため,この特性に応じてジェスチャー認識方式を変更した。開発した手かざしジェスチャー認識では,最初に顔検出を実行し,顔の位置を特定する。次に,顔よりも前に手の候補となる物体が画面内にあるかどうかを判定する。意図した操作の場合,顔よりも手を前に差し出すのが自然なジェスチャー動作であり,手がカメラに近くなる。この特性に基づき,反射率がほぼ同じ手と顔の肌については,カメラに近いものが明るい輝度を持つことから,顔の輝度よりも明るい領域の有無を判定し,

非接触による自然な操作

ジェスチャー認識技術 視線検出技術

コマンド操作 カーソル操作

低速な動作による操作集中度による動作選別近赤外カメラによる入力

集中度の計算

図-4 ジェスチャー認識技術と視線検出

Page 5: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5 (09, 2013)502

複数のセンシング技術を活用した非接触ユーザーインターフェース

することで,ユーザー自身が検出領域で動作できるように,手の位置や状態を変更可能にすることが一般的であった。しかし,今回のような近赤外カメラの画像では,通常得られる可視画像と異なるため,画像を提示しても実空間との対応付けが難しく,ユーザーに困惑を与えることから的確なフィードバックが困難となる。このような環境でのフィードバック機能を付与するための提示技術については今後も検討を進めていく必要がある。

む  す  び

本稿では,NUIへの一つのアプローチとして,ジェスチャー認識技術と視線検出技術を統合したマルチモーダルインターフェースによる非接触ユーザーインターフェースの開発を紹介した。近赤外カメラを用いた手かざしジェスチャー認識技術と視線検出技術の統合によって,自然な動作でユーザーの負荷がより小さいインターフェースを試作した。実験の結果,手と顔の間隔によっては,未検出が生じることが分かった。今後,上記試作のフィージビリティの検証を行い,より使い勝手の良い統合方式を検討するとともに,精度の向上によって未検出の少ない統合インターフェースを構築することを目指す。

参 考 文 献

(1) D. Wigdor et al.:Brave NUI World: Designing

む  す  び

明るい領域(=近い領域)があればそれを検出し,その領域が手であるかどうかを別途判定する(図-5)。このように顔と手の輝度を比較することによって,離れた位置でも手を検出できるようにする。この検出方式によって,手の位置がカメラから50 cm程度離れても検出でき,従来の近赤外光によるジェスチャー認識に比べ,離れた距離での検出を可能にした。上記の試作を9462フレームの画像系列によって評価した結果を表-1に示す。このサンプルには操作意図のある動作が261試行

(5348フレーム)あり,残りの約40%(4114フレーム)は操作意図のない動作の画像系列である。このサンプルに対する評価結果を再現率,適合率の観点で評価した。再現率および適合率の定義は以下のとおりである。 再現率:操作意図のある動作の中で,意図ど

おり操作できた割合 適合率:操作できた中で,操作意図のある動

作の割合この結果,再現率は85.4%,適合率は97.0%を達

成した。再現率における未検出は,顔と手の間隔が大きくない状態での,手の未検出が大きな原因であった。一方で,適合率における誤検出は,手の誤判断と同時に,手が画面から消えた後に顔を手と誤検出したことが大きな要因であった。

今後の課題

今後の課題としては,検出精度の更なる向上に加え,以下の2点が挙げられる。(1) 使いやすさと操作コマンド数との関係今回の試作では,画面の拡大・縮小といった直感的な2方向への操作を可能とし,手かざしの形状に応じて二つの操作のいずれであるかを判別した。しかし,操作コマンド数が増加すれば,ユーザーが形状を覚える必要が出てくるのと同時に,誤判定も生じる。ユーザーが使いやすい操作コマンドの数については,利用シーンに応じた小さなコマンドセットを対応させ,ユーザーの負荷を増大させないようにするといった対応が必要である。(2) ユーザーへのフィードバック機能の提供カメラを使用したハンドジェスチャーでは,検出領域に手が存在するかをユーザーに画像を提示

今後の課題

表-1 試作インターフェースの評価結果検出率と検出数

再現率 85.4%(223/261)適合率 97.0%(223/230)

(a)入力画像 (b)手と判断した領域

図-5 手をかざした際の近赤外カメラからの入力画像と手と判断した領域の一例

Page 6: 複数のセンシング技術を活用した 非接触ユーザー …...user interfaces that make it possible to monitor usersʼ behavior through intelligent sensing technologies,

FUJITSU. 64, 5 (09, 2013) 503

複数のセンシング技術を活用した非接触ユーザーインターフェース

(3) 吉澤博之ほか:タブレット端末の開発と今後の展望.FUJITSU,Vol.63,No.5,p.561-565(2012).

(4) 小暮貴史ほか:視線検出技術によるパソコン操作のアシスト.FUJITSU,Vol.64,No.3,p.293-297(2013).

(5) 高橋史忠ほか:魔法のUI.日経エレクトロニクス,2012年4月30日,p.32-61(2012).

Natural User Interfaces for Touch and Gesture.Elsevier,2011.

(2) 勝村幸博ほか:見えてきた「ナチュラルUI」,パソコン操作を人間らしく.日本経済新聞電子版2011年10月20日(2011).

http://www.nikkei.com/article/DGXNASFK1702S_X11C11A0000000/

皆川明洋(みながわ あきひろ)

メディア処理システム研究所イメージコンピューティング研究部 所属現在,画像処理・認識関連の研究に従事。

中島 哲(なかしま さとし)

メディア処理システム研究所イメージコンピューティング研究部 所属現在,視線検出技術関連の研究開発に従事。

小田切淳一(おだぎり じゅんいち)

メディア処理システム研究所イメージコンピューティング研究部 所属現在,視線検出技術関連の研究開発に従事。

堀田悦伸(ほった よしのぶ)

メディア処理システム研究所イメージコンピューティング研究部 所属現在,画像処理・認識関連の研究に従事。

Liu Wei富士通研究開発中心有限公司(FRDC)情報技術研究部 所属現在,画像処理・認識関連の研究に従事。

Fan Wei富士通研究開発中心有限公司(FRDC)情報技術研究部 所属現在,画像処理・認識関連の研究に従事。

著 者 紹 介