real-time communication scene detection and …...real-time communication scene detection and...

9
特集 64 富士ゼロックス テクニカルレポート No.23 2014 リアルタイムコミュニケーション状況抽出 &解析技術 Real-time Communication Scene Detection and Analysis Technology 近年、重要な会議や講演などコミュニケーションの 様子をビデオ撮影し、参加できなかった人が視聴する ことが多くある。ビデオは、テキストの議事録では伝 えにくいコミュニケーションの様子を分かりやすく 伝えることができるが、撮影の専門家でなければ撮影 することは難しく、視聴者もビデオを好きなところか ら見ることができずに視聴に時間がかかってしまう。 そこで、カメラ・マイク・深度画像センサーを活用 し、誰が何について議論しているかといったコミュニ ケーション状況を抽出・解析する技術を開発した。解 析されたコミュニケーション状況をもとに、複数のカ メラから話者のズームアップ映像を作成して、会議ビ デオを自動的に作成する。さらに、コミュニケーショ ン状況が変化した場面でインデキシングされた ビューを提供し、視聴者は議論の流れをタイムライン で一覧して、簡単に見たい場面を選択して視聴するこ とができる。 Abstract Today, we often capture important meetings on video for those who did not attend to view later. It is easier to understand what happened in a meeting by watching a video than by reading meeting minutes in text form, but it is difficult to record the video if one is not a professional videographer, and it takes a long time for viewers to watch the video because they cannot skip directly to the parts they wish to view. In order to address this, we developed real-time communication scene detection and analysis technology, which uses cameras, microphones, and depth image sensors to detect and analyze who discussed what in the meeting. Based on this detection and analysis, the technology uses multiple cameras that zoom in on and record the person currently speaking to automatically create a video of the meeting. In addition, this technology also creates an overall view of what occurred, indexed based on changes that occurred in the state of communication. Viewers can see a timeline of the entire discussion and easily select only the scenes they wish to view. 執筆者 新宮 淳(Jun Shingu*1 栗原 陽子(Yoko Kurihara*1 竹内 孝行(Takayuki Takeuchi*1 安部 勉(Tsutomu Abe*1 Jim Vaughan *2 Don Kimber *2 *1 研究技術開発本部インキュベーションセンター Incubation Center, Research and Technology Group*2 FX Palo Alto Laboratory

Upload: others

Post on 08-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

64 富士ゼロックス テクニカルレポート No.23 2014

リアルタイムコミュニケーション状況抽出 &解析技術 Real-time Communication Scene Detection and AnalysisTechnology 要 旨

近年、重要な会議や講演などコミュニケーションの

様子をビデオ撮影し、参加できなかった人が視聴する

ことが多くある。ビデオは、テキストの議事録では伝

えにくいコミュニケーションの様子を分かりやすく

伝えることができるが、撮影の専門家でなければ撮影

することは難しく、視聴者もビデオを好きなところか

ら見ることができずに視聴に時間がかかってしまう。

そこで、カメラ・マイク・深度画像センサーを活用

し、誰が何について議論しているかといったコミュニ

ケーション状況を抽出・解析する技術を開発した。解

析されたコミュニケーション状況をもとに、複数のカ

メラから話者のズームアップ映像を作成して、会議ビ

デオを自動的に作成する。さらに、コミュニケーショ

ン状況が変化した場面でインデキシングされた

ビューを提供し、視聴者は議論の流れをタイムライン

で一覧して、簡単に見たい場面を選択して視聴するこ

とができる。

Abstract

Today, we often capture important meetings on video for those who did not attend to view later. It is easier to understand what happened in a meeting by watching a video than by reading meeting minutes in text form, but it is difficult to record the video if one is not a professional videographer, and it takes a long time for viewers to watch the video because they cannot skip directly to the parts they wish to view.

In order to address this, we developed real-time communication scene detection and analysis technology, which uses cameras, microphones, and depth image sensors to detect and analyze who discussed what in the meeting. Based on this detection and analysis, the technology uses multiple cameras that zoom in on and record the person currently speaking to automatically create a video of the meeting. In addition, this technology also creates an overall view of what occurred, indexed based on changes that occurred in the state of communication. Viewers can see a timeline of the entire discussion and easily select only the scenes they wish to view.

執筆者 新宮 淳(Jun Shingu)*1 栗原 陽子(Yoko Kurihara)*1 竹内 孝行(Takayuki Takeuchi)*1 安部 勉(Tsutomu Abe)*1 Jim Vaughan*2 Don Kimber*2 *1 研究技術開発本部インキュベーションセンター

(Incubation Center, Research and Technology Group)*2 FX Palo Alto Laboratory

Page 2: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

富士ゼロ

1. は

ビジ

制約か

とが多

テキス

が主に

のよう

議論の

テクス

ストが

支障が

ビデオ

より良

目指し

しか

子をビ

は、1

るが、

プレゼ

リーン

チャー

トボー

がある

ために

ならず

我々

者を自

料やホ

した

の周囲

すべて

複数の

発話し

状況を

る。人

どの位

参加者

撮影さ

会議

リーン

ボード

うに、

保存す

ロックス テクニカ

はじめに

ジネスの国際

から、重要な

多くなってき

ストの議事録

に行われてい

うなニュアン

の雰囲気はど

ストを伝える

が伝わらない

が出ることも

オを活用する

良いコミュニ

している。

かし、会議な

ビデオ撮影す

台のカメラ

会議参加者は

ゼンテーショ

ンに移動して

ーを行ったり

ードに書き込

る。これらを

には、カメラ

ず、負担が大

々は複数のカ

自動撮影する

ホワイトボー

(図1)。会議

囲から中心を

ての領域が撮

のセンサーを

しているかと

を抽出して、

人物位置セン

位置に動いて

者はいつもど

される。

議などでは、

ンに表示され

ドに書かれた

これらも映

する。

カルレポート No.2

際化にともない

な会議や議論に

きた。参加でき

録によって内容

いる。しかし、

ンスで発言した

どうだったのか

るのはとても難

いことでコミュ

もある。富士ゼ

ることでコンテ

ニケーションを

などのコミュニ

するのは容易で

による撮影が

は席に座って

ン資料を投影

てポインテ

、会議室に設

込んで説明を行

を1台のカメラ

ラの向きを常に

大きい。

カメラ・センサ

るとともに使用

ードも取得する

議室内に、8台

を向くように設

撮影できるよう

を活用し、人物

といったコミュ

話者の映像を

ンシングにより

ても撮影するこ

どおりに会議を

人物だけで

れたスライド

た情報も重要

映像とともに撮

23 2014

い、場所・時

に参加できな

きなかった場

容を把握する

テキストでは

たのか」、「現

か」といった

難しく、コン

ュニケーショ

ゼロックスで

テクストを伝

を実現するこ

ニケーション

ではない。現

がよく行われ

ているだけで

影した大画面

ィングやジ

設置されたホ

行ったりする

ラだけで撮影

に操作しなけ

サーを用いて

用したスライ

るシステムを

台のカメラを

設置し、部屋

うにした。次

物の位置や、

ュニケーショ

を自動的に生

り、会議参加

ことができ、

を行うだけで

でなく大画面

ド資料やホワ

である。図1

撮影し、同期

時間の

ないこ

合は、

ること

は「ど

現場の

たコン

ンテク

ョンに

では、

伝え、

ことを

ンの様

現状で

れてい

なく、

面スク

ジェス

ホワイ

ること

影する

ければ

て、話

イド資

を開発

を部屋

屋内の

次いで

誰が

ョンの

生成す

加者が

会議

で自動

面スク

ワイト

1のよ

期して

2

リア

このように

とっては撮影

面を探すのが

いう問題があ

容の振り返り

れた情報から

いったコミュ

し、コミュニ

ビューアーを

ホワイトボー

ベントは、時

タイムライン

このビューを

ドについてA

イベントをヒ

自動生成され

とができる。

要がなく、見

ることが可能

2. 関連研

会議などの

われている1

の中心に36

テムが提案さ

つしか設置さ

に別の人がい

人に隠れて撮

うという問題

メラを設置し

には別のカメ

起こりにくく

人物を拡大

図1 撮影を行

Our confe

アルタイムコミュニ

に撮影が自動

影された会議

が難しく、時

ある。そこで

りを容易にす

ら誰が何につ

ュニケーショ

ニケーション

を作成した(

ードの変化や

時系列の流れ

ン上にサムネ

を用いて、ユ

Aさんが質問

ヒントに見た

れた話者ビデ

そのため長

見たいシーン

能になる。

研究

の自動撮影シ)。いくつか

60度カメラを

されている2),

されていない

いる場合には

撮影すること

題がある。本

し、人物によ

メラを選択す

くしている。

大した映像を

う会議室の様子 erence room used

ニケーション状況

動化されても、

議のビデオか

時間がかかって

で我々は、撮影

するため、セ

ついて議論して

ョンの状況を抽

ンの様子を一

(図9)。スラ

や話者の移り変

れが把握しやす

ネイル表示され

ユーザーは「あ

問したシーン」

たい場面を簡単

デオを頭出し再

長い会議をすべ

ンを自由に探

システムの研究

かのシステムで

を置いて撮影3)。しかし、

いため、カメラ

は、後ろにいる

とができなくな

本システムは、

よる重なりがあ

することで、

を作成するため

d for recording

特集

抽出&解析技術

65

、視聴者に

ら見たい場

てしまうと

影された内

ンシングさ

ているかと

抽出・解析

一覧できる

イド資料・

変わりのイ

すいように

れている。

あるスライ

」といった

単に探して、

再生するこ

べて見る必

して視聴す

究は多く行

では、部屋

影するシス

カメラは1

ラと人の間

る人は前の

なってしま

、複数のカ

あった場合

この問題を

めには、人

Page 3: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

66 富士ゼロックス テクニカルレポート No.23 2014

物の位置を取得する必要があり、映像上の変化

をトラッキングする方法2)や顔検出3), 4)が用い

られてきた。しかし、カメラ映像を用いた検出

では、大画面に表示したスライド資料の変化を

検出してしまったり、部屋が暗い場合には顔検

出が難しくなったりするなどの問題が多い。よ

り安定的に人物の位置を検出するため、頭に位

置センサーを取りつけるアプローチ5)もあるが、

被撮影者の負担が大きい。本システムでは、非

接触な深度画像センサーを用いて人物の位置を

検出する。

撮影されたコミュニケーションの様子を可視

化するため、Culterら2)やOtsukaら6)は、話者

の移り変わりの様子をグラフで表示した。本シ

ステムは、話者の移り変わりとともに、スライ

ドやホワイトボードへの書き込みのイベントを、

タイムラインでサムネイル表示することで、コ

ミュニケーションの遷移の様子をわかりやすく

表示する。

3. 撮影設備とシステム構成

本章では、会議室に設置した撮影設備と、シ

ステム構成について説明する。

3.1 撮影設備

ある会議室に撮影システムを設置した。会議

室のサイズは6.3m x 5.3mで、会議室の平面図

とカメラなどのセンサーの配置図は図2のよう

になっている。

会議室には8台のカメラを固定して設置した(図

2 C0~C7)。カメラはAXIS Communications

の207MWを用いた。会議室を俯瞰するように

設置してあり、会議室のすべてを撮影できるだ

けではなく、ほぼすべての場所は2台以上のカ

メラで撮影される。

人物をトラッキングするため、深度画像セン

サーであるMicrosoft Kinect for Windowsを

3台設置した(図2 D0~D2)。深度画像セン

サーも部屋全体がセンシング領域に入るように

設置した。カメラや深度画像センサーは約2m

の高さに設置してあり、人物による隠ぺいが起

こりにくいようにした。すべてのカメラや深度

画像センサーの位置や姿勢は、事前に行った

キャリブレーションにより測定済みである。

会議室には大画面ディスプレイがあり、持ち

込んだPCの画面を表示している。ディスプレイ

に表示する信号をEpiphan VGA2USBにより

キャプチャし、表示している画像をリアルタイ

ムで取得できる。

会議室にはホワイトボードがあり、ホワイト

ボ ー ド 用 カ メ ラ ( AXIS Communications

P1346)で撮影している。ホワイトボードと

ホワイトボード用カメラは固定されており、位

置合わせによって、カメラ画像からホワイト

ボードの矩形領域だけを切り出して用いる。

話者が誰であるかを検出するため、発話セン

サーであるVoistrap7)を用いる。Voistrapは図

5のようなネックストラップ型のマイクセン

サーであり、これを首に下げた人が発話すると、

そのIDとともに無線で信号が送られる。会議参

加者の全員に、Voistrapセンサーを装着しても

らうことで、誰が話者であるかを検出する。

3.2 システム構成

本システムは、会議などのコミュニケーショ

ンの様子を後から振り返ることを目的としてい

るため、会議中にすべての映像・音声・センサー

データを保存し、会議終了後に話者ビデオとコ

ミュニケーションビューを作成する。

図3にシステム構成図を示す。3台の深度画像

センサーの映像を用いて人物のトラッキングを

行う。同時に発話センサーの情報を使って、誰

が発話者であるかを特定する。これらの情報を

用いて、話者の位置を特定する。

資料表示用スクリーン

ホワイトボード

x

y

テーブル

C5 D2

C6

C7C0

C1

C2

C3C4

D1D0 ホワイトボード用カメラ

図2 会議室のレイアウトと撮影設備 The conference room layout with recording equipment

Page 4: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

富士ゼロックス テクニカルレポート No.23 2014 67

8台のカメラの映像は、すべて同期されてビ

デオサーバーに保存される。640x480 pixel、

15fpsで保存した。マイクによる音声データも、

音声録音サーバーに音声ファイルとして保存さ

れる。大画面ディスプレイに表示された画像と

ホワイトボードの画像は、スライドの切り替え

やホワイトボードの書き込みのイベントを画像

処理によって検出し、時刻とともに画像を記録

する。以上の情報はすべて同期されて保存され

ている。

話者の切り出し映像は、特定された話者の位

置をもとに、録画された8台のカメラ映像から1

台のカメラ映像を選んだ後にデジタルズームの

切り出しを行うことで生成する。 終的には、

すべての情報を用いてコミュニケーション

ビューアーのタイムライン表示を作成する。

4. センシングによる人物トラッキン

グと話者検出

本章では、センサーを用いた人物トラッキン

グと話者検出の方法について述べる。

4.1 深度画像センサーによる人物トラッ

キング

本手法では、3台の深度画像センサーを用い

て人物のトラッキングを行い、複数人物の3次

元位置を検出する。処理の例を図4に示す。3台

のセンサーはキャリブレーションされており、

その位置・姿勢が既知である。3台の深度画像

センサーから取得されたカメラ座標系の3次元

点群データは、カメラの位置・姿勢から会議室

座標系の3次元空間上に変換する。

これを部屋の床をxy平面、高さをzとし、図4

(a)のような1枚の深度画像に変換する。画素

の値はzの高さであり、高いほど白くなる。今回

利用した会議室では、机の上には物体はないた

め、机の上から2mの高さまでの間の情報だけ

を用いる。データのある部分を前景として抽出

し、Blobトラッキングを行うことで、人物を抽

出してxy座標上の位置が求められる。図4(a)

の赤い丸で囲まれたのが検出された人物であり、

図4(b)のような位置関係にある6人の参加者

がすべて検出されているのがわかる。抽出され

た領域の画素値の 大値をとることで、人物の

高さも推定できる。

検出された人物にはトラッキングIDがつけら

れる。トラッキングされている間は同じIDが付

与され、新しく検出された場合には新しいIDが

付与される。

4.2 発話者ID検出と話者位置特定

話者が誰であるかを検出するため、図5のよ

うな発話センサーであるVoistrap7)を用いる。

会議参加者の全員に、Voistrapセンサーを装着

してもらっており、ある参加者が発話すると、

図3 システム構成図 A chart illustrating the system configuration

図4 深度画像センサーによる人物トラッキング Tracking the positions of people using depth image sensors

図5 発話センサー Voistrap Voistrap: speech detection sensor

カメラ

深度画像センサー

ビデオサーバー

人物追跡

音声録音サーバー

マイク

発話者ID特定

資料表示用スクリーン

スライド画像キャプチャサーバー

ホワイトボード用カメラ

ホワイボードキャプチャサーバー

コミュニケーションビューアー

話者映像・サムネイル画像

生成

話者位置特定

発話センサー

人物トラッキング動画が

ご覧頂けます。

Page 5: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

68 富士ゼロックス テクニカルレポート No.23 2014

(a) (b)

Voistrap端末のIDとともに信号が無線で送出

される。この信号から、各参加者の発話スコア

が計算される。発話スコアが大きい人物を発話

者とする。また、全員の発話スコアが閾値より

も低い場合には、「発話者なし」と判断する。

このように特定された発話者と4.1章で得た

人物の位置を用いることで、話者位置を特定す

る。しかしこれには、発話しているVoistrap端

末IDを装着した人が、どの人物トラッキングID

であるかを知る必要がある。今回は、会議後に

手動で人物トラッキングIDとVoistrap端末ID

の対応づけを行う。

5. 話者映像の生成

4章の人物トラッキングと話者検出の結果か

ら、話者の位置および高さがわかる。また、会

議室を撮影する8台のカメラの位置・姿勢は

キャリブレーションにより測定されているため、

話者と各カメラとの位置関係がわかる。この情

報から、録画された8台のカメラの映像を用い

て、ズームアップ映像を生成する。

まずは8台のカメラのうち1つを選択する。話

者の位置・高さをもとにカメラ座標系に変換し、

カメラの撮影範囲に入っているかを調べ、撮影

範囲内にあるカメラを選択する。撮影範囲にあ

るカメラが複数ある場合には、人物の位置と部

屋への向きからカメラを選択する。人物は部屋

の中央の方向を向いているという仮定をおき、

xy平面において、話者位置から部屋の中央への

ベクトルと、各カメラから部屋の中央へのベク

トルの角度を求める(図6)。この角度が180度

に近いカメラを選択することで、話者をほぼ正

面から撮影することができる。

カメラと撮影対象の人物の位置を用いて、映

像から人物の切り出しを行う。人物の横幅を、

余分を含めて約1mと定め、透視投影変換に

よって人物の画像上の領域が計算される。この

画像領域を切り出して、話者の切り出し映像を生

成してゆく。図7に例を示す。図7(a)はカメ

ラC0の画像である。話者の位置を利用して、図

7(b)のように話者の画像領域が切り出される。

話者が居ないと判断された場合は、現在選択

されているカメラの映像を、図7(a)のように

切り出しすることなくそのまま用いて、部屋を

俯瞰するような映像になるようにする。

5.1 人物の隠れ検出

会議参加者は会議室内を自由に動くため、図

8(a)のように撮影したい話者とカメラの間に

他の人物が立ち、隠れてしまう場合がある。

4.1章の人物トラッキングにより、会議室内

の人物の位置がすべて計測されているため、人

物とカメラの位置関係から、このような隠れが

生じるかどうかを判断できる。その場合には、

図8(b)のように別のカメラを選択することで、

隠れのある映像になることを防ぐことができる。

資料表示用スクリーン

x

yC5

部屋の中心位置

人物1(話者)

カメラ角度

C6

C7C0

C1

C2

C3C4

図6 カメラ角度を用いたカメラ選択 Automatic camera selection based on camera angle

図7 話者切り出し映像の生成 Creating a cropped video of the speaker

(a) (b)図8 人物に隠れがあったときのカメラ切り替え

Selecting a different camera when an obstruction is detected

Page 6: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

富士ゼロックス テクニカルレポート No.23 2014 69

6. コミュニケーションビューアー

保存した情報から、話者の移り変わり、スラ

イド資料の切り替わりや、ホワイトボードへの

書き込みといったイベントを抽出し、図9のよ

うに、コミュニケーションの様子を一覧できる

コミュニケーションビューアーを作成する。

6.1 話者切り替わりイベント

話者が切り替わったタイミングを検知し、サ

ムネイル画像を作成する。5章に述べた話者映

像の生成において、話者のVoistrap端末IDが変

わったとき、話者が変化したとしてイベントを

作成する。このときの話者画像を5章と同様に

作成し、サムネイル画像とする。

6.2 スライド資料切り替わりとホワイト

ボード書き込みイベント

2.1章で述べたように、会議室の画面に表示

されている内容は画像として取得できる。

Projector Box8)と同様に、時間的な画像差分を

観測してスライド資料の切り替わりを検出し、

そのときのスライド画像とともにイベントを作

成する。

ホワイトボードも同様に、ホワイトボード用

カメラの画像で差分が発生したときに、ホワイ

トボード画像とともにイベントを作成する。

6.3 コミュニケーションビューアーの作成

6.1章、6.2章で作成されたイベントと画像を

用いて、図9右半分のタイムライン表示を作成す

る。コミュニケーションの開始時刻を一番上にし、

時系列に従って下方向にイベントが並ぶ。

タイムラインの縦軸の左側には、スライド資料

やホワイトボード書き込みのイベントがサムネ

イル画像とともに表示される。軸の右側には、そ

の話者切り替わりイベントが話者のサムネイル

画像とともに表示される。これにより、あるスラ

イド資料やホワイトボード書き込みのときに、誰

が発言しているのかがわかりやすく表示される。

図9のコミュニケーションビューアーの左上

には、スライド画像やホワイトボード画像が表

示され、左下には5章で作成した話者切り出し

映像が表示される。タイムライン上のサムネイ

ルをクリックすると、そのイベントの時刻に対

応するスライド画像・ホワイトボード画像が表

示されるとともに、話者切り出し映像が再生さ

れ、コミュニケーションの様子を確認すること

ができる。

7. 実験とインタビュー評価

システムの動作を確かめるため、実験を行っ

た。2つの会議(6人の参加者による約45分の

会議と、5人の参加者による約30分の会議)の

図9 自動生成されたコミュニケーションビューアー Automatically created communication viewer screen

コミュニケーションビューアーの

実際の様子がご覧いただけます。

Page 7: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

70 富士ゼロックス テクニカルレポート No.23 2014

撮影を行った。この会議のコミュニケーション

ビューアーを作成したところ、話者切り出し映

像が正しく作成されており、タイムライン上のイ

ベントのサムネイルをクリックすることで、該当

する時刻から振り返り再生を行うことができた。

作成したコミュニケーションビューアーを8

人の被験者に試してもらい、重要そうな場面を

タイムライン上で探して再生するなど、会議を

振り返ってもらった。被験者に、「このシステム

は会議の振り返りに有効と思いますか?」とい

う質問に対する10段階(1:いいえ~10:は

い)の回答では、平均が6.9となり、少ない被

験者ではあるが、有効であるという回答が多

かった。

同時に機能についてのインタビューも実施し

た。スライド資料・ホワイトボード画像や話者

の切り出しビデオについては、スライド資料の

画像が小さいために文字が見づらいという指摘

があったものの、大きな不満はなく、視聴に耐

えるレベルであることがわかった。

しかし、タイムラインにおける話者切り替わ

りのサムネイル画像には、改善を求める意見が

多かった。特に、会議が長くなると話者切り替

わりのサムネイルが多く表示されてタイムライ

ンが長くなってしまい、長くスクロールしなけ

ればコミュニケーションの全体を把握できない

という問題があった。本システムでは話者が変

わるたびにサムネイルが表示されるが、たとえ

ば2人の人物によって短い会話のキャッチボー

ルが行われると、発言ごとにサムネイルが作成

されるためにサムネイルの数が増えてしまって

いた。

被験者からは、会議が盛り上がっているシー

ンや、誰と誰が会話しているシーンといったよ

うに、会議の様子を少ない数のサムネイルで一

覧できる機能を要望する声が多かった。今回は

コミュニケーション状況の抽出・解析として、

話者の切り替わりやスライドの変化などを扱っ

たが、センサーデータのより深い分析を行うこ

とで、どの部分で活発な発言があったかなどを

抽出し、より見やすいビューアーを作成するこ

とができると考えられる。

8. まとめと今後の課題

本稿では、会議などコミュニケーションの場

をカメラ・マイク・深度画像センサーなどでセ

ンシングすることで、話者の切り替わりやスラ

イド資料の切り替えなどの状況を抽出・解析す

る技術について述べた。解析されたコミュニ

ケーション状況をもとに、複数のカメラを使っ

て話者のズームアップ映像を作成し、会議ビデ

オが自動的に作成される。会議室には8台のカ

メラで余すところなく撮影し、深度画像セン

サーによる人物のトラッキングを導入したこと

で、会議参加者が部屋の中を自由に動き回るよ

うな環境でも、人物の映像をデジタルズームに

よって抜き出して表示することを実現できた。

さらに、話者の切り替わりやスライド資料・ホ

ワイトボードの変化など、コミュニケーション

状況が変化した場面でのビデオのインデキシン

グを行い、コミュニケーション状況の流れがタ

イムラインで一覧することができ、ユーザーは

会議ビデオを見たい場面から簡単に視聴するこ

とができる。

実際の会議を撮影し、被験者にコミュニケー

ションビューアーで視聴してもらったところ、

システムに好意的な意見が多かった。しかし、

話者サムネイルが多すぎるという指摘が多く、よ

り要約したビューを作成することが求められる。

今回は、人物の位置と発話の情報によりコ

ミュニケーション状況の抽出と解析を行ってい

る。しかし、顔の向きやジェスチャーなどの情

報を自動的に抽出できれば、より高度なコミュ

ニケーションの状況を分析でき、自然なカメラ

ワークやコミュニケーション状況の要約が可能

になると考えられる。本システムは、8台のカ

メラ映像はすべて録画しており、会議が終わっ

てから後処理で話者ビデオとコミュニケーショ

ンビューアーを作成することができる。1つの

会議から、複数のタイプの話者ビデオやコミュ

ニケーションビューアーを作成することが可能

であるため、今後はいくつかのタイプの話者ビ

デオやビューアーを試作して、比較する予定で

ある。

Page 8: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

特集

リアルタイムコミュニケーション状況抽出&解析技術

富士ゼロックス テクニカルレポート No.23 2014 71

9. 商標について

Kinect®は、Microsoft Corporationの米国

およびその他の国における登録商標または商

標です。

その他、掲載されている会社名、製品名は、

各社の登録商標または商標です。

10. 参考文献

1) Z. Yu and Y. Nakamura, “Smart

Meeting Systems: A Survey of

State-of-the-art and Open Issues”,

ACM Comput. Surv. 42, 2, Article 8

(2010).

2) R. Cutler, Y. Rui, A. Gupta, J. Cadiz, I.

Tashev, L. He and A. Colburn,

“Distributed Meetings: A Meeting

Capture and Broadcasting System”,

MultiMedia’02. ACM. pp. 503-512

(2002).

3) R. Stiefelhagen, X. Chen and J. Yang,

“Capturing Interactions in Meetings

with Omnidirectional Cameras”,

International Journal of Distance

Education Technologies (IJDET), 3(3),

pp. 34-47 (2005).

4) A. Ranjan, J. Birnholtz, R. Henrikson, R.

Balakrishnan and D. Lee, “Automatic

Camera Control Using Unobtrusive

Vision and Audio Tracking”, GI’10.

ACM. pp. 47-54 (2010).

5) A. Ranjan, J. Birnholtz, and R.

Balakrishnan, “Improving Meeting

Capture by Applying Television

Production Principles with Audio and

Motion Detection”, CHI '08. ACM. pp.

227-236 (2008).

6) K. Otsuka, H. Sawada, and J. Yamato,

“Automatic Inference of Cross-modal

Nonverbal Interactions in Multiparty

Conversations -Who Responds to

Whom, When, and How? from Gaze,

Head Gestures, and Utterances”,

Proceedings of ACM 9th International

Conference on Multimodal Interfaces

(ICMI2007), pp. 255-262.

7) 原田陽雄, 米山博人, 下谷 啓, 藤居 徹,

西野洋平, 飯田 靖, “コミュニケーション

可視化技術「Voistrap®」”, 富士ゼロック

ス テクニカルレポートNo. 22 (2013).

8) D. Hilbert, D. Billsus and L. Denoue,

“Seamless Capture and Discovery

for Corporate Memory”, The 15th

International World Wide Web

Conference (WWW2006).

筆者紹介

新宮 淳 研究技術開発本部 インキュベーションセンターに所属

専門分野:マルチメディア、コンピュータービジョン

栗原 陽子 研究技術開発本部 インキュベーションセンターに所属

専門分野:CSCW、CHI、対話行動における評価

竹内 孝行 研究技術開発本部 インキュベーションセンターに所属

専門分野:CHI、CSCW

安部 勉 研究技術開発本部 インキュベーションセンターに所属

専門分野:マルチメディア、画像入出力装置設計

Jim Vaughan FX Palo Alto Laboratory Inc.に所属

専門分野:Mixed Reality、Computer Vision

Don Kimber FX Palo Alto Laboratory Inc.に所属

専門分野:Mixed Reality、Telepresence

Page 9: Real-time Communication Scene Detection and …...Real-time Communication Scene Detection and Analysis Technology 要 旨 近年、重要な会議や講演などコミュニケーションの

専用アプリで関連情報にアクセス!

◆アプリのインストールの手順

◆アプリのご利用手順

「Media Switch」で検索 インストールを実行

画像全体をガイドに入れて!

App Store/Google Play にアクセス

アプリを起動 検索窓に「富士ゼロックス」を入力結果から「富士ゼロックス テクニカルレポート」を選択

カメラアイコンをタップして撮影モードに移動

画像全体がガイドの中に入るようにして撮影

送信するとコンテンツへアクセス

「富士ゼロックス テクニカルレポート」は、App Store・Google Play からSkyDesk Media Switch のアプリ(ダウンロード無料)をインストールし、アプリを起動したスマートフォンで紙面の特定画像を撮影すると、各関連情報にアクセスいただけます。*対象OS(iOS): iOS 6.0、6.1、7.0、Android™ 2.3.x、Android™ 4.0.x、Android™ 4.2.x*アクセスできる動画のリンク先は、予告なく閉鎖される場合がありますので、予めご了承ください。

SkyDesk Media Switchは画像認識技術を使ったクロスメディアサービスです。スマートフォン/タブレットで紙から簡単に動画などのマルチメディアコンテンツを再生できます。 (日本語のみ対応しています。 Available only in Japanese)

企画→制作→活用→分析、そしてまた企画というサイクルを効率的に実践し、改善していくために必要なツールをオールインワンでご提供します。

※登録画像は こちらの マークが目印

●iOSの商標はCiscoの米国およびその他国のライセンスに基づき使用されています。 ●App Storeは、Apple Inc.が運営するiPhone、iPad、iPod touch向けアプリケーションソフトウェアのダウンロードを行えるサービスの名称です。 ●Android™はGoogle Inc.の商標です。 ●Google Playは、Google Inc.の商標です。 ●その他の掲載されているサービス、商品名等は各社の登録商標または商標です。

富士ゼロックス

富士ゼロックステクニカルレポート

富士ゼロックス**

テクニカルレポート

「富士ゼロックス テクニカルレポート」は SkyDesk Media Switch に対応しています。

画像認識アプリのダウンロード

画像認識

画像検索サーバー コンテンツサーバー

企画→制作→活用→分析、そしてまた企画というサイクルを効率的に実践し、改善していくために必要なツールをオールインワンで

 コンテンツサーバー

1.撮影する

2.送信

3.コンテンツ表示

画像、動画、音声、Web、ソーシャルメディア、マップ等

管理ツールウェブブラウザ上で動作し、紙面にマークを付け、印刷データを出力するツールで簡単にコンテンツと紐づいた紙面を作成できます。

検索サーバー、スマートフォンアプリコンテンツ閲覧に必要なスマートフォンアプリ

(iOS、Android)と画像検索サーバーも合わせて提供。

企画ログ分析のフィードバック結果をもとに、クロスメディアの活用アイデア検討にお役立てください。

ログ分析コンテンツへのアクセス履歴をリポートでき、

分析結果のフィードバックが可能。

◀印刷物を配布

詳しくはSkyDesk Media Switchのサイトをご覧ください! 検 索

企画 制作

分析 活用