社会的信号処理の基礎と応用okada-s/materials/hcs20190823_ssp...1...

50
1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学 岡田 将吾 [email protected] HCS&VNV研究会 [チュートリアル講演]

Upload: others

Post on 11-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

1

社会的信号処理の基礎と応用Fundamentals and Applications of

Social Signal Processing

北陸先端科学技術大学院大学

岡田 将吾

[email protected]

HCS&VNV研究会 [チュートリアル講演]

Page 2: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

2

Agenda

• 社会的信号処理とは

• マルチモーダルコーパス

• マルチモーダル特徴量

• モデリング・機械学習

• 研究事例

• 課題・まとめ

Page 3: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

3社会的信号(Social Signal)とは?

[Burgoon et al 2017]による定義

1. Social Signal (SS) はインタラクション中

に提示される観測可能な行動である

2. AさんのSS は,それを受け取った他者に

変化を及ぼす

3. AさんからのSSによる影響は

ランダムではない

3Burgoon, J., Magnenat-Thalmann, N., Pantic, M., & Vinciarelli, A. (Eds.).(2017). Social Signal Processing. Cambridge: Cambridge University Press

Page 4: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

4社会的信号(Social Signal)とは?言語・非言語情報を通じて伝わる意図,態度やグループ状態 [Vinciarelli et al. 2009]

• 音声

• 発話特徴: 発話長, 発話回数, ターン

• 韻律特徴: エネルギ, ピッチ

• 視覚

• 表情・視線・姿勢・体の動作・ジェスチャ

• 生理指標

• 脈波,血圧,筋電

個人: (非)同意,性格特性,リーダシップ,傾聴グループ: 盛り上がり,膠着状態,重要場面,会話メカニズム

Page 5: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

5

ワーカの満足度・ストレス コミュニケーション能力就職試験の印象 参加者役割・態度・個性

問題解決・合意形成課題 状況説明課題 エージェント・ユーザ会話課題

マイク カメラモーションセンサ 筋電 生体指標

就職面接

社会的信号処理に基づくコミュニケーション理解・応用

プレゼンテーション

深度センサ

書き起こしor 音声認識

各関節の位置情報顔・表情・ジェスチャ

うん,・・についてどう思います?

音声・韻律解析言語解析

特徴量抽出 + 機械学習

Page 6: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

6社会的信号処理/マルチモーダル情報処理と周辺分野の関係

視覚処理 音声処理 機械学習データマイニング

自然言語処理

マルチモーダル情報処理

社会的信号の認識研究

社会言語・心理分析ツール

知見を提供

インタラクティブシステム

対話ロボット・システム

インタラクション応用

状況認識モデル

社会的信号の生成研究

・音声,ジェスチャ,あいづち生成

HCS & VNV 研究会

Page 7: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

7社会的信号認識モデルの構築方法

[岡田・石井 2017] 岡田将吾,石井亮,社会的信号処理とAI: , 人工知能, 32巻

Page 8: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

8

社会的信号処理の入力 [Vinciarelli et al. 2009]

(1) 発話言語

(2) 音響,音声的特徴(韻律など)

(3) 体形・身長,服装などを含む容姿

(4) ジェスチャや姿勢

(5) 表情,視線方向,注視状態

(6) 対人距離,座席の位置関係,コミュニケーション環境

Page 9: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

9マルチモーダルデータコーパスの収集センシング

発話言語と音声情報

[デバイス] 指向性の携帯型マイク,マイクロフォンアレイ

• マイクロフォンアレイを使用した場合,音源定位・分離が必要

• 発話言語は音声認識 or 書き起こしで抽出

• ジェスチャ,姿勢,視線,表情,対人距離などの視覚情報

[デバイス] カメラ,深度センサ,モーションキャプチャ装置,装着型の視線計測装置

• その他,心拍,発汗,呼吸,脳波などの生体信号

[デバイス] 生体信号計測用センサ

Page 10: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

10マルチモーダルデータコーパスの収集前処理

• 計測されたデータを信号波形あるいは数値データに変換

• 発話・非言語の有意味な行動要素を区切りイベントとして記述 [坊農・高梨09]

• 各モダリティデータを同期して収録

• マルチモーダルデータを統合的に管理,視聴するツール:

Anvil [Kipp 2001],ELAN [Brugman et al. 2004]

AB

C

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容うん,・,ついてどう思います?

音声韻律視線ジェスチャ発話内容

パターン認識・信号処理・言語処理

うん,・,ついてどう思います?

音声韻律視線ジェスチャ発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容うん,・・についてどう思います?

音声韻律視線ジェスチャ発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

時間 要素特徴量

Page 11: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

11マルチモーダルデータコーパス

• グループ対話

• Augmented Multiparty Interaction (AMI) corpus [Carletta 2007] :多人数ミーティング

• ICSI meeting corpus [Janin et al. 03]:多人数ミーティング

• The Computers in Human Interaction Loop (CHIL) [Waibel et al. 2009]:オフィス,クラスルーム

• Video Analysis and Content Extraction (VACE) [Chen et al, 2006]:軍における戦略ゲームのインタラクション

• Emergent LEAder corpus (ELEA) [Sanchez-Cortes et al. 2013]:グループディスカッション,問題解決タスク

• グループコミュニケーションコーパス(TDU-NEDO) [NII corpus]

• NIIグランドチャレンジ会話コーパス [NII corpus]

• 日常会話

• 国立国語研究所「日常会話コーパス」[Ninjal corpus]

• 人ロボット対話

• 阪大データコーパス:(HCS5)関連発表:複数の主観評定を付与した人システム間マルチモーダル対話データの収集と分析11

Page 12: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

12社会的信号認識モデルの構築方法

[岡田・石井 2017] 岡田将吾,石井亮,社会的信号処理とAI: , 人工知能, 32巻

Page 13: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

13社会的信号処理の目的変数 [Vinciarelli + 2009]

(a) 感情 (Emotion)

(b) 個性,スキル (Personality, Skill)

(c) 社会的な地位,役割 (Status,Role)

(d) 優位性 (Dominance)

(e) 説得性 (Persuasion)

(f) 調和的, 親密な関係,態度 (Rapport, Attitude)

(g) その他の内面状態 (Others)

(h) コミュニケーションにおける調整 (Regulation)

Page 14: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

14社会的信号処理の分析・アノテーション単位

• コミュニケーションをデータ化し計算機で扱うための指標

• コミュニケーションの分析単位 [坊農・高梨 2009](社会言語学からの知見)

• IU,Tobi,TCU,IPU, 隣接ペア

• ジェスチャの分析単位

• ジェスチャフェイズ

• そのほかの研究で用いられた分析単位(例)

• 人同士対話 → 一人の発言単位 [Nihei et al. 2017],発話交代部分 [Ishii et al. 2013], 対話全体 [Umut et al. 2016]

• 対話システム研究 → システムとユーザが1ターンづつ発話を交換する間(1交換)

タスク,研究目的に応じて決定

Page 15: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

15社会的信号のアノテーション正解ラベルデータの作成方法

・感情・スキルなどの内面状態のアノテーションを行う方法

1. 心理学の知見から構成された質問紙を利用する

• (例)BigFive:個人特性を測る指標

2. 複数の第三者コーダに対話場面を閲覧させて,アノテーションする手法

• (例)プレゼンテーションスキルを複数人の有識者によりジャッジする

Page 16: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

16社会的信号のアノテーション正解ラベルデータの作成方法

2. 複数の第三者コーダにアノテーションさせる手法

一般的な手順

• コーダ:N人が実験参加者:M人に対して内面状態変数Vに関するアノテーションを実行

• N×Mの行列データに対して,アノテーションの一致率を計算

• 一致率とは,複数のコーダが特定の参加者に対して同じ値を付与した度合い

• 一致率が十分な値であれば,N人の平均値を正解データと設定

一致率の指標

• κ値(2者はcohen’s kappa, 3者以上はFleiss’ kappa,0.4以上でmoderate agreement), Inter correlation.

• クローンバックα (0.7-0.8以上で十分な一致率),クリッペンドルフα (クローンバックαより厳しい指標)

Page 17: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

17社会的信号のアノテーション複数コーダのアノテーション結果の解釈

• (疑問)N人のコーダの平均値を正解データと設定しもよいのか? → ケース1と2は同じ??

1. コーダA,Bが7点,1点と評価した場合,平均値4点となる.

2. コーダA,Bが4点,4点と評価した場合,平均値4点となる.

[平均値としない研究]

• N人のコーダにアノテーションの傾向があると仮定し,コーダのアノテーション傾向を分類する.

• ロボットへのエンゲージメントの推定 [Inoue et al. 2018]

• 対話における2者の共感の分析 [Kumano et al. 2015]

Page 18: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

18

18

Page 19: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

19社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理

1. ピッチ

• F0(基本周波数)の値で代替することが多い.

• 30 msの窓幅のフーリエ変換を行って,最初のピークを基本周波数とする.

• Wavesurferや Praat などのツールが用意されている.

2. テンポ(Speaking rate)

• 単位時間当たりのモーラ(日本語)/シラブル(英語)の数 [Pfau et al. 1998 ]

• 第一スペクトラルのモーメントの信号から計算する方法 [Morgan et al. 1997, 1998]

3. エネルギー

• 音声信号の各サンプルの2乗値の和 [Rabiner et al. 1978]

4. その他,MFCCなど

• ツール: Opensmile19

Page 20: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

20社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理

• 非言語的音声 (non-linguistic vocalizations)

• 笑いの検出 [Truong et al. 2005, 2007] ,泣き声検出 [Moller et al. 1999] .

• 言語的音声 (Linguistic vocalizations) [Liu et al. 2005]

• 発言の流暢さを推定する際には,ピッチやエネルギーなどの特徴量が用いられる

• あいづち

• タイミングの予測

• ルールベース [Truong et al. 2010],時系列機械学習ベース [Kawahara et al.2016]

• 多様なあいづちの生成 [山口 他 2016]

Page 21: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

21社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理

• 沈黙と話者交替 [Rabiner et al. 1977, 1978]

• 音声区間検出(Voice Activity Detection)

• 発話区間の抽出

• 発話区間 → コミュニケーション参加者の発話量・発話回数

• 2者の発話区間 → 2者の発話の重なり(発話衝突)を検出可能

• 発話長に基づき発言を分類 (短い発話は「あいづち」などとする)

• エネルギーの時間分布を使って,沈黙区間を抽出する方法も提案

Page 22: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

22社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理

• 人の検出,顔の検出

1. 目や口や鼻など顔の特徴的なパーツを利用する方法

2. 頭部を3次元の剛体とみなして抽出する方法

3. 見かけの特徴量に基づき機械学習を利用した方法

• 頭部の追跡

• .モデルベース・アピアランスベース

• ツール

Face API, Microsoft Azure, Google api, OpenFace: (CMU Multicomp. lab)

Seeing Machine 社の

Face API

Page 23: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

23社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理

• 表情特徴抽出

• FACS [Ekman et al. 1969]で定義された

Action Unit (AU)を抽出する.

• 感情カテゴリとAUの組み合わせも定義

1. 顔検出・顔追跡を行う

2. 顔の各パーツの位置を検出する

3. 各AUを識別・検出する

• ツール

・OpenFace: (CMU Multicomp. lab),affectiva SDK,FaceTales

Burgoon, J., Magnenat-Thalmann, N., Pantic, M., & Vinciarelli, A. (Eds.).(2017). Social Signal Processing. Cambridge: Cambridge University Press

Page 24: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

24社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理

• ジェスチャ,ポスチャの追跡・認識 [Mitra et al. 2007]

•動作特徴量を抽出する

• Histograms of oriented gradients [Thurau 2007]

• Optical flow [Dalal et al. 2006]

• Spatio-temporal salient points [Oikonomopoulos 2006]

• Space-time volumes [Gorelick 2007]

• Motion Energy Image (MEI)

• 代替手法

• モーションキャプチャーの利用

• ツール

• Kinect V2とAPI: 深度画像から高精度に各関節の位置情報を推定

• Open Pose: RGB画像より高精度に各関節の位置情報を推定

MEI

Open Posehttps://github.com/CMU-Perceptual-Computing-Lab/openpose

Page 25: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

25社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理

• 視線

• 注意方向 (Visual Focus of Attention)の検出には頭部方向を利用

• 詳細な注視点を取得したい場合,アイトラッカ―システムを利用

• 非接触型:赤外線を反射させて,視線を推定

• 接触型:眼鏡に装着したカメラから瞳孔を検出し,モデルと照合し視線を推定

• 画像情報から眼球運動を推定する問題は今も盛んに行われている.

Page 26: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

26社会的信号処理のためのマルチモーダル特徴量抽出言語情報処理

• 発話内容に関する情報を得るために行われる.

• 形態素解析に基づく,単語情報・品詞情報の抽出

• モデル化された文法・単語辞書の情報に基づき,形態素の列に分割し,品詞等を判別

• 日本語の形態素解析器:茶筅,Mecab

• 単語の分析・トピック(話題)分析

• Bag of words → 単語の分散表現:Word2Vec (= WordNetの自動獲得)

• トピックモデル等を用いて,話題やその遷移を分析

• 構文解析

• 文構造の解析に使われるが,社会的信号処理では多くの場合単語レベルの解析

Page 27: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

27社会的信号処理のためのマルチモーダル特徴量抽出言語情報処理

• 発話内容に関する情報を得るために行われる.

• 談話行為タグ(dialog act)・発話行為タグ(speech act)

• 発話を「計画」/「同意」/「提案」といった対話行為タグに変換する.

• 対話行為タグは,発話行為タグを対話用に拡張して定義された.

• タグのアノテーションスキームは下記が有名

• DAMSLタグ [Core et al. 1997],MRDAタグ [Shriberg et al. 2004]

A:私は京都に行くと良いと思う(提案)

B:私もそう思います (同意)

Page 28: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

28

発話

顔向け方向

頭部動作(縦方向)

ハンドジェスチャ

・ モーキャプ

・ 加速度センサ・ ハンドマイク

On/Offピッチ,エネルギー

右向き/左向き

縦方向の動作

On/Off

ジェスチャ

On/Off

GMM,ゼロ点交差法韻律情報解析

SVM

DWT+Linear SVM

SST +HMM

マルチモーダルセンシングから特徴量設計までの流れ

Page 29: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

29

発話

顔向け方向

頭部動作(縦方向)

ハンドジェスチャ

On/Offピッチ,エネルギー

右向き/左向き

縦方向の動作

On/Off

ジェスチャ

On/Off

• 発話長• 発話回数• ピッチ,エネルギー(最大・最小・平均,偏差)

• 視線を向けられた時間長• 共同注視時間長• 視線方向が変化した回数

• 動作の回数• 動作の時間

• 動作の回数• 動作の時間

マルチモーダルセンシングから特徴量設計までの流れ

Page 30: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

30

30

Page 31: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

31機械学習に基づく予測・認識と分析

• センサやデータベースからサンプルデータ集合を入力して解析

を行い,有用な規則,ルール,知識表現,判断基準などを抽出

F0値・頭部動作量から同意/非同意の態度を予測

F0 平均

胴部

動作

発話量から人のリーダシップを予測

発話量

リー

ダシ

ップ

スコ

ア V

同意

非同意

Page 32: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

32HCS&VNV研究における機械学習 と 統計分析の違い

機械学習はコミュニケーション分析に役にたつか?

線形回帰モデル

発話量

スキ

ルレ

ベル

𝑦 = 𝑤1𝑥1 + 𝑤2𝑥2+ 𝑤3𝑥3 +⋯+ 𝑤𝐷𝑥𝑑

回帰における統計分析と機械学習の共通点

• 多変量回帰分析と線形回帰モデルに使われる関数は同じ

• 分析方法も基本的には同じ

• 統計分析→ 目的変数を良く説明する説明変数を調査

• 機械学習→ モデルの重みパラメータの大きい変数を調査

回帰における統計分析と機械学習の相違点

• 回帰モデルの評価方法が違う

• 統計分析 → 全データに適合するかどうかを評価

• 機械学習でいうところの過剰適合させている

• 機械学習 → 未学習テストデータへの性能(汎化性能)を評価

• 未知データへの精度を向上させることを目的とする

Page 33: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

33

(Early fusion) 複数モダリティで得られる特徴量を1 つのベクトルに統合し,機械学習への入力として用いる方法

(Late fusion) 各モダリティの特徴量セットごとに識別器を用意・訓練し,識別時には各モダリティに対応するモデルからの出力値を統合する方法

※モダリティごとに,注意深くデータを正規化する必要あり

マルチモーダル特徴量の統合 (Fusion)

Modality 1 Modality 2

1 vector

classifier

Modality 1 Modality 2

出力値統合

Classifier 1 Classifier 2

モデルに依存しない方法

Classifierは任意:

DNN, SVM, Random Forest, Logistic regression etc

Page 34: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

34(悩ましい点)対話人数と特徴量の設計

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容単語情報,品詞情報,構文情報

音声韻律視線ジェスチャ

発話内容

モノローグ

2者対話

グループ対話

• 個人の特徴量

• 個人の特徴量• インタラクション特徴

• 個人の特徴量• インタラクション特徴• グループレベルの特徴

classifier

より特徴量の設計が複雑になる

Page 35: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

35各モダリティのデータのラベリング

頻出イベントパターン

複数人のインタラクションから特徴量を構成

S2 GestureS2 Speech

S2 (S3) faces to S3 (S2)

S1 (S3) faces to S3 (S1)

S1 GestureS1 Speech

S3 Nod

インタラクションイベントを多次元共起パターンとみなす

Page 36: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

36

Target Nonverbal Features

Personality Traits• BigFive• Leadership• Competence• Dominance

Target speech

Target body ON

Target head

Target gaze sp

Group speech ON

Group body ON

Group head ON

Group gaze S1

Group Nonverbal Features

+

Co-occurrent Features• 非言語情報のみから

最大75%の精度で2値判別

• 個人とグループの行動の組み合

わせとして特徴量をマイニング

⇒ 従来手法を17%改善

[Okada et al. 2019]

グループディスカッションにおける行動に基づく性格特性の予測(グループ対話)

Okada, S., Nguyen, L. S., Aran, O. and Gatica-Perez, D. (2019). "Modeling Dyadic and Group Impressions with

Inter-Modal and Inter-Person Features." ACM Transactions on Multimedia Computing, Communications, and

Applications, 9(4): Article 39.

Page 37: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

37(悩ましい点)時系列データの扱い

Y:プレゼンスキル

T

X:マルチモーダル時系列データ

(疑問3) 時系列情報をつぶして平均・分散などの統計量に変換しても問題ないか?

(疑問2) ノイズとなる非言語情報をどう見分けるか?

(疑問1)いつ,どの範囲にスキルに関わる信号が観測されるか?

Page 38: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

38(悩ましい点)時系列データの扱い

T

X:マルチモーダル時系列データ

Contextual LSTM [Poria et al 2017]C-LSTMのアイデア

• 各ステップの出力の結果を多数

決する.

→ 系列に依存しすぎるパラメータ

の最適化を避けられることがが期

待できる(疑問1の解決)

Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Mazumder, Amir Zadeh, Louis-Philippe Morency, Context-Dependent Sentiment Analysis in User-Generated Videos, ACL 2017, 873–883

Page 39: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

39

39

Page 40: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

40プレゼンテーションスキル(モノローグ)

Torsten Wörtwein, Mathieu Chollet, Boris Schauerte, Louis-Philippe Morency, Rainer Stiefelhagen, and Stefan Scherer. 2015. Multimodal Public Speaking Performance Assessment. In Proceedings of the 2015 ACM on International Conference on Multimodal Interaction (ICMI '15). ACM, New York, NY, USA, 43-50. DOI: https://doi.org/10.1145/2818346.2820762

エキスパートにより評定されたスキルスコアと機械学習の予測スコアの相関の最大値は0.745 [Wörtwein et al 2015]

Page 41: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

41・映画のレビューの説得力をレビュアのマルチモーダル情報から推定する [Park et al. 2014 ]

Sunghyun Park, Han Suk Shim, Moitreya Chatterjee, Kenji Sagae, and Louis-Philippe Morency. 2016. Multimodal Analysis and Prediction of Persuasiveness in Online Social Multimedia. ACM Trans. Interact. Intell. Syst. 6, 3, Article 25

ソーシャルメディアでの説得力(モノローグ)

Page 42: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

42

Laurent Nguyen, et al. Hire me: Computational Inference of Hirability in Employment Interviews Based on Nonverbal Behavior. IEEE Trans. Multimedia 16(4): 1018-1031 (2014)

就職面接におけるコミュニケーションスキル (2者対話)

⚫62人の面接データ+アンケート

➢カメラとマイクを用いて情報を収集

➢3人の評価者が以下の項目を評価

1. コミュニケーション能力(5段階評価)

2. 説明力(5段階評価)

3. 誠実性(5段階評価)

4. ストレス耐性(5段階評価)

5. 採用決定(10段階評価)

⚫韻律・ジェスチャ・インタラクション

特徴量より回帰予測0.4(分類70%)を達成

就職面接におけるコミュニケーションスキルと就職採用可能性を推定する [Nguyen et al. 2014]

Page 43: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

43交渉対話における対立場面の認識 (2者対話) [Okada et al. 2018]

対立 VS 非対立的な発話

• 韻律特徴量• 言語の極性特徴量

SVM

Shogo Okada, Akihiro Matsuda, Katsumi Nitta:Multimodal Negative-Attitude Recognition Toward Automatic Conflict-Scene Detection in Negotiation Dialog. HCI (14) 2018: 268-278

・音声:F = 0.60, 言語:F = 0.59

→ マルチモーダル: F = 0.64

Page 44: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

44

加速度センサ

グループディスカッション(4人一組)

マルチモーダル特徴量• 発話ターン• 韻律• 動作• 発話内容の単語

コミュニケーション能力の評定値

YX

ヘッドホンマイク

発話内容の書き起こし

特徴量(X)から評定値(Y)を 推定するモデルの構築・評価

21名の採用担当経験者によるコミュニケーション能力の評価

グループディスカッションにおけるコミュニケーション能力の推定(グループ対話)[ 岡田 他 2016]

岡田将吾, 松儀良広, 中野有紀子, 林佑樹, 黄宏軒, 高瀬裕,新田克己(2016). "マルチモーダル情報に基づくグループ会話におけるコミュニケーション能力の推定." 人工知能学会論文誌31(6): AI30-E_31-12.

Page 45: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

45グループディスカッションにおけるコミュニケーション能力の推定(グループ対話)

コミュニケーション能力の評定値の大・小を最大91%で推定可能

Page 46: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

46

[Ishihara et al. 2018 ]Takuya Ishihara, Katsumi Nitta, Fuminori Nagasawa, Shogo Okada:Estimating interviewee's willingness in multimodal human robot interview interaction. ICMI (adjunct) 2018: 2:1-2:6

ヒューマンロボットインタラクションにおけるユーザの発話意欲推定(人と人工物対話)

Page 47: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

47多様な研究事例 (タスク別)

• リーダシップ [Sanchez-Cortes et al. 2013]

• 説得力 [Park et al. 2016]

• 性格印象 [Aran et al. 2013]

• 感情 [Poria et al. 2017]

• ジェンダー [Guha et al. 2015]

• 共感性 [Kumano et al. 2015]

• 信頼性 [Lucas et al. 2016]

• ジョーク [Weber et al. 2018]

• コミュニケーション中の嘘 [大本 他, 2006]

• 痛み・苦しみ [Ahmed et al, 2009]

• 美しさ・魅力 [Gunes 2006]

• 同意・非同意 [Bousmalis et al. 2013]

• エンゲージメント [Nakano et al. 2010]

• 就職適正 [Nguyen et al. 2014]

• コミュニケーション能力 [Okada et al. 2016]

• グループアウトプット [Jayagopi et al. 2012]

• 盛り上がり [Gatica-perez et al. 2005]

• 多人数会話のメカニズム [Otsuka et al. 2007]

• 次話者予測 [Ishii et al. 2013] イベント・グループ

個人

Page 48: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

48本日説明できなかった関連技術

視覚処理 音声処理 機械学習データマイニング

自然言語処理

マルチモーダルインタラクションモデリング

社会的信号の認識研究

社会言語・心理分析ツール

知見を提供

インタラクティブシステム

対話ロボット・システム

インタラクション応用状況認識モデル

社会的信号の生成研究

・音声,ジェスチャ,あいづち生成

人工知能学会 言語・音声理解と対話処理研究会(SLUD)第84回研究会マルチモーダル対話システムにおける社会的信号処理とエージェント技術 中野有紀子先生(成蹊大)

Page 49: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

49

課題1:大規模データ収集

• 大規模データの収集とそのデータを用いた深層学習の適用が,音声,画像,言語などの各種メディア処理に適用され,その有効性が顕著に示

されている.マルチモーダル情報を大規模かつ高品質に収集することは容易ではなく,現状,比較的小規模なデータセットを扱うことが多い.

より大規模かつ高品質なコーパスを構築するスキーム作りが必要である.

課題2:知見の集約

• マルチモーダル特徴量は,対話/会話の種別,タスク,対象者のジェンダ・年齢・国籍などの個人差に依存して異なる.現状,個々の研究者・

グループが,特定の個人属性に偏ったデータを収集し,研究を進めている段階である.個別に研究された成果の知見を統合することや,多様

な個人属性を持つ大規模データの構築も必要である.

課題3:異分野の協調・融合

• マルチモーダル処理の特性に関して理論面の研究を強化することも今後の課題である.多くのノイズを含むマルチモーダルインタラクション

データから本質的な社会的信号を抽出するための方法論を構築する必要がある.また基盤となる視聴覚情報処理,コミュニケーション科学,

社会学の理論との接点を再考し,分野を横断した研究コミュニティを形成することも重要である.

マルチモーダル情報処理の課題 (まとめにかえて)

Page 50: 社会的信号処理の基礎と応用okada-s/materials/HCS20190823_SSP...1 社会的信号処理の基礎と応用 Fundamentals and Applications of Social Signal Processing 北陸先端科学技術大学院大学

50マルチモーダル情報処理の課題 (まとめにかえて)

課題4:アプリケーション・社会貢献

• 人間の様々な社会的振る舞いを理解した上で,どのようなアプリケーションへの応用を行い,問題を解

決できるかはこれからの大きな課題である.また,アプリケーション応用のためには,社会的信号処理

をリアルタイムかつ安定的に行えるシステム開発も重要である.

課題5:データのプライバシー

• 研究の性質上,顔画像を含む個人データを扱う上,個人の内面状態を推定する技術に焦点を当てている

ため,実験段階でも倫理的な配慮が欠かせない.本技術をシステム実装する際には注意が必要であり,

対象者のプライバシーを保護する方法や,社会実装する上で問題となる倫理面の議論が必要不可欠であ

る.