社会的信号処理の基礎と応用okada-s/materials/hcs20190823_ssp...1...
TRANSCRIPT
1
社会的信号処理の基礎と応用Fundamentals and Applications of
Social Signal Processing
北陸先端科学技術大学院大学
岡田 将吾
HCS&VNV研究会 [チュートリアル講演]
2
Agenda
• 社会的信号処理とは
• マルチモーダルコーパス
• マルチモーダル特徴量
• モデリング・機械学習
• 研究事例
• 課題・まとめ
3社会的信号(Social Signal)とは?
[Burgoon et al 2017]による定義
1. Social Signal (SS) はインタラクション中
に提示される観測可能な行動である
2. AさんのSS は,それを受け取った他者に
変化を及ぼす
3. AさんからのSSによる影響は
ランダムではない
3Burgoon, J., Magnenat-Thalmann, N., Pantic, M., & Vinciarelli, A. (Eds.).(2017). Social Signal Processing. Cambridge: Cambridge University Press
4社会的信号(Social Signal)とは?言語・非言語情報を通じて伝わる意図,態度やグループ状態 [Vinciarelli et al. 2009]
• 音声
• 発話特徴: 発話長, 発話回数, ターン
• 韻律特徴: エネルギ, ピッチ
• 視覚
• 表情・視線・姿勢・体の動作・ジェスチャ
• 生理指標
• 脈波,血圧,筋電
個人: (非)同意,性格特性,リーダシップ,傾聴グループ: 盛り上がり,膠着状態,重要場面,会話メカニズム
5
ワーカの満足度・ストレス コミュニケーション能力就職試験の印象 参加者役割・態度・個性
問題解決・合意形成課題 状況説明課題 エージェント・ユーザ会話課題
マイク カメラモーションセンサ 筋電 生体指標
就職面接
社会的信号処理に基づくコミュニケーション理解・応用
プレゼンテーション
深度センサ
書き起こしor 音声認識
各関節の位置情報顔・表情・ジェスチャ
うん,・・についてどう思います?
音声・韻律解析言語解析
特徴量抽出 + 機械学習
6社会的信号処理/マルチモーダル情報処理と周辺分野の関係
視覚処理 音声処理 機械学習データマイニング
自然言語処理
マルチモーダル情報処理
社会的信号の認識研究
社会言語・心理分析ツール
知見を提供
インタラクティブシステム
対話ロボット・システム
インタラクション応用
状況認識モデル
社会的信号の生成研究
・音声,ジェスチャ,あいづち生成
HCS & VNV 研究会
7社会的信号認識モデルの構築方法
[岡田・石井 2017] 岡田将吾,石井亮,社会的信号処理とAI: , 人工知能, 32巻
8
社会的信号処理の入力 [Vinciarelli et al. 2009]
(1) 発話言語
(2) 音響,音声的特徴(韻律など)
(3) 体形・身長,服装などを含む容姿
(4) ジェスチャや姿勢
(5) 表情,視線方向,注視状態
(6) 対人距離,座席の位置関係,コミュニケーション環境
9マルチモーダルデータコーパスの収集センシング
発話言語と音声情報
[デバイス] 指向性の携帯型マイク,マイクロフォンアレイ
• マイクロフォンアレイを使用した場合,音源定位・分離が必要
• 発話言語は音声認識 or 書き起こしで抽出
• ジェスチャ,姿勢,視線,表情,対人距離などの視覚情報
[デバイス] カメラ,深度センサ,モーションキャプチャ装置,装着型の視線計測装置
• その他,心拍,発汗,呼吸,脳波などの生体信号
[デバイス] 生体信号計測用センサ
10マルチモーダルデータコーパスの収集前処理
• 計測されたデータを信号波形あるいは数値データに変換
• 発話・非言語の有意味な行動要素を区切りイベントとして記述 [坊農・高梨09]
• 各モダリティデータを同期して収録
• マルチモーダルデータを統合的に管理,視聴するツール:
Anvil [Kipp 2001],ELAN [Brugman et al. 2004]
AB
C
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容うん,・,ついてどう思います?
音声韻律視線ジェスチャ発話内容
パターン認識・信号処理・言語処理
うん,・,ついてどう思います?
音声韻律視線ジェスチャ発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容うん,・・についてどう思います?
音声韻律視線ジェスチャ発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
時間 要素特徴量
11マルチモーダルデータコーパス
• グループ対話
• Augmented Multiparty Interaction (AMI) corpus [Carletta 2007] :多人数ミーティング
• ICSI meeting corpus [Janin et al. 03]:多人数ミーティング
• The Computers in Human Interaction Loop (CHIL) [Waibel et al. 2009]:オフィス,クラスルーム
• Video Analysis and Content Extraction (VACE) [Chen et al, 2006]:軍における戦略ゲームのインタラクション
• Emergent LEAder corpus (ELEA) [Sanchez-Cortes et al. 2013]:グループディスカッション,問題解決タスク
• グループコミュニケーションコーパス(TDU-NEDO) [NII corpus]
• NIIグランドチャレンジ会話コーパス [NII corpus]
• 日常会話
• 国立国語研究所「日常会話コーパス」[Ninjal corpus]
• 人ロボット対話
• 阪大データコーパス:(HCS5)関連発表:複数の主観評定を付与した人システム間マルチモーダル対話データの収集と分析11
12社会的信号認識モデルの構築方法
[岡田・石井 2017] 岡田将吾,石井亮,社会的信号処理とAI: , 人工知能, 32巻
13社会的信号処理の目的変数 [Vinciarelli + 2009]
(a) 感情 (Emotion)
(b) 個性,スキル (Personality, Skill)
(c) 社会的な地位,役割 (Status,Role)
(d) 優位性 (Dominance)
(e) 説得性 (Persuasion)
(f) 調和的, 親密な関係,態度 (Rapport, Attitude)
(g) その他の内面状態 (Others)
(h) コミュニケーションにおける調整 (Regulation)
14社会的信号処理の分析・アノテーション単位
• コミュニケーションをデータ化し計算機で扱うための指標
• コミュニケーションの分析単位 [坊農・高梨 2009](社会言語学からの知見)
• IU,Tobi,TCU,IPU, 隣接ペア
• ジェスチャの分析単位
• ジェスチャフェイズ
• そのほかの研究で用いられた分析単位(例)
• 人同士対話 → 一人の発言単位 [Nihei et al. 2017],発話交代部分 [Ishii et al. 2013], 対話全体 [Umut et al. 2016]
• 対話システム研究 → システムとユーザが1ターンづつ発話を交換する間(1交換)
タスク,研究目的に応じて決定
15社会的信号のアノテーション正解ラベルデータの作成方法
・感情・スキルなどの内面状態のアノテーションを行う方法
1. 心理学の知見から構成された質問紙を利用する
• (例)BigFive:個人特性を測る指標
2. 複数の第三者コーダに対話場面を閲覧させて,アノテーションする手法
• (例)プレゼンテーションスキルを複数人の有識者によりジャッジする
16社会的信号のアノテーション正解ラベルデータの作成方法
2. 複数の第三者コーダにアノテーションさせる手法
一般的な手順
• コーダ:N人が実験参加者:M人に対して内面状態変数Vに関するアノテーションを実行
• N×Mの行列データに対して,アノテーションの一致率を計算
• 一致率とは,複数のコーダが特定の参加者に対して同じ値を付与した度合い
• 一致率が十分な値であれば,N人の平均値を正解データと設定
一致率の指標
• κ値(2者はcohen’s kappa, 3者以上はFleiss’ kappa,0.4以上でmoderate agreement), Inter correlation.
• クローンバックα (0.7-0.8以上で十分な一致率),クリッペンドルフα (クローンバックαより厳しい指標)
17社会的信号のアノテーション複数コーダのアノテーション結果の解釈
• (疑問)N人のコーダの平均値を正解データと設定しもよいのか? → ケース1と2は同じ??
1. コーダA,Bが7点,1点と評価した場合,平均値4点となる.
2. コーダA,Bが4点,4点と評価した場合,平均値4点となる.
[平均値としない研究]
• N人のコーダにアノテーションの傾向があると仮定し,コーダのアノテーション傾向を分類する.
• ロボットへのエンゲージメントの推定 [Inoue et al. 2018]
• 対話における2者の共感の分析 [Kumano et al. 2015]
18
18
19社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理
1. ピッチ
• F0(基本周波数)の値で代替することが多い.
• 30 msの窓幅のフーリエ変換を行って,最初のピークを基本周波数とする.
• Wavesurferや Praat などのツールが用意されている.
2. テンポ(Speaking rate)
• 単位時間当たりのモーラ(日本語)/シラブル(英語)の数 [Pfau et al. 1998 ]
• 第一スペクトラルのモーメントの信号から計算する方法 [Morgan et al. 1997, 1998]
3. エネルギー
• 音声信号の各サンプルの2乗値の和 [Rabiner et al. 1978]
4. その他,MFCCなど
• ツール: Opensmile19
20社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理
• 非言語的音声 (non-linguistic vocalizations)
• 笑いの検出 [Truong et al. 2005, 2007] ,泣き声検出 [Moller et al. 1999] .
• 言語的音声 (Linguistic vocalizations) [Liu et al. 2005]
• 発言の流暢さを推定する際には,ピッチやエネルギーなどの特徴量が用いられる
• あいづち
• タイミングの予測
• ルールベース [Truong et al. 2010],時系列機械学習ベース [Kawahara et al.2016]
• 多様なあいづちの生成 [山口 他 2016]
21社会的信号処理のためのマルチモーダル特徴量抽出音声情報処理
• 沈黙と話者交替 [Rabiner et al. 1977, 1978]
• 音声区間検出(Voice Activity Detection)
• 発話区間の抽出
• 発話区間 → コミュニケーション参加者の発話量・発話回数
• 2者の発話区間 → 2者の発話の重なり(発話衝突)を検出可能
• 発話長に基づき発言を分類 (短い発話は「あいづち」などとする)
• エネルギーの時間分布を使って,沈黙区間を抽出する方法も提案
22社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理
• 人の検出,顔の検出
1. 目や口や鼻など顔の特徴的なパーツを利用する方法
2. 頭部を3次元の剛体とみなして抽出する方法
3. 見かけの特徴量に基づき機械学習を利用した方法
• 頭部の追跡
• .モデルベース・アピアランスベース
• ツール
Face API, Microsoft Azure, Google api, OpenFace: (CMU Multicomp. lab)
Seeing Machine 社の
Face API
23社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理
• 表情特徴抽出
• FACS [Ekman et al. 1969]で定義された
Action Unit (AU)を抽出する.
• 感情カテゴリとAUの組み合わせも定義
1. 顔検出・顔追跡を行う
2. 顔の各パーツの位置を検出する
3. 各AUを識別・検出する
• ツール
・OpenFace: (CMU Multicomp. lab),affectiva SDK,FaceTales
Burgoon, J., Magnenat-Thalmann, N., Pantic, M., & Vinciarelli, A. (Eds.).(2017). Social Signal Processing. Cambridge: Cambridge University Press
24社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理
• ジェスチャ,ポスチャの追跡・認識 [Mitra et al. 2007]
•動作特徴量を抽出する
• Histograms of oriented gradients [Thurau 2007]
• Optical flow [Dalal et al. 2006]
• Spatio-temporal salient points [Oikonomopoulos 2006]
• Space-time volumes [Gorelick 2007]
• Motion Energy Image (MEI)
• 代替手法
• モーションキャプチャーの利用
• ツール
• Kinect V2とAPI: 深度画像から高精度に各関節の位置情報を推定
• Open Pose: RGB画像より高精度に各関節の位置情報を推定
MEI
Open Posehttps://github.com/CMU-Perceptual-Computing-Lab/openpose
25社会的信号処理のためのマルチモーダル特徴量抽出画像情報処理
• 視線
• 注意方向 (Visual Focus of Attention)の検出には頭部方向を利用
• 詳細な注視点を取得したい場合,アイトラッカ―システムを利用
• 非接触型:赤外線を反射させて,視線を推定
• 接触型:眼鏡に装着したカメラから瞳孔を検出し,モデルと照合し視線を推定
• 画像情報から眼球運動を推定する問題は今も盛んに行われている.
26社会的信号処理のためのマルチモーダル特徴量抽出言語情報処理
• 発話内容に関する情報を得るために行われる.
• 形態素解析に基づく,単語情報・品詞情報の抽出
• モデル化された文法・単語辞書の情報に基づき,形態素の列に分割し,品詞等を判別
• 日本語の形態素解析器:茶筅,Mecab
• 単語の分析・トピック(話題)分析
• Bag of words → 単語の分散表現:Word2Vec (= WordNetの自動獲得)
• トピックモデル等を用いて,話題やその遷移を分析
• 構文解析
• 文構造の解析に使われるが,社会的信号処理では多くの場合単語レベルの解析
27社会的信号処理のためのマルチモーダル特徴量抽出言語情報処理
• 発話内容に関する情報を得るために行われる.
• 談話行為タグ(dialog act)・発話行為タグ(speech act)
• 発話を「計画」/「同意」/「提案」といった対話行為タグに変換する.
• 対話行為タグは,発話行為タグを対話用に拡張して定義された.
• タグのアノテーションスキームは下記が有名
• DAMSLタグ [Core et al. 1997],MRDAタグ [Shriberg et al. 2004]
A:私は京都に行くと良いと思う(提案)
B:私もそう思います (同意)
28
発話
顔向け方向
頭部動作(縦方向)
ハンドジェスチャ
・ モーキャプ
・ 加速度センサ・ ハンドマイク
On/Offピッチ,エネルギー
右向き/左向き
縦方向の動作
On/Off
ジェスチャ
On/Off
GMM,ゼロ点交差法韻律情報解析
SVM
DWT+Linear SVM
SST +HMM
マルチモーダルセンシングから特徴量設計までの流れ
29
発話
顔向け方向
頭部動作(縦方向)
ハンドジェスチャ
On/Offピッチ,エネルギー
右向き/左向き
縦方向の動作
On/Off
ジェスチャ
On/Off
• 発話長• 発話回数• ピッチ,エネルギー(最大・最小・平均,偏差)
• 視線を向けられた時間長• 共同注視時間長• 視線方向が変化した回数
• 動作の回数• 動作の時間
• 動作の回数• 動作の時間
マルチモーダルセンシングから特徴量設計までの流れ
30
30
31機械学習に基づく予測・認識と分析
• センサやデータベースからサンプルデータ集合を入力して解析
を行い,有用な規則,ルール,知識表現,判断基準などを抽出
F0値・頭部動作量から同意/非同意の態度を予測
F0 平均
胴部
動作
量
発話量から人のリーダシップを予測
発話量
リー
ダシ
ップ
スコ
ア V
同意
非同意
32HCS&VNV研究における機械学習 と 統計分析の違い
機械学習はコミュニケーション分析に役にたつか?
線形回帰モデル
発話量
スキ
ルレ
ベル
V
𝑦 = 𝑤1𝑥1 + 𝑤2𝑥2+ 𝑤3𝑥3 +⋯+ 𝑤𝐷𝑥𝑑
回帰における統計分析と機械学習の共通点
• 多変量回帰分析と線形回帰モデルに使われる関数は同じ
• 分析方法も基本的には同じ
• 統計分析→ 目的変数を良く説明する説明変数を調査
• 機械学習→ モデルの重みパラメータの大きい変数を調査
回帰における統計分析と機械学習の相違点
• 回帰モデルの評価方法が違う
• 統計分析 → 全データに適合するかどうかを評価
• 機械学習でいうところの過剰適合させている
• 機械学習 → 未学習テストデータへの性能(汎化性能)を評価
• 未知データへの精度を向上させることを目的とする
33
(Early fusion) 複数モダリティで得られる特徴量を1 つのベクトルに統合し,機械学習への入力として用いる方法
(Late fusion) 各モダリティの特徴量セットごとに識別器を用意・訓練し,識別時には各モダリティに対応するモデルからの出力値を統合する方法
※モダリティごとに,注意深くデータを正規化する必要あり
マルチモーダル特徴量の統合 (Fusion)
Modality 1 Modality 2
1 vector
classifier
Modality 1 Modality 2
出力値統合
Classifier 1 Classifier 2
モデルに依存しない方法
Classifierは任意:
DNN, SVM, Random Forest, Logistic regression etc
34(悩ましい点)対話人数と特徴量の設計
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容単語情報,品詞情報,構文情報
音声韻律視線ジェスチャ
発話内容
モノローグ
2者対話
グループ対話
• 個人の特徴量
• 個人の特徴量• インタラクション特徴
• 個人の特徴量• インタラクション特徴• グループレベルの特徴
classifier
より特徴量の設計が複雑になる
35各モダリティのデータのラベリング
頻出イベントパターン
複数人のインタラクションから特徴量を構成
S2 GestureS2 Speech
S2 (S3) faces to S3 (S2)
S1 (S3) faces to S3 (S1)
S1 GestureS1 Speech
S3 Nod
インタラクションイベントを多次元共起パターンとみなす
36
Target Nonverbal Features
Personality Traits• BigFive• Leadership• Competence• Dominance
Target speech
Target body ON
Target head
Target gaze sp
Group speech ON
Group body ON
Group head ON
Group gaze S1
Group Nonverbal Features
+
Co-occurrent Features• 非言語情報のみから
最大75%の精度で2値判別
• 個人とグループの行動の組み合
わせとして特徴量をマイニング
⇒ 従来手法を17%改善
[Okada et al. 2019]
グループディスカッションにおける行動に基づく性格特性の予測(グループ対話)
Okada, S., Nguyen, L. S., Aran, O. and Gatica-Perez, D. (2019). "Modeling Dyadic and Group Impressions with
Inter-Modal and Inter-Person Features." ACM Transactions on Multimedia Computing, Communications, and
Applications, 9(4): Article 39.
37(悩ましい点)時系列データの扱い
Y:プレゼンスキル
T
X:マルチモーダル時系列データ
(疑問3) 時系列情報をつぶして平均・分散などの統計量に変換しても問題ないか?
(疑問2) ノイズとなる非言語情報をどう見分けるか?
(疑問1)いつ,どの範囲にスキルに関わる信号が観測されるか?
38(悩ましい点)時系列データの扱い
T
X:マルチモーダル時系列データ
Contextual LSTM [Poria et al 2017]C-LSTMのアイデア
• 各ステップの出力の結果を多数
決する.
→ 系列に依存しすぎるパラメータ
の最適化を避けられることがが期
待できる(疑問1の解決)
Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Mazumder, Amir Zadeh, Louis-Philippe Morency, Context-Dependent Sentiment Analysis in User-Generated Videos, ACL 2017, 873–883
39
39
40プレゼンテーションスキル(モノローグ)
Torsten Wörtwein, Mathieu Chollet, Boris Schauerte, Louis-Philippe Morency, Rainer Stiefelhagen, and Stefan Scherer. 2015. Multimodal Public Speaking Performance Assessment. In Proceedings of the 2015 ACM on International Conference on Multimodal Interaction (ICMI '15). ACM, New York, NY, USA, 43-50. DOI: https://doi.org/10.1145/2818346.2820762
エキスパートにより評定されたスキルスコアと機械学習の予測スコアの相関の最大値は0.745 [Wörtwein et al 2015]
41・映画のレビューの説得力をレビュアのマルチモーダル情報から推定する [Park et al. 2014 ]
Sunghyun Park, Han Suk Shim, Moitreya Chatterjee, Kenji Sagae, and Louis-Philippe Morency. 2016. Multimodal Analysis and Prediction of Persuasiveness in Online Social Multimedia. ACM Trans. Interact. Intell. Syst. 6, 3, Article 25
ソーシャルメディアでの説得力(モノローグ)
42
Laurent Nguyen, et al. Hire me: Computational Inference of Hirability in Employment Interviews Based on Nonverbal Behavior. IEEE Trans. Multimedia 16(4): 1018-1031 (2014)
就職面接におけるコミュニケーションスキル (2者対話)
⚫62人の面接データ+アンケート
➢カメラとマイクを用いて情報を収集
➢3人の評価者が以下の項目を評価
1. コミュニケーション能力(5段階評価)
2. 説明力(5段階評価)
3. 誠実性(5段階評価)
4. ストレス耐性(5段階評価)
5. 採用決定(10段階評価)
⚫韻律・ジェスチャ・インタラクション
特徴量より回帰予測0.4(分類70%)を達成
就職面接におけるコミュニケーションスキルと就職採用可能性を推定する [Nguyen et al. 2014]
43交渉対話における対立場面の認識 (2者対話) [Okada et al. 2018]
対立 VS 非対立的な発話
• 韻律特徴量• 言語の極性特徴量
SVM
Shogo Okada, Akihiro Matsuda, Katsumi Nitta:Multimodal Negative-Attitude Recognition Toward Automatic Conflict-Scene Detection in Negotiation Dialog. HCI (14) 2018: 268-278
・音声:F = 0.60, 言語:F = 0.59
→ マルチモーダル: F = 0.64
44
加速度センサ
グループディスカッション(4人一組)
マルチモーダル特徴量• 発話ターン• 韻律• 動作• 発話内容の単語
コミュニケーション能力の評定値
YX
ヘッドホンマイク
発話内容の書き起こし
特徴量(X)から評定値(Y)を 推定するモデルの構築・評価
21名の採用担当経験者によるコミュニケーション能力の評価
グループディスカッションにおけるコミュニケーション能力の推定(グループ対話)[ 岡田 他 2016]
岡田将吾, 松儀良広, 中野有紀子, 林佑樹, 黄宏軒, 高瀬裕,新田克己(2016). "マルチモーダル情報に基づくグループ会話におけるコミュニケーション能力の推定." 人工知能学会論文誌31(6): AI30-E_31-12.
45グループディスカッションにおけるコミュニケーション能力の推定(グループ対話)
コミュニケーション能力の評定値の大・小を最大91%で推定可能
46
[Ishihara et al. 2018 ]Takuya Ishihara, Katsumi Nitta, Fuminori Nagasawa, Shogo Okada:Estimating interviewee's willingness in multimodal human robot interview interaction. ICMI (adjunct) 2018: 2:1-2:6
ヒューマンロボットインタラクションにおけるユーザの発話意欲推定(人と人工物対話)
47多様な研究事例 (タスク別)
• リーダシップ [Sanchez-Cortes et al. 2013]
• 説得力 [Park et al. 2016]
• 性格印象 [Aran et al. 2013]
• 感情 [Poria et al. 2017]
• ジェンダー [Guha et al. 2015]
• 共感性 [Kumano et al. 2015]
• 信頼性 [Lucas et al. 2016]
• ジョーク [Weber et al. 2018]
• コミュニケーション中の嘘 [大本 他, 2006]
• 痛み・苦しみ [Ahmed et al, 2009]
• 美しさ・魅力 [Gunes 2006]
• 同意・非同意 [Bousmalis et al. 2013]
• エンゲージメント [Nakano et al. 2010]
• 就職適正 [Nguyen et al. 2014]
• コミュニケーション能力 [Okada et al. 2016]
• グループアウトプット [Jayagopi et al. 2012]
• 盛り上がり [Gatica-perez et al. 2005]
• 多人数会話のメカニズム [Otsuka et al. 2007]
• 次話者予測 [Ishii et al. 2013] イベント・グループ
個人
48本日説明できなかった関連技術
視覚処理 音声処理 機械学習データマイニング
自然言語処理
マルチモーダルインタラクションモデリング
社会的信号の認識研究
社会言語・心理分析ツール
知見を提供
インタラクティブシステム
対話ロボット・システム
インタラクション応用状況認識モデル
社会的信号の生成研究
・音声,ジェスチャ,あいづち生成
人工知能学会 言語・音声理解と対話処理研究会(SLUD)第84回研究会マルチモーダル対話システムにおける社会的信号処理とエージェント技術 中野有紀子先生(成蹊大)
49
課題1:大規模データ収集
• 大規模データの収集とそのデータを用いた深層学習の適用が,音声,画像,言語などの各種メディア処理に適用され,その有効性が顕著に示
されている.マルチモーダル情報を大規模かつ高品質に収集することは容易ではなく,現状,比較的小規模なデータセットを扱うことが多い.
より大規模かつ高品質なコーパスを構築するスキーム作りが必要である.
課題2:知見の集約
• マルチモーダル特徴量は,対話/会話の種別,タスク,対象者のジェンダ・年齢・国籍などの個人差に依存して異なる.現状,個々の研究者・
グループが,特定の個人属性に偏ったデータを収集し,研究を進めている段階である.個別に研究された成果の知見を統合することや,多様
な個人属性を持つ大規模データの構築も必要である.
課題3:異分野の協調・融合
• マルチモーダル処理の特性に関して理論面の研究を強化することも今後の課題である.多くのノイズを含むマルチモーダルインタラクション
データから本質的な社会的信号を抽出するための方法論を構築する必要がある.また基盤となる視聴覚情報処理,コミュニケーション科学,
社会学の理論との接点を再考し,分野を横断した研究コミュニティを形成することも重要である.
マルチモーダル情報処理の課題 (まとめにかえて)
50マルチモーダル情報処理の課題 (まとめにかえて)
課題4:アプリケーション・社会貢献
• 人間の様々な社会的振る舞いを理解した上で,どのようなアプリケーションへの応用を行い,問題を解
決できるかはこれからの大きな課題である.また,アプリケーション応用のためには,社会的信号処理
をリアルタイムかつ安定的に行えるシステム開発も重要である.
課題5:データのプライバシー
• 研究の性質上,顔画像を含む個人データを扱う上,個人の内面状態を推定する技術に焦点を当てている
ため,実験段階でも倫理的な配慮が欠かせない.本技術をシステム実装する際には注意が必要であり,
対象者のプライバシーを保護する方法や,社会実装する上で問題となる倫理面の議論が必要不可欠であ
る.