サイレント音声コミュニケーションの ための音声強調技術•...
TRANSCRIPT
1
サイレント音声コミュニケーションの ための音声強調技術
奈良先端科学技術大学院大学 情報科学研究科
准教授 戸田 智基
2
研究背景
• 携帯電話が広まり便利になったが…
静かな環境下で声を出す と他人に迷惑をかける…
周囲に人がいると秘匿性の 高い内容は話しづらい…
身体的理由により自然な 音声を発声できない…
音声コミュニケーションには様々な障壁が存在する!その多くは声を発するという行為自体に起因する!
3
サイレント音声コミュニケーション
話し手側話し手側
・・・・・・
周囲に聞こえないように ぼそぼそ話しても…
自然な声が聞こえる!
口座の暗証口座の暗証 番号は番号は……
聞き手側聞き手側
• 声を周囲に漏らさずに通話できるようにしたい。
• テレパシーのように、話し手と聞き手の間のみで意思伝達を 可能にしたい。
4
新技術の基となる研究成果・技術
• 周囲に聞こえないぐらい小さな声を収録できれば・・・
非可聴つぶやき(NAM)マイクロフォンを使って体内 を伝導する音声(肉伝導音声)を収録する。
• しかし、肉伝導音声は不自然で聞きづらい・・・
統計的声質変換を応用した肉伝導音声強調技術に より、肉伝導音声をより自然な音声へと変換する。
• さらに、・・・
発声障害者補助へと応用する。
次世代ボイスチェンジャーも構築する。
5
NAMマイクロフォン
NAMマイクロフォン
[中島 他、2003]
声道内の 空気振動
筋肉
血管
皮膚
軟シリコン
電極
骨
口腔 振動 センサー
遮音カバー
• NAMを収録するために開発されたマイクロフォンである。
• NAM:まわりに聞こえないほどの小さなささやき声のようなもの。
• 軟組織を伝わる音(肉伝導音)を体表から直接収録する。
6
肉伝導音声
• NAMマイクロフォンを用いることで、様々な用途で使用 可能な肉伝導音声を収録できる。
無声音声 有声音声
NAMNAM ささやき声ささやき声 小声小声 通常音声通常音声
騒音化での通話 に効果的!
秘匿性の高い 通話に効果的!
サイレント音声コミュニ ケーションに効果的!
騒音下静かな環境下
ただし、音質および明瞭性は劣化する・・・
7
統計的声質変換
元話者 目標話者
1.同一発話内容の音声データを用いて変換モデルを学習
元話者から目標話者への変換モデル
2.学習に用いていない文も変換可能
まずは、同じ内容 の文を発声する。
まずは、同じ内容 の文を発声する。
どんな文も変換 できる。
どんな文も変換 できる。
• 話す内容はそのままに、ある話者(元話者)の声を別の 話者(目標話者)の声へと変換する技術である。
[阿部 他、1988]
8
肉伝導音声強調技術
1.肉伝導音声と自然 音声の同一発話データ を用いて学習
まずは同じ内容の 文を収録する。
どんな文も変換 できる。
まずは同じ内容の 文を収録する。
どんな文も変換 できる。
2.肉伝導音声を自然音声へと変換可能
肉伝導音声から自然音声への変換モデル
• 統計的声質変換を、ある話者の肉伝導音声から同一 話者による自然音声への変換処理へと適用する。
[戸田 他、2004]
肉伝導音声
自然音声
9
各種肉伝導音声強調処理
こもり感のある低い音質
肉伝導音声 自然音声
こもり感のある低い音質低い明瞭性
ささやき声
通常音声
こもり感のある低い音質
小声
• 個々の肉伝導音声を適切な種類の自然音声へと変換する。
[Toda et al.,2009]
NAM不自然な音質低い明瞭性
こもり感のない高い音質
こもり感のない高い音質高い明瞭性
ささやき声
通常音声
こもり感のない高い音質
小声
音質改善
音質改善
音質および明瞭性改善
自然性および明瞭性改善
10
肉伝導音声強調の効果の一例
• NAMからささやき声(空気伝導)へと変換することで、 明瞭性および自然性(音質)を大幅に改善できる。
単語正解率[%]
A. 通常音声 94.65
B. ささやき声 91.46
C. NAM 45.90
D. 変換音声 75.85
明瞭性の評価実験結果 自然性の評価実験結果
平均
オピ
ニオ
ン評
点
A B C D
5
4
3
2
1
自然
性高
い低
い
11
リアルタイム強調処理
• 音声コミュニケーションで使用するために、リアルタイムで 変換処理を行う。• アルゴリズム遅延は 50~70 ms 程度である。
• PC上(例えば、Intel Core 2 Duo P8400, 2.26 GHz搭載の ノートPC)でリアルタイム動作可能である。
• 変換処理の演算量を削減することで、DSP上へ実装する。
• NAMからささやき声への変換 処理に関しては、浮動小数点版 DSP(TI社、TMS320C6748、 375 MHz)上に実装済みである。
12
発声障害者補助への応用
喉頭摘出者喉頭摘出者健常者健常者
声帯
食道気管孔
他の調音器官は正常に 動作可能であるが発声不可!
声帯の除去に伴う音源生成機能の消失!
喉頭摘出手術
• 喉頭摘出による発声障害は生活の質(QoL)の低下を招く。
• 喉頭癌等で喉頭摘出手術を受けると 発声機能が失われてしまう。
• 全国で約2万人と見込まれる。
13
無喉頭音声強調技術
統計的声質変換
機械的な音声 から・・・
通常音声に変換!もしくはささやき声に変換!
• 喉頭摘出者は代替発声法を用いることで発声できるが・・・
• 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭 音声)は、自然音声と比べると自然性および明瞭性が劣化する。
• 統計的声質変換を応用して無喉頭音声を自然音声(通常 音声やささやき声)へと変換する。
[戸田 他、2010]
14
変換音声の声質制御技術
• 事前に多数の目標話者の音声データを収録することで、 変換音声の声質を自在に制御できる声質コントローラを 構築できる。
• 目標となる音声データを数秒程度(発話内容は任意)用いる ことで、変換音声の声質を自動調整できる。
• 変換音声の声質を手動で制御することも可能である。
[Toda et al., 2007]
喉頭摘出者声の太さ性別 手動で所望の声質
を設定可能!
昔は・・・ 手術前の声が少し でも残っていれば 近い声質を再現!
声質コントローラ
15
次世代ボイスチェンジャー
• 声質コントローラを健常者の通常音声に対して適用する ことで、従来存在しない機能を備えたボイスチェンジャーを 実現できる。
• 目標音声を数秒程度でも入手可能であれば、それに近い声質 へと変換できる。
• 言語に依存しないので、他言語の話者の声にも変換できる。
• 仮に目標音声が存在しなくても、手動操作により所望の声質へ と変換できる。
• 任意のユーザに対して、個人専用のボイスチェンジャーを即座 に構築できる。
16
従来技術とその問題点
他のマイクロフォンとして骨伝導マイクロフォンや咽頭マイク ロフォンが既に実用化されているが、
NAMのように極めて微弱な音を高い品質で収録するの は困難
等の問題があり、広く利用されるまでには至っていない。
信号処理に基づく音声強調法は主に雑音抑圧応用において 既に実用化されているが、
肉伝導音声のように元々の音声の品質に問題のある信号 に対しては十分な効果は得られない
等の問題があり、広く利用されるまでには至っていない。
17
新技術の特徴・従来技術との比較
• 従来のマイクロフォン技術では困難であった極めて 微弱な音の収録を可能とした。
• 従来の音声強調技術では機能しなかった肉伝導音声 の強調処理に対して、統計的声質変換処理を導入 することで、大幅な品質改善を可能とした。
• 本技術は大きく特徴の異なる音声信号間においても 変換を可能とするため、喉頭摘出者の音声強調への 適用を可能とし、新たな発声補助装置を構築できる ことを示した。
• これまでには存在しないボイスチェンジャーを構築 できることを示した。
18
想定される用途
• 本技術の特徴を生かすためには、携帯電話やその 他音声通信機器に適用することで、新たな機能を追 加できるメリットが大きいと考えられる。
• 上記以外に、福祉機器の一つとして、喉頭摘出者専 用のボイスチェンジャーを開発することも大いに期待 される。
• また、本技術の高い汎用性に着目すると、玩具や ゲームといったアミューズメント分野や用途に展開す ることも可能と思われる。
19
想定される業界
• 利用者・対象
– 携帯電話・無線機等の音声通信分野
– 医療現場(喉頭摘出者は全国で約2万人の見込み)
– 玩具・ゲーム等のアミューズメント分野
20
実用化に向けた課題
• 現在、一部の変換処理についてDSP上でのリアルタイム 動作が可能なところまで開発済みである。しかし、実環境 への適用が未解決である。
• 今後、外部雑音や話し方などの変動が生じる状況下での 実験データを取得し、実環境に適用していく場合の条件 設定を行う予定である。
• 実用化に向けて、実環境下での変換精度を実験環境下 での変換精度近くまで向上できるよう技術を確立する必要 がある。
21
企業への期待
• 未解決の課題については、本学の声質変換技術の改善、 および、応用先における使用環境の限定化などにより克服 できると見込んでいる。
• マイクやスピーカなどの音響機器製造技術、福祉機器製造 技術を持つ企業との共同研究を希望する。
• また、アミューズメント分野への展開を考えている企業には、 本技術の導入が有効と想定される。
22
本技術に関する知的財産権
• 発明の名称 :音声処理方法、音声処理プログラム、音声処理装置
• 出願番号 :特願2008-527662、12/375491(PCT出願)
• 登録番号 :特許第4940414号、8155966• 出願人 :奈良先端科学技術大学院大学
• 発明者 :戸田智基、中桐幹博、柏岡秀紀、鹿野清宏
• 発明の名称 :声質変換モデル生成装置及び声質変換システム
• 出願番号 :特願2006-236422• 登録番号 :特許第4817250号
• 出願人 :奈良先端科学技術大学院大学、旭化成株式会社
• 発明者 :戸田智基、大谷大和、舛田剛志
23
産学連携の経歴
• 2005年-2006年 旭化成情報技術研究所と共同研究実施
KDDI研究所と共同研究実施
• 2010年-2011年 フォスター電機と共同研究実施
• 2011年-2012年 NHK札幌放送局と共同研究実施
• 2011年-2012年 JST A-STEP探索タイプに採択
24
お問い合わせ先
奈良先端科学技術大学院大学
コーディネーター 特任教授 樫原 潤三
TEL 0743-72-5191
FAX 0743-72-5194
e-mail k-sangaku@ad.naist.jp