サイレント音声コミュニケーションのための音声強調技術•...

1

サイレント音声コミュニケーションのための音声強調技術

奈良先端科学技術大学院大学情報科学研究科

准教授戸田智基

2

研究背景

• 携帯電話が広まり便利になったが…

静かな環境下で声を出すと他人に迷惑をかける…

周囲に人がいると秘匿性の高い内容は話しづらい…

身体的理由により自然な音声を発声できない…

音声コミュニケーションには様々な障壁が存在する！その多くは声を発するという行為自体に起因する！

3

サイレント音声コミュニケーション

話し手側話し手側

・・・・・・

周囲に聞こえないようにぼそぼそ話しても…

自然な声が聞こえる!

口座の暗証口座の暗証番号は番号は……

聞き手側聞き手側

• 声を周囲に漏らさずに通話できるようにしたい。

• テレパシーのように、話し手と聞き手の間のみで意思伝達を可能にしたい。

4

新技術の基となる研究成果・技術

• 周囲に聞こえないぐらい小さな声を収録できれば・・・

非可聴つぶやき（NAM）マイクロフォンを使って体内を伝導する音声（肉伝導音声）を収録する。

• しかし、肉伝導音声は不自然で聞きづらい・・・

統計的声質変換を応用した肉伝導音声強調技術により、肉伝導音声をより自然な音声へと変換する。

• さらに、・・・

発声障害者補助へと応用する。

次世代ボイスチェンジャーも構築する。

5

NAMマイクロフォン

NAMマイクロフォン

[中島他、2003]

声道内の空気振動

筋肉

血管

皮膚

軟シリコン

電極

骨

口腔振動センサー

遮音カバー

• NAMを収録するために開発されたマイクロフォンである。

• NAM：まわりに聞こえないほどの小さなささやき声のようなもの。

• 軟組織を伝わる音（肉伝導音）を体表から直接収録する。

6

肉伝導音声

• NAMマイクロフォンを用いることで、様々な用途で使用可能な肉伝導音声を収録できる。

無声音声有声音声

NAMNAM ささやき声ささやき声小声小声通常音声通常音声

騒音化での通話に効果的！

秘匿性の高い通話に効果的！

サイレント音声コミュニケーションに効果的！

騒音下静かな環境下

ただし、音質および明瞭性は劣化する・・・

7

統計的声質変換

元話者目標話者

１．同一発話内容の音声データを用いて変換モデルを学習

元話者から目標話者への変換モデル

２．学習に用いていない文も変換可能

まずは、同じ内容の文を発声する。

まずは、同じ内容の文を発声する。

どんな文も変換できる。


• 話す内容はそのままに、ある話者（元話者）の声を別の話者（目標話者）の声へと変換する技術である。

[阿部他、1988]

8

肉伝導音声強調技術

１．肉伝導音声と自然音声の同一発話データを用いて学習

まずは同じ内容の文を収録する。


まずは同じ内容の文を収録する。


２．肉伝導音声を自然音声へと変換可能

肉伝導音声から自然音声への変換モデル

• 統計的声質変換を、ある話者の肉伝導音声から同一話者による自然音声への変換処理へと適用する。

[戸田他、2004]

肉伝導音声

自然音声

9

各種肉伝導音声強調処理

こもり感のある低い音質

肉伝導音声自然音声

こもり感のある低い音質低い明瞭性

ささやき声

通常音声

こもり感のある低い音質

小声

• 個々の肉伝導音声を適切な種類の自然音声へと変換する。

[Toda et al.，2009]

NAM不自然な音質低い明瞭性

こもり感のない高い音質

こもり感のない高い音質高い明瞭性

ささやき声

通常音声

こもり感のない高い音質

小声

音質改善

音質改善

音質および明瞭性改善

自然性および明瞭性改善

10

肉伝導音声強調の効果の一例

• NAMからささやき声（空気伝導）へと変換することで、明瞭性および自然性（音質）を大幅に改善できる。

単語正解率[%]

A. 通常音声 94.65

B. ささやき声 91.46

C. NAM 45.90

D. 変換音声 75.85

明瞭性の評価実験結果自然性の評価実験結果

平均

オピ

ニオ

ン評

点

A B C D

5

4

3

2

1

自然

性高

い低

い

11

リアルタイム強調処理

• 音声コミュニケーションで使用するために、リアルタイムで変換処理を行う。• アルゴリズム遅延は 50～70 ms 程度である。

• PC上（例えば、Intel Core 2 Duo P8400, 2.26 GHz搭載のノートPC）でリアルタイム動作可能である。

• 変換処理の演算量を削減することで、DSP上へ実装する。

• NAMからささやき声への変換処理に関しては、浮動小数点版 DSP（TI社、TMS320C6748、 375 MHz）上に実装済みである。

12

発声障害者補助への応用

喉頭摘出者喉頭摘出者健常者健常者

声帯

食道気管孔

他の調音器官は正常に動作可能であるが発声不可！

声帯の除去に伴う音源生成機能の消失！

喉頭摘出手術

• 喉頭摘出による発声障害は生活の質（QoL）の低下を招く。

• 喉頭癌等で喉頭摘出手術を受けると発声機能が失われてしまう。

• 全国で約2万人と見込まれる。

13

無喉頭音声強調技術

統計的声質変換

機械的な音声から・・・

通常音声に変換！もしくはささやき声に変換！

• 喉頭摘出者は代替発声法を用いることで発声できるが・・・

• 食道発声や電気式人工喉頭を用いた発声による音声（無喉頭音声）は、自然音声と比べると自然性および明瞭性が劣化する。

• 統計的声質変換を応用して無喉頭音声を自然音声（通常音声やささやき声）へと変換する。

[戸田他、2010]

14

変換音声の声質制御技術

• 事前に多数の目標話者の音声データを収録することで、変換音声の声質を自在に制御できる声質コントローラを構築できる。

• 目標となる音声データを数秒程度（発話内容は任意）用いることで、変換音声の声質を自動調整できる。

• 変換音声の声質を手動で制御することも可能である。

[Toda et al., 2007]

喉頭摘出者声の太さ性別手動で所望の声質

を設定可能！

昔は・・・手術前の声が少しでも残っていれば近い声質を再現！

声質コントローラ

15

次世代ボイスチェンジャー

• 声質コントローラを健常者の通常音声に対して適用することで、従来存在しない機能を備えたボイスチェンジャーを実現できる。

• 目標音声を数秒程度でも入手可能であれば、それに近い声質へと変換できる。

• 言語に依存しないので、他言語の話者の声にも変換できる。

• 仮に目標音声が存在しなくても、手動操作により所望の声質へと変換できる。

• 任意のユーザに対して、個人専用のボイスチェンジャーを即座に構築できる。

16

従来技術とその問題点

他のマイクロフォンとして骨伝導マイクロフォンや咽頭マイクロフォンが既に実用化されているが、

NAMのように極めて微弱な音を高い品質で収録するのは困難

等の問題があり、広く利用されるまでには至っていない。

信号処理に基づく音声強調法は主に雑音抑圧応用において既に実用化されているが、

肉伝導音声のように元々の音声の品質に問題のある信号に対しては十分な効果は得られない

等の問題があり、広く利用されるまでには至っていない。

17

新技術の特徴・従来技術との比較

• 従来のマイクロフォン技術では困難であった極めて微弱な音の収録を可能とした。

• 従来の音声強調技術では機能しなかった肉伝導音声の強調処理に対して、統計的声質変換処理を導入することで、大幅な品質改善を可能とした。

• 本技術は大きく特徴の異なる音声信号間においても変換を可能とするため、喉頭摘出者の音声強調への適用を可能とし、新たな発声補助装置を構築できることを示した。

• これまでには存在しないボイスチェンジャーを構築できることを示した。

18

想定される用途

• 本技術の特徴を生かすためには、携帯電話やその他音声通信機器に適用することで、新たな機能を追加できるメリットが大きいと考えられる。

• 上記以外に、福祉機器の一つとして、喉頭摘出者専用のボイスチェンジャーを開発することも大いに期待される。

• また、本技術の高い汎用性に着目すると、玩具やゲームといったアミューズメント分野や用途に展開することも可能と思われる。

19

想定される業界

• 利用者・対象

– 携帯電話・無線機等の音声通信分野

– 医療現場（喉頭摘出者は全国で約2万人の見込み）

– 玩具・ゲーム等のアミューズメント分野

20

実用化に向けた課題

• 現在、一部の変換処理についてDSP上でのリアルタイム動作が可能なところまで開発済みである。しかし、実環境への適用が未解決である。

• 今後、外部雑音や話し方などの変動が生じる状況下での実験データを取得し、実環境に適用していく場合の条件設定を行う予定である。

• 実用化に向けて、実環境下での変換精度を実験環境下での変換精度近くまで向上できるよう技術を確立する必要がある。

21

企業への期待

• 未解決の課題については、本学の声質変換技術の改善、および、応用先における使用環境の限定化などにより克服できると見込んでいる。

• マイクやスピーカなどの音響機器製造技術、福祉機器製造技術を持つ企業との共同研究を希望する。

• また、アミューズメント分野への展開を考えている企業には、本技術の導入が有効と想定される。

22

本技術に関する知的財産権

• 発明の名称：音声処理方法、音声処理プログラム、音声処理装置

• 出願番号：特願2008-527662、12/375491（PCT出願）

• 登録番号：特許第4940414号、8155966• 出願人：奈良先端科学技術大学院大学

• 発明者：戸田智基、中桐幹博、柏岡秀紀、鹿野清宏

• 発明の名称：声質変換モデル生成装置及び声質変換システム

• 出願番号：特願2006-236422• 登録番号：特許第4817250号

• 出願人：奈良先端科学技術大学院大学、旭化成株式会社

• 発明者：戸田智基、大谷大和、舛田剛志

23

産学連携の経歴

• 2005年-2006年旭化成情報技術研究所と共同研究実施

KDDI研究所と共同研究実施

• 2010年-2011年フォスター電機と共同研究実施

• 2011年-2012年 NHK札幌放送局と共同研究実施

• 2011年-2012年 JST A-STEP探索タイプに採択

24

お問い合わせ先

奈良先端科学技術大学院大学

コーディネーター特任教授樫原潤三

ＴＥＬ０７４３－７２－５１９１

ＦＡＸ０７４３－７２－５１９４

e-mail k-sangaku＠ad.naist.jp

サイレント音声コミュニケーションの ための音声強調技術•...

Documents

サイレント音声コミュニケーションのための音声強調技術•...