サイレント音声コミュニケーションの ための音声強調技術•...

24
1 サイレント音声コミュニケーションの ための音声強調技術 奈良先端科学技術大学院大学 情報科学研究科 准教授 戸田 智基

Upload: others

Post on 03-Mar-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

1

サイレント音声コミュニケーションの ための音声強調技術

奈良先端科学技術大学院大学 情報科学研究科

准教授 戸田 智基

Page 2: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

2

研究背景

• 携帯電話が広まり便利になったが…

静かな環境下で声を出す と他人に迷惑をかける…

周囲に人がいると秘匿性の 高い内容は話しづらい…

身体的理由により自然な 音声を発声できない…

音声コミュニケーションには様々な障壁が存在する!その多くは声を発するという行為自体に起因する!

Page 3: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

3

サイレント音声コミュニケーション

話し手側話し手側

・・・・・・

周囲に聞こえないように ぼそぼそ話しても…

自然な声が聞こえる!

口座の暗証口座の暗証 番号は番号は……

聞き手側聞き手側

• 声を周囲に漏らさずに通話できるようにしたい。

• テレパシーのように、話し手と聞き手の間のみで意思伝達を 可能にしたい。

Page 4: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

4

新技術の基となる研究成果・技術

• 周囲に聞こえないぐらい小さな声を収録できれば・・・

非可聴つぶやき(NAM)マイクロフォンを使って体内 を伝導する音声(肉伝導音声)を収録する。

• しかし、肉伝導音声は不自然で聞きづらい・・・

統計的声質変換を応用した肉伝導音声強調技術に より、肉伝導音声をより自然な音声へと変換する。

• さらに、・・・

発声障害者補助へと応用する。

次世代ボイスチェンジャーも構築する。

Page 5: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

5

NAMマイクロフォン

NAMマイクロフォン

[中島 他、2003]

声道内の 空気振動

筋肉

血管

皮膚

軟シリコン

電極

口腔 振動 センサー

遮音カバー

• NAMを収録するために開発されたマイクロフォンである。

• NAM:まわりに聞こえないほどの小さなささやき声のようなもの。

• 軟組織を伝わる音(肉伝導音)を体表から直接収録する。

Page 6: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

6

肉伝導音声

• NAMマイクロフォンを用いることで、様々な用途で使用 可能な肉伝導音声を収録できる。

無声音声 有声音声

NAMNAM ささやき声ささやき声 小声小声 通常音声通常音声

騒音化での通話 に効果的!

秘匿性の高い 通話に効果的!

サイレント音声コミュニ ケーションに効果的!

騒音下静かな環境下

ただし、音質および明瞭性は劣化する・・・

Page 7: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

7

統計的声質変換

元話者 目標話者

1.同一発話内容の音声データを用いて変換モデルを学習

元話者から目標話者への変換モデル

2.学習に用いていない文も変換可能

まずは、同じ内容 の文を発声する。

まずは、同じ内容 の文を発声する。

どんな文も変換 できる。

どんな文も変換 できる。

• 話す内容はそのままに、ある話者(元話者)の声を別の 話者(目標話者)の声へと変換する技術である。

[阿部 他、1988]

Page 8: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

8

肉伝導音声強調技術

1.肉伝導音声と自然 音声の同一発話データ を用いて学習

まずは同じ内容の 文を収録する。

どんな文も変換 できる。

まずは同じ内容の 文を収録する。

どんな文も変換 できる。

2.肉伝導音声を自然音声へと変換可能

肉伝導音声から自然音声への変換モデル

• 統計的声質変換を、ある話者の肉伝導音声から同一 話者による自然音声への変換処理へと適用する。

[戸田 他、2004]

肉伝導音声

自然音声

Page 9: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

9

各種肉伝導音声強調処理

こもり感のある低い音質

肉伝導音声 自然音声

こもり感のある低い音質低い明瞭性

ささやき声

通常音声

こもり感のある低い音質

小声

• 個々の肉伝導音声を適切な種類の自然音声へと変換する。

[Toda et al.,2009]

NAM不自然な音質低い明瞭性

こもり感のない高い音質

こもり感のない高い音質高い明瞭性

ささやき声

通常音声

こもり感のない高い音質

小声

音質改善

音質改善

音質および明瞭性改善

自然性および明瞭性改善

Page 10: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

10

肉伝導音声強調の効果の一例

• NAMからささやき声(空気伝導)へと変換することで、 明瞭性および自然性(音質)を大幅に改善できる。

単語正解率[%]

A. 通常音声 94.65

B. ささやき声 91.46

C. NAM 45.90

D. 変換音声 75.85

明瞭性の評価実験結果 自然性の評価実験結果

平均

オピ

ニオ

ン評

A B C D

5

4

3

2

1

自然

性高

い低

Page 11: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

11

リアルタイム強調処理

• 音声コミュニケーションで使用するために、リアルタイムで 変換処理を行う。• アルゴリズム遅延は 50~70 ms 程度である。

• PC上(例えば、Intel Core 2 Duo P8400, 2.26 GHz搭載の ノートPC)でリアルタイム動作可能である。

• 変換処理の演算量を削減することで、DSP上へ実装する。

• NAMからささやき声への変換 処理に関しては、浮動小数点版 DSP(TI社、TMS320C6748、 375 MHz)上に実装済みである。

Page 12: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

12

発声障害者補助への応用

喉頭摘出者喉頭摘出者健常者健常者

声帯

食道気管孔

他の調音器官は正常に 動作可能であるが発声不可!

声帯の除去に伴う音源生成機能の消失!

喉頭摘出手術

• 喉頭摘出による発声障害は生活の質(QoL)の低下を招く。

• 喉頭癌等で喉頭摘出手術を受けると 発声機能が失われてしまう。

• 全国で約2万人と見込まれる。

Page 13: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

13

無喉頭音声強調技術

統計的声質変換

機械的な音声 から・・・

通常音声に変換!もしくはささやき声に変換!

• 喉頭摘出者は代替発声法を用いることで発声できるが・・・

• 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭 音声)は、自然音声と比べると自然性および明瞭性が劣化する。

• 統計的声質変換を応用して無喉頭音声を自然音声(通常 音声やささやき声)へと変換する。

[戸田 他、2010]

Page 14: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

14

変換音声の声質制御技術

• 事前に多数の目標話者の音声データを収録することで、 変換音声の声質を自在に制御できる声質コントローラを 構築できる。

• 目標となる音声データを数秒程度(発話内容は任意)用いる ことで、変換音声の声質を自動調整できる。

• 変換音声の声質を手動で制御することも可能である。

[Toda et al., 2007]

喉頭摘出者声の太さ性別 手動で所望の声質

を設定可能!

昔は・・・ 手術前の声が少し でも残っていれば 近い声質を再現!

声質コントローラ

Page 15: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

15

次世代ボイスチェンジャー

• 声質コントローラを健常者の通常音声に対して適用する ことで、従来存在しない機能を備えたボイスチェンジャーを 実現できる。

• 目標音声を数秒程度でも入手可能であれば、それに近い声質 へと変換できる。

• 言語に依存しないので、他言語の話者の声にも変換できる。

• 仮に目標音声が存在しなくても、手動操作により所望の声質へ と変換できる。

• 任意のユーザに対して、個人専用のボイスチェンジャーを即座 に構築できる。

Page 16: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

16

従来技術とその問題点

他のマイクロフォンとして骨伝導マイクロフォンや咽頭マイク ロフォンが既に実用化されているが、

NAMのように極めて微弱な音を高い品質で収録するの は困難

等の問題があり、広く利用されるまでには至っていない。

信号処理に基づく音声強調法は主に雑音抑圧応用において 既に実用化されているが、

肉伝導音声のように元々の音声の品質に問題のある信号 に対しては十分な効果は得られない

等の問題があり、広く利用されるまでには至っていない。

Page 17: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

17

新技術の特徴・従来技術との比較

• 従来のマイクロフォン技術では困難であった極めて 微弱な音の収録を可能とした。

• 従来の音声強調技術では機能しなかった肉伝導音声 の強調処理に対して、統計的声質変換処理を導入 することで、大幅な品質改善を可能とした。

• 本技術は大きく特徴の異なる音声信号間においても 変換を可能とするため、喉頭摘出者の音声強調への 適用を可能とし、新たな発声補助装置を構築できる ことを示した。

• これまでには存在しないボイスチェンジャーを構築 できることを示した。

Page 18: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

18

想定される用途

• 本技術の特徴を生かすためには、携帯電話やその 他音声通信機器に適用することで、新たな機能を追 加できるメリットが大きいと考えられる。

• 上記以外に、福祉機器の一つとして、喉頭摘出者専 用のボイスチェンジャーを開発することも大いに期待 される。

• また、本技術の高い汎用性に着目すると、玩具や ゲームといったアミューズメント分野や用途に展開す ることも可能と思われる。

Page 19: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

19

想定される業界

• 利用者・対象

– 携帯電話・無線機等の音声通信分野

– 医療現場(喉頭摘出者は全国で約2万人の見込み)

– 玩具・ゲーム等のアミューズメント分野

Page 20: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

20

実用化に向けた課題

• 現在、一部の変換処理についてDSP上でのリアルタイム 動作が可能なところまで開発済みである。しかし、実環境 への適用が未解決である。

• 今後、外部雑音や話し方などの変動が生じる状況下での 実験データを取得し、実環境に適用していく場合の条件 設定を行う予定である。

• 実用化に向けて、実環境下での変換精度を実験環境下 での変換精度近くまで向上できるよう技術を確立する必要 がある。

Page 21: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

21

企業への期待

• 未解決の課題については、本学の声質変換技術の改善、 および、応用先における使用環境の限定化などにより克服 できると見込んでいる。

• マイクやスピーカなどの音響機器製造技術、福祉機器製造 技術を持つ企業との共同研究を希望する。

• また、アミューズメント分野への展開を考えている企業には、 本技術の導入が有効と想定される。

Page 22: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

22

本技術に関する知的財産権

• 発明の名称 :音声処理方法、音声処理プログラム、音声処理装置

• 出願番号 :特願2008-527662、12/375491(PCT出願)

• 登録番号 :特許第4940414号、8155966• 出願人 :奈良先端科学技術大学院大学

• 発明者 :戸田智基、中桐幹博、柏岡秀紀、鹿野清宏

• 発明の名称 :声質変換モデル生成装置及び声質変換システム

• 出願番号 :特願2006-236422• 登録番号 :特許第4817250号

• 出願人 :奈良先端科学技術大学院大学、旭化成株式会社

• 発明者 :戸田智基、大谷大和、舛田剛志

Page 23: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

23

産学連携の経歴

• 2005年-2006年 旭化成情報技術研究所と共同研究実施

KDDI研究所と共同研究実施

• 2010年-2011年 フォスター電機と共同研究実施

• 2011年-2012年 NHK札幌放送局と共同研究実施

• 2011年-2012年 JST A-STEP探索タイプに採択

Page 24: サイレント音声コミュニケーションの ための音声強調技術• 喉頭摘出者は代替発声法を用いることで発声できるが・・・ • 食道発声や電気式人工喉頭を用いた発声による音声(無喉頭

24

お問い合わせ先

奈良先端科学技術大学院大学

コーディネーター 特任教授 樫原 潤三

TEL 0743-72-5191

FAX 0743-72-5194

e-mail k-sangaku@ad.naist.jp