音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基...

55
音情報処理論 中村 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 Satoshi Nakamura @ NAIST 2016 1 2016/10/4

Upload: others

Post on 13-Oct-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音情報処理論

中村 哲高道愼之介戸田智基

Sakriani Sakti吉野幸一郎

Satoshi Nakamura @ NAIST 2016 12016/10/4

Page 2: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声って何

人のコミュニケーションで意図を伝える最も重要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

Satoshi Nakamura @ NAIST 2016 22016/10/4

Page 4: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

Apple Siri

Satoshi Nakamura @ NAIST 2016 4

音声で問い合わせ!

2016/10/4

Page 6: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

何が難しいのか

音声合成

– 録音して再生する?

– テキストから音声を合成?

– どんな声でも?

– 怒ったり、泣いたりできる?

音声認識

– 一人の人の声を認識するとは?

– 違う人、男女、子供だと?

– アクセント、方言、外来語は?

– 感情的な音声は?

– 音響的な外乱は?

音声対話– 人間のように対話するとは???

Satoshi Nakamura @ NAIST 2016 62016/10/4

Page 7: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか?

Satoshi Nakamura @ NAIST 2016 72016/10/4

Page 8: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

参考書

森北出版 音声工学 板橋秀一 編著

今日は、この本を参考にします。

他に、

昭晃堂 鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社 鹿野、武田ら 「音声認識システム」

近代科学社 古井、「新音響・音声工学」

Satoshi Nakamura @ NAIST 2016 82016/10/4

Page 9: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

講義の構成

第1回 10/4 中村 音情報基礎(音声、音響情報処理の導入、基礎):Introduction to speech and acoustic signal processing

第2回 10/18 高道 音声の特徴抽出(DFT,LPC,ケプストラム分析):Speech signal processing (DFT, LPC analysis)

第3回 10/25 戸田 音声符号化基礎:Fundamentals of Speech Coding

第4回 11/1 戸田 音声合成理論と音声合成システム:Speech synthesis theory and system

第5回 11/8 Sakti 音声認識理論と音声認識システム:Speech recognition theory and system

第6回 11/15 吉野 音声対話システム理論と音声対話システム:Spoken dialog system theory and system

第7回 11/22 高道 音響信号処理基礎:Fundamentals of acoustic signal processing

11/26 第8回 試験

Satoshi Nakamura @ NAIST 2016 92016/10/4

Page 10: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

採点基準

各回に課題を出します。• 1週間以内の提出

最終回に最終試験を行います。

この2つの合計点を元に採点します。

おおよそ、

(出席+演習)の合計%x0.4+最終試験%x0.6

が目安です。

Satoshi Nakamura @ NAIST 2016 102016/10/4

Page 11: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声と情報

音声

– 言語情報

– 非言語情報

– 個人性情報

音声認識、話者認識

– 音響音声信号⇒(分析) ⇒ 特徴パラメータ

– 特徴パラメータ ⇒ 音声認識、話者認識

音声合成

– 言語情報 ⇒ 音声合成

音声符号化、圧縮

– 音声信号 ⇒ (圧縮) ⇒ 音声信号

Satoshi Nakamura @ NAIST 2016 112016/10/4

Page 12: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒ 生理学、心理学

言葉の理解、生成

⇒ 言語学

コンピュータによる実現

⇒ コンピュータサイエンス、情報工学

Satoshi Nakamura @ NAIST 2016 122016/10/4

Page 13: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声の生成

Satoshi Nakamura @ NAIST 2016 132016/10/4

Page 14: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

調音機構

調音:喉頭、口腔、鼻腔:

管腔全体 ⇒ 声道

声道長

– 成人男性:17.5cm

– 成人女性:15.2cm

– 子供(8歳):12.2cm

口唇

Satoshi Nakamura @ NAIST 2016 142016/10/4

Page 15: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声器官

Satoshi Nakamura @ NAIST 2016 152016/10/4

Page 16: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

発声機構

音源と調音

音源

– 有声 声帯振動

– 無声 乱流• 喉頭や声道途中の狭めによる乱流

• 舌先などの声道の閉鎖と開放による破裂性音源 破裂性

• 乱流音源のうち喉頭の狭めによるもの 摩擦性

Satoshi Nakamura @ NAIST 2016 162016/10/4

Page 17: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

声帯振動

Satoshi Nakamura @ NAIST 2016 172016/10/4

Page 18: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声波

Satoshi Nakamura @ NAIST 2016 18• 基本周波数、声の高さ

2016/10/4

Page 19: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声の長時間スペクトル

Satoshi Nakamura @ NAIST 2016 192016/10/4

Page 20: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声の基本的性質

音声・音節・音素

音声

– /わたしはとうきょうへいく/

音節– /wa/ /ta/ /shi/ /wa/ /to/ /u/ /kyo/ /e/ /i/ /ku/

音素

– 母音、半母音、子音 ⇒ 音素記号– /w/ /a/ /t/ /a/ /sh/ /i/ /w/ /a/ /t/ /o/ /u/ /ky/…

国際音声記号(国際音素記号):

– IPA (International Phonetic Alphabet)

Satoshi Nakamura @ NAIST 2016 202016/10/4

Page 21: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

IPA

異音(allophone)

有声音、無声音

閉鎖音、破裂音、鼻音、破擦音

Satoshi Nakamura @ NAIST 2016 212016/10/4

Page 22: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

母音の分類

Satoshi Nakamura @ NAIST 2016 22

図2.1 母音の分類2016/10/4

Page 23: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

調音結合

/aoi/青いの/a/は /aida/間 の/a/と調音点が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「調音結合」(Co-articulation)

あるいは、「同化」(assimilation)と呼ぶ

– 鼻音化:/namae/名前 /a/が鼻音化

– 無声化:/akita/, /yakusho/ 無声子音に挟まれた/i//u/ が無声化する

Satoshi Nakamura @ NAIST 2016 232016/10/4

Page 24: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素(Segmental Phoneme)

パラ言語情報(Paralinguistic information)

Satoshi Nakamura @ NAIST 2016 242016/10/4

Page 25: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素(忘却)が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

Satoshi Nakamura @ NAIST 2016 252016/10/4

Page 26: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

母音の性質

ホルマント、ホルマント周波数、ホルマント帯域幅

Satoshi Nakamura @ NAIST 2016 262016/10/4

Page 27: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

ホルマント周波数

Satoshi Nakamura @ NAIST 2016 27図2.11 日本語短母音のホルマント周波数2016/10/4

Page 28: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

母音のホルマント

Satoshi Nakamura @ NAIST 2016 28図2.12 連続音声のF1-F2分布2016/10/4

Page 29: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

子音

半母音 /j/ /w/

破裂音 /p,t,k/ /b,d,g/

Satoshi Nakamura @ NAIST 2016 29図2.13 無声破裂音と有声破裂音2016/10/4

Page 30: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

有声破裂音

Satoshi Nakamura @ NAIST 2016 30図2.15 有声破裂音 後続母音/a/

2016/10/4

Page 31: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

基本周波数

Satoshi Nakamura @ NAIST 2016 31図2.18 基本周波数分布

2016/10/4

Page 32: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

文章発話の基本周波数

Satoshi Nakamura @ NAIST 2016 32図2.19 文章発話中の基本周波数2016/10/4

Page 33: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

聴覚器官

Satoshi Nakamura @ NAIST 2016 332016/10/4

Page 34: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

蝸牛

Satoshi Nakamura @ NAIST 2016 342016/10/4

Page 35: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

蝸牛断面

Satoshi Nakamura @ NAIST 2016 352016/10/4

Page 36: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

基底膜振動

Satoshi Nakamura @ NAIST 2016 362016/10/4

Page 37: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

聴覚神経系

Satoshi Nakamura @ NAIST 2016 372016/10/4

Page 38: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

等感曲線

Satoshi Nakamura @ NAIST 2016 382016/10/4

Page 39: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音の高さ知覚

Satoshi Nakamura @ NAIST 2016 392016/10/4

Page 40: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

同時マスキング

Satoshi Nakamura @ NAIST 2016 402016/10/4

Page 41: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

同時マスキング

Satoshi Nakamura @ NAIST 2016 412016/10/4

Page 42: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

継時マスキング

Satoshi Nakamura @ NAIST 2016 42

継時

2016/10/4

Page 43: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

臨界帯域幅

Satoshi Nakamura @ NAIST 2016 432016/10/4

Page 44: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声の知覚

明瞭度と了解度

知覚単位と文脈

カテゴリー知覚

Satoshi Nakamura @ NAIST 2016 442016/10/4

Page 45: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

カテゴリー知覚

Satoshi Nakamura @ NAIST 2016 452016/10/4

Page 46: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

何が難しいのか

音声合成

– 録音して再生

• 変形したい

– スペクトル構造と音源を分けて制御したい

– 文字から音声を合成

• イントネーションがない

• 調音結合の影響で不自然

– 変形が必要

音声認識

– 同じ人でも話すたびに違う

• 時間構造、スペクトル構造

– 違う人、男女、子供で音声が違う

– アクセント、方言の問題、外来語

– 雑音、残響

音声対話– 人間のように対話するとは?

Satoshi Nakamura @ NAIST 2016 462016/10/4

Page 47: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

音声翻訳システム

10/08/2016 47

多言語音声認識

話し言葉機械翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa Gakko he iku

I go to school

NAIST 公開講座 Satoshi Nakamura@AHC Lab

Page 48: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

我が国の音声翻訳プロジェクトの流れ

Satoshi Nakamura @ NAIST 2016 48

読み上げ文を音声翻訳

•文法的な表現

•明瞭な発声

国際会議申込み」

日常の話し言葉を音声翻訳

•標準的な表現

•明瞭な発声

•限定された話題

「ホテル予約」

広い話題に適応

•広い話題での表現

(日常旅行会話)

•雑音を含む音声

•日英+日中

1986 1992 2000 2006

要素技術

ルールベース人手作業

大規模コーパス+ 機械学習

2008

A-STAR

内閣府社会還元加速PJ

• 8アジア言語

•ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011VoiceTraNAIST

2014

U-STAR

NICTGC PJ

NICTATR

・2007年11月開始

2016/10/4

Page 49: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

大規模コーパス

多言語音声認識

多数話者の大量の

音声データ日本語と英語

の大量の対訳文

長時間英語音声データ

話し言葉翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く」w a t a sh iw a g a xtuk o o n i…..

私は学校に行く

日本語の大量の文章

I to school go

和英辞書により日本語の単語列を英語に変換

「私は」⇒ “I” 「学校に」⇒ “to school” 「行く」⇒“go”

日本語の辞書と文法により

かな漢字列に変換

日本語の発音列に変換“a”,”I”,”u”,…

テキストに合った音声波形を

データベースから探し出す

英語の文法に合わせて語順を変更

“I” “I” “to school” “go”“go” “to school”

I go to school

コーパス

英語の大量の文章

音声翻訳のメカニズム

Satoshi Nakamura @ NAIST 2016 492016/10/4

Page 50: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

統計的機械翻訳

Satoshi Nakamura @ NAIST 2016 50

• 統計モデル、言語モデル、デコーダーから構成される。

原言語と目的言語のパラレルテキスト

コーパス

目的言語のテキストコーパス

統計解析 統計解析

翻訳モデル 言語モデル

スコアを考慮して翻訳処理入力文(原言語) 翻訳文(目的言語)

並び替えモデル

フレーズの置換置換フレーズの文法整合性判定

デコーダ

2016/10/4

Page 51: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

パラレルコーパス

Japanese: “窓をあけてもいいですか”

Satoshi Nakamura @ NAIST 2016 51

English:1. may i open the window2. ok if i open the window3. can i open the window4. could we crack the window5. is it okay if i open the window6. would you mind if i opened the

window7. is it okay to open the window8. do you mind if i open the window9. would it be all right to open the

window10. i’d like to open the window

Japanese English Chinese Korean New lang.

2016/10/4

Page 52: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

同時通訳への挑戦 (InterSpeech 2013)

o 課題:従来法は文末を待つため遅い

o 提案法:文末を待たず、フレーズ毎に翻訳

Satoshi Nakamura @ NAIST 2016 52

発話

音声認識

翻訳

音声合成時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

2016/10/4

Page 53: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

結果

Satoshi Nakamura @ NAIST 2016 53

38

40

42

44

46

48

50

0 1 2 3 4 5 6

RIB

ES

Dealy (Sec)

LM+Tu

A rank

B rank

Aランク:4 年経験Bランク:1 年経験

Fast

Acc

ura

te

フレーズ終了時翻訳

発話終了時翻訳

B ランク(経験 1 年)

A ランク(経験 4年)

≒ 経験年数1年のB ランク通訳者と同等

2016/10/4

Page 54: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

iPhone アプリ:VoiceTra, TexTra

• 新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7月29日リリース

• 21 言語対応、音声入出力は 6言語(日、英、中、インドネシア、ベトナム、マレー語)• これまでに、約80万ダウロード、1千万アクセス

Satoshi Nakamura @ NAIST 2016 54

54

* Text-translation application, TexTra is released at the same time.

Japanese, English, Mandarin, Taiwanese Mandarin, German, French, Dutch, Danish,Italian, Spanish, Portuguese, Brazilian Portuguese, Russian, Arabic, Hindi, Indonesian, Malay, Thai, Tagalog, Vietnamese, Korean※ Language in red can be input/output in voices.※There is no text input support for Hindi or Vietnamese.

VoiceTra

2016/10/4

Page 55: 音情報処理論 - ahclab.naist.jp · 音情報処理論 中村 哲 高道愼之介 戸田智基 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1

おわり

この回も試験に出ます。

各自、よく読んでおいてください。

Satoshi Nakamura @ NAIST 2016 552016/10/4