corpus-based prosodic modeling in text-to-speech synthesis

61
Corpus-Based Prosodic Modeling in Text-to- Speech Synthesis 電電電電電電電電 電電 電電電電電 電電電電 電電 電電 電電電電電電電電電電電電電電電電電電電電電電電電電

Upload: joyce

Post on 07-Jan-2016

60 views

Category:

Documents


0 download

DESCRIPTION

Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis. コーパスに基づくテキスト音声変換用の韻律モデリング. 電子情報工学専攻 広瀬・峯松研究室 博士課程3年 桜井 淳宏. 概要. 研究の背景・概要 Phase I: データベース作成(韻律情報のラベリング) Phase II: 韻律情報の統計的モデル化 考察・まとめ. TTS(テキスト音声変換). TTS(Text-to-Speech). 入力文. 出力音声. TTS System. TTS 技術の応用. 将来 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Corpus-Based Prosodic Modeling in Text-to-Speech

Synthesis

電子情報工学専攻広瀬 峯松研究室・博士課程3年桜井 淳宏

コーパスに基づくテキスト音声変換用の韻律モデリング

Page 2: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

概要

• 研究の背景・概要• Phase I: データベース作成(韻律情報のラベリング)• Phase II: 韻律情報の統計的モデル化• 考察・まとめ

Page 3: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

TTS(Text-to-Speech)

TTS System入力文 出力音声

TTS(テキスト音声変換)

TTS 技術の応用

現在•E-mail の自動読み上げ•手足が忙しいときの自動読み上げ•WWW コンテンツの読み上げ•文章作成の支援ツール•言語教育•お年寄りや障害者の支援ツール•自動車環境内のヒューマンインタフェース

将来•対話システム(音声認識システムとの組合わせ)•自動通訳システム

Page 4: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

分節的特徴&韻律的特徴

分節的特徴( segmental features ):音韻記号( phonological symbol )に置き換えられる

韻律的特徴( prosodic features ):声の抑揚を表し、物理的には次の特徴量として表現される

基本周波数パターン( F0 パターン)音素の持続時間の推移パワーパターン

(韻律的特徴は超分節的特徴ともいわれる)

Page 5: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

入力文

テキスト解析

形態素解析構文解析

音韻処理・韻律処理

音韻記号列+韻律記号列の生成

音声合成

波形編集またはフォルマント合成

音声信号

TTS システムの流れ

読み形態素情報アクセント型

単語辞書文法

アクセント辞書韻律ルール

音声データベース

音韻記号列韻律記号列

Page 6: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

統計的手法に基づくイントネーションモデル

規則音声合成の問題点

• イントネーションに関するルールにはヒューリスティックスによるものが多い

• ルールの作成が困難• ルール間の干渉

統計的な手法の導入

• ヒューリスティックスを統計的手法で置き換える• 規則化できない部分も学習可能• データベースの充実度が上昇中

Page 7: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Prosodic Database

Statistical TrainingTTS intonation

model

TextSpeechLinguistic featuresProsodic features

TTS IntonationModel

Text TTS System F0 contour (intonation)

統計的手法に基づくイントネーションモデル

1) 学習

2) 合成

Page 8: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Phase I: データベース作成

韻律データベース

1) Text data: text in electronic format2) Speech data: digital recording, phonetic

transcription3) Linguistic features: part-of-speech tags,

pronunciation, accent types, etc.4) Prosodic features: F0 contours, duration

patterns, power contours, etc.

Q: How to represent prosodic features?

Page 9: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ToBI (Tones and Break Indices)

• 定量的な記述は一切含まれていない。したがって、物理量への変換が難しい

• ラベル付与にかかる労力(=コスト)が高い

Page 10: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

韻律データベースにおける韻律情報の記述

提案: F0 モデルの利用

• 物理量と直接的な関係• 統語構造をある程度反映

問題点: ToBI と同様、自動ラベリングが不可能

Page 11: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

F0 パターンモデル

lnF0

(t) lnFmin

Api

Gpi

(t T )i 1

IA

aj{G

aj(t T

1j)

j 1

JGaj(t t

2j)}i

0

G tt

t

G tt

t

piit it

ajjt jt

( )exp( ) ( )

( )

( )min[ ( ) exp( ), ] ( )

( )

0

0 0

1 1 0

0 0

Page 12: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

100.0

1000.0

0.0 1.0 2.0 3.0TIME [s]

FREQUENCY [Hz]title

1.0

0.0 1.0 2.0 3.0

TIME [s]

PROSODIC COMMAND

F0 パターンモデル(具体例)

「そちらの国際会議に論文を投稿したいとおもうんですが」

Page 13: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

F0 モデルパラメータの自動ラベリング(アイデア:音声認識用に開発された統語境界検出法を適用

Phrase Bound.Detection

ModelAssignment

Accent Bound.Detection

ParameterAdjustment

F0

ContourF0

Model

(partial AbS)Linguistic information• フレーズ境界検出にはロー

パスフィルタを用いる [Sakurai/Hirose, ICSLP’96]

• アクセント境界検出には F0

パターンの微分パターンを利用 [Fujisaki et.al, ASJ, 92-3]

Page 14: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

フレーズ指令検出

Phrase + accent

d(Phrase)dt

Page 15: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

フレーズ境界検出の具体例 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0TIME [s]

WAVEFORM mausc103.c.ad

1.35 3.14

10.0

100.0

1000.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0TIME [s]

FREQUENCY [Hz]mausc103.F0

1.38 3.16

10.0

100.0

1000.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0TIME [s]

FREQUENCY [Hz]mausc103.F0

10.0

100.0

1000.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0TIME [s]

FREQUENCY [Hz]mausc103.i.f.F0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0TIME [s]

DERIVATIVEmausc103.i.f.d.F0

0.1

-0.1

Page 16: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0TIME [s]

WAVEFORM mausc119

spdaimoku

toshtewaka

nariko:haN

nakotogak

akaretear

uNdesugasp

yo:surunisp

jido:tsu:yak

udeNwades

kasp

soreni

kaNsurugi

jutsudeshta

ranaNdemo

yoroshi:toy

u:kaishakud

eyoroshi:wa

kedesunesp

TIME [s]

LABEL

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0

40.0

100.0

800.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0TIME [s]

FREQUENCY [Hz]

1.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0

TIME [s]

AUTOMATICALLY DETECTED COMMAND

1.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0

TIME [s]

HAND-DETECTED MODEL

F0 モデルパラメータ推定

の具体例

Page 17: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

(a) Phrase commands (number of phrase commands: 104)

(b) Accent commands (number of accent commands: 228)

Detection rate (%) Insertion rate (%)Acceptedrange Previous

methodProposedmethod

Previousmethod

Proposedmethod

±50 ms 29.8 48.1 52.9 44.2±100 ms 54.8 67.3 27.9 25.0± 200 ms 74.0 81.7 8.7 10.6

Detection rate (%)Accepted rangePrevious method Proposed method

Same mora 19.7 20.6± 1 mora 58.3 62.7

± 2 morae 64.9 70.1

評価実験

(25 sentences from ATR continuous speech database; comparison with hand-labeled data)

Page 18: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

アクセント変形タイプ

複合名詞の第二要素による分類

• A 型:第二要素の第一拍まで高い(アソビア‘イテ=遊び相手)

• B 型:第一要素の最終拍まで高い(セイフ‘アン=政府案)

• B* 型:第一要素の最終拍の前まで高い(ゲンゼ‘イアン=減税案)

• F 型:平板型(アキタケン=秋田犬)

Page 19: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Phoneme Labelsand timing

Type A

Type B

Type B*

Type F

F0 Contour

Hypothesizer

Model A

Model B

Model B*

Model F

Partial Abs

Error A

Error B

Error B*

Error F

アクセント変形タイプ推定システム

Error = MSEbetween extractedand calculatedF0 contours

Page 20: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

複合名詞の近似モデル(初期値)

1.0 0.08t (s)

Command

Ap1

Ap2

Aa1

t01 t02 t1t2

2つのフレーズ指令を利用すれば、連続音声での複合名詞の位置として考えられるすべての可能性を網羅できる• 文の先頭または休止を伴うフレーズ境界の後 (Ap1=0,Ap2>0)• 休止を伴わないフレーズ境界の後

(Ap1>0,Ap2>0)• 非フレーズ境界 (Ap1>0,Ap2=0)

Page 21: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

評価実験

• Speech material:ATR Continuous Speech Database

(MAU and MHT)

• Phoneme labeling by HTK speech recognizer in forced alignment mode

Accent SandhiPattern

Detection Rate

Type A 33/45

Type B 2/8

Type B* 2/9

14/17

Type F 6/9

Page 22: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Phase II: 統計的手法に基づく韻律情報のモデリング

• 韻律データベースを作成した後、次は統計的学習の手法が必要

• 第2手法:モーラ遷移離散隠れマルコフモデルに基づく F0

パターンのモデル化

• 第1手法:ニューラルネットワークと F0 モデルに基づく F

0 パターンのモデル化

Page 23: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

方式1)ニューラルネットワークと FF00 モデルに基づく

FF00 パターンのモデリング

• F0 モデルは次のような特徴を有する– 物理量と直接的な関係– 統語構造と対応

• 問題点– パラメータ同士の非線形な関係– 正解には曖昧性がある

ニューラルネットワークが適切

Page 24: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ニューラルネットワーク構造

InputLayer

HiddenLayer

OutputLayer

ContextLayer

InputLayer

HiddenLayer

OutputLayer

StateLayer

(a) Elman network (b) Jordan network

Page 25: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

InputLayer

HiddenLayer

OutputLayer

(c) Multi-layer perceptron (MLP)

ニューラルネットワーク構造(つづき)

Page 26: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

入力特徴

韻律語の位置韻律語のモーラ数韻律語のアクセント型韻律語の単語数最初の単語の品詞・活用型・活用形最後の単語の品詞・活用型・活用形

18159837,7,737,7,7

入力特徴クラス数

Page 27: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

入力特徴の例

Isshuukanbakari nyuuyookuo shuzaishita.(一週間ばかりニューヨークを取材した)

“ ニューヨークヲ”韻律語の位置:モーラ数 :アクセント型:単語数:最初の単語の品詞・活用型・活用形:最後の単語の品詞・活用型・活用形:

2632名詞・0・0格助詞・0・0

Page 28: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

出力特徴

Phrase command magnitude (Ap)Accent command amplitude (Aa)Phrase command delay (t0 off)Accent command onset delay (t1 off)Accent command reset delaty (t2 off)Phrase command flag

ContinuousContinuousContinuousContinuousContinuousBinary

出力特徴 種類

Page 29: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

学習データベース

• 学習データ: 388 の例文( 2803 の韻律語)• Validation data : 50 の例文( 317 の韻律語)• テストデータ: 48 の例文( 262 の韻律語)

• 学習量: epoch (サイクル数) =15~ 30

• 文境界に擬似アイテムを挿入

Page 30: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

フレーズ指令の有無の推定

Neuralnetwork

type

Numberof

elementsin hidden

layer

Detected(Dt)

Deletion(Dl)

Insertion(In)

Dt/In

MLP 10 83 28 36 2.31MLP 20 81 30 40 2.03MLP 50 80 31 34 2.35

Jordan 10 81 30 37 2.19Jordan 20 79 32 38 2.08Jordan 50 81 30 36 2.25Elman 10 81 30 37 2.19Elman 20 82 29 37 2.22Elman 50 78 33 37 2.11

Phrase command prediction results

Page 31: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

フレーズ指令パラメータの推定Neural

networktype

Number ofelements in

hiddenlayer

MSE for Ap

(x 10-3)MSE for t0 off

(x 10-3 s2)

MLP 10 30 33MLP 20 30 32MLP 50 30 33

Jordan 10 31 34Jordan 20 30 32Jordan 50 31 33Elman 10 31 32Elman 20 29 32Elman 50 29 33

Results of phrase command parameter prediction

(1) )(1

1

2'

N

iii pp

NMSE

Page 32: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

アクセント指令パラメータの推定Neural

networktype

Number ofelements in

hiddenlayer

MSE forAa

(x 10-3)

MSE fort1 off

(x 10-3 s2)

MSE for t2 off

(x 10-3 s2)

MLP 10 29 4.5 4.8MLP 20 27 5.0 5.3MLP 50 28 4.9 4.7

Jordan 10 28 4.7 5.1Jordan 20 25 4.5 4.7Jordan 50 28 4.2 5.1Elman 10 28 4.8 4.7Elman 20 28 4.7 4.8Elman 50 28 4.4 4.6

Results of accent command parameter prediction

(1) )(1

1

2'

N

iii pp

NMSE

Page 33: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

自然音声から抽出した F0 パターンとの誤差

Neuralnetwork

type

Number of elementsin hidden layer

F0 Contour MSE(log(Hz))2

MLP 10 0.219MLP 20 0.224MLP 50 0.225

Jordan 10 0.214Jordan 20 0.213Jordan 50 0.226Elman 10 0.214Elman 20 0.211Elman 50 0.232

Table 6: F0 Model parameter prediction error (MSE)

(2) )]log()[log(1

1

2'00

N

iii FF

NMSE

Page 34: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

0.0 1.0 2.0 3.0 TIME [s]

WAVEFORM mhtsdj01.syn

chi,i

sanaun

agi,y

ani

paune

kkinoyo,u

nam

onogamina

giru

TIME [s]

LABEL

0.0 1.0 2.0 3.0

40.0

100.0

800.0

0.0 1.0 2.0 3.0TIME [s]

FREQUENCY [Hz]

1.0

0.0 1.0 2.0 3.0

TIME [s]

PROSODIC COMMAND

具体例「小さなうなぎ屋に熱気のようなものがみなぎる」

Page 35: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

本手法に関する考察

• ニューラルネットワークによるモデリングの長所:– 不完全なルールによる問題を回避– 聴取実験による最終結果が良好

• 問題点– 韻律情報のモデル化に関する真の知識が得られない– ニューラルネットワークのパラメータの最適化が難しい

• 今後の課題– 他の方式と比較(2分木など)– 実際の TTS システムに組み込む– 出力特性によってニューラルネットワークを使い分ける手

法を検討

Page 36: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

方式2:モーラ遷移 HMM に基づくF0 パターンのモデル化

何故モーラ遷移HMM?

• 日本語のイントネーションはモーラ単位の時系列として近似的に表現できる

• 韻律境界検出という用途で同様の HMM が利用され、良好な結果が得られた

HMM を生成モードで利用すれば、 F0 パターンを生成できる

Page 37: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

離散隠れマルコフモデル(HMM)

Symbols: 1,2, ..., K

a12 a23 a34

a22 a33

b(1|1)~b(K|1) b(1|2)~b(K|2) b(1|3)~b(K|3)

a44

b(1|4)~b(K|4)

a11

a13

1 2 3 4

モデルと出力記号列を繰り返し対応させることによって、モデルのパラメータ(遷移確率及び出力確率)をそれらの記号列の特徴に適応させることができる(学習)

Page 38: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

モーラ遷移HMMに基づくイントネーションモデル

状態遷移 モーラ遷移

HMM 韻律語( accentual phrase )

出力記号 ( shape,deltaF0)

shape:モーラ単位 F0 パターンのクラスタに対応するコード(32種類)

deltaF0:先行モーラの平均値との差分(32の値)

Page 39: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Example: ‘watashino jinsei’

wa

ta

shi, no, ji

N

se, i

wa

ta shi no ji

N se i

モーラ遷移HMMに基づくイントネーションモデル

F0

Page 40: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ステップ1:データベース作成

• ATR の連続音声データベースを使用(500文,話者MHT)

• モーラ単位に分割• モーララベルの付与• F0 パターンを抽出• LBG 法によるクラスタリング• 全データベースにクラスタクラスを付与

Page 41: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ステップ2: HMM の作成(1)

(a) 平板型、頭高型

(a) 中高型

Page 42: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ステップ2: HMM の作成(2)

例:「あらゆる」= PH1_3位置=1(先頭)アクセント型=3

• 単位:韻律語( intonational phrase )

• モデル化する情報

• 韻律語の位置• アクセント型

Page 43: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ステップ3: HMM の学習

• 通常の FB アルゴリズムを使用• Entropic社の HTK• ATR の連続音声データベース(話者 MHT)• Pentium II クラスの計算機で数秒間

Page 44: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

ステップ4: HMM に基づくF0 パターンの生成

A) 認識

B) 合成

output sequenceLikelihoodBest path

Best output sequenceBest path

Page 45: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

通常のViterbiアルゴリズム

for t=2,3,...,Tfor it=1,2,...,S

Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]+[-log b(y(t)| it)]}

(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]+[-log b(y(t)| it)]}

next it

next t

Page 46: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

最適出力符号の生成を目的としたViterbiアルゴリズム

for t=2,3,...,Tfor it=1,2,...,S

Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]+[-log b(ymax(t)| it)]}

(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]+[-log b(ymax(t)| it)]}

next it

next t

Page 47: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Bigramの導入

for t=2,3,...,Tfor it=1,2,...,S

Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]+[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]}

(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]+[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]}

next it

next t

Page 48: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Accent Type Modeling Using HMM

3.65

3.7

3.75

3.8

3.85

3.9

3.95

4

4.05

4.1

4.15

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

Mora #

log(Hz) "Type0""Type1""Type2""Type3"

Page 49: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

Phrase Boundary Level Modeling Using HMM

3.9

3.92

3.94

3.96

3.98

4

4.02

4.04

4.06

4.08

0 0.5 1 1.5 2 2.5 3 3.5 4

Mora #

log(Hz) "level1.graph""level2.graph""level3.graph"J-TOBI

B.I.PauseY/N

Bound.Level

332

YNN

123

Page 50: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_0"

PH1_0.original

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_0"

PH1_0.bigram

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_1"

PH1_1.original

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_1"

PH1_1.bigram

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_2"

PH1_2.original

-0.4

-0.2

0

0.2

0.4

0 50 100 150 200 250 300 350 400 450 500

log

F0

[H

z]

t [msec]

"PH1_2"

PH1_2.bigram

Bigram の効果

Page 51: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

本手法に関する考察

• 問題点• 学習データが少ない• TTS システムへの組込みにはさらなる工夫が必

• 今後の課題• F0モデルの利用を検討• データ不足を克服するための工夫(クラスタリ

ング等)• モデルの接続に関する検討

Page 52: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

まとめ

• コーパスに基づく韻律情報のモデル化に関する手法の一連を提案– Phase I: データベース作成(韻律情報のラベリング)– Phase II: 韻律情報の統計的モデル化

• ニューラルネットワークに基づく F0 パターンの生成

• モーラ遷移 HMM に基づく F0 パターンの生成

Page 53: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

• ニューラルネットワークと F0 モデルを用いたF0パターン生成手法

• 他の手法との比較を行う• 聴取実験を行う• 他のネットワーク構造の利用を検討• 出力特性によってニューラルネットワークを使い分

ける手法を検討• ルールの導入

• モーラ遷移 HMM を用いた F0 パターン生成手法• データ不足の問題を回避する手法を検討• モデルの接続に関する検討• F0モデルとの組み合わせ

今後の課題

Page 54: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

規則音声合成

入力文

形態素解析韻律結合音韻結合

フレーズ境界決定

音韻記号韻律記号

音声合成

音声

「昔話」むかし 普通名詞0型

はなし普通名詞0型

P1 mu DH ka shi ba A0 na shi P0

P1, FL, A0: 韻律記号mu, ka, shi, ba, na: 音韻記号

読み形態素アクセント型

構文解析

単語辞書 アクセント型辞書

Page 55: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

複合名詞のアクセント変形タイプの推定

• 言語情報(品詞クラス、アクセント型等)を有効に利用すれば自動ラベリングが可能になる

• ここでは、復号名詞におけるアクセント変形の現象を取り上げる

• 連続音声データベースから自動的にアクセント変形タイプを推定するアルゴリズムを提案

Page 56: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

アクセント変形

• 複数の名詞が複合名詞を構成するとき、もともとのアクセントがなくなり、複合名詞のアクセント核が移動・消失する

• [NHK 編日本語発音アクセント辞典 ] によれば、複合名詞のアクセント型は( 2つの名詞からできた複合名詞の場合)第二要素の性質によってほぼ決定される

• 複合名詞の第二要素は 4種類に分類することができる

Page 57: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

部分 AbS によるパラメータ調整

広範囲の調整 微調整

タイミングパラメータの初期値

実測 F0 パターンとの距離を計算

(大きさのみ) (すべてのパラメータ)

Page 58: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

3名詞以上からなる複合名詞の場合

• アクセント変形パターン = 韻律語の構成のしかた• 長い復号名詞の場合、ルールによるアクセント変形の推定が難

しい• 本手法を3以上の名詞の複合名詞に一般化

Page 59: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

H1:So’oru goriNkoohose’NshuH1’: SoorugoriN koohose’Nshu

H2: ChuugokujiNuNte’NshuH2’: ChuugokujiN uNte’Nshu

S1

S2

3名詞以上からなる復号名詞の場合

Page 60: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

S o o r u g o r i N k o o h o s e N sh u

S o o r u g o r i N k o o h o s e N sh u

C h u u g o k u j i N u N t e N sh u

C h u u g o k u j i N u N t e N sh u

H1:

H1’:

H2:

H2’:

F0 モデルパラメータの割当て

Page 61: Corpus-Based Prosodic Modeling in Text-to-Speech Synthesis

実験結果

0.00

0.50

1.00

1.50

2.00

2.50

3.00

3.50

CorrectIncorrect

AbS Error (x 10-2)

I1 I1’ I2 I2’

H1H1’

H1

H1’H2

H2’

H2

H2’