[2d2]다국어음성합성시스템(nvoice)개발...

56
김 선 희 Naver Labs 다국어 음성 합성 시스템 (NVOICE) 개발

Upload: naver-d2

Post on 29-Nov-2014

615 views

Category:

Technology


2 download

DESCRIPTION

[2D2]다국어음성합성시스템(NVOICE)개발

TRANSCRIPT

Page 1: [2D2]다국어음성합성시스템(NVOICE)개발

김 선 희 Naver Labs

다국어 음성 합성 시스템 (NVOICE) 개발

Page 2: [2D2]다국어음성합성시스템(NVOICE)개발

들어가기

음성 합성의 역사

음성 합성 기술

NVOICE: 네이버 다국어 음성 합성 시스템

맺음말

CONTENTS

Page 3: [2D2]다국어음성합성시스템(NVOICE)개발

들어가기

Page 4: [2D2]다국어음성합성시스템(NVOICE)개발

들어가기

4

Page 5: [2D2]다국어음성합성시스템(NVOICE)개발

영화 속 합성 음성

들어가기

5

Page 6: [2D2]다국어음성합성시스템(NVOICE)개발

합성 음성 vs. 사람 음성

A:

B:

C:

D:

E:

들어가기

6

Page 7: [2D2]다국어음성합성시스템(NVOICE)개발

언어처리부 운율 예측부 음성 합성부 Text input

Text To Speech

음성합성(Text-To-Speech)이란?

7

Page 8: [2D2]다국어음성합성시스템(NVOICE)개발

음성 합성의 역사

Page 10: [2D2]다국어음성합성시스템(NVOICE)개발

Speech Chain

음성

10

Page 11: [2D2]다국어음성합성시스템(NVOICE)개발

Q&A

Wolfgang von Kempelen의 말하는 기계 - Einer sprechenden Maschine 단어뿐 아니라 문장을 생성, 여러 언어로 합성.

최초의 음성합성기(1791)

11

Page 12: [2D2]다국어음성합성시스템(NVOICE)개발

최초의 음성합성기(1791)

12

Page 13: [2D2]다국어음성합성시스템(NVOICE)개발

Joseph Faber

EUPHONIA(1846)

13

Page 14: [2D2]다국어음성합성시스템(NVOICE)개발

VODER(1939): Homer Dudley

Developed at Bell Telephone Laboratories, 1939.

14

Page 15: [2D2]다국어음성합성시스템(NVOICE)개발

VODER(1939): Homer Dudley

15

Page 16: [2D2]다국어음성합성시스템(NVOICE)개발

The Pattern Playback (1951)

16

Page 17: [2D2]다국어음성합성시스템(NVOICE)개발

컴퓨터를 이용한 음성 합성

조음 합성(Articulatory synthesis)

포먼트 합성(Formant synthesis)

편집 합성(Concatinative synthesis)

HMM 합성(HMM synthesis)

17

Page 18: [2D2]다국어음성합성시스템(NVOICE)개발

조음 합성

조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법

http://www.youtube.com/watch?v=OvWeTJGrTnA

18

Page 19: [2D2]다국어음성합성시스템(NVOICE)개발

조음 합성

조음 기관의 운동과 성도의 음향 특성을 모델링 한 합성 방법

Page 20: [2D2]다국어음성합성시스템(NVOICE)개발

포먼트 합성

음향 정보를 기반으로 하여 규칙과 필터를 이용하여 각각의 포먼트를 합성

1980년 이전 대부분의 합성 방식 MITalk DECtalk Stephen Hawking

20

Page 21: [2D2]다국어음성합성시스템(NVOICE)개발

포먼트 합성

Stephen Hawking: http://www.youtube.com/watch?v=w0QY4cGY0pU

21

Page 22: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성

음성 데이터베이스를 기반으로 개별 단위를 편집하여 합성

최초의 편집 합성 시스템: Talking Clock (1936)

단어나 구를 녹음

녹음된 단위를 편집하여 합성

Radio Free Vestibule (1994)

Bell Labs TTS: 1977, 1985

22

Page 23: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성

Diphone Synthesis

두 음소의 중간 지점과 중간 지점 구간

음향적으로 안정 구간을 연결하여 합성

가능한 모든 다이폰을 포함하도록 녹음하여 음성 DB를 구축

Unit Selection Synthesis

Diphone보다 긴 구간을 단위로 설정(구 ~ 문장도 가능)

한 단위에 많은 후보를 확보하기 위하여 장시간 녹음

후보 가운데 가장 적합한 단위를 선정

23

Page 24: [2D2]다국어음성합성시스템(NVOICE)개발

통계 기반 파라미터 합성

편집 합성의 문제점 음성 처리(변조)가 용이하지 않음. DB가 충분하지 않은 경우에 성능이 저하됨.

HMM 기반 파라미터 음성합성

DB로부터 통계적인 방법으로 파라미터를 학습. 파라미터의 조정을 통한 음성 변조가 용이함. 기존 편집 합성 성능을 보완할 수 있음.

편집 합성(USS) vs. 파라미터 합성(HMM)

Roger Nina

24

Page 25: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성 vs. 파라미터 합성

USS HTS

고품질 불연속성

Hit or Miss

Vocoded speech(buzzy) 연속성 안정적

대용량 DB (고비용)

소용량 DB

음성 변조 불가 음성 변조 가능

25

Page 26: [2D2]다국어음성합성시스템(NVOICE)개발

음성 합성 기술 역사

Page 27: [2D2]다국어음성합성시스템(NVOICE)개발

언어처리부 운율 예측부 음성 합성부 Text input

Text To Speech

언어모델 운율모델 음향모델

Language Pack

Text Corpus

Speech Corpus

언어처리부 모델 생성부

음성처리부

음성합성(Text-to-Speech)

27

Page 28: [2D2]다국어음성합성시스템(NVOICE)개발

언어처리부

텍스트정규화(Text Normalization) 예제

일본이 최근 미국 보잉사로부터 도입한 E 767기 흔히 AWACS라고 불리는 조기경보 통제기로 미국도 아직 보유하지 못한 최신예깁니다

대장균 균이 가장 많이 검출된 제품은 일경식품의 와퍼로 1g당 4만마리가 나왔으며 한국 맥도널드의 빅맥에서도 1g당 64만마리가 검출됐습니다.

문장 내의 숫자, 기호, 외국어, 등 여러가지 문제들을 처리하는 모듈

방법론: 규칙 기반 혹은 통계 기반 방법

28

Page 29: [2D2]다국어음성합성시스템(NVOICE)개발

언어처리부

발음변환(Grapheme-to-Phoneme Conversion)

예제

백령도

관리

삽질

불고기/물고기

방법론: 규칙 기반 혹은 통계 기반 방법

29

Page 30: [2D2]다국어음성합성시스템(NVOICE)개발

운율처리부

운율 경계 및 액센트 추정 예제

아버지가방에들어가신다. 규칙 기반 혹은 통계 기반 방법

30

Page 31: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성: Unit Selection Synthesis

합성 방법: 전사된 DB 가운데 합성하고자 하는 최적의 단위를 선정

최적의 의미 Target cost: Find closest match in terms of

Phonetic context F0, stress, phrase position

Join cost: Find best join with neighboring units Matching formants + other spectral characteristics Matching energy Matching F0

31

Page 32: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성(Unit Selection Synthesis)

Total Costs We now have weights (per phone type) for features

set between target and database units Find best path of units through database that

minimize:

Standard problem solvable with Viterbi search with beam width constraint for pruning

32

Page 33: [2D2]다국어음성합성시스템(NVOICE)개발

편집 합성(Unit Selection Synthesis)

Synthesize: Viterbi search

33

Page 34: [2D2]다국어음성합성시스템(NVOICE)개발

통계 기반 파라미터 합성

34

Page 35: [2D2]다국어음성합성시스템(NVOICE)개발

통계 기반 파라미터 합성: HTS

http://hts.sp.nitech.ac.jp/

35

Page 36: [2D2]다국어음성합성시스템(NVOICE)개발

네이버 다국어 음성 합성 시스템 NVOICE

Page 37: [2D2]다국어음성합성시스템(NVOICE)개발

NVOICE: NAVER 다국어 음성 합성 엔진

개발 언어 한국어 영어 일본어

합성 방식

Unit Selection Synthesis (USS) 대용량 엔진 소용량 엔진

Statistical Parametric Synthesis: HTS Hybrid

37

Page 38: [2D2]다국어음성합성시스템(NVOICE)개발

엔진 구성(USS)

Text Pre-processing

Morpheme Analysis

Text Normalization

Grapheme-to-Phoneme Conversion

Prosody Prediction

Unit Selection & Concatenation

Speech Effect

Speaking rate Conversion

<Mixing BGM>

Speech Encoder

MA Dictionary & Models

TN Dictionary

TN Dictionary & Models

Models

TTSDB

Effect Presets

Speech Output (Streaming, Files-raw, wav, mp3, spx)

38

Page 39: [2D2]다국어음성합성시스템(NVOICE)개발

발성목록 설계

도메인 별 모집단 코퍼스 국내/외 신문 텍스트 사용 14개 큰 도메인, 244개 상세 도메인 구성

문장선정 알고리즘 Word 기반으로 문장을 선정

WCR + CCR + Entropy 조합으로 문장을 선정 WCR : Word Cover Rate, 모집단 문장셋 전체 고유 단어 수와 선정 문

장셋의 고유 단어 수 비율 CCR : 각 고유단어의 발생빈도(확률)을 고려한 WCR, 모집단 코퍼스의

coverage Entropy : 각 고유 단어 발생빈도(확률) 을 이용한 선정 문장의 평균 정

보량

39

Page 40: [2D2]다국어음성합성시스템(NVOICE)개발

화자 선정

M 명 성우 예비 녹음

음성합성 전문가 선호도 평가 후 N 명 후보 압축(N < M)

N명 성우에 대한 K 문장 샘플 녹음

K 문장을 이용한 프로토타입 보이스폰트 생성

합성엔진 & 신호처리 적합도 원어민 평가 음성합성 전문가 평가

평가 종합

최종 성우 선정

40

Page 41: [2D2]다국어음성합성시스템(NVOICE)개발

화자 선정

원음 평가 방법 평가자: 일반인 및 전문가 평가 방법론 정립

청지각 평가(일반인 및 전문가) 음향음성학적 분석: Long Term Average Spectrum (LTAS) 분석 전문 성우에 있어서 분석 시 3~4k 대역에 강한 에너지가 나타난다는 기존 연

구를 기반

-20

0

20

40

60

1 6 11 162126 3136 4146 51 5661 667176

41

Page 42: [2D2]다국어음성합성시스템(NVOICE)개발

42

2.5

3

3.5

4f12

f33

f36f40

f9

목소리

0

2

4

6f12

f33

f36f40

f9

발음

3

3.2

3.4

3.6

3.8f12

f33

f36f40

f9

억양

0

2

4f12

f33

f36f40

f9

어투

화자 선정(영어)

Page 43: [2D2]다국어음성합성시스템(NVOICE)개발

화자 선정(영어)

-20

-10

0

10

20

30

40

50

60

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79

M9

M16

M18

AVE_Pros

43

Page 44: [2D2]다국어음성합성시스템(NVOICE)개발

언어처리부: TN (영어)

규칙 커버리지

word

18

38%

number

24

50%

symbol

3

6%

etc

3

6%

word

number

symbol

etc

Category # of rules examples

English Word 18 well-being, July 14, SCI, IV, ef:ef:ef, …

Number 24 617-932-9209, 1/4/95, 7:35:20 a.m., …

Symbol 3 $13.6 million, $2.3, symbol break index, …

etc. 3 quotation, punctuation, …

44

Page 45: [2D2]다국어음성합성시스템(NVOICE)개발

품사 태깅 정확도 95.54%

초당 분석 문장 수 약 1,022 문장 (1 문장당 평균 20토큰)

초당 분석 토큰 수 약 21,180 토큰

메모리 사용량 약 11MB

사전 및 모델 크기 약 3MB

내용 끊어 읽기 및 발음 등 합성에서의 형태소 사전 편집의 용이성을 제공

성능

언어처리부: 품사 태거 (영어)

45

Page 46: [2D2]다국어음성합성시스템(NVOICE)개발

내용 영/한/중/일 인명/지명에 대한 예외 발음 사전 구축 CMU 사전에 다중 발음 정보 정제 및 동철 이음어에 대한 품사 정

보 및 개체명 정보 부착 구축 규모

언어처리부: 예외발음 사전 구축(영어)

전체 지명 인명(이름) 인명(성) 인명(예외)

영어 168,185 105,877 14,234 48,074 -

중국어 58,090 17,879 38,449 298 1,464

한국어 54,022 8,067 45,044 160 751

일본어 83,783 42,826 23,462 13,857 3,638

CMU사전 8,891 단어 (전체 결과는 다중 발음 포함 9,119 단어, CMU 사전 전체 단어 중 약 7% 차지)

46

Page 47: [2D2]다국어음성합성시스템(NVOICE)개발

G2P 성능 (정확도)

운율 경계 모델링 추정 성능

언어처리부(한국어)

Precision Recall F1

접어(Clitic) 76.68% 72.78% 74.68%

강세구(AP) 85.42% 89.60% 87.46%

억양구(IP) 87.42% 80.93% 84.05%

Precision

음절 98.41%

단어(어절) 95.23%

문장 71.50%%

47

Page 48: [2D2]다국어음성합성시스템(NVOICE)개발

Context rule 을 반영한 음질 개선 Boundary Phoneme

Cost function cost(𝑙, 𝑐,𝑟)=𝑙𝑏_𝑐(𝑙)∗𝑤_𝑙𝑏 (𝑐)+𝑟𝑏_𝑐(𝑟)∗𝑤_𝑟𝑏 (𝑐) + 𝑙𝑝_𝑐(𝑙)∗ 𝑤_𝑡𝑙 (𝑙,𝑐)+ 𝑟𝑝_𝑐(𝑟)∗ 𝑤_𝑡𝑟 (𝑟,𝑐)

음성합성부 : 합성유닛 선정 알고리듬 개선

LLP Left

phone Right phone

RRP

LLB RB

Center phone

LB RRB

48

Page 49: [2D2]다국어음성합성시스템(NVOICE)개발

합성 엔진부

보이스폰트(DB)

메모리 사용량(한국어 소용량 엔진)

Unit Compression 130MB

Unit Reduction 25MB

운율 추정부 1M

Viterbi 탐색부 0.1MB

Cpstrum 코드북 0.1MB

49

Page 50: [2D2]다국어음성합성시스템(NVOICE)개발

서비스 적용: 라인 딕셔너리(2014.06.)

50

Page 51: [2D2]다국어음성합성시스템(NVOICE)개발

음성합성 샘플(영어)

Vanity and pride are different two things,

though the words are often used synonymously.

A person may be proud without being vain.

Pride relates more to our opinion of ourselves,

vanity, to that we would have others think of

us.

Jane Austen

51

Page 52: [2D2]다국어음성합성시스템(NVOICE)개발

맺음말

Page 53: [2D2]다국어음성합성시스템(NVOICE)개발

맺음말

연구/개발 목표

성능 향상

기술력 향상

향후 연구

감성 합성

개인화

53

Page 54: [2D2]다국어음성합성시스템(NVOICE)개발

맺음말

54

Page 55: [2D2]다국어음성합성시스템(NVOICE)개발

Q&A

Page 56: [2D2]다국어음성합성시스템(NVOICE)개발

THANK YOU