음성인식을위한피치동기음성특징 추출에관한연구 ·...

56
工學碩士學位請求論文 음성 인식을 위한 피치 동기 음성 특징 추출에 관한 연구 2004 2 仁荷大學校 大學院 ( ) 電子工學科 電子通信專攻 李桓旭

Upload: others

Post on 17-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

工學碩士學位請求論文

음성 인식을 위한 피치 동기 음성 특징추출에 관한 연구

2004 2年 月

仁荷大學校 大學院

( )電子工學科 電子通信專攻

李 桓 旭

工學碩士學位請求論文

음성 인식을 위한 피치 동기 음성 특징추출에 관한 연구

2004 2年 月 日

指導敎授 鄭 在 皓

이 을 으로 함論文 工學碩士學位 論文 提出

仁荷大學校 大學院

( )電子工學科 電子通信專攻

李 桓 旭

이 을 의 으로 함.論文 李桓旭 碩士學位 論文 認定

2004 2年 月 日

主審 ( )印

副審 ( )印

委員 ( )印

요 약

본 논문은 음성인식을 위한 피치 동기 분석이 적용된 특징 추출 방

법을 제안한다 본 연구의 목표는 피치 주기를 이용하여 음성의 여기.

신호에 대한 정확한 임펄스 응답을 분석함으로써 고정된 피치에 근,

거한 기존의 단구간 분석의 한계를 극복하는데 있다.

제안된 방법은 다음과 같이 세 단계로 구성된다 첫 번째 음성 신. ,

호에서 피치 주기를 검출하고 두 번째 검출된 피치 주기를 이용하여,

피치 동기 프레임을 구성한다 마지막으로 구성된 피치 동기 프레임. ,

을 이용하여 음성 특징을 추출한다 특징 추출 방법으로서 가변적인.

고속 푸리에 변환 분석 길이를 갖는 피치 동기 멜 켑스트럼 추출 방

법과 저 대역의 주파수 해상력이 개선된 멜 선형 예측 코딩 켑스트럼

추출 방법을 사용한다.

제안된 방법의 평가를 위해서 한국 전자 통신 연구원에서 음소열의2

분포를 고려하여 구성한 한국어 단어 인식용 데이터 베이스PBW-445

를 사용하여 단어 인식 실험을 하였다 실험은 을 사용하여. HTK 3.1

훈련 및 인식 과정을 수행하였다 기존의 단구간 분석 방법을 이용한.

멜 켑스트럼 추출과 비교해 본 결과 제안된 피치 동기화 분석을 이- ,

용한 음성 특징 추출 방법은 피치 동기 멜 켑스트럼의 경우 최고 남

녀 평균 의 오류 감소 율을 보였으며 멜 선형 예측 코딩 켑스23.86% ,

트럼은 최고 남녀 평균 의 오류 감소율을 보였다25.50% .

In this thesis, we propose a novel feature extraction method

using pitch synchronous analysis for speech recognition system.

The purpose of this study is to overcome the limits of

short-time analysis method and to represent accurate impulse

response by means of pitch periods which is quasi stationary in

a voiced speech.

The proposed method is composed of the three steps. First, the

pitch periods are detected by pitch detection algorithm. Second,

a pitch synchronous frame is constructed by detected pitch

periods. Finally, a feature vector is extracted using analysis

of constructed pitch synchronous frames. We propose a pitch

synchronous MFCC and a pitch synchronous Mel-LPC cepstrum by

means of feature vector extraction.

The word recognition experiments are performed to evaluate the

proposed method. For recognition experiment, we use PBW-445

speech database and HTK 3.1 for train and recognition procedure.

The result of pitch synchronous MFCC shows a error reduction

rate of 25.50% in comparison with the existing method. And the

result of pitch synchronous Mel-LPC cepstrum shows a error

reduction of 25.50% in comparison with the existing method.

목 차

요 약······························································································································ⅰ

Abstract ·······················································································································ⅱ

목 차······························································································································ⅲ

표 목차··························································································································ⅴ

그림 목차······················································································································ⅵ

제 장 서 론1 ·············································································································1

제 장 기존의 단 구간 분석2 ················································································3

기존의 단구간 분석 방법2.1 ··········································································3

기존 단구간 분석의 단점2.2 ········································································5

제 장 피치 동기 분석3 ···························································································7

피치 검출3.1 ······································································································8

피치 동기 분석 프레임 구성3.2 ··································································11

두 개의 피치 주기를 이용한 분석 길이3.2.1 ····································11

다수의 피치 주기를 이용한 분석 길이3.2.2 ····································13

피치 길이에 적응적인 분석 길이3.2.3 ··············································14

제 장 특징 벡터 추출4 ·························································································16

피치 동기 멜 켑스트럼4.1 - ············································································16

멜 켑스트럼 추출 방법4.1.1 ··································································17

피치 동기 고속 푸리에 변환 분석 크기 결정4.1.2 ··························20

멜 선형 예측 코딩 켑스트럼4.2 ································································21

멜 선형 예측 분석4.2.1 - ··········································································21

선형 예측 코딩 켑스트럼 추출 방법4.2.2 ··········································24

멜 선형 예측 코딩 켑스트럼 추출 방법4.2.3 ····································26

제 장 실험 방법 및 과정5 ··················································································29

평가용 음성 데이터베이스5.1 ······································································29

인식 단위 은닉 마르코프 모델5.2 ······························································30

훈련 및 인식 과정5.3 ····················································································32

제 장 실험 및 결과6 ·····························································································34

실험 구성 및 평가 방법6.1 ··········································································34

실험 결과6.2 ····································································································34

피치 동기 멜 켑스트럼의 인식 결과6.2.1 ··········································34

멜 선형 예측 코딩 켑스트럼6.2.2 ························································38

제 장 결론 및 향후 연구과제7 ············································································43

참고 문헌······················································································································45

표 목차

표 인식 실험에 사용된 화자 구성4.1 ································································30

표 피치 동기 멜 켑스트럼의 대한 인식 결과6.1 ············································35

표 피치 동기 멜 켑스트럼의 오류 감소 율 결과6.2 ······································35

표 멜 선형 예측 코딩 켑스트럼의 인식결과6.3 ··············································39

표 멜 선형 예측 코딩 켑스트럼의 오류 감소 비율 결과6.4 ························39

그림 목차

그림 고정 길이의 단구간 분석2.1 ········································································4

그림 피치 동기 프레임 분석과 고정 길이 프레임 분석간의 파워 스펙트2.2

럼 비교 ··························································································································6

그림 피치 동기 분석 과정3.1 ················································································7

그림 피치검출의 예3.2 ····························································································8

그림 피치 검출 과정3.3 ························································································11

그림 두 피치를 이용한 동기 분석 프레임의 구성3.4 ····································12

그림 다수의 피치를 이용한 동기 분석 프레임의 구성3.5 ····························13

그림 다수 피치에 대한 분석 길이 결정 방법3.6 ············································14

그림 적응적인 피치 동기 분석 프레임 구성3.7 ··············································15

그림 멜 켑스트럼 계산 과정4.1 ··········································································17

그림 멜 켑스트럼 계수 추출을 위한 필터뱅크4.2 ··········································18

그림 피치 동기 추출 방법4.3 MFCC ····································································20

그림 각 분석 방법에 대한 스펙트럼 비교4.4 ··················································22

그림 4.5 멜 스케일과 가 인 전 대역 필터링을 이용한 주파수 워핑0.36

스케일 비교··················································································································24

그림 선형 예측 코딩 켑스트럼 추출4.6 ····························································24

그림 4.7 개 샘플 지연의 블록도 ····································································25

그림 자기 상관도 계산의 블록도4.8 ··································································26

그림 멜 선형 예측 코딩 켑스트럼 추출4.9 ····················································26

그림 전 대역 필터링4.10 ····················································································27

그림 멜 자기 상관도 계산의 블록도4.11 - ··························································28

그림 실험에 사용된 은닉 마르코프 모델5.1 ··················································31

그림 실험의 훈련 및 인식 과정5.2 ····································································33

그림 평균 인식 오류율6.1 . ··················································································36

그림 여성화자에 대한 인식 결과6.2 . ································································37

그림 남성화자에 대한 인식 결과6.3 ··································································37

그림 평균 인식 오류율6.4 ····················································································40

그림 여성화자에 대한 인식 결과6.5 ··································································41

그림 남성화자에 대한 인식 결과6.6 ··································································41

제 장 서 론1

최근 들어 자동 통역 시스템 및 음성인식 전화기 음성인식 컴퓨터, ,

그리고 음성인식 자동차 등의 제품이 등장하여 음성인식에 대한 일반

인들의 관심이 높아지고 있다 공상 과학 영화에서는 음성인식이 미.

래 사회의 필수적인 기술로 항상 등장한다 일상 생활에서 편리함을.

줄 수 있는 기술로써 음성인식은 가능성을 가진다.

음성은 대부분의 사람들에게 있어서 가장 자연스럽고 효과적인 정보

교환 수단이다 음성인식 기술의 목표는 음성 정보를 받을 수 있고.

받은 정보에 적절한 동작 및 대화를 할 수 있는 기계의 구현이다.

음성인식 연구는 인간과 자연스럽게 대화하는 기계 구현을 목표로 지

난 여년 동안 진행되어 왔다 아직도 임의의 화자의 음성을 어떤40 .

환경에서도 인식할 수 있는 자연스런 음성 인식 기술은 완성되지 못

했지만 음성인식 기술은 다양한 응용 분야에 적용되고 있으며 궁극적

인 음성인식 기술의 가능성을 보여준다[1,2,3].

지금까지의 음성인식을 위한 음성 분석 및 특징 추출 기술은 대부분

단 구간 분석과 전 대역 분석에 기반을 두고 있다.

음성 신호에 대한 단 구간 분석은 음성 신호가 짧은 시구간에서는

선형 시불변 시스템이란 가정으로 한 주기 이상의 피치 주기를 포함

하는 정도의 고정된 분석 길이로 분석 프레임을 구성한다10‾30msec .

단구간 분석은 고정된 피치주기에 근거하므로 화자간의 피치 변화에

적절하게 대응하지 못하고 동기 되지 않은 피치 구간에 대한 임펄스

응답을 추정함으로써 음성의 최적 구조 를 정확하게(fine-structure)

표현하지 못하는 한계를 지닌다[4,5].

한편 전 대역 분석은 음성 표현에 중요한 단서인 스펙트랄 포락선

등의 주파수 정보를 전 대역의 정보에 의해 얻는(spectral envelop)

분석방법이다 전 대역 분석은 특정대역에 부가된 잡음 신호에 대해.

전체적인 영향을 받는 단점이 지적되었다 또한 전 대역 분석은 선. ,

택적으로 특정 시구간의 대역을 분석할 수 없으므로 주변 환경 변화

와 인식어휘의 유무성음 분포에 따른 분석이 힘들다[6].

본 논문은 기존 단 구간 분석 방법의 한계를 극복하기 위하여 피치,

동기 분석을 이용한 음성 특징 추출 방법을 제안하고 음성 인식 시,

스템에 적용하여 성능을 확인한다 피치 동기 분석의 두드러진 특징.

은 피치길이에 따라 가변적으로 변하는 분석길이다 가변적인 분석길.

이에 적절히 대응하기 위하여 분석 크기가 가변적인 멜 켑스트, FFT -

럼을 제안하였고 분석 길이의 무관한 분석을 할 수 있는 선형 예측

분석 기반의 멜 선형 예측 코딩 켑스트럼을 사용하여 음성 특징을 추

출하였다.

본 논문의 구성은 다음과 같다 장에서는 기존의 단구간 분석을 논. 2

하고 장에서는 피치 검출 방법과 제안된 분석 프레임 구성에 대하여3

설명한다 장에서는 적용된 특징 추출 방법을 설명한다 장은 실험. 4 . 5

방법 및 과정을 살펴보고 장은 실험 및 결과를 보여준다 장에서, 6 . 7

결론과 향후 연구방향에 대하여 제시하면서 본 논문을 마무리한다.

제 장 기존의 단구간 분석2

본 장에서는 일반적인 단구간 분석 방법에 대하여 간략히 소개하고

기존의 단구간 분석 방법이 갖는 단점에 대해 논한다.

기존의 단구간 분석 방법2.1

단 구간 분석은 전체 음성 신호를 여러 단 구간으로 나누어 분석하

는 방법이다 음성 신호를 나누는 각각의 단 구간을 분석 프레임이라.

한다[7].

음성 신호에 대한 단 구간 분석은 음성 신호가 짧은 시구간에서는

선형 시불변 시스템이라 가정하고 한 주기 이상의 피치 주기를 포함

할 수 있는 정도의 고정된 분석 길이로 분석 프레임을 구성10‾30msec

한다[7,8].

분석 프레임은 식 과 같이 전체 음성 신호에 창 함수를 적용하(2.1)

여 특정 구간의 음성 신호로 재구성한다.

, (2.1)

식 에서(2.1) 는 번째 분석프레임, 은 음성 신호,

은 창 함수를 나타내며 은 창 함수의 길이이다 식 과 같. (2.1)

이 분석 프레임은 창 함수 에 의해서 분석 길이가 결정된다 일.

반적인 단구간 분석에서는 해밍 창 함수와 사각 창(Hamming window)

함수가 주로 쓰인다 사각 창 함수와 해밍 창(rectangular window) .

함수는 식 과 식 와 같이 정의한다(2.2) (2.3) [7,9].

(2.2)

(2.3)

식 과 식 에서의 창 함수의 길이(2.2) (2.3) 에 의해서 분석 프레임

의 길이가 결정된다.

그림 은 일반적인 단구간 분석을 이용한 음성 특징 추출 방법으2.1

로 전체 음성 신호에 대하여 식 과 같이 분석 프레임을 구성하, (2.1)

고 일정한 시간 간격을 따라 분석 프레임을 이동시키며 특징 벡터를

추출하는 것을 보여준다[10].

음성 신호

고정된 분석 길이

고정된 분석 길이

N 번째프레임의

특징 벡터 추출

N+1 번째프레임의

특징 벡터 추출

...........

...........

그림 2.1 고정 길이의 단구간 분석

Fig. 2.1 Fixed-length frame analysis

기존 단구간 분석의 단점2.2

음성신호의 유성음 단 구간에 푸리에 변환을 이용하여 주파수 분석

을 할 경우 스펙트럼은 분석 길이의 영향을 받게 된다 즉 분석하, . ,

는 단구간의 길이가 피치 주기 길이 보다 짧게 되면 지나친 평활화로

인해 스펙트랄 포락선의 모양이 모호해지고 한 주기를 다 포함할 수,

없으므로 성도에서 발생하는 임펄스의 정보를 전부 포함하기 어렵다.

또한 다수의 피치 주기를 포함하는 의 고정된 분석 길이를10‾30msec

주파수 분석하면 분석 구간내의 주기 성분의 영향으로 기본 주파수,

가 강조되는 형태의 피치 피크들이 스펙트랄 포락선 상에서 발생한

다 이런 피치 피크 현상이 심한 경우는 스펙트럼이 왜곡되어 정확한.

포먼트 추출이 어렵게 된다 따라서 위와 같은 고정된 분(formant) . ,

석 길이를 사용할 때 발생하는 주파수 분석의 단점은 한 개 이상의

피치 주기를 포함하는 피치 동기 분석 프레임을 구성함으로써 극복할

수 있다[9,11].

그림 은 일반적인 단구간 분석법인 의 해밍 창이 적용된2.2 20msec

분석 프레임과 본 논문에서 제안한 피치 동기 분석 방법으로 구성한

분석프레임을 로 샘플링된 음성 데이터에 적용하여 각각의 파워8kHz ,

스펙트럼을 구하여 비교한 결과이다.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 110

4

106

108

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 110

4

106

108

Frequency

Pow

er spectral density

Frequency

(a) 20msec Hamming window

(b) Pitch synchronous

그림 2.2 피치 동기 프레임 분석과 고정 길이 프레임 분석간의

파워 스펙트럼 비교

해밍 창 함수를 사용한 프레임(a) 20msec

피치 동기 분석 프레임(b)

Fig 2.2 Comparison of pitch synchronous frame with fixed

length frame for power spectrum

(a) Frame using 20msec hamming window

(b) Pitch synchronous anlysis frame

기존 분석 방법 그림 에서는 앞서 말한 피치 피크들의 영향( 2.2(a))

을 확인할 수 있다 또한 두 개의 스펙트럼을 비교하였을 때 피치. , ,

동기 분석 그림 이 정확한 스펙트랄 포락선을 보여준다( 2.2(b)) .

제 장 피치 동기 분석3

제안된 피치 동기 분석 방법은 다음과 같다 첫 번째로 음성 신호.

에서 피치 주기를 검출하고 두 번째로 검출된 피치 주기를 이용하여,

피치 동기 분석 프레임을 구성하여 특징 벡터를 추출한다 피치가 검.

출되지 않는 음성신호의 무성음 구간에서는 기존의 단구간 분석 방법

을 사용하여 음성 특징 벡터를 구한다.

본 장에서는 피치 검출 방법과 제안된 피치 동기 분석 프레임 구성

방법에 대하여 논한다.

그림 은 제안된 피치 동기 분석 과정의 순서도를 나타낸다3.1 .

시 작

음성 구간 입력

피치 검출

피치가존재하는가?

피치 동기분석 프레임 구성

&음성 특징 추출

기존 단구간분석 프레임 구성

&음성 특징 추출

음성의 끝인가?음성 구간 갱신

아니오

아니오

그림 피치 동기 분석 과정3.1

Fig. 3.1 Flowchart of pitch synchronous analysis

피치 검출3.1

본 연구에서는 피치 검출 알고리즘으로 음성 신호의 유사도를 이용

한 피치 검출 방법을 사용하였다.

음성 신호는 유성음 구간에서 준 주기적인 패턴을(quasi periodic)

유지하기 때문에 인접한 두 피치 주기의 유사한 파형을 가진다, [7].

준 주기적인 성질을 바탕으로 인접한 두 구간을 선택하여 상호 상관

도 값을 계산하고 두 구간의 음성 신호 사이의 유사도를 조사한다, .

즉 인접한 두 구간의 길이가 피치 주기일 경우 상호 상관도는 최대,

가 된다[12].

그림 는 피치가 검출되는 예이다 음성 신호내의 인접하는 두 구3.2 .

간의 길이를 각각 , 그리고, 라하고 각각의 상호 상관도를

구하였을 경우 피치 주기에 상응되는 길이, 에서 상호 상관도는 최

대값을 갖게 된다[12].

1n 1n

2n 2n

3n 3n

그림 피치검출의 예3.2

Fig. 3.2 Example of pitch period detection

음성 신호 에 대하여 동일한 길이를 갖는 인접한 구간

과 는 식 과 식 와 같이 표현 할 수 있다 식(3.1) (3.2) . (3.1)

과 식 에서(3.2) 는 식 에서 정의했던 길이 사각 창 함수이(2.2)

다 식 의. (3.2) 은 사각 창 함수의 길이로써 인접한 두 음성 구간

과 의 길이를 나타낸다.

(3.1)

(3.2)

두 인접한 구간 과 에 대하여 식 과 같이 상호 상관(3.3)

도 을 계산한다 식 의 상호 상관도는 피치 검출 방법에 사. (3.3)

용하기에는 값이 크다 따라서 식 와 식 의 인접한 구간. , (3.4) (3.5)

과 에 대한 에너지값 , 을 이용하여 식 과 같이(3.6)

정규화된 상호 상관도 을 구하여 피치 검출에 사용한다.

(3.3)

(3.4)

(3.5)

(3.6)

식 에서 구한 상호 상관도(3.6) 은 피치 주기가 존재 가능한

범위인 최소 에서 최대 까지3msec 20msec 값을 변화시키며 구한다.

식 와 같이 상호 상관도가 최대가 되는(3.7) 을 찾아 그 값을 피치

주기 로 결정한다 식 에서의. (3.7) 과 는 피치가 존재

가능한 범위의 최소값과 최대값을 나타낸다.

(3.7)

무성음 구간에서도 상호 상관도가 최대가 되는 가 존재한다 따.

라서 피치가 존재하지 않는 무성음 구간을 구별하기 위하여 그림,

과 같이 검출된 피치3.3 의 상호 상관도 와 미리 정한 문턱

치를 비교하여 상호 상관도가 작으면 피치가 없는 무성음 구간으로

판별한다.

상호 상관도를 이용하여 피치 결정

문턱값

를 피치 주기로 사용피치가 검출되지 않는무성음 구간으로 판별

)(maxarg0 NNN

ρ=

≥)( 0Nρ

0N

아니오

그림 피치 검출 과정3.3

Fig. 3.3 Flowchart of pitch detection

피치 동기 분석 프레임 구성3.2

본 절에서는 검출된 피치를 분석 프레임 길이에 적용한 피치 동기

분석 프레임 구성 방법을 제안한다 제안된 피치 동기 분석 프레임.

구성 방법은 분석 프레임 구성하는 피치의 개수에 따라 구분된다.

두 개의 피치 주기를 이용한 분석 길이3.2.1

검출된 피치 주기를 이용하여 그림 와 같이 인접하는 두 개의, 3.4

피치구간으로 분석 길이를 결정한 뒤 해밍 창 함수를 적용하여 피치

동기 분석 프레임을 구성한다.

음성 신호

두 피치 구간 선택

해밍 창 함수 적용

피치 동기 분석 프레임

그림 두 피치를 이용한 동기 분석 프레임의 구성3.4

Fig. 3.4 Construction of double-pitch synchronous frame

분석 프레임을 결정할 때 일정 구간의 신호를 그대로 가져오는 사,

각 창 함수를 사용하면 주파수 특성상 측엽 들의 영향으로(side lobe)

인하여 주파수 왜곡이 심해지기 때문에 해밍 창 함수를 이용한다

또한 단일 피치 구간에 해밍 창 함수를 적용하게 되면 시간[7,9]. , ,

영역에서 단일 피치 구간의 음성 파형이 변하고 주파수 영역에서는,

분석 창의 길이가 짧아지게 되면 주엽 의 폭이 커지는 현(main lobe)

상으로 인해 불명확한 스펙트랄 포락선이 나타나므로 두 개의[7,9],

피치 주기를 이용하여 분석 프레임을 구성하였다.

분석 프레임을 구성하기 위한 해밍 창은 식 에서 정의한 해밍(2.3)

창 함수의 길이 을 식 과 같이 검출된 피치 주기로 치환하여(3.8)

구한다.

(3.8)

식 에서(3.8) , 는 연속적으로 검출된 피치이며 변형된 형태,

의 해밍 참 함수 을 음성 신호에 적용하여 분석 프레임을 구성

한다.

다수의 피치 주기를 이용한 분석 길이3.2.2

여성 화자의 경우 피치 검출 최소치인 의 피치 주기가 나타날3msec

수 있다 따라서 화자에 따라 피치 주기 길이가 매우 짧을 경우에는. ,

두 개의 피치 주기를 이용하여 피치 동기 분석 프레임을 구성하더라

도 정도의 분석 길이를 갖는다 즉 기존 단구간 분석 방법과6msec . ,

비교하여 분석길이가 매우 작아지므로 분석 프레임내의 샘플들이 갖

는 정보량을 고려하여 그림 와 같이 다수의 피치 주기를 합하여, 3.5

피치 동기 분석 프레임을 구성한다.

음성 신호

다수의 피치 길이 선택

해밍 창 함수 적용

피치 동기 분석 프레임

그림 다수의 피치를 이용한 동기 분석 프레임의 구성3.5

Fig. 3.5 Construction of multi-pitch synchronous frame

분석 길이를 결정하는 피치의 개수는 그림 와 같이 기존의 단 구3.6

간 방법에서 사용되는 고정 길이 길이를 기준으로 하여 기준20msec ,

길이 안에 존재하는 피치 주기의 개수를 이용한다 즉 연속적으로. ,

의 피치가 검출된 경우는 개의 피치 구간을 선택하여 의6msec 3 18msec

피치 동기 분석 프레임이 구성된다.

시작Sum=0

피치 검출

Sum = Sum + pitch

Sum > 20 msec

Sum의 길이를 이용하여

피치 분석 프레임 구성

아니요

그림 다수 피치에 대한 분석 길이 결정 방법3.6

Fig. 3.6 Analysis-length decision method for multi-pitch

피치 길이에 적응적인 분석 길이3.2.3

그림 와 그림 과 같이 안에 존재하는 다수의 피치 주3.5 3.6 20msec

기를 이용하여 피치 동기 프레임을 구성할 경우 검출된 피치 길이가,

이상이 되면 하나의 피치 구간으로 음성 프레임이 구성된다10msec .

따라서 이상의 피치가 검출되는 유성음 구간의 경우 일정한, 10msec ,

문턱 치를 기준으로 적합한 분석 길이를 결정하여 분석프레임을 구성

한다 그림 은 피치 길이에 적응적인 피치 동기 프레임. 3.7 (adaptive)

구성을 보인다 즉 검출된 피치 주기 문턱 치로 하여 그. , 6.25msec ,

보다 작을 경우 다수의 피치를 이용하여 분석 프레임을 결정한다 검.

출된 피치 주기가 문턱치 보다 크면 두 개의 피치 주기를 이용하여

분석 프레임을 구성한다.

피치 검출 과정

피치 > 문턱 치

두개의 피치를 이용하여 피치 동기 분석 프레임 구성

다수의 피치를 이용하여피치 동기 분석 프레임 구성

아니오

< 이름 >< 제목 > < 이 름>< 제 목> < 이 름>< 제 목>

< 이 름>< 제 목>

그림 적응적인 피치 동기 분석 프레임 구성3.7

Fig. 3.7 Construction of adaptive Pitch synchronous frame

제 장 특징 벡터 추출4

제안된 피치 동기 분석은 화자마다 다른 피치로 인해 가변적인 분석

프레임을 가진다 따라서 제안된 특징 추출 방법은 가변적인 분석. ,

프레임에 적합한 특징 추출 방법을 고려해야 한다 본 연구에서는 특.

징 추출 방법으로 피치에 가변적인 고속 푸리에 변환 분석을 하는 피

치 동기 멜 켑스트럼 를 제안한다 또한 가변적인 분석 길이에(MFCC) .

상관없이 특징을 추출할 수 있는 멜 선형 예측 코딩 켑스트럼을 사용

한다.

피치 동기 멜 켑스트럼4.1 -

멜 켑스트럼은 음성인식 시스템에서 가장 널리 쓰이고 있는 음성 특

징이다 인간의 청각이 주파수 영역에서 소리를 비선형적 분석한다는.

실험적인 결과를 기반으로 이에 대응하는 주파수 워핑 을 통(warping)

해 음성 신호를 분석하는 방법이다 인간의 청각적 주파수 특성은.

이하의 주파수 대역에서 선형적인 특성을 나타내고1,000 1,000㎐ ㎐

이상의 주파수 대역에서는 로그 스케일에 선형적인 특성을 나타낸다.

멜 주파수 스케일은 임계 주파수인 를 에 대응하도록1,000 1,000Mel㎐

변형시킨 척도로 식 과 같이 표현된다(4.1) [1,13].

(4.1)

멜 켑스트럼는 고속 푸리에 변환 분석을 기반으로 음성 특징을 추

출하기 때문에 피치 동기 분석을 이용할 경우 각 분석 프레임마다,

다른 분석길이를 고려해야 한다 그러므로 제안된 피치 동기 멜FFT . ,

켑스트럼은 가변적인 분석 프레임마다 적합한 분석 사이즈를 찾FFT

고 필터뱅크를 재구성하여 특징 벡터를 추출하게 된다.

멜 켑스트럼 추출 방법4.1.1

그림 은 멜 켑스트럼 추출의 일렬 과정을 보여준다 음성 신호4.1 .

에 대하여 주파수 응답을 구한다 주파수 응답에 멜 필터 뱅크를. -

적용한 뒤 로가리즘을 취한다 그 뒤 이산 여현 변환. (DCT; discrete

을 적용하여 멜 켑스트럼을 추출한다cosine transform) [1,14].

FFT 멜-필터뱅크 Log DCT][ns ][kc

그림 멜 켑스트럼 계산 과정4.1

Fig. 4.1 Process of MFCC calculation

단구간 음성 신호의 주파수 응답 는 식 와 같이 표현된(4.2)

다 실제 구현에서의 주파수 응답은 그림 와 같이 고속 푸리에 변. 4.1

환을 이용한다.

(4.2)

멜 필터 뱅크는 그림 와 같이 삼각형 모양을 가지며 식 의4.2 (4.1)

멜 특성을 적용하여 저 대역에서 고 대역의 주파수로 갈수록 필터의

분석 대역들이 넓어진다.

그림 멜 켑스트럼 계수 추출을 위한 필터뱅크4.2

Fig. 4.2 Filterbank for MFCC extraction.

각각의 필터가 삼각형 모양을 가지는 개의 필터 뱅크를 식 (4.3)

과 같이 정의한다.

(4.3)

식 의(4.3) 은 식 로 정의된다 식 에서 필터 뱅크(4.4) . (4.4)

의 저주파 차단 주파수를 고주파 차단 주파수를, ,

샘플링 주파수를 고속 푸리에 변환의 길이를, 이며 각 필

터 뱅크의 경계가 되는 주파수는 멜 척도에서 균등하게 분할된다.

(4.4)

식 에서(4.4) 는 멜 척도로의 변환 함수이며 식 와 같이 표- (4.5)

현된다 식 역변환 함수. (4.5) 은 식 과 같다(4.6) .

(4.5)

(4.6)

단구간 음성 신호의 푸리에 응답에 식 과 같이 로가리즘을 취(4.7)

한 후 각 필터 뱅크의 에너지 을 계산한다.

(4.7)

식 과 같이(4.8) 개의 로그 에너지- 을 이산 여현 변환에 적

용하여 멜 켑스트럼 을 계산한다.

(4.8)

피치 동기 고속 푸리에 변환 분석 크기 결정4.1.2

피치 동기 분석 방법은 분석 프레임의 길이가 피치에 따라 가변적으

로 나타나는 특징을 갖는다 가변적인 분석 프레임의 길이로 인하여.

일반적으로 멜 켑스트럼 추출에 사용하는 의 고속 푸리에 변환 분256

석 크기 보다 샘플 수가 큰 경우는 정확한 스펙트럼 정보를 추출하기

어렵다 따라서 그림 과 같이 각 피치 주기마다 구성되는 프레임. , 4.3

길이를 계산하여 적절한 고속 푸리에 변환 분석 크기를 정하고 식

에서 정의한 필터뱅크를 재구성하여 멜 켑스트럼을 추출한다(4.3) .

피치 동기 분석 프레임

분석 길이 계산&

고속 푸리에 분석크기결정

필터 뱅크 재 구성

멜 켑스트럼 추출

그림 피치 동기 멜 켑스트럼 추출 방법4.3

Fig. 4.3 Pitch synchronous MFCC extraction

멜 선형 예측 코딩 켑스트럼4.2

멜 켑스트럼은 고속 푸리에 변환 분석을 기반으로 하기 때문에 분,

석 프레임에 따라 고속 푸리에 변환 분석길이와 필터뱅크 구성을 달

리 해야 하는 구현의 복잡성을 갖는다.

반면에 선형 예측 분석 방법은 가변적인 분석 길이에 상관없이 켑,

스트럼 추출에 사용할 수 있고 그 구현이 용이하다 또한 선형 예측, .

분석은 고속 푸리에 변환 분석에 비교하여 작은 연산량을 갖는다.

본 절에서는 피치 동기 분석 프레임에 멜 스케일의 워핑 효과를 얻

는 멜 선형 예측 분석 방법을 이용한 멜 선(Mel-linear Prediction)

형 예측 코딩 켑스트럼을 소개한다(Mel-Linear predictive coding) .

멜 선형 예측 분석4.2.1 -

멜 선형 예측 분석은 음성신호에 전 대역 필터링을 적용하여 멜과

같은 청각적인 주파수 워핑 효과를 얻는 선형 예측 분석 방법이다.

멜 선형 예측 분석은 전 대역 필터링의 주파수 워핑 효과로 기존의,

선형 예측 분석 방법 보다 저 대역에서의 주파수 해상도가 높아진다

그림 는 음성 신호에 대하여 고속 푸리에 변환 분석과[15,16]. 4.4

일반적인 선형 예측 분석 그리고 멜 선형 예측 분석의 스펙트럼을, -

나타낸다.

0 1000 400010

-5

10-4

10-3

10-2

(Hz)

FFT-SpectrumLP-SpectrumMel LP-Spectrum

그림 각 분석 방법에 대한 스펙트럼 비교4.4

Fig. 4.4 Comparison of spectrum for each analysis methods.

그림 에서 멜 선형 예측 분석 방법이 기존의 선형 예측 분석 방4.4 -

법보다 내의 주파수 대역에서 더 정확한 스펙트랄 포락선을 보1kHz

인다.

식 는 멜 선형 예측 분석에서 주파수 워핑에 사용된 일차 전(4.9)

대역 필터 이다 필터계수(first order all-pass filter) . 는 워핑 요

소 로 에서 사이의 값을 가지며 그 값의 변화에(warping factor) 0 1 ,

따라 주파수 워핑 정도가 달라진다[14,15].

˜ (4.9)

식 의(4.9) 값이 일 때 주파수 워핑 정도는 멜에 근사한다0.36 , .

식 는 식 의 위상 전달 함수(4.10) (4.9) (phase transfer function)

이다 식 의 위상 전달 함수는. (4.10) 값에 따른 선형 주파수 스케일

와 워핑된 주파수 스케일 ˜사이의 관계를 나타낸다 즉 식. , (4.11)

과 식 로 표현되는 워핑된 스펙트럼(4.12) ˜ ˜

과 선형 주파수

스펙트럼 는 식 에 의해 변형된 형태이다 식 의(4.10) . (4.12)

˜ 은 주파수 워핑된 음성신호를 가리킨다.

˜ (4.10)

(4.11)

˜ ˜ ˜ ˜

(4.12)

그림 은 의 주파수 대역에 대하여 멜 스케일과 워핑 요소4.5 4kHz

의 값이 일 때 주파수 워핑 스케일을 비교한다 그림 에서0.36 , . 3.5

보는 바와 같이, 값이 일 때 멜 스케일에 근사하는 것을 확인0.36

할 수 있다.

그림 멜 스케일과4.5 가 인 전 대역 필터링을 이용한0.36

주파수 워핑 스케일 비교

Fig. 4.5 Comparison of Mel-scale and frequency warping scale

using all-pass filtering

선형 예측 코딩 켑스트럼 추출 방법4.2.2

일반적인 선형 예측 코딩 켑스트럼 추출은 그림 과 같다4.6 .

자기 상관도 추출 Durbin 알고리즘 켑스트럼 변환][nx ][mr ka kc

그림 선형 예측 코딩 켑스트럼 추출4.6

Fig 4.6 Extraction of linear predictive coding cepstrum

그림 에서4.6 은 음성신호이고 은 자기 상관도를 나타낸

다. 와 는 각각 선형 예측 계수와 켑스트럼 계수를 나타낸다.

그림 의 과정과 같이 음성 신호에 대하여 자기 상관도를 추출하4.6 ,

고 자기 상관도 값을 더빈 알고리즘 등의 선형(Durbin algorithm)[7]

예측 분석 방법에 적용하여 선형 예측 계수를 구한다 그 뒤 구해진. ,

선형 예측 계수를 켑스트럼 변환식을 이용하여 켑스트럼으로 변환한

다[1].

일반적인 선형 예측 분석에 사용되는 자기 상관도는 식 와 같(4.14)

다.

(4.13)

식 과 같이 음성 신호(4.13) 과 샘플만큼 지연된 음성구간

을 각 샘플 단위로 곱하고 합산하여 자기 상관도 을 구

한다.

그림 과 같이4.7 개 샘플만큼 지연된 음성 구간 은

을 이용하여 단위 지연 관계로 나타낼 수 있다(unit delay) [9].

mz−][nx ][ mnx −

그림 4.7 개 샘플 지연의 블록도

Fig. 4.7 Block diagram of sample delay

그림 의 관계를 이용하여 식 에서 정의한 자기 상관도는4.7 (4.13)

그림 과 같이 표현할 수 있다4.8 .

mz−

자기 상관도 계산][nx

][ mnx −

][~ mr

그림 자기 상관도 계산의 블록도4.8

Fig. 4.8 Block diagram of auto-correlation calculation

멜 선형 예측 코딩 켑스트럼 추출 방법4.2.3

멜 선형 예측 코딩 켑스트럼 추출은 그림 의 과정으로 표현된 일4.6

반적 추출 방법 과정에 주파수 워핑이 추가된 과정으로 나타난다.

즉 그림 와 같이 멜 선형 예측 분석 방법은 음성 신호, 4.9 에 전

대역 필터링을 적용하여 선형 예측 분석을 한다.

전대역 필터링 선형 예측 분석 켑스트럼 변환][nx ][~ nx ka~ kc~

그림 멜 선형 예측 코딩 켑스트럼 추출4.9

Fig 4.9 Extraction of Mel-linear predictive coding cepstrum

그림 에서4.9 ˜ 은 주파수 워핑이 적용된 음성신호이고, ˜ 와

˜ 는 각각 멜 선형 예측 계수와 멜 선형 예측 코딩 켑스트럼을 나타

낸다.

실제 구현 측면에서 멜 선형 예측 분석 방법은 주파수 워핑을 음성

신호에 직접 사용하지 않고 식 와 같은 멜 자기 상관도(4.14)

를 이용한다(Mel-auto correlation) [15,16].

˜ (4.14)

식 는 식 으로 정의된 자기 상관도의 지연된 신호(4.14) (4.13)

을 로 바뀐 형태로 주파수 워핑이 적용된 상호 상관,

도이다 그림 과 같이. 4.10 는 그림 의 단위 지연 연산자4.7

을 식 에서 정의된 전 대역 필터(4.9) ˜ 로 치환하여 전 대역

필터링을 한 음성 신호이다.

mz −~][nx ][nym

그림 전 대역 필터링4.10

Fig. 4.10 All pass filtering

그림 는 전 대역 필터4.11 ˜ 를 단위 지연 연산자로 사용하여

식 의 멜 자기 상관도를 나타낸다(4.14) .

mz −~

상호 상관도 계산][nx

][nym

][~ mrα

그림 멜 자기 상관도 계산의 블록도4.11 -

Fig. 4.11 Block diagram of Mel auto-correlation calculation

식 와 같이 구한 멜 자기 상관도 값을 더빈 알고리즘 등의(4.14) - [7]

일반적인 선형 예측 분석방법에 적용하여 멜 선형 예측 계수를 구한

다 멜 선형 예측 코딩 켑스트럼은 선형 예측 분석을 통해 구해진 선.

형 예측 계수를 식 의 순환 식에 적용하여 간단히 구할 수 있(4.15)

다[1].

(4.15)

식 에서(4.15) 와 은 각각 선형 예측 계수와 선형 예측 코딩

켑스트럼을 나타낸다.

제 장 실험 방법 및 과정5

피치 동기 분석을 이용한 음성 특징 추출 방법은 단어 단위의 인식

실험을 통하여 확인한다 인식 성능을 평가하기 위하여 기존의 단구.

간 분석 방법을 적용한 기본 인식기를 구성하여 그 결과와(baseline)

비교한다 기본 인식기는 화자 독립 문맥 종속. (speaker independent

단어 인식 시스템으로 특징 벡터는 멜 켑스트럼으로text dependent)

사용하며 을 기반으로 구성한다HTK 3.1 .

평가용 음성 데이터베이스5.1

단어 인식 실험을 위하여 다양한 음소 조합을 고려한

데이터베이스를 선택하였다PBW(Phonetically Balanced Words) . PBW

데이터베이스는 가능한 한 많은 음운 현상 즉 문맥에 따른 조음 현,

상을 가능한 적은 단어 수로 표현할 수 있도록 엔트로피를 최대화하

는 단어를 선택하였다 음소열을 고려한 는 어휘수가 총[17]. PBW 445

개로 구성되어 있으며 명의 화자가 회 발성한 것을 한 세트로 한1 2

다 전체 화자의 수는 명의 남성 화자와 명의 여성 화자로 화자. 22 19

당 세트씩 발성하여 모두 세트 발성 의 데이터로 구성된1 41 (36,490 )

다 피치 동기 분석을 이용한 음성 특징 벡터와 베이스라인 인식기의.

인식 성능을 실험하기 위하여 사용한 훈련용 음성 데이터는 명의10

남성 화자와 명의 여성 화자로 구성된 세트에서 각 화자마다 회10 20 1

씩 발화한 발성을 사용하였다 실험용 음성 데이터는 남성과8,900 .

여성 각각 세트에서 회 발화한 발성을 사용하였다 로3 1 2,670 . 16㎑

샘플링 되어 있는 데이터베이스의 음성 데이터를 로 다운 샘PBW 8㎑

플링하여 실험에 사용하였다 표 은 인식 실험에 사용된 데이. 5.1 PBW

터베이스 내의 화자 구성을 나타낸다.

표 5.0 인식 실험에 사용된 화자 구성

Table 5.1 Speaker formation for recognition system

인식 단위 은닉 마르코프 모델5.2

본 실험에서는 단어 인식 모델로 은닉 마르코프 모델(Hidden Markov

을 이용한다 은닉 마르코프 모델은 모델의 통계적인 특성에Model) .

기초하여 모델을 훈련하고 인식한다 실험에 사용된 은닉 마르코프.

모델은 그림 과 같이 상태 출력을 가지는 일방 진행형5.1 5 3

원형 모델을 사용한다(left-to-right) (prototype) .

상태 1 상태 2 상태 3 상태 4 상태 512a 23a 34a 45a

22a 33a 44a

13a 24a 35a

그림 5.1 실험에 사용된 은닉 마르코프 모델

Fig 5.1 HMM model for experiment

은닉 마르코프 모델은 각 상태간의 전이 확률(transition

과 각 상태에서의 관측 확률probability) (observation probability)

을 매개 변수로 하여 구성된다 그림 과 같은 상태 출력 은닉. 5.1 5 3

마르코프 모델에서 상태 은 시작을 상태 는 종결을 나타내고 상태1 , 5

부터 상태 까지의 음성 신호의 특징을 관측한 값으로 이식 단위의2 4

모델을 규정한다 최초의 원형 모델은 임의적으로 구성하고 훈련 과.

정에서 음성 신호의 특징을 추출하여 인식 단위의 모델을 가장 잘 표

현할 수 있는 값으로 재구성한 후 인식 과정에서는 입력된 음성 신호

의 특징을 추출하고 인식 단위의 모델과 비교하여 어떤 음성 신호인

지 결정한다[2,10,13].

각 상태간의 전이 확률과 관측 확률은 식 에 나타난 것과 같이(5.1)

정의한다.

(5.1a)

(5.1b)

(5.1c)

식 에서(5.1) 은 인식 단위 모델의 상태 수를 나타내고 은

하나의 상태에서 관측할 수 있는 심벌의 수를 나타낸다 식 에. (5.1a)

서 는 시간 에서의 상태를 나타내는 것으로 는 상태 에서

상태 로 전이할 확률을 나타낸다 식 에서. (5.1b) 는 시간 에서

관측한 심벌을 나타내고, 는 번째 관측 심벌을 나타내는 것으

로 는 시간 에서의 상태가 일 때 번째 관측 심벌이 나타

날 확률을 나타낸다 식 에서. (5.1c) 는 상태 에 대한 초기값을

나타낸다.

훈련 및 인식 과정5.3

실험에 적용한 인식 단위 모델의 훈련과 인식 과정은 다음과 같은

순서로 이루어진다 첫 번째로 훈련용과 인식용 음성 데이터에서 특.

징 벡터를 추출한다 두 번째로 훈련용 음성 데이터에서 추출된 특징.

벡터를 이용하여 각 단일 음소 모델 을 초기화한다(monophone model) .

세 번째로 초기화된 음소 모델은 훈련용 음성 특징 벡터들을 회 반4

복 훈련하여 갱신한다 마지막으로 인식용 음성 데이터에서 추출한.

특징 벡터를 훈련된 음소 모델과 비교하여 인식한다 훈련과정과 인.

식과정은 음소 모델의 혼합 수를 까지 증가시키며 반복 수(mixture) 20

행한다.

그림 는 단어 인식 실험의 훈련 및 인식 과정을 나타낸다5.2 .

시작

음성 특징 추출

단일 혼합음소 모델 구성

음소 모델4회 반복 훈련

인식 수행

모델의 혼합수 > 20

모델의 혼합수하나 증가

음소 모델4회 반복 훈련

인식 수행 끝

아니오

그림 실험의 훈련 및 인식 과정5.2

Fig. 5.2 Training and testing procedure of experiment

제 장 실험 및 결과6

실험 구성 및 평가 방법6.1

실험 결과는 피치 동기 분석에 사용한 특징 추출 방법 별로 피치,

동기 멜 켑스트럼과 멜 선형 예측 코딩 켑스트럼으로 나누어 제시한

다 본 실험에서 각 제안한 특징 추출 방법은 기본 인식기 비교하여.

성능을 평가한다.

평가 방법은 오류 감소 율 을 사용하였다 식(error reduction rate) .

을 이용하여 오류 감소 율을 계산하고 오류 감소 율이 양의 값(6.1)

을 가지면 성능이 향상됨을 나타내고 음의 값을 가지면 성능이 저하

됨을 나타낸다.

ˆ(6.1)

식 에서(6.1) 은 오류감소 율이며, 과 ˆ은 각각 기존 방

법의 인식 오류율 과 제안된 방법의 인식 오류율을 나타(error rate)

낸다.

실험 결과6.2

피치 동기 멜 켑스트럼의 인식 결과6.2.1

표 과 표 는 실용적인 인식률을 보이는 음소 모델의 혼합6.1 6.2

수 에서 까지에 대하여 각각 오류율 평균과 오류 감소(mixture) 11 20

율을 나타낸다 는 기존의 단구간 분석방법을 이용하는 기본 인. MFCC

식기이다 와 그리고 는 피치 동기 분석. PSMFCC_D PSMFCC_M, PSMFCC_C

을 이용한 피치 동기 멜 켑스트럼으로 각각 두 피치를 이용한 분석

방법 다수의 피치를 이용한 분석 방법 피치에 적응적인 분석 방법, ,

을 나타낸다.

표 피치 동기 멜 켑스트럼의 대한 인식 결과6.1

Table 6.1 Recognition results of pitch synchronous MFCC

여성

남성

표 피치 동기 멜 켑스트럼의 오류 감소율 결과6.2

Table 6.2 ERR results of pitch synchronous MFCC

표 에서 과 는 각각 남녀 평균 와6.2 PSMFCC_M PSMFCC_C 21.04% 23.86%

의 성능 향상을 보인다 반면 는 남녀 평균 의 성능. , PSMFCC_D -1.96 %

하락을 보인다 성능 하락의 원인은 여성화자의 인식률에 있다 즉. . ,

여성화자의 경우 피치 주기가 정도의 값이 검출될 수 있기3‾4msec

때문에 다른 분석 방법들과 비교하여 분석 프레임이 충분한 분석 길

이를 갖지 못하여 성능 하락을 보인 것이라 사료된다.

그림 은 의 전체 혼합 수에 대한 평균 오류율을 나타낸다6.1 1‾20 .

그림 에서 남성화자의 결과는 가 가6.1 MFCC 8.52%, PSMFCC_D 7.80%,

이 가 의 인식 오류율를 보인다 여성PSMFCC_M 7.13%, PSMFCC_C 7.40% .

화자의 결과는 가 가 이MFCC 8.63%, PSMFCC_D 13.85%, PSMFCC_M 8.73%,

가 의 인식 오류율을 보인다 여성화자의 는PSMFCC_C 8.68% . PSMFCC_D

표 과 표 의 결과에서 언급했던 바와 같이 짧은 피치로 인한6.1 6.2

분석길이의 영향으로 기존 방법 및 다른 피치 동기 방법에 비교하여

두드러진 성능 하락을 보인다.

Average recognition result

0.00%

2.00%

4.00%

6.00%

8.00%

10.00%

12.00%

14.00%

16.00%

Female Male

Err

or r

ate MFCC

PSMFCC_D

PSMFCC_M

PSMFCC_C

그림 평균 인식 오류율6.1 .

Fig. 6.1 Average recognition error rate.

그림 와 그림 은 전체 혼합 수에 따른 오류율의 변화를 나타6.2 6.3

낸다.

Recognition results (Female)

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Mixture

Erro

r ra

te

MFCC

PSMFCC_D

PSMFCC_M

PSMFCC_C

그림 여성화자에 대한 인식 결과6.2 .

Fig. 6.2 Recognition results for female-speakers

Recognition results (Male)

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

40.00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Mixture

Err

or ra

te

MFCC

PSMFCC_D

PSMFCC_M

PSMFCC_C

그림 남성화자에 대한 인식 결과6.3

Fig. 6.3 Recognition results for male-speakers

그림 는 여성화자의 대한 인식 결과로 전체 혼합 수에 대하여6.2 ,

과 는 기존 방법과 비교하여 비슷한 추이와 인식율PSMFCC_M PSMFCC_C

을 보인다 반면 는 표 의 결과에서 보인 바와 같이 분. , PSMFCC_D 6.2

석길이의 문제로 인해 전체 혼합 수에 대해 성능하락을 보인다 그림.

은 남상화자의 대한 인식 결과로 기존 방법과 비교하여 제안된6.3 ,

방법이 전체 혼합수에 대하여 성능향상을 보인다 또한 혼합수가. , 5

일 때 기존 방법과 비교하여 제안된 방법이 큰 인식률 향상을 보인

다 즉 제안된 특징 추출 방법이 피치 동기 분석을 통하여 최적의. ,

음성 구조를 표현하기 때문에 적은 복잡도의 확률 모델에서도 충분한

인식 성능을 보이는 것으로 분석된다.

결과적으로 제안된 피치 동기 멜 켑스트럼은 분석 길이에 민감성을,

보이지만 전반적으로 기존 단구간 분석을 이용한 특징 추출 방법과

비교하여 피치 동기 분석을 이용한 특징 추출 방법이 성능이 향상됨

을 알 수 있다.

멜 선형 예측 코딩 켑스트럼6.2.2

멜 선형 예측 코딩 켑스트럼은 식 의(4.9) 값을 으로 하여 구0.36

하였다 표 과 표 는 인식 모델 가지 수의 에서 까지의 평. 6.3 6.4 11 20

균 오류율과 오류 감소 비율을 나타낸다 와 그. PSMelLP_D PSMelLP_M,

리고 는 피치 동기 분석을 이용한 멜 선형 예측 코딩 켑스PSMelLP_C

트럼으로 각각 두 피치를 이용한 분석 방법 다수의 피치를 이용한,

분석 방법 피치에 적응적인 분석 방법을 나타낸다, .

표 멜 선형 예측 코딩 켑스트럼의 인식결과6.3

Table 6.3 Recognition results of Pitch synchronous Mel-LPCC

여성 4.10 4.33

남성

표 멜 선형 예측 코딩 켑스트럼의 오류 감소 비율 결과6.4

Table 6.4 ERR results of Pitch synchronous Mel-LPCC

표 에서 와 그리고 는 기존 방법과6.4 PSMelLP_D PSMFCC_M, PSMFCC_C

비교하여 각각 남녀 평균 의 성능 향상을 보25.50%, 20.89%, 23.62%

인다.

는 앞서 보여준 결과인 와 비교하여 동일한 피치PSMelLP_D PSMFCC_D

동기 분석 프레임의 구성 방법을 사용하는데 반해 성능 하락은 보이,

지 않는다 즉 고속 푸리에 변환 분석을 기반으로 한 피치 동기 멜. ,

켑스트럼은 분석길이에 큰 영향을 받는다 반면 멜 선형 예측 코딩. ,

켑스트럼의 경우는 선형 예측 분석을 기반으로 특징 추출하기 때문에

분석 길이에 큰 영향을 받지 않기 때문이라 분석된다.

그림 는 멜 선형 예측 코딩 켑스트럼 실험에서 의 전체 혼합6.4 1‾20

수에 대한 평균 오류율을 나타낸다.

Average recognition result

0.00%

2.00%

4.00%

6.00%

8.00%

10.00%

12.00%

14.00%

16.00%

Female Male

Err

or ra

te MFCC

PSMelLP_D

PSMelLP_M

PSMelLP_C

그림 6 평균 인식 오류율.4

Fig. 6.4 Average recognition error rate

그림 에서 남성화자의 결과는 가 가6.4 MFCC 8.52%, PSMelLP_D 5.98%,

이PSMelLP_M 6.27%, PS 가 의 인식 오류율를 보인다 여MelLP_C 6.18% .

성화자의 결과는 가 가 이MFCC 8.63%, PSMelLP_D 7.28%, PSMelLP_M

가 의 인식 오류율을 보인다 전체적으로 제안7.53%, PSMelLP_C 7.52% .

된 방법이 기존 방법과 비교하여 성능 향상을 보이며 남녀 모두,

일 때 최고의 성능을 보인다 즉 멜 선형 예측 코딩 켑스PSMelLP_D . ,

트럼 추출은 분석 길이에 상관없이 적용할 수 있기 때문에 피치를,

이용하여 구성된 분석 길이에서도 향상된 인식률을 나타내는 것으로

사려된다.

그림 와 그림 은 전체 혼합 수에 따른 인식률의 변화를 나타6.5 6.6

낸다.

Recognition results (Female)

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

40.00%

45.00%

50.00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Mixtrue

Erro

r rat

e

MFCC

PSMelLP_D

PSMelLP_M

PSMelLP_C

그림 여성화자에 대한 인식 결과6.5

Fig. 6.5 Recognition results for Female-speakers

Recognition results (Male)

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Mixture

Erro

r ra

te

MFCC

PSMelLP_D

PSMelLP_M

PSMelLP_C

그림 남성화자에 대한 인식 결과6.6

Fig. 6.6 Recognition results for Male-speakers

그림 는 여성화자의 대한 인식 결과로 전체 혼합 수에 대하여6.5 ,

제안된 방법은 기존 방법과 비교하여 의 혼합 수에서 인식율 향1‾10

상을 보이며 이상의 혼합 수에서는 비슷한 추이의 인식률을 보인11

다 그림 은 남성화자의 대한 인식 결과로 기존 방법과 비교하여. 6.6 ,

제안된 방법이 전체 혼합수에 대하여 성능향상을 보인다 또한 혼합. ,

수가 일 때 기존 방법과 비교하여 제안된 방법이 큰 인식률 향상2‾5

을 보인다 그림 의 결과 분석에서 언급하였듯이 제안된 특징 추. 6.3 ,

출 방법이 피치 동기 분석을 통하여 최적의 음성 구조 표현하기 때문

에 적은 복잡도의 확률 모델에서도 충분한 인식 성능을 보이는 것으

로 분석된다.

표 와 그림 에서 그림 까지의 결과는 남성화자가 여성화자6.4 6.4 6.6

와 비교하여 높은 인식률 향상을 보인다 즉 남성화자의 피치 길이. ,

가 여성화자의 피치 길이보다 일반적으로 더 길기 때문에 남성화자의

피치 동기 분석 프레임 길이가 여성화자와 비교하여 긴 구간을 갖는

다 따라서 남성화자가 긴 분석 길이로 인하여 충분한 음성 정보를. ,

나타낼 수 있기 때문이라 분석된다.

결론적으로 제안된 피치 동기 분석에서 멜 선형 예측 코딩 켑스트럼

은 피치 동기 멜 켑스트럼의 분석 길이에 대한 민감성을 극복 할 수

있었다 또한 피치 동기 멜 켑스트럼과 멜 선형 예측 코딩 켑스트럼. ,

의 실험 결과를 기존의 특징 추출 방법의 실험 결과와 비교했을 때

피치 동기 분석을 이용하여 최적의 음성 구조를 표현하는 제안된 특

징 추출 방법이 효과적이란 사실을 알 수 있다.

제 장 결론 및 향후 연구과제7

본 논문에서는 피치 동기 분석을 이용하여 음성 인식 시스템에서

사용될 특징 추출 방법을 제안하였다.

제안된 피치 동기 분석 프레임 구성은 다음과 같다 첫째로는 두 개.

의 피치 주기를 이용하여 분석 길이를 구성하는 방법과 둘째로는 다

수의 피치 주기를 이용하여 분석 길이를 구성하는 방법 마지막으로,

는 앞의 두 방법의 중간적 혼합 형태로 검출된 피치 주기의 길이에

따라 분석 길이를 달리하는 방법이다.

피치 동기 분석에 사용된 특징 추출 방법으로 피치 동기 멜 켑스트

럼과 멜 선형 예측 코딩 켑스트럼을 제안하였다 피치 동기 멜 켑스.

트럼은 가변적인 피치 동기 분석 프레임에 적용하기 위해 기존 멜 켑

스트럼 방법에 가변적인 고속 푸리에 변환 분석 방법을 사용하여 차

별을 두었다 멜 선형 예측 코딩 켑스트럼은 선형 예측 분석상 분석.

길이의 영향을 받지 않는다는 장점을 지니며 주파수 워핑을 이용하,

여 멜 스케일의 특성을 갖는다.

실험 결과는 피치 동기 멜 켑스트럼의 경우 과, PSMFCC_M PSMFCC_C

는 각각 와 의 성능 향상을 보였다 의 경우 짧21.04% 23.86% . PSMFCC_D

은 분석길이의 영향으로 인하여 의 성능하락을 보였다 멜 선-1.93% .

형 예측 코딩 켑스트럼음 와 각각PSMelLP_D PSMelLP_M, PSMelLP_C

의 성능 향상을 보였다 즉 기존 특징 추출25.50%, 20.89%, 23.62% . ,

방법과 비교하였을 때 전반적으로 피치 동기 분석 방법을 이용한 특,

징 추출 방법이 성능 향상을 보였다.

와 의 결과를 분석하였을 때 동일한 방법의 분석PSMelLP_D PSMFCC_D ,

프레임을 갖는데도 선형 예측 분석 기반의 에서는 성능향PSMelLP_D

상을 보이고 고속 푸리에 변환 분석 기반의 는 성능하락을PSMFCC_D

보인다 또한 선형 예측 분석은 고속 푸리에 변환 분석 방법에 비하.

여 연산량이 적다는 장점이 있다 따라서 선형 예측 기반의 특징 추. ,

출이 피치 동기 분석 방법에 효과적이라 분석된다.

멜 선형 예측 코딩 켑스트럼의 경우 일반적으로 사용되는 멜에 근,

사하여 의 워핑 값을 사용하였다 워핑 변이 또한 특징 추출 및0.36 .

인식률에 영향을 줄 수 있는 요소로써 피치 동기 분석을 이용한 최,

적의 특징 추출을 위해 워핑 변화에 따른 인식율의 영향에 대한 연구

가 이루어 져야 한다.

제안된 음성 특징 추출 방법은 잡음이 없는 깨끗한 환경의 음성 데

이터 베이스에 대하여 실험을 진행하였다 실제 사람이 생활하는 환.

경은 잡음 환경이기 때문에 실용적인 측면에서 제안된 방법은 잡음,

환경 내에서 강인 음성 특징 추출 방법으로 진행될 필요성이 있다.

현재의 피치 검출 알고리즘은 어떤 잡음 환경에서도 정확한 피치 검

출할 수 있는 기술은 아직 완성되어 있지 않으며 제안된 피[12,18],

치 동기 분석만으로는 잡음에 강인성을 확신할 수 없다 따라서 강. ,

인한 음성 특징 추출 방법으로 진행되기 위한 선행 연구 과제로 강인

한 피치 검출 알고리즘과 피치를 이용한 효과적인 잡음 제거 기술 등

이 연구되어야 한다.

참고 문헌