t t a s t a n d a r d web view음성인식을 도입하는 로봇 서비스 개발자는 어떤...

T T A S t a n d a r d

정보통신단체표준(국문표준) 제정일: 2009 년 12 월 xx 일 TTAS.-KO-10.

지능형 로봇의 음성인식

성능평가방법

(Performance Test method of

Speech Recognition Service for

Robot)

본 문서에 대한 저작권은 TTA 에 있으며 , TTA 와 사전 협의 없이 이 문서의 전체 또는 일부를 상업적 목적으로 복제 또는 배포해서는 안됩니다 .

Copyright Telecommunications Technology Associations 2008.ⓒAll Rights Reserved.

정보통신단체표준(국문표준) 제정일 : 2009 년 12 월 xx 일 TTAS.KO-10.

지능형 로봇의 음성인식 성능평가방법

(Performance Test method of Speech Recognition

Service for Robot)

정보통신단체표준(국문표준)

서 문

1. 표준의 목적

음성인식 서비스는 로봇의 인간관계 인터페이스로써 많이 도입되고 있다. 로봇

사용자에게 제대로 된 서비스를 제공하기 위해서는 인식성능의 보장이 최우선 되어야

한다. 하지만 실제 서비스 환경에서 제공할 수 있는 인식성능에 대한 평가 방법론이

확립되어 있지 않아 로봇 제조 업체는 성능에 대한 보장과 상업화에 애로를 겪고 있다. 이에 음성인식 성능과 관련된 시험 평가 방법을 제시하고자 한다.

2. 주요 내용 요약

서비스 로봇에 탑재된 음성인식 엔진 자체의 성능평가가 아닌 로봇 플랫폼의 음성인식

서비스에 대한 성능 평가를 위한 표준으로 평가 항목을 정의하고 그 측정 방법을

제시한다. 시험대상물과 스피커의 거리와 방향을 변화시키고, 남녀노소 다양한 화자의

음원을 적용하여 로봇의 음성인식의 정도를 측정한다. 이에 대한 평가결과는 음성인식률, 거절률, 오인식률과 비목적 발성에 대한 오인식률 등으로 표시한다.

3. 표준 적용 산업 분야 및 산업에 미치는 영향

본 표준은 로봇용 음성인식엔진 공급업체와 음성인식 서비스를 도입한 로봇 제작업체

사이의 음성인식 성능에 대한 이견을 최소화 시킬 수 있다. 음성인식엔진 자체의

인식성능이 아닌 실제 환경 및 실제 서비스 시나리오 상에서의 인식성능을 제공할 수

있다. 음성인식 성능 평가를 다양한 시험 환경에서 수행하여 그 결과를 바탕으로 하여

실제 서비스 환경에서 보다 향상된 음성인식 기술 개발에 필요성을 제기해 준다. 궁극적으로 표준화된 성능 평가 결과를 바탕으로 로봇에서의 음성인식 서비스의 품질

향상을 도모할 수 있다.

4. 참조 표준(권고)

4.1 국외표준(권고)

- 없음

TTAx.xx.xxxx/R1i


4.2 국내표준

TTAS.KO-10.0269 로봇에서의 음성인식/통화를 위한 마이크 성능평가 척도

TTAS.KO-10.0270 로봇에서의 음성인식/통화를 위한 잡음제거기술 성능평가척도

KRFS-KO-01-0011 개인서비스 로봇용 음성 기본 명령어 용어,

5. 참조표준(권고)과의 비교

5.1 참조표준(권고)과의 관련성

없음.

5.2 참조한 표준(권고)과 본 표준의 비교표 없음.

6. 지적재산권 관련사항

2008 년 12 월까지 이 표준과 관련하여 확인된 지적재산권 없음.

7. 적합인증 관련사항

7.1 적합인증 대상 여부

없음.

7.2 시험표준제정여부(해당 시험표준번호)

없음.

8. 표준의 이력

판수 제/개정일 제․개정내역

제 1 판 2009.11.20 작성

TTAx.xx.xxxx/R1ii


TTAx.xx.xxxx/R1iii


Preface

1. The Purpose of Standard

To facilitate the interoperability of -----

2. The Summary of Contents ----- (스타일 적용-본문 서술용)

3. The Applicable fields of industry and its effect ----- (스타일 적용-본문 서술용)

4. The Reference Standards (Recommendations)

4.1 International Standards (Recommendations)

N/A

4.2 Domestic Standards - TTAS.KO-10.0269 Microphone testing criteria for speech recognition/communication of robot, , - TTAS.KO-10.0270 Noise cancellation technology testing criteria for speech recognition/communication of robot, - KRFS-KO-01-001 Basic Voice Commands for the personal service robot

5. The Relationship to Reference Standards(Recommendations)N/A

5.1 The relationship of Reference Standards

N/A

5.2 Differences between Reference Standard(recommendation) and this standard

TTAx.xx.xxxx/R1iv


N/A

6. The Statement of Intellectual Property Rights

As of December 2008, any IPRs related to this standard cannot be found.

7. The Statement of Conformance Testing and Certification N/A

8. The History of Standard

Edition Issued date Contents The 1st edition 2008.12.29

TTAx.xx.xxxx/R1v


목 차

1. 개 요····································································································1

2. 표준의 구성 및 범위···············································································1

3. 용어정의······························································································2

4. 음성인식성능 측정을 위한 구성·······························································4 4.1 일상에서 접할 수 있는 소리의 크기··················································5 4.2 로봇의 준비··················································································6

5. 음성인식성능 평가 도구·········································································65.1 음원 데이터베이스·········································································65.2 음성인식엔진의 준비······································································7

6. 시험방법······························································································86.1 음원에 따른 성능(거리 및 방향)························································96.2 화자에 따른 성능············································································96.3 잡음환경에 따른 성능···································································10

7. 성능측정····························································································107.1 (체감)인식률···············································································107.2 거절률························································································117.3 오인식률·····················································································117.4 비목적 발성에 대한 오인식률·························································11

부록

I.1 음성인식환경 구성표····································································12 I.2 음성인식 시험 결과서···································································13 I.3 음원재생에 의한 인식성능평가의 예·················································14I.4 화자 실제 발성에 의한 인식성능평가의 예········································14I.5 파일로부터 데이터 읽어서 수행한 인식성능평가의 예·························15

TTAx.xx.xxxx/R1vi


Contents

1. Introduction························································································1

2. Constitution and Scope······································································1

3. Terms and Definitions········································································2

4. Setup for Measuring Performance of Speech Recognition··················4 4.1 Example of Sound Levels···························································5 4.2 Preparation of Robot···································································6

5. Tool for Evaluating of Speech Recognition Performance····················6 5.1 Speech Source Database···························································6 5.2 Preparation of Speech Recognition Engine·································7

6. Procedure of Testing··········································································8 6.1 Performance according to Speech Source·································9 6.2 Performance of Speaker····························································9 6.3 Performance in Noise Environment··········································10

7. Measuring Permance········································································10 7.1 Rate of Feeling Recognition·····················································10 7.2 Rate of Rejection······································································11 7.3 Rate of False Recognition························································11 7.4 Rate of False Recognition of unattended utterance··················11

AppendixⅠ.1 Configuration of Conditions···························································12 Ⅰ.2 Reporting Format············································································13Ⅰ.3 Examples························································································14

TTAx.xx.xxxx/R1vii


로봇용 음성인식 서비스의 시험방법

Test method of Speech recognition Performance for Robot

1. 개요

음성인식은 인간과 로봇간 상호 인터페이스로써 중요한 요소기술이며 점차 로봇에 도입이

확대되고 있다. 음성인식을 도입한 로봇업체의 관심사는 실제 서비스 환경이나

시나리오에서 제대로 된 인식성능을 보장하는지의 여부이다. 그러나 표준화된 음성인식 성능 평가 방법론의 부재로 인하여 로봇업체는 엔진공급업체가

제시하는 인식성능을 전제로 실제 서비스에 나서지만 실제 서비스 할 때에는 제시된

인식성능과 많은 차이를 겪게 된다. 음성인식은 주변 잡음에 의해 성능의 차이가 많이

나므로 음성인식 서비스를 할 수 있는 환경에 대한 기준을 정하는 것도 중요하다. 음성인식을 도입하는 로봇 서비스 개발자는 어떤 마이크를 사용해야 하고 녹음 볼륨을

어느 정도로 세팅 하여야 하고 로봇 내부에서 다른 프로세스가 수행 중일 때 음성인식이

제대로 수행되는지에 대해 관심을 가진다. 이에 표준화된 음성인식 성능 평가를 통해 실제 서비스 환경에서의 객관적인 음성인식

성능을 제시해줌으로써 음성인식엔진 업체에게는 서비스 환경에 대처하는 기술 개발을

촉진시킬 수 있으며 로봇 제작 업체에게는 음성인식 서비스의 도입 및 개발 과정을

단축시킬 수 있으며 상용화에 대한 판단에 도움을 줄 수 있다.

2. 표준의 구성 및 범위

본 표준은 로봇에 탑재된 음성인식시스템이 실제 서비스 환경에서 어느 정도의 성능을

나타내는지를 평가하기 위한 시험 방법론에 관한 것이다. 따라서 성능 척도를 정의하고

시험환경을 구성하며 그 시험절차로 구성되어 있다. 또한, 성능평가 도구에 대해 기술한다.성능 척도는 음성 인식률과 거절률, 음성 오인식률이 사용된다. 음성인식의 입력으로

사용될 음성 데이터베이스의 구성, 로봇에 음성 입력을 주는 시험 환경 구성, 로봇의

서비스 환경에서의 시험 절차를 설명한다.성능 평가도구는 시험절차에 사용되는 것으로 성능척도를 제시해 주며 성능평가를

수행하기 위한 음성인식엔진의 공통 API 를 제시한다.(그림 1)은 음성인식 서비스 시험방법에 관련된 전체 영역과 본 표준이 정의하는 범위를

나타낸다.

TTAx.xx.xxxx/R11


그림 1. 표준의 구성 및 범위

본 표준은 로봇 서비스 환경에서 음성인식 성능 평가 시험방법을 제안하며, 시험과정에

사용될 음성 데이터베이스, 성능평가를 위해 음성인식엔진이 적용하여야 할 공통 API 및

성능평가도구는 포함하지 않는다.

3. 용어정의

가. 암소음(Background Noise)어떤 장소에서 특정음을 대상으로 측정할 때 그 대상음이 없을 때의 소음을 말한다. 데시벨(dB)로 표현되며 조용한 환경은 40~50dB 의 값을 가진다.

나. 신호 대 잡음비(Signal Noise Ratio, SNR)신호 전력이 잡음 전력을 초과하는 데시벨 수. 신호는 단독으로 존재하는 경우는 거의

없고 보통 잡음과 공존한다. 그 배분을 나타내는 척도로서 신호와 잡음의 전력비의 S/N 이

이용된다. 음성신호의 경우 20~25dB 의 SNR 은 아주 조용한 환경이 되며

자동차환경에서는 10dB 정도의 값을 가진다.

다. 음향모델(Acoustic Model) 인식 네트워크를 구성하는 기본 통계적 모델이며 보통 음소별로 평균값과 분산값으로

모델링 된다. 이 때 모델링에 사용되는 입력원은 주파수대역별 에너지 벡터가 주로

사용된다. 해당 단어를 음소로 표현하고 특정음소의 좌우 음소별로 구별하여 수백 내지

수천 개의 모델을 사용한다.

라. 소음도(Sound Level) 소음 레벨 또는 A 특성 음압레벨이라고도 한다. 음에 대한 감각을 고려한 레벨로서 소음

크기의 척도로 쓰인다. 사람의 청각은 저주파 쪽으로 갈수록 둔하기 때문에 실제 음압레벨

TTAx.xx.xxxx/R12


보다 작게 느끼게 된다. 따라서 실제 음압레벨에서 청감이 둔하여 느끼지 못한 음압레벨

만큼을 뺀 값이 소음도가 된다. 보통 사무실은 50 이하가 좋으며 회의실이나 응접실은 40이하여야 방해를 받지 않는다. 마. 거절(Rejection)인식기에서 입력음성이 특성단어로 인식할 때 그와 관련된 인식점수 (Score)를 계산한다. 이 인식점수가 낮을 경우, 신뢰도가 낮은 것 (잡음 데이터)으로 판단하여 인식결과를

출력하지 않는다.

바. 오인식(False Accept)실제 입력은 A 인데 B 라는 인식결과로 충분한 인식점수를 가지고 판단한 경우를

일컫는다. 사. 오거절(False Reject)실제 입력은 A 이고 인식결과도 A 인데 인식점수가 낮아서 거절한 경우를 일컫는다.

자. (체감)인식률(Recognition Rate)인식 시도한 발성 중에서 의도한 결과를 제대로 출력한 것의 백분율. 최종적으로 화자의

음성을 인지하는 체감인식률이라고도 한다.

차. 거절률(Rejection Rate)전체 인식 시도한 발성(입력) 중에서 지정된 거절문턱값 이하의 인식점수 미달로

인식결과를 거절한 횟수의 비율.

카. 오인식률(Recognition Error Rate)거절문턱값보다 높은 값을 출력하여 인식점수는 만족하였으나 정답(화면에 표시된 단어: 화자는 표시된 단어를 제대로 발성하였다고 가정)과 다른 인식결과를 출력하여

오인식으로 처리된 비율. 전체 인식기에서 처리된 횟수 대비 정답과 다른 인식결과를

출력한 횟수의 백분율로 표현된다.

타. 비목적 오인식률

의도하지 않은 비목적성 발성에 대해 거절처리 되어야 하지만 올바른 인식결과로 처리한

경우로, 비목적성 발성음 중 인식 처리된 횟수를 백분율로 표시하며 로봇의 오동작과

연관된다.

TTAx.xx.xxxx/R13


4. 음성인식 성능 측정을 위한 구성

음성인식 성능을 측정하기 위한 환경 구성 요소는 그림 2 를 참고한다.

그림 2. 음성인식 성능 측정을 위한 구성요소

그림 3. 시험 구성의 예시

TTAx.xx.xxxx/R14


로봇에서 일정거리(d)와 특정 방향(φ

)과 정해진 높이(h)의 위치에 스피커를 설치한다.

스피커를 통해 미리 녹음되어 있는 테스트용 음성 데이터베이스를 노트북에서

재생시킨다. 노트북에서는 인식결과를 수신하는 모니터링 프로그램이 수행된다. 수신된

인식결과는 재생된 파일명의 인식어휘와 비교되어 인식률, 오인식률 등에 자동으로

반영된다. 평균적인 인식성능을 측정하기 위해서 거리 및 방향을 가변하며 반복적으로

수행하여 인식률을 측정한다.

- 로봇은 인식결과를 노트북의 모니터링 프로그램에 전달하기 위해 네트워크 기능이

지원되어야 한다.- 노트북은 음성인식 테스트 데이터베이스를 재생하기 위해 사운드카드가 내장되어

있어야 한다.- 스피커는 점음원 역할을 수행하여야 하며 자체 잡음이 없고 모든 주파수를 동일하게

출력시킬 수 있는 스피커를 권장한다. 스피커의 음향이 로봇 본체를 향하도록 θ를 조절한다.- 노트북의 재생 볼륨과 스피커의 볼륨을 조절하여 로봇의 마이크 앞단에서 사운드레벨

미터기로 음압을 측정하여 70dB 내외가 되도록 한다. 이 때 재생볼륨이나 스피커 볼륨이

최대가 되지 않도록 두 볼륨을 상호 조절하여 원하는 음압을 생성시킨다.- 노트북의 사운드관리자 메뉴에서 재생에 관련된 모든 음향효과 및 이퀄라이저 기능 등을

정지시킨다.- 삼각받침대는 발성자의 높이를 고려할 수 있도록 높낮이가 조절될 수 있어야 한다.- 공간은 원거리 인식 등을 고려하여 가로 및 세로 6m 를 권장하여 최소 4mX2m 를

확보하여 3m 내지 5m 의 거리에서 인식성능이 측정되어야 한다. 로봇의 벽면으로부터

최소 1 미터 이상 이격시킨다.

4.1. 일상에서 접할 수 있는 소리의 크기

음성인식은 음성입력을 받아 어떤 발성인지를 알아내는 것으로 입력되는 음성의 품질및

크기에 큰 영향을 받는다. 따라서 음원의 재생에 의한 음성인식성능 평가시 재생되는

음원의 크기가 중요한 요소가 된다. 표 1 에 일상 생활에서 접할 수 있는 소리의 크기를

나타내었다. 로봇에 대한 기준 입력 레벨은 명령을 내리는 사용자의 의지 등을 고려하여

70dB 로 정하였다.

TTAx.xx.xxxx/R15


표 1. 일상 생활에서 접할 수 있는 소리의 크기

음원의 종류 소리의 크기

가정에서의 평균 생활 소음 약 40dB일상 대화 약 60dB집에서 음악을 감상하는 것 약 85dB소리가 큰 록밴드 약 110dB제트엔진 약 150dB

4.2. 로봇의 준비

로봇은 완전히 조립되고 작동되어야 하고 모든 필요한 기능 시험은 충분히 완료되어야

한다. 로봇은 시험 전에 적절한 워밍업 작동이 선행되어야 한다. 로봇의 음성입력 마이크

게인은 제조자와 협의 또는 상용화로 세팅되어 있는 값을 사용한다. 음성인식 성능평가시

로봇 액션의 반영 유무는 로봇제조사 등과 협의하여 미리 세팅되어야 한다. 인식평가 수행

시간 등을 고려하여 전원공급 및 네트워크 환경의 안정성을 확보한다.

5. 음성인식 성능평가 도구

음성인식 성능을 평가하는 과정을 그림 4 에 나타내었다. 클라이언트인 로봇모니터

프로그램에서는 표준 DB 를 재생하거나 발성할 제시어를 표기하여 직접 사용자로부터

발성을 유도한다. 로봇서버프로그램은 인식을 수행하거나 입력을 서버인식기로 전달한 후

인식결과를 얻어 그 결과를 로봇모니터 프로그램에 전달한다. 로봇모니터 프로그램은

재생 또는 제시된 단어와 전달받은 인식결과를 비교하여 인식률을 계산하게 된다.

TTAx.xx.xxxx/R16


그림 4. 인식성능평가 과정의 흐름도

5.1. 음원 데이터베이스

음원 데이터베이스는 로봇의 사용자 계층 및 로봇 콘텐트와 연동된 인식어휘리스트 등을

고려하여 제작되어야 한다. 사용자 계층은 20~40 대의 성인 남녀, 8 세~12 세의 아동

남녀로 구성한다. (부록 II 참조)

5.2. 음성인식엔진의 준비

음성인식성능평가 도구는 여러 음성인식 엔진을 지원하기 위해 공통 API 를 적용하여

구현하였다. 음성인식 평가용 공통 API 는 2-3 개 업체의 음성엔진 API 및 음성인식 과정을

반영하여 제시하였다.

그림 5. 성능평가과정에 필요한 음성인식엔진 공통 API

음성인식성능평가용 공통 API 의 세부적인 기능을 살펴보면 다음과 같다. 최종

인식결과는 메시지 기반으로 모니터링 프로그램에 전달된다. Create() : 인식과정을 수행하기 위한 각종 생성 기능을 통합적으로 수행한다.

음성검출 모듈을 생성하고 인식엔진 모듈을 생성하는 과정이 주 과정이 된다.

TTAx.xx.xxxx/R17


LoadModels() : 인식과정에 필요한 음향모델을 지정하고 메모리에 적재시킨다. 이는

동적으로 음향모델을 변경시키는 것을 지원한다. 음성인식엔진에는 다국어 지원에 따라

언어별 모델이 있으며 개발 단계에 따른 다양한 모델들이 있을 수 있으므로 사용할

음향모델을 가변시킬 수 있는 API 가 필요하다. SetVocabulary() : 인식기 과정에서 가변적인 요소 중의 하나인 인식어휘를 지정하기

위한 API 이다. 인자로 인식어휘를 저장하고 있는 파일 이름을 지정할 수 있다. Initialize() : 전체 인식과정을 수행하기 위해 필요한 초기화 과정을 수행하는 API

이다. 매 인식결과를 얻고자 하는 utterance 기반의 초기화와는 상관이 없다. RecogProc() : 인식과정을 수행하는 인식 Thread 를 포함하고 있다. 인식결과가 있을

때 마다 인식결과를 메시지 이벤트로써 전달한다. 매 utterance 기반의 초기화는 인식결과

추출과정에 자동으로 삽입되어야 한다. Thread 수행 API 로써 다른 프로세스의 동시 수행에

따른 영향까지 고려할 수 있다. UnLoadModels() : 음향 모델을 explicit 하게 메모리에서 해제시키고자 할 때

사용한다. 물론 LoadModels()에서 내재적 (implicit)으로 해제시킬 수도 있다. Destory() : 인식기와 관련된 모든 메모리를 해제시키는 기능을 수행한다.

6. 시험방법

6.1 음원에 따른 성능평가(거리 및 방향)

그림 2 에서와 같이 로봇은 시험하고자 하는 환경에 위치시킨다. 스피커 높이(h)는

로봇의 활용 용도에 따라 설정한다. 로봇이 거실 바닥을 이동해 다니고 사용자가 서서 명령을

내릴 경우에는 높이를 160cm 로 하며 책상 위에 올려 놓아지는 로봇인 경우에는 높이를

30cm 정도로 설정한다. 이와 같이 로봇의 용도에 따라 발성의 위치가 달라지므로 발성

높이는 부록의 시험환경 구성표에 반영되어야 한다.

발성거리(d) 및 발성방향(φ )도 설정하여 로봇에 대해 상대위치에 스피커를 위치시킨다.

로봇 사용자는 원거리에서 로봇에서 호출한 후 로봇이 가까이 온 후에 특정 콘텐트를

사용하기를 원하며 로봇이 가능한 원거리의 발성까지도 제대로 인식되기를 원한다. 따라서

로봇이 어느 정도 거리에서 어느 정도의 인식성능을 나타내는지 측정할 필요가 있다. 로봇은

또한 임의의 방향에서 입력되는 음성을 인식할 수 있어야 한다. 이에 특정 방향에 대한

인식성능도 측정되어야 한다.스피커 및 재생 볼륨은 테스트용 음원을 재생하면서 1m 로봇-스피커 거리 기준으로

75dB 가 되도록 조절한다. 이 때 사운드레벨 미터기는 로봇의 마이크로폰 설치 위치 앞단에

위치시킨다. 로봇-스피커 거리가 1 미터 멀어질 때마다 75dB 에서 -5dB 감소된 값으로

조절한다. 이는 점음원의 경우 역자승법칙에 의해 거리가 2 배가 되면 약 6.02dB 의 감쇠가

일어나기 때문이다.

TTAx.xx.xxxx/R18


이상의 평가에 사용된 음원에 관련된 데이터를 시험환경 구성표에 기입한다.

음원의 거리

음원의 방향

1m 2m 3m

정면

오른쪽 45°오른쪽 90°왼쪽 45°왼쪽 90°후면

6.2 화자에 따른 성능평가

로봇은 화자에 관계없이 음성을 인식할 수 있어야 하며 특정 성별, 특정 연령에 대해

낮은 인식성능을 가지면 안 된다. 따라서 평가도구는 성별/연령별에 대하여 성능평가를 할 수

있도록 지원하여야 한다. 화자정보는 시험환경구성표나 시험결과서에 반영하여야 한다. 화자별 성능 성인남성 성인여성 어린이남자 어린이여자

6.3 잡음환경에 따른 성능

로봇은 보통 잡음이 존재하는 환경에서 음성인식을 수행한다. 잡음의 정도는 신호대

잡음비(SNR:Signal To Noise Ratio)로 표현되며 신호의 에너지와 잡음의 에너지의

로그대수로 나타낸다. 사운드레벨 미터기로 원하는 SNR 을 만드는 방법은 다음과 같다. 우선

음원만이 존재할 때의 음압이 75dB 일 때, 10dB SNR 은 잡음원의 음압이 65dB 가 되도록

잡음원의 볼륨을 조절하여 생성한다. 보통 0dB 일 때 신호원과 잡음원의 크기가 동일하다. 잡음원도 점잡음과 분산잡음으로 분류할 수 있으므로 잡음원의 종류 및 위치도 시험환경

구성표에 기입한다. 잡음 데이터베이스로 TV 잡음, 라디오잡음, 공공기관 잡음 등을

채집한다.

TTAx.xx.xxxx/R19


7. 성능 측정

로봇의 음성인식 성능 척도는 (체감)인식률, 거절률, 오인식률, 비목적발성에 대한

오인식률로 규정한다. 더불어 각 척도는 기준인식과 서비스인식에서 측정될 수 있다.

기준 인식 : 재생에 사용되는 음원파일을 직접 액세스하여 데이터를 읽어와서 인식기에

전달하여 얻은 인식결과로 인식기의 최적/최대의 인식성능이라고 유추할 수 있다.

서비스인식 : 실제 서비스 환경에서 주변환경요소의 영향이 반영되었을 때의 인식성능을

나타내는 것으로 실환경에서 재생에 의한 것이 여기에 해당한다.

기준인식성능을 바탕으로 서비스 환경에서 어느 정도 인식률이 저하되는지를 판단할 수

있다.

7.1 (체감)인식률

화자의 모든 발성횟수에 대해 제대로 된 인식결과를 출력한 횟수의 비율이다. 이는

사용자의 불명확한 발성, 주변 잡음이 존재하는 환경, 발성 시점의 불명확에서 초래되는

성능저하 등이 모두 반영된 상황에서 소비자가 체감하는 인식성능지수이다.

(체감)인식률 = (제대로 의도된 인식결과 출력 횟수)/(전체인식기에서 처리된 횟수) *100 (%)

7.2 거절률

A 단어를 발성했는데 A 단어 또는 B 단어로 인식되었지만 인식점수가 낮아 인식결과로

출력하지 않고 거절된 경우를 나타낸다. 인식기는 사용자의 의도하지 않은 발성 및 주변

잡음에 대해 인식결과를 출력하지 않아야 하기 때문에 입력음성에 대한 신뢰도를 계산한다. 거절률은 입력 처리된 회수 대비 지정된 거절문턱값 이하의 인식점수로 거절된 인식결과의

횟수를 비율로 나타낸다.

거절률 = (거절된 인식결과의 횟수)/(전체 인식기에서 처리된 횟수) * 100 (%)

7.3 오인식률

TTAx.xx.xxxx/R110


A 단어를 발성했는데 B 단어로 인식한 경우로 거절문턱값 이상의 충분한 인식점수로

성공적 인식결과를 출력하지만 정답과 다른 인식결과를 보이므로 오인식으로 처리한다. 이

평가를 통해 해당 인식기의 인식모델의 정교함 정도를 가름할 수 있다.

오인식률=(정답과 다른 오인식 횟수)/(전체 인식기에서 처리한 횟수)*100 (%)

7.4 비목적발성에 대한 오인식률

인식기는 목적발성(제대로 인식시키고자 하는 발성)에 대해서는 제대로 인식결과를

출력하여야 하지만 TV, 라디오 등의 주변 잡음원 등에 의해 발생할 수 있는 비목적발성의

경우에는 인식결과를 성공이 아닌 거절로 출력하여야 한다. 목적발성이 아닌 음성에 대한

거절률 평가를 위한 수행에서 오인식률은 False Accept 에 해당하며 횟수/시간 또는 횟수/일

등으로 평가될 수 있다. 이 때 사용되는 음원은 보통 AM 라디오 방송을 사용한다.

TTAx.xx.xxxx/R111


부록 Ⅰ

Ⅰ.1 음성인식 시험환경 구성표

TTAx.xx.xxxx/R112


Ⅰ.2 음성인식 시험 결과서

TTAx.xx.xxxx/R113


Ⅰ.3 음원 재생에 의한 인식성능평가의 예

Ⅰ.4 화자 실제 발성에 의한 인식성능평가의 예

TTAx.xx.xxxx/R114


Ⅰ.5 파일로부터 데이터 읽어서 수행한 인식성능평가의 예

TTAx.xx.xxxx/R115


부록 II 음원 데이터베이스 적용 예

12 명의 남성화자 및 8 명의 여성화자로부터 발성한 20 개의 인식어휘에 대한

음원파일을 사용한다. 주로 20-30 대 성인에 대해 조용한 환경에서 고성능 다이나믹

마이크로폰으로 녹음을 하였다. 음원은 16kHz 의 표본화주파수 및 16bit 양자화된 wav파일형태이다. 화자별 인식 및 화자수 등을 지정하여 인식평가를 수행하고 인식결과를

비교하기 위해 음원 데이터에 대한 명명 규칙 및 파일 구조를 적용한다.TestSampleData/ 에는 크게 성인남성/, 성인여성/, 아동남성/, 아동여성/ 이 있다.성인남성/ 에는 A-M-XXX 형태로, 이름이니셜(XXX)로 구분되는 화자정보가 있다.성인여성/ 에는 A-F-XXX 형태로, 이름이니셜(XXX)로 구분되는 화자정보가 있다.아동남성/ 에는 C-M-XXX 형태로, 이름이니셜(XXX)로 구분되는 화자정보가 있다.아동여성/ 에는 C-F-XXX 형태로, 이름이니셜(XXX)로 구분되는 화자정보가 있다.A-M-XXX/ 에는 인식어휘-XXX.wav 형태로 wav 파일들이 존재한다.

표 2. 음성인식 성능평가용 인식어휘

교육정보 날씨정보 뉴스정보 다음목록

뒤로 몬테소리 소리작게 소리크게

앞으로 오른쪽으로 왼쪽으로 요리정보

음악정보 이전목록 종료 중지

취소 홈모니터링 홈으로 확인

인식어휘 및 각 화자별 발성 목록은 표 2 와 같다. 전체 20 개 어휘로 구성되어 있으며 로봇에

사용될 수 있는 공통명령어 중 일부를 발췌한 것이다.

TTAx.xx.xxxx/R116


표준작성 공헌자

표준 번호 : TTAx.xx-xx.xxxx/R1

이 표준의 제․개정 및 발간을 위해 아래와 같이 여러분들이 공헌하였습니다.

구분 성명 위원회 및 직위 연락처 소속사

과제 제안 정영숙 [email protected]

rETRI

표준 초안 제출 정영숙 [email protected]

rETRI

표준 초안 검토

및 작성

이상운[email protected].

kr㈜에이치씨아이랩

정영숙 [email protected]

rETRI

표준안 심의

사무국 담당

TTAx.xx.xxxx/R117

mailto:[email protected]

mailto:[email protected]


TTA 표준 작성 샘플(Example for Writing on TTA Standard)

발행인 : 한국정보통신기술협회 회장

발행처 : 한국정보통신기술협회

463-824, 경기도 성남시 분당구 서현동 267-2Tel : 031-724-0114, Fax : 031-724-0019

발행일 : 200x.xx

t t a s t a n d a r d web view음성인식을 도입하는 로봇 서비스 개발자는 어떤...

Documents