in-ve h i c le vo i c e us e r inte r face...

76
i 공학석사 학위논문 In-Ve h i c le Vo i c e Us e r Inte r face 에서의 사용자 니즈 발화 특징 탐색 연구 2018 2 서울대학교대학원 융합과학부 디지털정보융합전공

Upload: others

Post on 21-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

i

공학석사 학위논문

In-Ve h i c le Vo i c e Us e r Inte r face 에서의 사용자 니즈 및 발화 특징 탐색 연구

2018 년 2 월

서울대학교대학원

융합과학부 디지털정보융합전공

안 아 주

Page 2: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

ii

In-Vehic le Voice User Inter face 에서의 사용자 니즈 및 발화 특징 탐색 연구

지도 교수 이 중 식

이 논문을 공학석사 학위논문으로 제출함 2018 년 2 월

서울대학교대학원 융합과학부 디지털정보융합전공

안 아 주

안아주의 공학석사 학위논문을 인준함 2018 년 2 월

위 원 장 이 교 구 (인) 부위원장 서 봉 원 (인) 위 원 이 중 식 (인)

Page 3: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

iii

초 록

음성 처리 기술의 발전을 바탕으로 음성 인터페이스가 보편화 되고 있다.

가정뿐만 아니라 차량 내에도 음성 인터페이스가 적용되고 있다. 차량 내의 음성

인터페이스는 이전에 단순 지시 발화를 인식하는 형태에서 지금의 의도를 파악하는

형태로 변화하고 있다. 이러한 VUI는 사용자가 시스템을 분석하는 과정 없이, 자신이

원하는 바를 직접 표현한다는 점에서 기존의 인터페이스와 다른 성격을 보인다.

따라서 In-Vehicle VUI 구현을 위해서는, 먼저 VUI의 특징 및 이러한 인터페이스에

적합한 기능에 대해 사용자 중심에서의 탐색 연구가 선행되어야 한다.

본 연구에서는 In-Vehicle VUI 사용 과정에서 등장하는 새로운 니즈와 사용자 측

인터랙션인 표명/평가 단계의 특징을 파악하고 이를 바탕으로 사용자가 Voice

agent에게 갖는 기대사항을 구체화하는 것을 목표로 한다. 사용자의 니즈는 이후

시스템의 기능을 설계하는 데에 도움이 될 것이며, 표명/평가 단계의 특징 파악은

이후 시스템의 변환/표현 단계를 설계하는 데에 도움이 될 것이다.

이를 위해 본 연구에서는 운전 중 VUI 사용 과정에서 등장할 수 있는 사용자

발화를 수집하여 분석하는 실험을 진행하였다. 운전 상황이라는 연구 주제의 특성

때문에, 안전한 실험을 위해 실제 주행 상황 대신 시각 큐를 사용한 실험실 환경에서

실험했다. VUI의 프로토타이핑이 어렵기 때문에 Wizard of Oz 방식으로 실험을

진행하였다. 실험은 운전자 11명을 대상으로 운전 중 나타날 수 있는 사용자의

발화를 수집하는 실험 및 인터뷰로 구성된다. 실험을 통해 수집한 발화 데이터의

intent와 object를 파악하고, 이를 기반으로 이후 분석을 진행하였다.

분석 결과는 다음과 같다. In-Vehicle VUI 사용에서 새롭게 나타나는 니즈는 1)

사용자가 알기 어려운 차량 내의 정보를 실제 주행에 관련된 단위로 연산하여 제공,

2) 목적지와 관련된 추가 정보 및 일상적인 정보를 운전 중에 음성으로 제공, 3) 내가

보고/듣는 것에 대한 정보 제공, 4) 주행 중 운전자가 하기 힘든 일을 대신 위임의 네

가지로 나타났으며, 이러한 니즈는 주로 운전 외적인 상황에서 발생했다. In-Vehicle

VUI 인터랙션 과정 중 표명 단계에서 나타나는 특징은 상황 묘사, 원인 설명, 연결성,

복합 명령, 결과 묘사의 5가지로 나타났다. 평가 단계에서 나타난 특징은 재확인,

테스트, 평가가 있었다. 그리고 앞선 발화 분석을 바탕으로 In-Vehicle agent에 대해

사용자가 기대하는 바를 알아보았다. 기대 사항은 1) 운전자와 동일한 / 더 확장된

감각, 2) 정보를 이해하기 쉽게 변환하여 전달, 3) 운전 외, 일상 생활에 관련된 정보

Page 4: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

iv

제공, 4) 사람과 하는 것 같은 자연스러운 대화, 5) 시스템의 작동 근거에 대한

파악으로 나타났다.

연구 결과를 바탕으로 In-Vehicle VUI를 구현할 때 고민해야할 부분을 논의

점으로 다루고, 각각에 대해 시스템적으로 제언했다. 첫째, Agent는 운전자와 감각을

공유해야 한다. 둘째, 시스템의 데이터 활용 범위 및 능력이 확장되어야 한다. 셋째,

사용자와 상황/맥락을 묘사하는 발화를 하므로 이에 대비해야 한다. 마지막으로,

Blackbox에 대한 사용자의 걱정이 있다는 것을 잊어서는 안 된다.

본 연구는 안전에 대한 문제 때문에 실제 운전 상황이 아닌 몰입을 유도한

상황에서 실험했다는 한계가 있다. 또한, 시스템 구현의 어려움으로 인해 Wizard of

Oz로 실험을 진행하여, 실험물의 객관성이 낮다는 한계가 있다.

그러나 새로운 인터페이스가 등장에 발맞추어 사용자 측면에서 탐색 연구를

했다는 의의가 있으며, 음성 인터랙션의 핵심이 되는 발화를 수집, 분석하여 결과를

도출했다는 데에 연구의 의의를 갖는다.

주요어 : Voice User Interface, In-Vehicle Interface, User study, Wizard of Oz 학 번 : 2016-26031

Page 5: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

v

목 차 제 1 장 서 론 ....................................................................................... 1

제 1 절 연구 배경 ............................................................................. 1 제 2 장 이론적 배경 ................................................................................. 4

제 1 절 사용자-시스템 인터랙션 ........................................................ 4 제 2 절 Voice User Interface .............................................................. 6

제 3 장 선행 연구 ..................................................................................... 9

제 1 절 Voice User Interface의 이해 ................................................... 9 제 2 절 Voice User Interface 연구 .................................................... 10 제 3 절 In-Vehicle Interface 연구 ..................................................... 13

제 4 장 연구 문제 ................................................................................... 16 제 1 절 연구 문제 ........................................................................... 16

제 5 장 연구 방법 ................................................................................... 18 제 1 절 연구의 성격 ........................................................................ 18 제 2 절 실험 설계 ........................................................................... 19 제 3 절 실험물 제작 방법 ................................................................ 20 제 4 절 실험 방법 ........................................................................... 26 제 5 절 데이터 분석 방법 ................................................................ 29

제 6 장 연구 결과 ................................................................................... 31 제 1 절 In-Vehicle 상황에서 사용되는 기능 파악 .............................. 31 제 2 절 In-Vehicle VUI에 대한 사용자의 니즈 분석 ........................... 36 제 3 절 In-Vehicle VUI에서 사용자 발화의 특징 분석 ........................ 42 제 4 절 In-Vehicle agent에 대한 사용자의 기대 ................................ 53

제 7 장 연구 논의점 ............................................................................... 56 제 1 절 사용자와 agent 간 감각의 공유 ........................................... 56 제 2 절 정보 활용 범위와 능력의 확장 ............................................. 57 제 3 절 상황/맥락 묘사에 대한 발화 ................................................ 58 제 4 절 Blackbox로 인한 이슈 ......................................................... 58

제 8 장 결론 ........................................................................................... 60 제 1 절 연구 결과의 요약 ................................................................ 60 제 2 절 연구 한계점 ........................................................................ 61 제 3 절 연구의 의의 ........................................................................ 62

참고문헌 .................................................................................................. 62 Abstract ................................................................................................... 68

Page 6: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

vi

표 목차

[표 1] 예비 실험 결과 ............................................................................. 21 [표 2] Rule-based로 제작한 시스템의 대사(prompt) 예시 .................... 25 [표 3] 실험 참가자 목록 및 정보 ........................................................... 26 [표 4] Intent-Object 페어 구성 및 관련 발화 예시 ................................ 30 [표 5] 현대 그랜저 IG 기능 분석 ........................................................... 32 [표 6] T map 5.0 네비게이션 어플리게이선 기능 분석 ......................... 33 [표 7] Function, Sub-function 분류 및 해당 Intent ................................ 34 [표 8] 새로운 기능을 지시한 Intent 및 관련 발화 ................................. 35 [표 9] 에이전트 관련 영역별 Intent 분류 결과 ...................................... 38 [표 10] 각 정보 성격에 해당하는 발화 개수 ......................................... 40 [표 11] 표명/변환 단계별 발화 특징 분류 및 등장 빈도 ....................... 48

Page 7: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

vii

그림 목차

[그림 1] 글로벌 음성인식 스피커 시장 전망 ........................................... 1 [그림 2] 차량 내에서 사용되는 VUI 인포테인먼트 시스템 ..................... 2 [그림 3] 사람 – 시스템 간 인터랙션 구성도 ............................................ 5 [그림 4] 7 stages in model of interaction .................................................. 6 [그림 5] VUI 구현 과정 및 각 단계에서 필요한 기술 ............................. 7 [그림 6] Amazon Skill의 Intent – Object 페어 구성 예시 ........................ 8 [그림 7] 음성이해 단계에서의 자연어 변환 예시 .................................... 8 [그림 8] 연구 문제 도식화 ...................................................................... 16 [그림 9] 실험에서 사용한 사진 실험물 중 일부 .................................... 22 [그림 10] Wizard of Oz 응답 로직 .......................................................... 23 [그림 11] 발화 수집 실험 진행 모습 ...................................................... 28 [그림 12] 수집한 발화 데이터 예시 ....................................................... 29 [그림 13] 기존/새로운 기능에 대한 intent/발화 등장 비율 .................... 36 [그림 14] In-Vehicle VUI 사용에서 나타나는 니즈 범위 ....................... 37 [그림 15] 운전 상황 관련 정도별 새로운 intent 발화 개수 ................... 41 [그림 16] 시스템의 발화 처리 난이도 레벨 ........................................... 44 [그림 16] 차, 인포테인먼트 기능 발화 별 시스템의 발화 처리 난이도 분류 결과 레벨 ........................................................................ 46 [그림 18] 특징적 발화의 시스템 발화 처리 난이도 분류 결과 ............. 50

Page 8: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

1

제 1 장 서 론

제 1 절 연구 배경

음성 인터페이스(Voice User Interface, VUI)는 음성인식 기술을 바탕으로 인간의

말에서 의미를 분석하여 인간-기계 상호작용을 가능하게 하는 인터페이스 방식이다

[1]. 음성 처리 기술 및 기계 학습의 발달로 음성 사용자 인터페이스의 자연어 처리

기능이 비약적으로 발전하였다[2], [3]. 발전된 VUI는 사용자의 발화 의도를 파악하여

사람과 시스템 간에 자연스러운 대화를 가능하게 한다[4], [5]. 이러한 VUI는 Apple의

Siri, Galaxy의 Bixby와 같은 스마트폰 인공지능 비서 서비스뿐만 아니라, 가정용

스마트 스피커에도 탑재되어 우리 주변에 보편화 되고 있다[6]. 미국의 Amazon

Echo를 시작으로 국내에서도 삼성, SKT, 카카오, 네이버 등 다양한 기업에서 스마트

스피커를 출시하였고, 이는 사용자와 시스템이 한국어로 자연스럽게 대화하는

인터랙션을 제공함으로써 많은 소비자에게 인기를 끌고 있다[6], [7].

[그림 1] 글로벌 음성인식 스피커 시장 전망①

① 사진 출처 : https://home.imeritz.com/invtsttganls/IndsAnlsList.do

Page 9: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

2

가정뿐만 아니라 차량 내에서도 VUI의 적용에 대한 관심이 뜨겁다[8]. 차량

내에서 인포테인먼트(Infotainment) ② 시스템을 통한 다양한 종류의 정보활동이

이뤄지면서, 눈과 손에 제약이 있는 상황에서도 사용이 자유로운 VUI의 장점이

부각되고 있다[3], [9]. 운전자의 전방 주시 태만으로 인한 사고 발생이 증가함에 따라

운전 중 휴대폰 및 영상장치 사용을 금지하는 안전 규제가 마련되는 상황에서, VUI로

차량 내의 AV시스템, 네비게이션 등을 조작하는 것은 안전과 편리성 측면에서

장점이 많다[10]. 이에 따라 VUI가 탑재된 차량이 증가하고 있으며[3], [11],

도요타에서 제시한 미래의 스마트카의 청사진 역시 차량 내의 에이전트와 음성으로

인터랙션 하는 모습을 보인다③.

[그림 2] 차량 내에서 사용되는 VUI 인포테인먼트 시스템

지금까지 차량 내의 인터페이스는 손을 사용하여 버튼이나 터치스크린을

조작하는 것이 대부분이었다[12], [13]. 음성 인식 기술의 발전과 함께 말로 지시하는

인터페이스가 도입되었지만, 초기에 등장한 음성 인터페이스는 버튼의 명칭을

말해서 입력하는, 즉 이전의 터치 행위가 발화로 대체된 단순 음성 지시 형태의

인터페이스였다[14]. 그러나 최근 시스템과 자연스럽게 대화를 나누는 VUI가

등장하면서 사용자는 자신의 니즈를 일상적인 언어로 시스템에게 말할 수 있게

되었다.

② https://en.wikipedia.org/wiki/Infotainment ③ https://www.youtube.com/watch?v=8IyPVK31j2o&t=154s

Page 10: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

3

사용자의 의도를 이해하는 VUI는 기존의 터치 및 단순 음성 지시 형태의

인터페이스와는 다른 성격을 보인다. 키보드와 같은 전통적인 터치 인풋 방식은

기계의 관점에서 디자인되어 사람의 자연스러운 인터랙션과는 거리가 있다. 따라서

자연스럽고 직접적인 인터랙션을 제공할 수 있는 인풋/아웃풋 방식에 대한 고민이

계속됐고, 음성 인터페이스가 이에 적합한 방식으로 주목받고 있다[65]. 연구 결과,

음성은 문자보다 더 표현이 풍부하고 효과적인 정보 전달 방식이며, 말하는 이의

인지 요구를 덜 하게 되고, 메시지의 내용인 의도에 대해 더 관심을 끌게 한다[77].

즉, 사용자는 더이상 시스템을 분석하고 그 안의 메뉴 체계를 파악하여 지시하는

것이 아닌, 자신이 원하는 의도를 얘기함으로써 필요한 기능에 곧바로 접근하게

된다[15].

이렇듯 VUI의 새로운 특징으로 인해, 사용자가 시스템을 사용하는 이유나

방식에 변화가 생기게 된다. 차량 내에 VUI가 적용된다면, 사용자가 운전 중에

VUI로 사용하는 기능도 지금까지와는 다른 양상을 보일 것이다. 따라서 차량 내

VUI를 디자인하기 위해서는 사용자의 니즈와 인터랙션 방식에 대해 알아야 할

필요가 있다. 그러나 실제 VUI를 구현하기 전에는 사용자가 운전 중 VUI에게 어떤

니즈를 갖고 있는지, VUI에게 어떤 방식으로 말을 하는지에 대해 파악하기 어려운

실정이다. 따라서 VUI 구현을 위해서는, 먼저 VUI의 특징 및 이러한 인터페이스에

적합한 기능에 대해 사용자 중심에서의 탐색 연구가 선행되어야 한다[16], [45].

Page 11: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

4

제 2 장 이론적 배경

제 1 절 사용자-시스템 인터랙션

1. 사용자-시스템 인터랙션 절차 및 구성

사용자는 자신의 니즈를 해결하기 위해 시스템의 기능을 사용하며, 이때

사람과 시스템 사이에 상호작용이 발생한다. [그림3] 는 고전적인 사람-시스템 간

인터랙션 구성도로, 인터랙션이 표명, 변환, 표현, 평가의 총 4단계를 거쳐

이루어진다[17]-[19]. 먼저 표명 단계에서 사용자가 자신의 니즈를 시스템에게

명령의 형태로 입력한다. 그 후 시스템은 사용자의 입력을 시스템적 언어로

변환하는데, 이를 변환 단계라 한다. 그 후 시스템은 적절한 결과를 사용자에게

출력하여 제시하는데 이를 표현 단계라고 한다. 마지막으로 사용자는 시스템이

출력한 결과를 보고 판단하는 단계를 거치며, 이를 평가 단계라고 한다. 네 가지

단계를 사용자/시스템 측으로 나누어 보면, 사용자 측에서는 니즈를 표명하고

시스템의 결과를 평가하는 단계가 존재하고 시스템 측에서는 사용자의 입력을

변환하고 결과를 표현하는 단계가 존재한다.

인터페이스는 이 과정에서 사용자와 시스템을 매개하는 역할을 하는데,

사용자-시스템 인터페이스는 사람과 시스템 사이의 경계나 접점을 지칭하는

것으로, 두 객체 사이의 상호작용을 가능케 해준다[20], [21]. 즉 인터페이스는

인터랙션을 가능케 하는 공간이기 때문에, 새로운 인터페이스를 구현하기

위해서는 1) 사용자의 니즈를 파악하여 시스템의 기능을 확정하고, 2) 사용자

측의 인터랙션을 파악하여 시스템 측의 인터렉션을 디자인해야 한다.

Page 12: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

5

2. 7 stage model 에서 나타나는 표명 및 평가 단계

노먼의 7 stage model은 사용자가 시스템을 사용할 때 나타나는 행동을

7단계로 나눠 설명한다[22]. 사용자가 어떤 것을 하기 위해서는 무엇을 원하는지,

즉 달성해야 할 목표에 대해 알아야 한다. 그리고 외부 세상에 대해 어떤 행동을

취하게 되고, 이후 목표가 달성되었는가를 확인하는 과정을 거친다. 즉, 이

과정에서 세상에 대해 표명과 평가(execution and evaluation) 과정이 이뤄진다. 7

stage model은 사용자가 목적을 형성하는 1) Forming the goal, 의도나 계획을

설정하는 2) Forming the intention, 구체적인 행동의 단계를 설정하는 3)

Specifying an Action Sequence, 실행으로 이어지는 4) Executing an Action,

그리고 결과를 이해하고 지각하는 5) Perceiving the State of the World, 결과를

해석하는 6) Interpreting the State of the World, 마지막으로 원했던 목표와 결과를

비교하며 평가하는 7) Evaluating the Outcome으로 이뤄진다. 이 중 의도, 행동,

실행에 해당하는 부분이 사용자 – 시스템 인터랙션 중 표명 단계에 해당하며,

지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템 인터랙션 중 평가 단계에

해당한다고 볼 수 있다.

[그림 3] 사람 – 시스템 간 인터랙션 구성도

Page 13: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

6

제 2 절 Voice User Interface (VUI)

1. 관련 기술에 대한 내용

VUI는 음성 인식(ASR), 음성 이해(NLU), 음성 합성(TTS) 기술을 바탕으로

구현 된다[23]-[25]. 앞에서 알아본 인터랙션 단계와 연관 지어 설명하자면, 변환

단계에서 음성 인식 및 음성 이해 기술이 사용되고, 표현 단계에서 음성 합성

기술이 사용된다. 시스템은 사람처럼 소리 정보를 그대로 인식하지 못하기

때문에 음성 인터페이스 구현을 위해서 이러한 기술이 필수적이다. 좀 더 자세히

살펴보면, 음성 인식 기술은 사용자로부터 인식한 음성 신호를 구나 단어로

변환하는 역할을 한다. 음성 이해 기술은 변환된 구와 단어로부터 발화의 의도

및 맥락을 파악한다. 그리고 음성 합성 기술은 시스템이 만든 텍스트 형태의

결과를 음성으로 출력하는 기술이다.

[그림 4] 7 stages in model of interaction

Page 14: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

7

2. 작동 원리에 대한 내용

VUI 구현에 핵심이 되는 기술은 음성 이해 기술이다. 이는 사용자의 말에서

사용자가 VUI를 활성화 시킨 목적인 Intent와 VUI가 적절한 응답을 하기 위해

필요한 정보인 Object를 추출하는 기술이다.

즉, 시스템이 사용자의 발화를 이해하기 위해서는 Intent와 Object의 구조로

사용자의 발화를 변환하는 과정이 필요하다. [그림6] 는 Amazon의 음성서비스인

Skill⑤을 제작하는 과정에서 초기에 디자인해야 하는 Intent-Object 페어 구성을

보여준다.

④ 사진 출처 : https://blog.dialogflow.com/post/speech-interface-3-steps/ ⑤ https://developer.amazon.com/docs/ask-overviews/build-skills-with-the-alexa-

skills-kit.html

[그림 5] VUI 구현 과정 및 각 단계에서 필요한 기술④

Page 15: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

8

예를 들어 사용자가 식당을 추천받기 위해서는, 해당 Intent 수행을 위해

필요한 object 1(원하는 음식의 종류), object 2(식당의 위치 기준), object 3(식당

추천의 기준)이 입력되어야 한다. [그림7] 은 object가 한 번에 입력된 발화의

예시와, 이로부터 Intent-object가 추출되는 예시이다. 사용자와 자연스러운

대화가 가능한 VUI를 구현하기 위해서는 정확한 Intent-Object 페어 구성 및

대량의 사용자 발화 데이터 학습 과정이 필요하다.

[그림 6] Amazon Skill의 Intent – Object 페어 구성 예시

[그림 7] 음성이해 단계에서의 자연어 변환 예시

Page 16: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

9

제 3 장 선행 연구

제 1 절 Voice User Interface의 이해

제2장에서 설명한 음성 처리 기술이 발전하면서 음성 인터페이스의 형태가

크게 달라졌다. 음성 처리 기술이 빅데이터 및 인공지능과 결합하여 인간의

발화를 정확하게 인식하고 지능적으로 의미를 뽑아낼 수 있게 되면서, VUI 는

새로운 사용자 인터페이스로 주목받고 있다[23]. 특히 발화의 의도 및 맥락

파악에 핵심이 되는 음성 이해 기술이 발전하기 전의 VUI는 사용자의 음성을

인식하는 수준으로 제공되는 VUI 였다. 이런 기술 수준에서 구현 가능한

인터페이스는 주로 유선 통신에서 작동하는 IVR(Interactive Voice Response)

시스템 ⑥ 과 같은 형태이다[26]-[28]. IVR 시스템은 2000년대 초반 음성인식

기술의 발전과 함께 상용화되었으며, 주로 콜센터를 대체하는 용도로, 항공권

예약, 영화 상영시간 확인, 교통 정보 확인 등의 기능을 제공하였다[65]. IVR

시스템은 기존에 존재하던 GUI(Graphic User Interface)의 메뉴 체계를 가져와서,

각 단계에 선택 가능한 아이템을 음성으로 읽어주고, 사용자는 그 가운데 자신이

원하는 아이템을 정확하게 음성으로 명명해야 한다. 메뉴 구조의 복잡성,

메뉴명의 대표성 부족, 사용자 위치 인식의 어려움, 메뉴 간 이동의 어려움 등과

같이 IVR 시스템의 메뉴 체계상의 사용성 저해 요소가 존재한다고 연구에서

밝혔다[29].

현재 음성 인식 기술은 자연어를 이해하고 정확도 향상을 위해

어플리케이션의 맥락을 활용하는 단계로 발전했다[65]. 음성 인식 기술의 발달로

인해 VUI는 사람과 자연스럽게 대화할 수 있는 수준으로 발전하였고, 이로 인해 ⑥ https://en.wikipedia.org/wiki/Interactive_voice_response

Page 17: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

10

VUI 인터랙션에서의 사용자 경험이 이전과 다른 형태를 보인다. 첫째로,

사용자는 시스템 이해도가 낮더라도 문제없이 VUI를 사용할 수 있다. 사용자는

VUI와 인터랙션 할 때, 이전처럼 엄격한 구문으로 자신의 functional intent를

지시하는 것이 아니라, 자연스러운 말로 intent를 표현한다[67]. 즉, 사용자가

이전처럼 시스템의 복잡한 작동 과정 및 전문적인 용어를 배우지 않고도

시스템을 조작할 수 있는 것이다[68], [69]. 둘째로, 사용자는 VUI를 사용하는

과정에서 시스템에 대해 agentness를 느끼게 된다[49]. Google Now, MS Cortana,

Apple Siri와 같은 인공지능 음성 에이전트는 검색 데이터나 핸드폰에 설치된

다른 앱의 정보를 활용하여 결과를 제시함으로써 사용자가 시스템을 더

‘지능적으로’ 느끼게 한다[65]. 또한, 사용자는 본래 의도했던 기능 수행뿐만

아니라 자연스럽게 농담, 일상 대화까지 VUI와의 인터랙션 범위를 확대하여,

시스템을 친근하게 느끼게 된다[62]. 현재 시중에 나와 있는 제품들에 대한

평가를 보면 많은 사용자가 대화로 편리하게 인터랙션 할 수 있다는 점에 대해

만족하고 있으며, VUI의 적용 범위도 가정, 차량 등 여러 분야로 확대되고 있다.

위에서 다룬 것과 같이, 음성으로 작동하는 VUI 시스템도 탑재 기술의

수준에 따라 성격이 크게 달라진다. 따라서, 본 논문에서는 단순 음성 인식

수준의 VUI을 IVR 시스템이라 지칭하고, 자연스러운 대화가 가능한 수준인

현재의 VUI를 일반 VUI로 지칭하고자 한다.

제 2 절 Voice User Interface 연구

본 절에서는 VUI 관련 연구를 다양한 측면에서 정리하였다. 우선 VUI 연구가

진행되는 분야에 대해 살펴보고, 그 후 VUI 연구가 이뤄지는 사용 상황 및 in-situ

실험에서의 결과에 대해 알아보았다. 마지막으로 VUI 연구의 방법적인 부분에 관해

Page 18: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

11

설명한다.

첫째, 음성이라는 인터랙션의 특징을 반영한 VUI 연구는 다음과 같이 진행된다.

VUI 는 대화를 매개로 하기 때문에, 사용자가 느끼는 시스템의 퍼르소나, 시스템의

대화 전략(Dialog Management Strategy), 시스템의 답변 제시 방법 등이 인터랙션의

사용성 및 만족도에 크게 영향을 미친다[49]. VUI 시스템의 퍼르소나를 디자인하기

위해서 에이전트의 음성적 특성에 대한 연구가 진행된다. 정재열은 연구를 통해

스마트폰 VUI의 목소리의 인지되는 성별(남성적 vs. 여성적), 말하는 태도(차분함 vs.

활기참) 와 사용자의 신뢰도, 만족도, 정보 수용도 사이의 관계를 파악하였다[63].

시스템의 발화 방식은 주로 오류 상황에서 어떤 피드백을 제공할 것인가에 초점이

맞춰져 있다. 사람과 사람 사이의 대화에서도 인식 및 이해의 단계에서 의사소통의

어려움이 발생할뿐더러, 아직 음성 기술이 사용자의 발화를 100% 완벽하게

인식하고 이해할 수 없기 때문에 필연적으로 오류가 발생한다[62]. 따라서 VUI

오류가 발생했을 때, 시스템의 반응과 사용자의 사용성 및 만족도 사이의

상관관계에 대해 파악하는 연구가 많이 진행되어왔다. Don Bohus는 연구를 통해

오류 상황에서 시스템이 제공하는 오류 회복 전략에 따라 사용자가 다음번에 오류

없이 시스템과 대화할 확률이 달라진다는 것을 밝혔다[64]. 사용자의 김진현은

연구에서 VUI 디바이스가 오류 발생 시 사용자에게 사과하는 말을 할 때, 사용자의

좌절감이 감소한다는 것을 밝혔다[72].

둘째, VUI 연구가 활발하게 진행되는 상황에 대해 알아보았다. 집안 내

사물인터넷 기기들을 연결하는 허브인 스마트홈 디바이스에서 VUI 적용이 활발한

편이다. 그 이유는 첫째, 집이라는 넓은 공간에서 항상 지시할 수 있고, 둘째, 가족

구성원인 남녀노소 모두 편하게 사용할 수 있기 때문이다[71]. 따라서 VUI 연구 역시

스마트홈 디바이스를 대상으로 많이 진행되었다. Brush는 연구를 통해 가정 내

VUI시스템과 사용자 간 인터랙션 방식에 대해 밝혔다. 이들은 시중에 나와 있는

스마트 스피커나 DIY가 가능한 라즈베리파이로 구현된 가정 내 VUI 시스템에서

Page 19: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

12

일어나는 인터랙션을 파악하였으며, 연구 결과에 따르면 참가자들은 주로

웹브라우징, 일정관리, 메일관리와 같은 기능을 사용했다고 한다. 이러한 인터랙션은

주로 5분 이내의 짧은 지속시간을 보였으며, 주로 snack information(small, easy to

digest, chunks of information)과 같은 정보활동이 많이 일어났다. 연구에서는 주변의

소음, 다양한 사용자, 기계-사용자 거리에 대한 부분을 VUI 시스템의 챌린지로

밝혔으며, 음성 인터랙션으로 수행 가능한 기능 범위를 넓히는 것을 제안한다[70].

Michel Vacher은 노인을 대상으로 VUI를 탑재한 스마트홈 디바이스 연구를

진행하였다. 노인 사용자의 니즈를 파악하여 시스템을 디자인하고, 제작한 VUI

스마트홈 디바이스의 사용성 평가를 진행하여 인터랙션의 특징을 파악하였다. 초기

연구에서 우려했던 바와는 달리, 노인 사용자는 VUI 스마트홈 디바이스가 자기 삶의

패턴을 불필요하게 바꾼다고 생각하지 않았다. 그러나 시스템이 모든 것을 통제하여

인간의 생활 방식이 게으른 성격을 띨 수 있다는 것에 대한 우려를 보였다. 따라서

본 연구에서는 VUI 스마트홈 사용자에게 통제권을 갖게 함으로써 일상생활 관리에

대한 주도권을 기계에 뺏기지 않도록 시스템을 디자인해야 한다고 말한다[71].

마지막으로, VUI 연구의 방법적인 부분에 대해 알아보았다. VUI 인터랙션이

사용자와 시스템의 발화를 바탕으로 이뤄지기 때문에 VUI 관련 연구는 주로

사용자의 발화 데이터를 수집하는 방식으로 연구가 진행된다. Han은 27개의 intent를

파악할 수 있는 VUI 시스템을 개발하였고, 약 20명의 참가자를 대상으로 6일간

실험을 진행하여 약 5000여 개의 발화 데이터를 수집하였다. 이 데이터를 분석하여

실제 사용자가 어떤 기능을 많이 사용하고, 어떤 형태로 발화가 수집되는지

알아보았다[67]. 그러나 이처럼 실제 VUI를 개발하여 실험하는 경우는 극히 드물다.

그 이유는 Intent를 파악할 수 있을 정도로 시스템을 고도화하는 것이 단시간에

이뤄지기 어려운 작업이며, 이를 위해 필요한 대량의 데이터를 실험을 통해 얻는

것도 거의 불가능한 일이기 때문이다.

VUI 개발에 대한 어려움으로 인해, Vichel의 연구에서는 홈디바이스에 녹음기를

Page 20: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

13

설치하여 사용자가 홈디바이스에게 지시하는 발화를 모두 녹음하였다. 그러나 실제

시스템 작동은 불가능하기 때문에 ESM(Experience Sampling Method)⑦으로 사용

맥락에 대해 파악하였다[70]. 그러나 이렇게 사용자 측의 발화만 일방적으로 모으는

방식은 실제 VUI 인터랙션을 파악하는 데에 한계가 있다. 따라서 다른 많은 VUI

연구들이 Wizard of Oz 방법⑧으로 진행된다[43]-[48]. 대체로 연구자가 참가자 모르게

시스템의 응답을 대신 답변하는 WOZ 방법을 사용하여 음성 이해 기술을 보완한다.

Michel Vacher의 연구에서는 시스템의 기능을 디자인하기 위해 사용자 인터뷰를

통해 니즈를 파악하고, 이후 검증 과정에서 Wizard of Oz 방법을 사용하여 시스템의

음성에 대한 노인 사용자의 반응을 파악했다[71].

제 3 절 In-Vehicle Interface 연구

차량 내의 인터페이스 연구는 인풋 디바이스의 등장에 발맞춰 진행됐다.

터치스크린, 로터리 컨트롤러, 터치 패드 등 새로운 인풋 방식이 개발에 맞춰, 인풋

방식을 차량에 어떻게 적용해야 할지에 대해 고민하는 연구가 주를 이룬다[30]-[32].

인터페이스 연구의 방향은 크게 두 가지로 나뉜다. 첫 번째는 운전이라는 특수한

상황으로 인해, 운전 중 입력방식 사용의 안전성 및 사용자의 수용 여부에 대해

파악하는 연구이다. 이러한 연구는 주로 시뮬레이터 환경에서 특정 인터페이스로

정해진 테스크를 수행하면서 사용자의 시선 이동, 장애물 반응 속도, 평균 속도 등을

파악하는 형태로 이뤄진다[30]-[34]. 두 번째는 인풋 디바이스의 특징과 적합한

기능에 대해 파악하는 연구이다[35]. 이러한 연구는 시뮬레이터 환경에서 여러 개의

인풋 디바이스로 주어진 테스크를 수행하는 형태로 이뤄진다. 이때, 인풋 디바이스의

⑦ https://en.wikipedia.org/wiki/Experience_sampling_method ⑧ https://en.wikipedia.org/wiki/Wizard_of_Oz_experiment

Page 21: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

14

종류가 독립 변수로 설정되며, 테스크 수행 시간, 정확도 등의 요소가 종속 변수로

설정된다[32], [35]-[38].

사람의 말로 인풋을 하는 차량 내 음성 인터페이스에 대한 연구를 살펴보면

대부분이 첫 번째 방향에 해당하는 음성의 안전성, 수용 여부 등에 대한 연구이다.

운전자의 주의 분산(distraction)은 차 사고의 주요 원인 중 하나이며[73], 시뮬레이터

환경에서 여러 테스크를 수행하면서 운전자의 운전 중 차선 변경 능력과 시선

패턴을 분석하여 운전 중 음성으로 차량 내의 기능을 조작하는 것은 운전자의 정신

분산을 감소시키고, 전방 주시 비율을 높인다고 밝혔다[39], [73]. 또한, 차량 내의

멀티미디어 시스템 조작을 위한 다양한 인터페이스(터치, 컨트롤러, 음성)를 비교해

봤을 때도, 음성 인터페이스는 다른 것들에 비해 운전자의 주의 분산을 효과적으로

줄일 수 있다[74]. 즉, 음성 인터페이스는 운전을 하면서 sub-task를 진행하는 데

있어 적합한 인터페이스라고 할 수 있다[39]-[42].

Angelini는 자연어 음성 인풋의 특징과 적합한 기능에 대해 파악하는 연구를

진행했다. In-Vehicle Infotainment System(IVIS) 조작 방식으로 세 가지 인풋(모션

제스쳐, 터치, 음성 인풋)을 비교하였으며, 음성 인풋의 경우에는 Wizard of Oz로

실험물을 구현하여 실험을 진행하였다. 주행 퍼포먼스와 secondary task 수행

퍼포먼스를 정량적으로 측정하였으며, 주관적인 작업 부담과 사용성 및 학습성에

대해 설문 데이터를 수집하는 실험을 진행하였다. 그러나 secondary task의 선택에

있어서 연구의 한계가 존재한다. 이 연구에서 밝혔듯이 다른 성격의 인터페이스에

대해 동일한 지시사항을 내렸기 때문에 특히, 자유로운 입력이 가능한 음성

인터페이스의 경우는 secondary task가 적절한 비교 대상이라 보기 어렵다. 음성의

경우에는 메뉴 체계에서의 이동( i.e., UP, DOWN, RIGHT, LEFT, SELECT, and

BACK)이 아닌 직접 지시하는 것(e.g., “System, call Home”)이 더 빠르고 적합한

인터랙션 방식이기 때문이다[75]. Eriksson은 차량 내 VUI를 사용하면서 사용자의

의도와 시스템이 기능이 직접 연결되기 때문에, 사용자가 새로운 기능을 사용할

Page 22: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

15

가능성이 증가한다고 주장한다[45]. 따라서, VUI 연구를 위해서는 우선 음성

인터랙션에 적합한 기능을 찾는 과정이 필요하다고 얘기한다.

Page 23: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

16

제 4 장 연구 문제

본 연구의 연구 문제는 크게 세 가지로 나뉜다. 첫 번째는 In-Vehicle VUI를

사용하는 사용자의 니즈를 파악하는 것이며, 이는 추후 In-Vehicle VUI 적용 시

구현이 필요한 기능을 파악하기 위한 부분이다. 두 번째는 In-Vehicle VUI를 사용할

때 나타나는 사용자 발화의 특징을 파악하는 것이며, 이는 사용자 측 인터랙션

과정인 표명/평가 부분을 파악하여 추후 In-Vehicle VUI 의 변환/표현 단계에서

필요한 요소를 파악하기 위한 부분이다. 마지막은 In-Vehicle VUI 를 사용하면서,

사용자가 agent에게 느끼는 기대사항에 대해 파악하는 부분이다.

제2장 1절에서 알아본 인터랙션의 절차 및 구성 요소에 대한 프레임을 바탕으로,

[그림8] 와 같이 연구 문제를 도식화할 수 있다.

[그림 8] 연구 문제 도식화

Page 24: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

17

연구문제 1. In-Vehicle VUI를 사용하는 사용자의 니즈는 어떠한가?

1.1. In-Vehicle VUI를 사용할 때 새롭게 나타나는 차량 내 니즈는 무엇인가?

1.2. 기존 기능과 비교했을 때 새롭게 나타나는 니즈의 특징은 무엇인가?

<연구문제 1>에서는 In-Vehicle VUI를 사용하는 사용자의 니즈를 파악한다. 먼저

VUI를 사용하면서 차량 내에서 새롭게 등장하는 니즈가 무엇인지 알아본다. 이를

위해 기존에 차량 내에서 사용되는 기능에 대해 정리를 하고, 이를 기준으로 기존

기능과 VUI를 사용하면서 새롭게 등장하는 기능을 분류한다. 그 이후에는 새롭게

등장한 니즈의 특징을 파악한다. 이때, 기존 기능과의 비교를 통해 차량 내의 voice

agent가 등장하면서 어떠한 부분에서 니즈가 확대되는지 파악한다.

연구문제 2. In-Vehicle VUI를 사용할 때 나타나는 사용자 발화의 특징은 무엇인가?

2.1 의도 파악이 가능한 VUI를 사용할 때 새롭게 나타나는 발화는 어떤 형태인가?

2.2 In-Vehicle VUI의 표명/변환 단계에서 나타나는 발화의 특징은 무엇인가?

<연구문제 2>에서는 In-Vehicle VUI를 사용할 때 나타나는 사용자 발화의 특징을

파악한다. 먼저, IVR 시스템에서는 나오지 않고, NLU를 바탕으로 구현되는 VUI를

사용할 때 새롭게 나타나는 발화들이 무엇인지 파악한다. 이를 위해 VUI 구현

원리을 바탕으로 발화 분류 기준을 만들고, 이를 토대로 발화를 system-like ~

human-like 축으로 나눈다. 그 이후에는 사용자 발화를 분석하여 인터랙션 과정 중

표명/변환 단계에서 나타나는 특징을 파악한다.

연구문제 3. 사용자는 In-Vehicle Voice Agent에게 무엇을 기대하는가?

<연구문제 3>에서는 결과를 바탕으로 사용자가 In-Vehicle Voice Agent에게

기대하는 요소를 도출하고, 이를 통해 연구의 논의점을 발전시키고자 한다.

Page 25: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

18

제 5 장 연구 방법

본 연구는 실험을 통해 In-Vehicle VUI를 사용하는 사용자의 발화를 수집하고,

수집한 발화 데이터를 분석하여 연구 문제에 대한 결과를 제시하고자 한다. 이를

위하여 운전 중 VUI 사용시 나타날 수 있는 사용자의 발화를 수집하는 Wizard of

Oz 실험을 설계하였다. 그 후 실험에 적합한 실험물을 제작하고, 실험을 진행하여

실험 참가자의 발화를 수집하였다. 실험을 통해 수집한 발화 데이터 및 인터뷰

데이터를 분석하여 결과를 도출하였다. 다음으로는 각 과정에 대한 구체적인 방법에

관해 기술하도록 하겠다.

제 1 절 연구의 성격

본격적인 연구 방법에 대한 설명에 앞서, 본 연구의 성격을 규명하고 논문

작성자가 기여한 부분에 대해 명확히 하고자 한다. 본 연구는 서울대학교

융합과학기술대학원 사용자 경험 연구실과 SKT T map UX 팀이 협업한 산학

프로젝트에서 spin-off 한 연구이다. 산학 프로젝트의 목적은 SKT의 내비게이션

어플리케이션 T map에 적합한 인공지능 VUI 디자인 원칙 수립 및 대표 기능에 대한

VUI 구현이며, 해당 프로젝트는 17년 5월부터 7월까지 약 3개월간 진행되었다. 논문

작성자는 해당 프로젝트의 전 과정에 참가하였으며, 프로젝트 이후 연구적으로

규명하고 싶은 문제가 있어 본 연구를 진행하게 되었다. 따라서 본 장의 제2~4절에

해당하는 부분은 프로젝트에서 다른 팀원들과 협력하여 실시한 작업이고, 제5절

데이터 분석 방법을 설정하는 것부터 이후 연구 결과를 도출하는 과정은 본인이

프로젝트 이후 개별적으로 진행한 것임을 밝혀둔다.

제6장에서 연구 결과를 도출하는 과정에서도, <연구문제 1>에 대한 부분은

Page 26: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

19

프로젝트에서의 ‘새로운 니즈 발견’ 관련 결과와 유사한 부분이 있다.

프로젝트에서는 발화를 ‘니즈’로 구분하여 분석을 진행하였고, 본 연구에서는

발화를 ‘intent’로 구분하여 분석을 진행하였다. 예를 들어‘심심하다…’와 같은

발화의 경우, ‘니즈’로 분류했을 시에는 잡담으로 분류되었지만, intent로 분류했을

시에는 실험에서 제시한 답변 결과에 맞춰 음악재생으로 분류된다. 그러나 특이한

몇 개의 발화 이외의 대부분의 경우 ‘니즈’분류와 ‘ intent’ 분류가 같은 결과로

분류되었다. 발화 데이터 분류를 바탕으로 도출한 <연구문제 1>의 결과 역시

프로젝트의 결과와 유사한 부분이 존재한다. 그러나 본 연구에서는 In-Vehicle

상황에 더 집중하기 위해 주행 맥락과 관련하여 결과 분석을 추가로 진행하였다.

<연구문제 2, 3>에 대한 분석은 프로젝트 중 아이디어를 얻어 본 연구에서 새롭게

진행하였다.

한 개인의 경험이나 지식을 분리할 수 없기 때문에, 프로젝트 과정에서 생긴

VUI 및 In-Vehicle 상황에 대한 인사이트가 본 연구에도 반영될 수 있음을 알린다.

제 2 절 실험 설계

VUI 구현을 위해서는 학습을 위해 대량의 발화 데이터가 필요하기 때문에,

기능을 정하지 않은 상황에서 프로토타입을 제작하는 데에 어려움이 있다. 따라서

대부분의 관련 연구들에서는 이를 위해 연구자가 개입하는 Wizard of Oz 방법을

사용하여 참가자가 VUI를 사용하는 것과 같은 경험을 제공하여 실험을 진행한다[44],

[45]. 따라서 본 연구에서도 특정 Intent에 정해진 답을 제시하는 Rule based VUI

스크립트를 제작하고, 참가자의 발화를 연구자가 back room에서 듣고 Intent를

판단하여 적절한 답변을 제시하는 Wizard of Oz 방식으로 실험을 설계하였다.

실제 주행 상황에서 완성되지 않은 프로토타입을 사용하여 실험을 진행하는

Page 27: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

20

것은 사고의 위험이 있다. 따라서 본 연구에서는 참가자가 직접 주행을 하지

않으면서도 운전 상황에 몰입할 수 있도록, 운전 상황에서 촬영한 다양한 사진을

이용한 실험을 설계였다. 실제로 운전 상황과 관련된 사진을 통해 참가자에게 운전

중 나올법한 발화를 유도할 수 있었다.

제 3 절 실험물 제작 방법

실험물을 제작하기에 앞서 예비 실험을 진행하였다. 예비 실험 결과를 바탕으로

실험에 사용되는 두 가지의 실험물을 제작하였다.

1. 예비 실험

예비 실험의 실험 참가자는 최근 운전 경력이 1년 이상인 운전자 6명으로

하였다. 참가자는 모두 남성이었으며, 주로 출퇴근 목적으로 운전을 하였다.

예비 실험의 목적은 영상과 사진 중에서 어떤 실험물이 사용자의 발화를 더

잘 유도하는지 확인하고, 이 과정에서 수집한 사용자들의 발화를 바탕으로 Rule-

based VUI 스크립트 제작에 사용될 니즈를 파악하는 데에 있다.

예비 실험에서 사용될 시각적 실험물은 2가지 형태로 제작되었다. 첫 번째,

영상 실험물은 회사 주차장에서 근처 마트까지 운전하는 상황을 촬영한 5분

가량의 영상이다. 두 번째, 사진 실험물은 4가지 성격(차량 내부 확대, 운전자

행동, 주행 상황, 외부 풍경)의 사진으로 총 48장을 수집하였다. 2가지 실험물은

모두 실험자가 직접 운전하는 느낌을 제공하기 위해 1인칭 시점으로 촬영되었다.

실험은 between-group으로 진행되었으며, 각각 영상 실험물과 사진 실험물이

제공되었다. 몰입 적인 분위기를 제공하기 위해 55인치 커브드 티비에 실험물을

재생하였다. 영상 그룹 참가자는 주어진 영상을 보며 VUI 시스템에 필요한

Page 28: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

21

것들을 말하였고, 사진 그룹 참가자는 사진을 직접 넘기면서 VUI 시스템에게

필요한 것을 말하였다. 연구자는 back room에서 참가자의 발화에 적절한 답변을

작성하여 블루투스 스피커를 통해 TTS(Text to Speech)로 제공하였다. 실험이

끝난 후에는 간단한 인터뷰를 통해 실험물에 대한 참가자의 피드백을 수집하였다.

[표 1] 예비 실험 결과

예비 실험 결과는 [표1] 와 같이 나타났다. 영상 그룹에서는 평균 9개의

발화가 수집되었으며, 사진 그룹에서는 평균 61개의 발화가 수집되었다.

인터뷰를 통해 그 원인에 대해 파악한 결과, 영상의 경우에는 실시간으로

지나가는 화면에 집중하다 보면 에이전트에게 지시해야 하는 말에 대해 생각할

시간적 여유가 부족하다는 의견이 있었다. 그에 반해 사진을 실험물로 사용했을

때는, 참가자가 사진을 보고 상황을 유추하고 평소 자신이 운전할 때 필요하거나

궁금했던 것과 연결해 발화하기 때문에 다양한 발화가 많이 수집될 수 있었다.

즉, 사진 실험물이 영상 실험물보다 발화 유도율이 더 높으며, 대부분

사진에서 참가자들이 발화하는 것을 확인할 수 있었다. 참가자는 사진 1장당

평균 30초를 시청하였다. 참가자들은 인터뷰에서 사진이 너무 많은 경우나

중복되는 사진이 존재하는 경우에는 발화 의지가 감소한다고 밝혔다.

Page 29: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

22

2. 발화를 유발하는 사진 실험물 제작

예비 실험 결과를 바탕으로 참가자의 발화를 유발하는 운전 상황 관련

사진을 사용하여 사진 실험물을 제작하였다. 사진 실험물로는 운전 중 촬영한 총

60장의 사진을 사용하였으며, 두 가지 set으로 구성된다.

첫 번째는 시나리오 사진 set으로, 운전자 인터뷰 및 운전 기록을 기반으로

가장 많이 발견되는 3개의 시나리오 (퇴근길, 마트 가는 길, 근교 외출 길)를

선정하였다. 사진은 연구자가 차를 타고 시나리오를 수행하면서 머리에 장착한

액션캠을 사용하여 연속적으로 촬영하고, 이후 시나리오별로 10개의 연속적인

사진을 선별하였다.

두 번째는 랜덤 사진 set으로, 예비 실험에서 발화가 잘 나오는 차량 내, 외부

사진을 바탕으로 선정하였다. 사진은 연구자가 운전 전과 운전 중에 차 안에서

다양한 시점과 각도에서 촬영하였고, 이후 촬영된 사진 중에서 30장을 선택하여

랜덤하게 배열하였다.

[그림 9] 실험에서 사용한 사진 실험물 중 일부

Page 30: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

23

3. Wizard of Oz 방식으로 작동하는 Rule-based VUI 제작

Rule-based VUI는 Amazon Echo의 프레임과 VUI 디자인 방법론을 숙달 후,

이를 기반으로 제작하였다. 세부 전략은 [그림10]과 같은 플로우 차트로 나타난다.

답변의 종류는 크게 2가지로, Rule-based TTS로 제공되는 일반 prompt와, 수행

불가 피드백과, 실시간 TTS로 제공되는 웹 검색결과가 있다. 구체적으로

사용자의 발화가 기존의 작성된 대사로 대응이 가능한 경우 1) 입력되어있는

intent에 대해 미리 정해놓은 답변을 제공, 사용자의 발화가 현재 구현이 가능한

수준이고, 검색으로 답할 수 있는 경우에는 2) 실시간 웹검색 후 결과를 제공,

사용자의 발화가 현재 구현이 가능한 수준이고, 특별한 검색 결과가 필요 없는

경우에는 3) 자료를 화면에 띄웠다는 ‘화면 노출’ 피드백을 제공, 사용자의

발화가 현실 가능성이 없는 경우에는 4) 할 수 있는 기능 범위를

넘어선다는‘수행 불가’피드백 제공하는 4가지의 피드백 방식이 존재한다.

[그림 10] Wizard of Oz 응답 로직

Page 31: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

24

전략1을 위해서 예비 실험에서 수집한 발화와 인터뷰 결과를 바탕으로

사용자가 주로 지시하는 기능을 파악하고 이에 대응되는 시스템의 피드백 대사를

제작하였다. 등장 빈도가 높은 기능의 경우에는 2~3개의 피드백을 제작하여 실험

과정에서 사용자가 시스템의 한계를 최대한 덜 느끼도록 하였다. 총 121개의

대사를 제작하였다. (시스템 작동 관련: 15개, 경로 관련: 48개, 정보 제공 관련:

53개, 차량 조절 관련: 5개)

전략2를 위해서는 실험 중 back room에 있는 두 연구자의 역할을 분담했다.

빠른 피드백을 제공하기 위해 한 명은 웹검색을 하는 역할을 맡고, 다른 한 명은

그 결과를 빠르게 입력하여 사용자에게 TTS(Text to Speech)로 답변하는 역할을

맡았다.

Page 32: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

25

[표 2] Rule-based로 제작한 시스템의 대사(prompt) 예시

Page 33: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

26

제 4 절 실험 방법

1. 실험 참가자 모집

총 11명의 실험 참가자를 모집하여 실험을 진행하였다. 본 실험은 운전 중

VUI를 사용할 때 나타날 수 있는 발화를 수집하는 실험이기 때문에, 운전해본

경험이 있는 참가자를 대상으로 삼았다. 따라서 연구 대상은 최근 운전 경력이

1년 이상이며, 주 1회 이상 운전하는 사람을 모집하였다. 모집 과정에서

사용자의 인구 통계학적 정보, 운전 목적, VUI 숙련도를 수집하였으며, 참가자

11명의 해당 정보는 [표3] 와 같다.

운전자를 모집하기 위해 온라인에서는 자동차 관련 인터넷 커뮤니티에 모집

글을 게재하였고, 오프라인 에서는 건물의 주차장 주변에 모집 글을 부착하였다.

직장인 참가자가 평일 실험이 어려운 점, 실험 참가자가 실험실로 방문해야 하는

점 등을 고려하여 실험의 리워드는 4만 원으로 책정하였다.

[표 3] 실험 참가자 목록 및 정보

Page 34: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

27

2. 실험 과정

실험은 실험에 대한 간단한 튜토리얼과 참가자의 발화를 수집하는 실험 후에,

참가자가 실험에서 말한 발화들에 대해 추가적인 인터뷰를 진행하는 순서로

진행되었다.

발화 수집 실험은 약 40분 정도 소요되며, Wizard of Oz 방법을 사용하기

때문에 [그림11] 에서 처럼 두 개의 방을 이용하여 진행된다. 참가자는 Main

room에 위치하며, 사전에 연구자로부터 “운전과 관련된 사진을 보고 차량 내의

에이전트에게 요청하고 싶은 것을 자유롭게 말해 주세요.”라는 설명을 듣는다.

참가자의 앞에는 몰입 적인 분위기를 제공하기 위하여 55인치 커브드 티비가

놓여 있으며, 운전 중에 들리는 다양한 소음을 ambient music으로 재생하였다.

티비에는 사진 실험물이 노출되고, 참가자가 노트북에 연결된 리모컨을 통해

직접 사진을 변경하면서 사진을 보고 떠오른 발화를 옆에 비치된 블루투스

스피커에게 말한다. 연구진은 Back room에서 CCTV를 이용해 사진 실험물과

참자가의 모습을 관찰하며, 참가자의 발화를 듣는다. 연구자는 발화의 인텐트를

파악하고 미리 작성된 대사 또는 실시간 웹검색으로 찾은 문장을 블루투스

스피커를 통해 참가자에게 TTS로 제공한다.

[그림 11] 발화 수집 실험 진행 모습

Page 35: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

28

인터뷰는 약 20분 정도 소요되며, 사용자가 발화 수집 실험에서 말한

발화들을 바탕으로 실제 운전 중 해당 니즈 발생 여부 및 왜 해당 기능을 지시한

이유 등을 파악하기 위해 진행되었다.

3. 데이터 수집 과정

참가자가 발화 수집 실험 중에 말하는 모든 발화를 In-Vehicle VUI에게

지시하는 말로 판단하고 전부 텍스트 형태의 발화 데이터로 수집하였다.

발화 수집 실험 중에 사진별로 나타난 참가자의 발화를 실시간으로 받아

적어 기본 데이터를 확보했다. 또한, 발화 수집 실험을 모두 녹화하였기 때문에,

사후 녹화 영상을 확인하면서 실시간으로 작성한 발화 데이터의 부족한

부분이나 오류가 있던 부분을 보충하는 작업을 거쳤다.

[그림 12] 수집한 발화 데이터 예시

Page 36: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

29

제 5 절 데이터 분석 방법

본 실험에서 11명의 참가자를 대상으로 운전 중 In-Vehicle VUI와 인터랙션 하는

참가자 발화를 수집하였다. 수집한 발화 데이터 중에서 아무런 의미가 없는 발화 (ex.

“아…”, “응.”, “흠…” 등)과 같은 발화 및 실험 상황에 관해 설명하는 발화 (ex.

“이렇게 하는 게 맞나?” 등)를 제외하고 총 943개의 발화를 선별하였다.

문장간 내용 유사성 및 OZ의 답변에 근거하여 선별된 발화의 의도에 대해서

개방형 코딩을 진행하였다. 이를 통해 전체 발화에서 41개의 Intent를 도출하였다.⑨

그리고 제2장 2절에서 다룬 VUI 작동 원리를 바탕으로 각 Intent를 수행하는 데에

필요한 Object를 파악하여 Intent-Object 페어를 구성하였다. Object를 파악하는

과정은 시중에 출시된 VUI의 Object 구성 및 VUI 디자인 관련 자료를 참고하여

진행되었다[49], [50]. Intent 분류 및 Intent-Object 페어의 구성 예시는 [표4]과 같다.

각 Intent 별로 파악한 Object는 이후 참가자의 발화 특징을 파악하는 과정에서

사용하였다.

[표 4] Intent-Object 페어 구성 및 관련 발화 예시⑩

⑨ 도출한 41개의 Intentd에 대해서는 제 6장 연구 결과의 [표7], [표8]에서 설명한다. ⑩ Verbatim의 밑줄 친 부분은 해당 Intent에 필요한 Object 부분을 표시한 것이다.

Page 37: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

30

제 6 장 연구 결과

제 1 절 기존 In-Vehicle 상황에서 사용되는 기능 파악

VUI가 차량 내에 새로운 인터페이스로 등장하면서 사람들의 니즈가 달라지고,

이로 인해 생기는 새로운 기능들이 존재한다. 따라서 실험을 통해 수집한 발화

중에서 기존에 존재하는 기능을 지시한 발화와 새로운 기능을 지시한 발화를 나누어,

앞으로의 분석의 틀로 사용하고자 하였다. 이를 위해, 우선 현재 운전 중 발생하는

Function을 분류하고, 현재 사용되는 차량 및 내비게이션 앱(인포테인먼트 시스템)의

기능을 분석하여 Function 별 Sub-function을 도출하였다. 그 후, 수집한 발화의

Intent를 앞서 구분한 Sub-function에 맞춰 분류하고, 이에 해당하지 않는 기능은

VUI로 인해 새롭게 등장한 기능으로 분류하였다. 이를 통해 <연구문제 1-1. In-

Vehicle VUI를 사용할 때 새롭게 나타나는 니즈는 무엇인가>에 대한 답을 얻고자

한다.

1. Function 별 Sub-function 도출

운전자는 차량 내에서 차를 조작할 뿐만 아니라 차내에 존재하는

인포테인먼트 시스템을 활용하여 정보 확인과 컨텐츠 소비를 동시에

진행한다[51], [52]. 따라서 운전 상황에서 발행하는 Function을 1) 차량 제어, 2)

정보 확인, 3) 컨텐츠 소비의 세 가지로 분류하였다.

그 후 각 Function 별로 Sub-function을 도출하기 위해 2017년 기준 국내에서

가장 많이 판매된 현대 그랜져 차량⑪과 국내 최다 고객 수를 보유한 내비게이션

어플리케이션인 SKT T map5.0의 기능을 분석하였다[표5], [표6]. ⑪ http://www.hyundai.com/kr/blu/selectDlExpdList.do

Page 38: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

31

[표 5] 현대 그랜저 IG 기능 분석 ⑫

⑫ https://carmanuals2.com/brand/hyundai/grandeur-2018-13258

Page 39: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

32

[표 6] T map 5.0 네비게이션 어플리게이선 기능 분석

현대 그랜져 차량 기능 분석 자료를 바탕으로 1) 차량 제어 및 3) 컨텐츠

소비에 하위가 되는 Sub-function을 구체화하였고, T map 기능 분석 자료를

바탕으로 2) 정보 확인의 Sub-function을 구체화하였다.

Page 40: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

33

2. 기존/새로운 Intent 분류

사용자의 발화를 기존 기능을 지시한 것과 새로운 기능을 지시한 것으로

분류하기 위해, 수집한 발화의 Intent를 파악하여 현재 차량에서 발생하는 Sub-

Function에 매칭하였다. [표7] 와 같이 전체 41개의 Intent 중 23개가 현재

존재하는 기능에 매칭되었다. 이에 해당하는 발화의 수는 전체의 약 73%에

해당하는 689개이다. 이에 따라 23개의 Intent에 해당하는 발화는 현재 존재하는

기능을 지시하는 발화로 분류하였다.

[표 7] Function, Sub-function 분류 및 해당 Intent

전체 발화의 약 27%에 해당하는 위의 표에 속하지 않는 18개의 Intent는

현재 차량 및 내비게이션에서 제공하지 않는 기능에 대한 것이며, 이에 해당하는

발화는 전체의 약 27%에 해당하는 254개로 나타났다. 이 18개의 Intent에

해당하는 발화는 새로운 기능을 지시하는 발화로 분류하였다 [표8].

Page 41: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

34

[표 8] 새로운 기능을 지시한 Intent 및 관련 발화

[그림13]을 보면, 새로운 Intent와 기존 Intent의 비율이 44 : 56으로 나타나는

것에 비교해, 새로운 기능에 대한 발화와 기존 기능에 대한 발화의 비율은 73 :

27의 비율로 나타나는 것을 확인할 수 있다. 이는 새로운 기능의 경우, 사용자는

해당 기능이 현재 시스템에서 작동할 수 있는지 모르기 때문에 실제 발화의

Page 42: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

35

수를 봤을 때는 그 수가 많지 않다. 그러나 새로운 Intent의 등장 횟수는 기존

Intent의 횟수와 유사한 것으로 보아, 실제 새로운 Intent에 대한 사용자의 니즈가

있음을 알 수 있다.

[그림 13] 기존/새로운 기능에 대한 intent/발화 등장 비율

제 2 절 In-Vehicle VUI에 대한 사용자의 니즈 분석

<연구문제 1-2. 기존 기능과 비교했을 때 새롭게 나타나는 니즈의 특징은

무엇인가>에 대한 답을 얻기 위해 수집한 발화에서 나타나는 사용자의 니즈를

분석하였다. 구체적으로는, 기존 니즈와 비교해서 새로운 니즈의 확장된 범위와 각

부분에 대한 특징을 파악하고, 새로운 니즈의 정보적 성격 및 상황에 대해 분석한다.

1. 새로운 니즈의 범위 및 성격 분석

VUI는 대화를 매개하기 때문에 사용자는 VUI를 사용하면서 시스템의

Agentness를 느끼게 된다[49]. In-Vehicle VUI를 사용하는 사용자의 니즈는

Page 43: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

36

기존에 차량 내에 존재하던 차, 인포테인먼트와 관련된 니즈에 더하여, VUI

사용으로 인해 에이전트라는 요소가 추가되면서 [그림14]와 같이 에이전트의

영역까지 확장된다.

[그림 14] In-Vehicle VUI 사용에서 나타나는 니즈 범위

기존 니즈는 [그림14]에서 두 영역에 포함된다. [차 – (a)]에 해당하는 부분은

기존 니즈 중 차량 조작 및 컨텐츠 제어와 관련된 Intent가 포함되며, 차량을

조작하여 이동하고자 하는 기본적인 니즈 및 쾌적한 운전 환경을 조성하기 위한

니즈가 존재했다. [인포테인먼트 - (b)]에 해당하는 부분은 기존 니즈 중

정보확인과 관련된 Intent가 포함되며, 빠르고 정확한 길 안내 정보 획득 및

가벼운 컨텐츠 소비에 대한 니즈가 존재했다.

새로운 니즈는 [그림14]에서 세 영역에 포함되며, 각 영역별 Intent는 [표9] 에

정리하였다.

Page 44: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

37

[표 9] 에이전트 관련 영역별 Intent 분류 결과

(a) 는 에이전트가 등장하게 되면서 기존의 차 기능에서 더 확장된 기능을

바라는 니즈가 해당하는 부분이다. 대표적인 예시로는 ‘차량 정보 확인’ Intent가

있다.

“세차를 오늘 해도 괜찮겠니?” (P01 – 차량 정보 확인) ,

“지금 남은 기름으로 몇 킬로 갈 수 있지?” (P07 – 차량 정보 확인)

와 같은 발화를 통해, 시스템이 특정한 조건을 고려하여 자신이 이해하기 쉬운

Page 45: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

38

형태로 정보를 가공하여 제공해주길 바란다는 것을 알 수 있다. 이를 바탕으로

사용자가 VUI를 사용할 때, 현재 상황 파악 및 연산된 결과 제시에 대한 니즈가

존재한다고 볼 수 있다. (b) 에 해당하는 부분에는 에이전트가 등장하면서 기존의

인포테인먼트 기능에서 더 확장된 니즈가 포함된다. 대표적인 예시로는 ‘목적지

정보’, ‘날씨/뉴스 정보’ 등이 있다.

“(마트를 가는 시나리오 상황) 마트 할인정보 알려줘.” (P03 – 목적지 정보), “주차

공간 여유로운 층 알려줘.” (P04 - 목적지 주차 정보)

와 같은 발화는 시스템이 목적지에 대한 실시간 정보 및 목적지의 주차 정보와

같은 정보를 제공에 대한 의도가 담겨있다.

“김치볶음밥 만드는 방법 좀 알려줘” (P03 - 웹검색),

“비가 언제까지 올 것 같아?” (P10 - 날씨)

와 같은 발화에는 주행 상황에 필요하지 않은 일상적인 정보를 운전 중에

음성으로 제공받을 수 있었으면 하는 기대가 존재한다. (c) 에는 기존의

차/인포테인먼트 기능과 관련 없이, 에이전트와 대화하기 때문에 생긴 Intent가

분류되었다. 대표적인 예시로는 ‘보이는 상황/대상 정보’, ‘사각지대 센싱’,

‘목적지 예약’ 등이 있다.

“저 앞에 새로 짓는 아파트 분양가가 얼마야?” (P08 – 보이는 대상 정보),

“지금 나오는 노래가 뭐니?” (P05 – 들리는 소리 정보)

와 같은 발화를 통해 사용자는 시스템이 자신이 보고 듣는 것이 무엇인지 알고

이에 대한 정보를 제시해주길 바란다는 것을 알 수 있다. 더 나아가

“내 주위에 자전거가 보이면 알려줘.” (P03 – 사각지대 센싱)

와 같은 발화에서는 시스템이 사용자가 인지할 수 있는 것보다 더 넓은 영역을

감지하기를 바란다는 것을 알 수 있다. 또한

Page 46: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

39

“회사에서 온 이메일 좀 읽어줘” (P01 - 커뮤니케이션)

와 같은 니즈에서는 주로 운전 전/후에 사용자가 직접 하던 일을 운전 중에

에이전트가 수행하기를 바라는 니즈가 있음을 알 수 있다.

결론적으로 In-Vehicle VUI 사용에서 새롭게 나타나는 니즈는 1) 사용자가

알기 어려운 차량 내의 정보를 실제 주행에 관련된 단위로 연산하여 제공, 2)

목적지와 관련된 추가 정보 및일상적인 정보를 운전 중에 음성으로 제공, 3)

내가 보고/듣는 것에 대한 정보 제공, 4) 주행 중 운전자가 하기 힘든 일을 대신

위임의 네 가지로 요약할 수 있다.

2. 새로운 니즈의 운전상황 관련 정도 분석

새로운 니즈의 특성을 깊게 이해하기 위하여, intent 별로 사용자가 요구하는

정보의 운전상황 관련 정도를 분석하였다.

운전 상황 관련 정도를 파악하기 위해, intent의 운전 관련 정도를 상, 중,

하의 3단계⑬로 나누어 코딩하였다. 그 결과 단계별 발화 분포가 [그림13]와 같이

나타났다. 이를 통해 운전 상황과 가장 관련도가 낮은 하 단계의 발화가 146개

등장하였으며, 이는 전체의 57%로 절반 이상 차지하는 것을 알 수 있었다. 중

단계의 발화는 91개 등장하였으며, 약 36%를 차지하고, 상 단계의 발화는 약

7%인 19개로 가장 적게 나타났다.

⑬상-운전 상황에 필요한, 중-주행 맥락에서 발생한, 하-주행 맥락과 관계 없는

Page 47: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

40

[그림 15] 운전 상황 관련 정도별 새로운 intent 발화 개수

이를 통해 In-Vehicle VUI 를 사용하면서 운전 상황과 관련도가 적은

니즈들이 새롭게 등장한다는 것을 알 수 있다.

상황별로 나타난 정보의 성격을 분석하기 위해 새로운 니즈 관련 발화에

대해 오픈 코딩을 진행하였고, 그 결과 1) 운전 중 갑자기 떠오른 궁금증, 2) 주행

과정에서 필요한 정보, 3) 주행 외적으로 필요한 정보, 4) 도착 후에 필요한

정보로 분류되었다. [표10] 은 각각의 정보 성격에 해당하는 발화의 수를 파악한

것이다.

[표 10] 각 정보 성격에 해당하는 발화 개수

운전 중에 갑자기 떠오르는 궁금증이 가장 많이 나타나는데, 이는 앞에서

분석한 ‘내가 보고/듣는 것에 대한 정보 제공’과 연관이 있다고 볼 수 있다.

참가자들은 사진 실험물에 보이는 대상 및 상황에 대해 관심을 두고 시스템에

질문을 하였다. 사후 인터뷰 결과 실제 운전을 할 때도 주변 상황에 대한

Page 48: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

41

궁금증이 생긴다는 의견을 확인하였고, 이러한 정보적 니즈가 단순히 실험물

때문에 생긴 것이 아님을 알 수 있다.

“평소 운전하면서 궁금한게 많아서 와이프에게 잘 물어보는데, 시스템이 이런 부분에

대답을 잘 해줘서 좋았어요.” (P08)

운전 상황 관련이 낮은 니즈는 앞에서 분석한 ‘일상적인 정보를 운전 중에

음성으로 제공’ 및 ‘주행 중 운전자가 하기 힘든 일을 대신 위임’과 연관이

있다고 볼 수 있다. 참가자들은 운전하는 시간 가운데 운전 외의 작업을

처리하기를 원하고 시스템에 발화를 했다. 사후 인터뷰 결과에서도 운전 중에도

다른 일을 하며 지루함을 달래고 시간을 효율적으로 쓰고 싶어 하는 니즈를

파악하였으며, 이런 작업을 VUI를 통해 안전하게 할 수 있을 거라 기대하는 것을

알 수 있었다.

“좀 길게(1시간 이상) 운전을 할 때는, 운전하는 것 말고도 좀 더 프로덕티브 한 일을

하고 싶어요. 예를 들어 현재 여름 휴가 계획을 세우고 있는데, 운전하면서 제주도

항공권 예약을 시킬 수 있으면 좋겠죠. ” (P11)

제 3 절 In-Vehicle VUI에서 사용자 발화의 특징 분석

<연구문제 2. In-Vehicle VUI를 사용할 때 나타나는 사용자 발화의 특징은

무엇인가>에 대한 답을 얻기 위해 실험을 통해 수집한 발화를 분석하였다.

구체적으로는, VUI를 사용하면서 발생하는 발화를 system-like ~ human-like 을

축으로 나누고자 한다. 그 후 VUI에서 특징적으로 나타나는 human-like 발화에 대해

분석한다. 마지막으로 사용자의 발화 중에서 인터랙션 과정 중 표명/변환 단계에서

새로운 특징을 보이는 발화를 선별하고 그 특징을 파악한다.

1. VUI 수준에 따른 발화의 특징

Page 49: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

42

제3장 1절에서 살펴보았던 것처럼 음성 인식 서비스는 이전의 IVR

시스템에서 발화의 의도를 파악하는 현재의 VUI 형태로 발전하였다. IVR

시스템은 기존에 존재하는 버튼을 음성으로 말하여 입력하는 인터랙션을 보이기

때문에, 인풋 방식의 차이만 있을 뿐이지 터치 인터페이스와 개념적인 구조를

같이한다[53]. 즉, IVR 시스템을 사용하기 위해 사용자는 니즈 달성을 목적으로

기기의 작동 절차를 분해하고 각 부분에 대해 기능을 정해진 말로 지시하는

과정을 거친다[54]. 이는 시스템의 구조를 이해하고 시스템의 언어로 대화해야

하는 인터페이스적 한계에 기인한다. 따라서 IVR 시스템에서 발생하는 발화를

system-like 발화라고 지칭하고자 한다. 이러한 발화는 시스템이 미리 정해놓은

시스템적 언어를 사용하여 정확하게 기능을 지시한다는 특징을 보인다. 반면에

현재의 VUI는 인터랙션의 형태가 이전과는 완전히 다른 양상을 보인다.

시스템이 사용자의 발화에서 자동으로 인텐트를 파악할 수 있기 때문에,

사용자는 더이상 정확한 버튼의 명칭을 지칭하여 기능을 지시하지 않고

자연스러운 말로 시스템과 인터랙션 한다. 이는 마치 실제 존재하는 에이전트와

음성으로 대화하는 듯한 모습을 보인다. 따라서 VUI에서 발생하는 발화는 앞선

system-like와 대비되는 human-like 발화라고 할 수 있다. 이러한 발화의 특징은

이후 데이터 분석을 통해 파악하고자 한다.

2. 발화 분류 기준 제작

위에서 정리한 두 종류의 발화는 음성을 사용하여 시스템에게 지시한다는

공통점을 가진다. 따라서, 자유로운 VUI 사용 과정에서는 두 종류의 발화가 모두

등장할 수 있다. 따라서 human-like 발화의 특징을 파악하기 위해선 수집한 전체

발화 가운데 system-like 발화와 human-like 발화에 대한 분류가 선행되어야

한다. 두 종류의 발화를 분류하기 위해 제2장 2절에서 서술한 object의 개념을

살펴보았다. Object는 시스템이 기능을 수행하기 위해 입력되어야 하는 정보로,

Page 50: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

43

VUI에서는 사용자가 object 정보를 시스템이 바로 사용할 수 있는 단어가 아닌

일상어로 지시할 때에도 이를 시스템이 인식할 수 있는 단어로 변환하여

이해한다. 또한, 선행연구를 보면 사용자의 발화를 object가 한 번에 들어와서

사용자의 발화 이후 바로 시스템 action이 가능한 종류(ex. Door open, channel

one)의 발화와, 사용자의 첫 발화에서 필요한 object를 말하지 않아 추가적인

정보가 필요한 종류의 발화(ex. Play ______ music)로 분류한다[76]. 그리고

추가적인 정보가 필요한 경우에는 시스템에서 사용자의 선호를 미리 리스트화

한 후, 없는 정보를 유추하여 제공해야 한다고 말한다(ex. Play _____ music ->

play some preferred music by the user). 즉 사용자가 object 를 생략하는

경우에도 VUI 시스템에서 지능적으로 object를 파악하여 정보를 입력할 수 있다.

이러한 특성을 참고하여 발화에서 나타난 object의 형태를 기준으로

시스템의 발화 처리 난이도를 분류하는 기준을 [그림16] 와 같이 제작하였다.

해당 분류 기준은 데이터 분석 과정에서 파악한 Intent-object 페어의 object

부분에 적용된다.

[그림 16 ] 시스템의 발화 처리 난이도 레벨

Lv1은 사용자가 object를 시스템에서 바로 사용할 수 있는 형태로 말 한

발화가 해당하며, 여기서 시스템에서 바로 사용할 수 있는 형태란 기존에

Page 51: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

44

존재하는 기능의 공식적인 명칭 또는 시스템에서 사용하는 척도를 사용하여

object를 지시한 것을 의미한다. Lv2는 사용자의 발화에서 object 정보를

파악하기 위해, 시스템이 사용자의 발화를 분석하여 시스템의 언어로 변환하는

과정이 필요한 경우가 해당한다. 사용자가 대상이나 척도를 일상생활에서

사용하는 말로 지시한 경우에는 시스템에서 NLU 과정을 거쳐 사용자의

발화로부터 intent 및 관련 object를 도출하는 과정을 거쳐야 한다[55]. 이렇게

자연스러운 말을 이해하여 기능과 매칭하는 과정은 VUI의 특징이므로, Lv2의

발화는 현재 존재하는 VUI 사용 과정에서 나올 수 있는 발화들이라 볼 수

있다[50]. Lv3은 의도가 담긴 사용자의 발화에 VUI에서 필요로 하는 object

정보가 생략되어 있어, 시스템이 이를 유추해야만 대답을 할 수 있는 형태의

발화가 해당한다. Lv3 에서는 사용자가 특정 기능 실행에 대한 니즈는 있지만,

직접적으로 해당 기능을 지시하지 않는 발화가 주로 나타난다. Lv3의 발화는

사람이 맥락에 맞게 말을 이해하듯이 시스템이 지능적으로 object를 추측해야

하기 때문에, 앞으로 등장할 발전된 VUI 사용 과정에서 나올 수 있는 발화로

여겨진다[56].

3. 시스템의 발화 처리 난이도 기준에 따른 발화 데이터 분석

수집한 발화에 대해서 앞에서 세운 시스템의 발화 처리 난이도 기준을

적용해 보았다. 이때, 대상을 기존 기능을 지시한 발화로 한정시켰다. 그 이유는

Lv1 에 해당하는 분석을 위해서는 object가 실제 시스템에서 어떤 명칭 또는

척도로 사용되고 있는지 알아야 하는데, 새로운 기능의 경우에는 기존

시스템에서 사용되는 명칭/척도가 정해져 있지 않기 때문에 Lv1에 해당하는

발화를 분류하기가 어렵기 때문이다. 따라서 689개의 기존 기능을 지시한

발화를 대상으로, 해당 발화가 Lv1~3 중 어느 단계에 속하는지 파악하였다.

발화 데이터에 나타난 object의 표현 방식을 보고 연구자가 직접 코딩하는

Page 52: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

45

과정에서 연구자의 주관이 개입될 여지가 있다. 따라서 각 intent 별로 코드표를

구체화하여 코딩하였으며, 측정자 간 신뢰도(inter-coder reliability)를 측정하였다.

연구자 2인의 일치도를 Cohen’s Kappa로 검사한 결과, 전체 문항에 대한

측정자 간 신뢰도는 Kappa .79 로 나타나 기준치(>.65)를 상회하는 결과를

나타냈다.

발화 데이터 분석 결과, 전체 발화 중 Lv1인 발화는 약 39%, Lv2인 발화는

약 48%, Lv3인 발화는 약 12%로 나타났다. Rule-based OZ로 실험을 진행하였을

때, 현재 VUI와의 인터랙션에서 나올 수 있는 발화가 가장 많이 등장하였고,

이전의 IVR 시스템에서 나타나던 발화는 그 뒤를 이었다. 좀 더 지능적인

부분이 강화되어야 구현이 가능한 Lv3의 발화는 가장 적게 나타났다.

[그림 17 ] 차, 인포테인먼트 기능 발화 별 시스템의 발화 처리 난이도 분류 결과

기능의 성격에 따른 발화 분류의 차이를 파악하기 위해, 앞서 2절에서 분류

했던 ‘차’ 영역에 속하는 발화와 ‘인포테인먼트’ 영역에 속하는 발화를 나누어

살펴보았다. 그 결과, ‘차’ 영역에 속하는 165개의 발화 중 Lv1인 발화는 약 58%,

Lv2인 발화는 약 23%, Lv3인 발화는 약 9%로 나타났다. 결과 중 Lv1 형태의

발화가 평균보다 19% 더 많이 나타난 점은 주목할만한 부분이다. 이렇게 차량

Page 53: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

46

관련 기능에서 Lv1 형태의 발화가 많은 이유는, 기존의 차량 기능이 주로 차량

설정 변경을 위한 스위치 단순 조작 형태이기 때문에, 기능을 지시하는

사용자에게 시스템의 절차 분해 및 버튼 맵핑 과정이 자연스럽게 이뤄지기

때문이라고 볼 수 있다. 흥미로운 점은 각 Intent 별로 발화 레벨의 비율을

확인해보면, ‘차량 환경 조작’, ‘라디오 온/오프’와 같은 Intent는 Lv1의 발화가

대다수를 차지한 반면, ‘시야 확보’, ‘온도 조절’ 등 몇 가지 Intent는 기존 차량

기능 중에서도 Lv2,3의 비율이 상당히 높게 나온 것을 알 수 있다. 온도 조절

정도와 같은 척도를 두루뭉실하게 말하거나, 명확한 object 표현 없이 시야가

확보되지 않는 문제 상황을 제시하는 발화들이 차량 관련 기능에서 많이

등장하는 human-like 발화이다.

‘인포테인먼트’ 영역에 속하는 524개의 발화 중 Lv1인 발화는 약 34%, Lv2인

발화는 약 53%, Lv3인 발화는 약 13%로 나타났다. 세부적으로 발화의 특징을

파악해 보면, 대상을 명확하게 지칭하는 대신, 그 대상이 속하는 카테고리를

말하거나 시스템에 추천을 요청하는 발화들이 human-like 발화에 많이

포함되었다. 예를 들어 ‘음악/라디오 듣기’ 에서는 “아델의 Sky fall 좀 틀어줘.”

(P01) 처럼 원하는 곡명을 명확하게 요청하는 경우가 lv1에 속하고, “신나는 음악

좀 틀어줘.” (P07), “운전하면서 듣기 좋은 노래 추천해줄래?” (P10) 와 같이 원하는

노래의 스타일을 말하거나 원하는 분위기를 묘사하며 시스템에 추천을 요청하는

경우가 lv2에 속하는 발화로 분류되었다.

4. 표명/변환단계에서 나타나는 특징 파악

VUI 사용 과정 중 표명 및 변환 단계에서 나타나는 특징을 파악하기 위해,

전체 발화 중 단순 지시 이외의 특징을 보이는 발화를 선별했다. 전체 발화의 약

20%인 125개의 발화가 분석 대상으로 선정 되었다. 선정 발화를 대상으로

근거이론 방법론에 따라 개방 코딩, 축 코딩 과정을 거쳐 분석을 진행하였다. 그

Page 54: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

47

결과 [표11] 와 같이 표명 단계에서는 5개의 발화 특징을, 평가 단계에서는 3개의

발화 특징을 도출할 수 있었다. 표명단계에서는 상황 묘사, 원인 설명, 연결성,

복합 명령, 결과 묘사 순서로 발화 특징의 수가 많이 나타났다.

[표 11] 표명/변환 단계별 발화 특징 분류 및 등장 빈도

표명 단계에서 가장 많이 나타나는 특징인 상황 묘사는, 발화할 때 기능

지시 외에 그때의 내/외부 상황을 묘사하는 말을 하는 것을 의미한다. 예를 들어

“저 앞에 택시가 끼어들려고 하는데, 올림픽 대로가 막히나?” (P05) 라는 발화에서는

교통상황 확인이라는 Intent 수행에 직접적인 영향을 주지는 않지만 현재 외부

상황을 묘사하는 말을 더해 맥락적인 정보를 더 제공하고 있다. 원인 설명은,

발화할 때 기능 지시에 더불어 그 기능을 지시하게 된 이유를 함께 설명하는

것이다. 예를 들어 “밥 먹고 영화관에 갈까 하는데, 근처에 사람 많이 없는 영화관이

있을까?” (P01) 라는 발화에서는 여러 가지 장소 검색이라는 Intent 수행을

지시하는 이유를 앞에 설명하면서 상황 묘사와 동일하게 지시의 맥락에 대한

정보를 추가로 제시하고 있다. 연결성은 이전의 대화에서 꼬리를 물고 대화가

이어지는 것을 의미한다. 각각의 독립된 Intent를 가진 발화들이 하나의 큰

Page 55: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

48

주제나 맥락 안에서 통일성을 갖게 된다. 예를 들어 앞선 대화에서 근처 맛집을

검색한 후, “아, 그래? 거기로 안내해줘” (P02) 라고 말하는 것은, 시스템 역시

사용자처럼 맥락을 파악하고 있기 때문에 ‘거기’가 앞에서 검색한 맛집이라는

것을 안다고 생각하고 발화한 것이다. 이런 발화는 주로 ‘여기’, ‘거기’ 등과 같은

지칭 대명사를 포함한다는 특징을 보인다. 복합명령은 하나의 발화에서 두 개

이상의 기능을 함께 지시하는 것을 말하며, 예시로 “에어콘 온도 좀 올려주고,

바람 세기 좀 맞춰줘.” (P05)와 같은 발화가 있다. 음성으로 지시를 하기 때문에

기존의 터치 인터페이스처럼 순차적인 기능 수행이 아닌, 여러 가지 의도를 한

번에 파악한 후 병렬적으로 명령을 수행하기를 바라는 특징이 나타난다고 볼 수

있다. 결과 묘사는 특정 기능을 지시하는 것이 아니라, 사용자가 바라는 최종적인

결과에 대해 묘사하는 것을 의미한다. 예를 들어 “사이드미러랑 조수석 유리

좀물방울 안 붙게 좀 해줘. 안 보여 잘” (P11) 과 같은 발화는 시야 확보라는

Intent를 갖고 있지만, 이와 관련된 기능을 지시하는 대신에 사용자가 원하는

최종 결과를 묘사함으로써 시스템이 적합한 기능을 찾아 매칭해주기를 바라는

것을 확인할 수 있다. 이는 시스템의 지능적인 수준을 높게 파악하여, 맥락적인

정보만 제시하고도 원하는 기능이 수행될 것이라 기대하는 특징이 나타난 것이라

볼 수 있다.

변환 단계에서는 세 가지의 특징이 나타나는데, 시스템이 제공하는 결과 및

시스템의 기능 범위에 대한 피드백 형태의 발화가 주로 이에 속한다. 가장 많이

나타난 재확인은 시스템이 제공하는 결과에 대해 사용자가 불신 또는 의심한

상태로 재확인하는 것이다. 예를 들어 “왜 고속도로로 가?” (P08) 라는 발화에서는

사용자가 시스템이 제시하는 정보에 의문을 갖고 추가로 판단의 근거를 요청하는

것을 확인할 수 있다. 시스템과 대화를 할 수 있기 때문에, 이전에는 사용자가

수용 또는 기각했던 결과에 대해서도 이제는 더 합리적인 결과를 위해 수용/기각

단계를 미루고 추가 정보를 요청하는 특징을 보인다. 그뿐만 아니라 한번에 많은

Page 56: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

49

정보를 전달할 수 없는 차량 내 음성 시스템의 한계 때문에 이와 같은 특징이

나타난다고도 볼 수 있다. 테스트는 시스템의 기능 범위를 파악하기 위해

시스템을 시험하는 의도가 내포된 발화를 말한다. “내가 멈추라고 할 때까지

3초씩만 틀고다음 곡으로 들려줘.” (P04) 라는 발화는 표면적으로는 차량 제어의

Intent를 보이지만, 참가자의 실험 상황을 보면 음성을 통해서도 차량의 세부적인

조작이 가능한지 시험하고자 하는 발화였다. 인터뷰에서도 참가자 P 04는

“기능의 수준을 확인하기 위해 계속 수준을 높여가면서 질문 했어요” (P04)

라는 말을 했다. 또한, 기존에 사용했던 다른 인공지능 음성 에이전트

서비스에서 제공하는 기능들을 똑같이 지시하며 In-Vehicle VUI의 기능 범위를

파악하고자 하는 시도도 있었다. 평가는 시스템이 제시한 결과에 대해

즉각적으로 만족/불만족을 표현하는 것을 말한다. “오~ 똑똑한데?” (P01) 나

“말귀를 못 알아들어” (P04) 와 같은 발화는 시스템의 응답에 대해 자연스럽게

평가 피드백을 제시하는 것이다. 이런 평가의 발화들로부터 사용자의 만족도를

파악할 수 있으며, 시스템의 결과 제시가 발화 의도와 매칭하는지 여부를 판단할

수 있는 근거로 활용될 수 있다.

이후 인터랙션 특징을 파악하기 위해 선별한 125개의 발화에 대해서도

앞에서 설정한 발화 레벨에 맞춰 분류해 보았다. 그 결과 [그림 18]과 같이, Lv1

16%, Lv2 61%, Lv3 23%로 Lv2,3의 비율이 상당히 높은 것을 확인할 수 있었다.

즉 human-like 한 발화에서 표명/변환 단계의 새로운 음성 특징이 많이 나타나는

것을 확인할 수 있었다.

Page 57: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

50

[그림 18] 특징적 발화의 시스템 발화 처리 난이도 분류 결과

5. In-Vehicle VUI 대화에 대한 사용자의 반응

참가자들은 운전 중이라는 특수한 상황에서 VUI의 대화 방식에 대해 많은

의견을 보였다.

첫째로, 참가자들은 운전 상황과 관련이 있는 몇 가지 정보에 대해서는 직접

물어보지 않아도 VUI가 대답해줬으면 좋겠다는 의견을 보였다. 특히 운전 중

경로 선택과 관련된 교통 정보에 대한 니즈가 많았다. 또한, 주차장의 가격,

주차 가능 대수와 같이 주차장 진입 전에 알고 있으면 선택에 도움이 되는

정보에 대해서는 VUI가 먼저 얘기해 주기를 기대한다.

“운전자는 앞선 상황을 모르니까 제가 답답하기 전에 애기를 해줘야죠. 교통 정체나 주

차 공간 같은 건 시행착오 안 겪게 선제를 해줘야…” (P01)

“목적지까지 안전, 빠르게 가는 데에 도움이 되는 정보(사고 정보, 정체 정보)를 알려주

면 좋겠다” (P05)

“주차비처럼 한번 들어가면 무르기 어려운 상황에서 미리 정보를 알려주면 도움이 될

것 같다.” (P03)

둘째, 참가자들은 운전 중이기 때문에 VUI가 더 빠르고, 간단하게

말해주기를 바란다. 특히 정보를 듣고 빠른 판단이 필요한 경우에는 핵심

내용만 간결하게 말해주기를 바란다. 일부 참가자의 경우에는 빠른 정보 전달의

방법으로 문장형이 아닌 단답형의 대화를 원하기도 했다.

Page 58: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

51

“필요한 거만 간단간단하게 , 문장식이 아니라 필요 정보만 단답형으로 해줬으면…”

(P02)

“운전할 때는 필요한 내용만 바로 주면 좋겠다. 예를 들어 그냥 딱 소요시간만 알려주

면 좋을 것 같다.” (P04)

“빨리 지나갔으면 좋겠는데, 너무 느린 것 같아요. 운전하니까 더 빨라야죠. 바쁘니까요.

핵심만 듣고 싶은데 저거 듣다가 길 다 통과할 것 같아요....” (P10)

마지막으로, 참가자들은 VUI의 대화 스타일에 대한 의견을 제시했다. 이는

크게 두 가지로 나누어 진다. 우선, VUI가 운전 중 심심함을 해소할 수 있도록

잡담을 해줬으면 좋겠다는 부류가 있다. 이들은 고립된 공간에서 혼자 운전을

하는 상황을 지루하고, 심심하다고 여긴다. 이런 상황에서 VUI가 내 지시를

수행하는 기계를 넘어서, 옆에 착석한 동승자처럼 심심풀이 대화가 가능하기를

바란다.

“보통 운전할 때 심심하지 않아요? 그러니까 얘가 너무 딱딱한 대답 말고… 여자들이랑

대화하면 ‘음…’ 이런 거만 해줘도 제가 계속 떠들 수 있는데 그러면 좋을 거 같아요.”

(P02)

“옆 사람이 타지 않는 이상 말을 잘 안 합니다. 그러니 이런 서비스는 마치 동승자가

옆에 있는 것 처럼(소통이 되는 서비스를)만들어 주었으면 좋겠습니다.” (P07)

“저랑 쿵짝이 맞아서 너무 좋았어요. (혼자 있을 때 사고 났던 경험이 있어서) 혼자 운

전하는 것이 무서운데, 누군가가 옆에 있는 것 같다는 생각이 드니까 좀 더 편안한 느

낌도 들어요.” (P10)

이와는 반대로, VUI가 잡담같은 일상적인 대화 없이 기계처럼 필요한 정보만

주면 좋겠다는 부류가 있다. 이들은 운전 중에 기계와 대화하는 것을

어색하다고 생각하며, VUI 시스템을 사람이 아니라 말하는 기계처럼 여긴다.

“원래는 운전할 때, 혼자 운전을 하면 말을 안 하니까. 그냥 뭔가 운전을 하는데 말을

해야 한다는 것이 어색했다.” (P01)

“가벼운 수준의 잡담은 별로 필요 없을 것 같아요… 심심하더라도 인간이랑 소통하는

게 의미가 있지 인공지능이랑 소통하는 게 무슨 의미가 있는지” (P08)

“(이 시스템을) 필요한 것을 지시하는 정도로 하지, 잡담을 나누거나 다양한 대화를 하

게 될 것 같지는 않다.” (P11)

종합하면, 사용자들은 운전 상황에서 필요한 정보(교통 상황, 주차 정보

Page 59: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

52

등)에 대해서는 자신이 직접 묻지 않아도 VUI가 먼저 알려주는 선제의 기능을

원한다. 또한, 운전이라는 시급한 상황에 맞춰서, VUI가 필요한 정보를 빠르게

제공해주기를 원한다. VUI 대화 스타일에 대해서는 두 가지 다른 의견이

존재한다. 첫째는 VUI와 잡담을 하며 운전 중 심심함을 해소하고 싶다는 것이고,

둘째는 운전 중 기계와 대화하는 것이 어색하기 때문에, 기계를 사용하듯이

지시-답변의 과정만 이뤄졌으면 하는 것이다.

제 4 절 In-Vehicle agent에 대한 사용자의 기대

In-Vehicle VUI 사용에서 등장한 새로운 니즈 및 발화의 특징은 VUI 사용에서

느껴지는 에이전트에 대한 사용자의 기대를 바탕으로 등장했다고 볼 수 있다.

따라서 인터뷰 분석을 통해 사용자가 In-Vehicle VUI 시스템에게 기능적으로

기대하는 부분과 인터랙션 단계에서 기대하는 부분을 파악하여 다음과 같이 6가지

기대 사항을 도출하였다.

1. 운전자와 동일한 / 더 확장된 감각

수집한 발화의 Intent 중, 보이는 대상 정보, 보이는 상황 정보, 사각지대 센싱

등과 같이 시스템이 사용자와 동일하게 주변 사물/상황의 정보를 파악하거나, 더

나아가서는 사용자가 감지하지 못하는 것까지 파악하기를 바라는 니즈가 많이

등장했다. 이는 사용자가 음성 시스템이 단순히 사용자와 자연어로 대화하는 것뿐만

아니라, 사용자가 보고 듣는 것을 함께 보고 듣기를 기대한다는 것을 의미한다.

인터뷰를 통해서도 공유된 감각에 대한 발화에 시스템이 옳은 피드백을 했을 때, 이

시스템에 대한 만족도가 높아졌다는 것을 알 수 있다.

“ ‘저 차 얼마야? ’처럼 외부를 인식하고 그것에 대한 정보를 줬을 때 만족도가 높아졌죠”

(P11)

Page 60: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

53

“차량 주변에 있는 상황에 대해 이해할 때 놀랐다” (P01)

2. 정보를 이해하기 쉽게 변환하여 전달

사용자가 파악하기 힘든 정보, 예를 들어 차량 내부 상태와 같은 것에 대해서

시스템이 상황과 조건에 맞춰 내부 정보를 가공해서 전달해 주기를 바라는 니즈가

등장했다. In-Vehicle VUI 이기 때문에 차량의 상태 및 주행 정보를 바탕으로 여러

가지 시스템의 연산 과정을 거쳐 가공된 정보를 원하는 사용자가 많았다. 이는 In-

Vehicle VUI가 단순히 음성 인터랙션이 가능한 시스템에서 더 나아가 지능적인

사고를 하고, 이를 적절한 형태로 표현해 줄 것이라는 기대를 바탕으로 한다고 볼 수

있다.

“날씨, 휘발유에 따라갈 수 있는 거리를 계산해서 음성으로 알려주니까 좋아요” (P01)

“세차에 대한 대답이 놀라웠던 이유는 날씨 정보를 단순히 주는 것이 아니라 의도에 맞게

한번 재가공해서 주었기 때문” (P02)

3. 운전 외, 일상생활에 관련된 정보 제공

앞서 새롭게 등장한 니즈의 운전 관련 정도를 파악한 결과, 운전 상황과 관련이

적은 순서대로 발화 빈도가 높게 나타난 것을 볼 수 있었다. 음성 인터페이스의

등장으로 운전 중에 자연스럽게 인터랙션을 할 수 있기 때문에, 사용자는 운전에

집중하면서도 운전 외적인 일을 하고자 하는 것을 알 수 있다. 이런 니즈는 보편적인

날씨/뉴스 등 생활 정보 제공에서 더 나아가 목적지 예약/커뮤니케이션 등 사용자가

직접 수행해야 하는 일까지 대신 수행하기를 원한다고 볼 수 있다.

“뉴스검색, 전화 같은 건 처음에는 기대하지 않았는데, 이렇게 운전 외적인 부분까지

해주니까 좋네요” (P05)

4. 사람과 하는 것 같은 자연스러운 대화

발화에서 object 표현 수준을 보면, 사용자는 시스템적인 언어가 아닌 평소에

사용하는 자연스러운 말을 사용해서 기능을 지시하는 것을 알 수 있다. 뿐만 아니라

Page 61: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

54

원하는 최종 결과를 말하거나, 현재 상황에 대해 혼잣말을 하는 형태의 발화는

시스템이 사용자의 말을 찰떡같이 알아듣고 적절한 대답을 해주기를 기대한다고 볼

수 있다. 자연어 이해 기술이 발전함에 따라 대화형 인터페이스에 대한 사용자의

기대 수준도 자연스럽게 높아진 것으로 파악된다.

“독백형식으로 얘기해도 알아들으면 훨씬 편하죠. 정형화된 표현보다 대화가 지속이 될 수

있잖아요. 옛날에 구글 번역기가 한글 문법 다 맞춰져야 했는데 지금은 대충 써도 해주는

것처럼…” (P04)

“운전 중 동승자가 옆에 탄 것처럼 심심풀이 대화가 가능한 수준일 것으로 생각했어요.”

(P11)

5. 시스템의 작동 근거에 대한 파악

VUI는 음성으로 정보를 제공하기 때문에, 시각적인 정보 제시처럼 한눈에

정보의 구조나 종류를 파악하기 어렵다. 특히, 운전 상황에서는 운전 중 방해가 되지

않는 수준으로 음성 피드백을 제공해야 하기 때문에, 시스템이 피드백을 줄 수 있는

시간적 여유가 더 줄어든다. 이런 상황에서 사용자는 시스템이 제시하는 결과를

주로 듣고 기억하게 된다. 또한, 현재 시스템에서 제시하는 정보는 단순한 기계적

조작에 의한 결과가 아닌, 수많은 데이터와 이에 대한 시스템의 학습을 바탕으로

제시하는 경우가 많다. 인터뷰 결과 이런 경우에 사용자는 시스템이 어떤 근거로

결과를 제시하는지에 대해 의문을 갖고, 이를 확인하여 선택의 주도권을 갖고자

한다는 것을 알 수 있었다.

“어떤 장소를 추천해주었을 때, 그 이유가 궁금하긴 했었다. 그리고 그 추천(차이나타운)을

한 것이 좀 아쉽긴 했다. 검색을 통해 추천해 줬을 것 같아 어쩔 수 없다고 생각한다.”

(P04)

“왜 그렇게 말하는지에 대한 정보를 주면 좋을 것 같다.” (P09)

“맛집 알려준다는 말만 했을 때, 기준이 뭐지? 믿을 만 한가? 돈을 받은 건 아닌가? 라는

생각이 들 수 있을 것 같다.” (P10)

Page 62: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

55

제 7 장 연구 논의점

본 연구는 In-Vehicle VUI를 사용할 때, 사용자의 니즈의 변화와 발화의 특징에

대해 알아보았다. 실제 주행 중 VUI를 사용하면서 나올 수 있는 발화들을 모아

분석하여, 사용자가 In-Vehicle VUI 에게 기대하는 부분을 파악할 수 있었다. 실험을

통해 알아낸 결과를 바탕으로, In-Vehicle VUI 를 구현 함에 있어서 몇 가지 논의점을

제시하고 이에 따라 제언하고자 한다.

제 1 절 사용자와 agent 간 감각의 공유

실험 결과 참가자들은 운전 중 운전자가 보고 듣는 것을 VUI 탑재 시스템 역시

동일하게 인지할 것으로 생각하는 경향이 있었다. 이에 따라 새롭게 등장하는

니즈들 에서도 운전 중 보이는 대상이나 상황에 대해 지시 대명사를 사용해

지칭하며 정보를 요청하는 경우가 많이 등장했다. 인터뷰 결과, 실제 운전 중에도

외부 상황으로부터 갑자기 의문이 떠오르는 경우가 많이 있으며, 실험에서 VUI 를

사용하면서 이런 궁금증을 얘기했을 때 시스템이 만족스러운 답변을 주어서

시스템에 대한 기대 및 만족도가 상승한다는 것을 알 수 있다. 시스템의

agentness가 증가할수록 사용자는 시스템과 공유하는 감각의 범위가 확대된다고

생각한다[57]-[59]. 그리고 시스템의 agentness가 강할수록 사용자는 시스템에 대해

친밀감을 느끼고 좋은 사용 경험을 얻게 된다.

따라서 In-Vehicle VUI를 구현함에 있어서 시스템의 인지 능력 및 범위를

확장하는 것은 사용자의 니즈 해결 및 시스템의 agentness를 강화하는 측면에서

매우 중요하다. 이를 위해서는 현재 자율 주행 자동차 구현을 위해 주로 사용되는

운전자보조시스템(ADAS) 기술에서의 다양한 센서를 In-Vehicle VUI 시스템에도

Page 63: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

56

활용하여 주변 대상 및 상황에 대해 인식할 수 있어야 한다. 또한, 음성 인식 기술에

관해서도, 사용자가 자신이 보는 것을 정확하게 지칭하지 않기 때문에 방향 지시어

및 지시 대명사 등에 대해서 주변 환경에 맞춰 파악할 수 있어야 한다.

제 2 절 정보 활용 범위와 능력의 확장

In-Vehicel VUI를 사용하면서, 요구하는 정보 및 기능의 범위가 운전 상황을 넘어

일상, 업무와 관련된 부분으로 확대되는 것을 알 수 있었다. 그리고 운전 상황과

관련된 니즈의 경우에는 시스템이 차량의 과거/현재 정보와 현재 상황에 대해

파악한 상태로, 정보를 운전자가 이해하기 쉽게 변환하여 제공하는 것들이 등장했다.

참가자는 운전 상황 외적인 부분의 니즈가 해결되었을 때 해당 시스템에 대한

유용성이 높다고 느꼈으며, 시스템이 적절한 연산을 통해 가공된 정보를 제공할 때

시스템이 인공지능 스럽다고 생각했다.

따라서 너무 당연한 얘기일 수 있지만, 활용성 높은 In-Vehicle VUI를 구현하기

위해서는 활용하는 데이터의 범위를 넓히고, 데이터 처리 능력을 향상해야 한다.

구체적으로는 데이터 활용 범위를 차량 내부, 목적지 세부 정보(가격, 예약, 주차 등),

웹검색 결과까지 확대해야 한다. 또한, 차량 내부 정보의 시스템적인 기준과

사용자가 실제 체감하는 기준에 대해 미리 파악한 후, 사용자가 파악하기 쉬운

방식으로 정보를 제공해야 한다. 예를 들어 잔여 기름양을 시스템은 리터(l) 단위로

파악하지만, 사용자는 잔여 기름으로 갈 수 있는 거리(km) 또는 출퇴근 길 왕복 횟수

등으로 파악하는 게 용이하다. 따라서 이런 경우는 사용자가 알기 쉬운 형태로

정보를 변환할 수 있는 시스템 내부의 연산 과정이 필요하다.

Page 64: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

57

제 3 절 상황/맥락 묘사에 대한 발화

human-like 인터랙션에서는 외부 상황, 문제의 원인, 바라는 최종 결과 등 상황

맥락을 묘사하는 발화들이 많이 등장한다. 이러한 발화는 주로 Intent 수행에 필요한

object를 생략한 채, 사용자의 혼잣말 또는 투덜거림과 같은 형태로 나타난다. 이렇게

사용자의 발화가 명확한 지시가 아닌 경우, 이런 발화를 하는 사용자 스스로도

요청이 모호하고 애매하다고 평가하지만, 이러한 발화에 시스템이 제대로

대응해줬을 때, 시스템과 사람 대 에이전트로 대화를 하는 것 같다고 생각한다.

따라서 시스템은 차량 내부의 기능과 사용자가 묘사할 수 있는 다양한 상황을

연결짓고 관련 데이터를 미리 학습시켜서, Intent-object가 명확히 파악되는 지시형

발화가 아닌 경우에도 사용자의 말을 이해하고 적절한 기능을 제공할 수 있어야

한다.

제 4 절 Blackbox로 인한 이슈

발화 인터랙션의 평가 단계에서 사용자는 시스템의 응답에 불신하여

재확인하거나, 시스템을 테스트하려는 시도가 있었다. 이는 사용자의 발화로부터

추출한 intent와 시스템이 수행할 수 있는 기능을 연결짓는 시스템의 작동과정이,

사용자가 파악할 수 없는 black box 상태이기 때문에 발생한다고 볼 수 있다.

사용자가 알고리즘을 파악할 수 없는 상황에서 인공지능 시스템을 사용하는 경우에

시스템의 결과 제시 과정을 이해하고자 하는 원천적인 궁금증이 존재한다[60].

인터뷰에서도 참가자들은 과정이나 이유가 적절히 제시되지 않는 경우에는 시스템에

대한 불신이 생기기 때문에, 시스템이 판단 또는 답변 제시의 근거를 함께 말해주면

좋겠다고 밝혔다.

Page 65: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

58

시스템에 대한 작동 과정을 확인하는 방법으로는, Intent가 파악되지 않는 발화의

경우에도 실행 불가 피드백을 제시하는 것보다는 시스템이 최대한 유사한 응답을

제시하는 것을 방법을 제시하는 것에 대한 의견이 있었다. 이는 시스템이 자신의

발화를 어떻게 이해하고 받아들이는지 파악할 수 있는 방법이고, 더 나아가

시스템의 학습 과정까지 파악할 수 있다는 장점이 있다. 시스템이 답변의 근거를

함께 말해주면 좋겠다는 의견이 많이 있었지만, 급박한 운전 상황에 음성 피드백을

제공하는 것이 사용자의 집중력을 저하할 수 있다는 점에서 이러한 피드백은 더

논의가 필요하다[61]. 근거를 말하는 것 외에 참가자가 제안한 근거 파악의 방법은,

원래 사용자가 스마트폰을 이용할 때 사용하는 추천 앱 및 검색 앱을 파악하고 이

결과를 바탕으로 답변을 제공하는 것이다. 이는 사용자가 답변 제시의 알고리즘을

어느 정도 파악하고 있는 기존 서비스를 활용하여 궁금증을 해소하는 방법이라고 볼

수 있다.

Page 66: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

59

제 8 장 결 론

제 1 절 연구 결과의 요약

본 연구의 첫 번째 연구 문제는 <연구문제 1. In-Vehicle VUI를 사용하는

사용자의 니즈는 어떠한가> 이었다. 이를 위해 기존의 차 및 내비게이션의 기능을

분석하고, 결과를 기준으로 수집한 발화 데이터 중 현재 존재하는 기능과 새로운

기능을 파악하였다. 그 후 VUI를 사용하면서 새롭게 등장한 니즈를 파악하기 위해

새로운 기능의 구현 범위 및 정보적 특성을 파악하였다. 그 결과, In-Vehicle VUI를

사용하는 사용자의 니즈는 1) 사용자가 알기 어려운 차량 내의 정보를 실제 주행에

관련된 단위로 연산하여 제공, 2) 목적지와 관련된 추가 정보 및일상적인 정보를

운전 중에 음성으로 제공, 3) 내가 보고/듣는 것에 대한 정보 제공, 4) 주행 중

운전자가 하기 힘든 일을 대신 위임의 네 가지로 나타났다. 또한, 새로운 니즈는

주로 운전 외적인 상황에서 많이 나타난다.

두 번째 연구 문제 <연구문제 2. In-Vehicle VUI를 사용할 때, 사용자 발화의

특징은 무엇인가> 에 답하기 위해 사용자의 발화를 분석하였다. VUI의 작동 구조에

기반을 두어 object를 기준으로 발화를 3레벨로 나누었다. 그 후 각 기능 범위

안에서 발화의 구체화 레벨이 어떻게 나타나는지 파악했다. 그 결과, 차량 관련

기능에서는 system-like 발화가 많이 나타났고 인포테인먼트 관련 기능에서는

human-like 발화가 비교적 많이 등장하는 것을 알 수 있었다. 그 후 인터랙션의

표명/평가 단계가 나타나는 발화를 선별하고 오픈코딩을 진행하여 음성

인터랙션에서의 각 단계별 특징을 도출했다. 또한, 발화 분석으로 찾기 어려웠던, In-

Vehicle 상황에서 발생하는 VUI 대화의 특징을 도출하기 위해 인터뷰 분석을 통해

Page 67: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

60

실제 실험 중 대화에 대한 사용자의 반응을 살펴보았다.

앞선 데이터 분석 결과 및 인터뷰 결과를 바탕으로 세 번째 연구 문제

<연구문제 3. 사용자는 In-vehicle Voice Agent에게 무엇을 기대하는가> 에 대해

알아보고자 하였다. 그 결과 사용자가 In-Vehicle Voice agent에게 기대하는 것은 1)

운전자와 동일한 / 더 확장된 감각, 2) 정보를 이해하기 쉽게 변환하여 전달, 3) 운전

외, 일상 생활에 관련된 정보 제공, 4) 사람과 하는 것 같은 자연스러운 대화 5)

시스템의 작동 근거에 대한 파악으로 나타났다.

이후 연구 문제 검정 결과를 바탕으로, In-Vehicle VUI 를 구현함에 있어서

고려해야 할 몇 가지 사항에 대해 논의하고, 이를 바탕으로 시스템적 제언을 하였다.

제 2 절 연구의 한계점

실험 과정에서 나타나는 한계는 다음 두 가지로 정리할 수 있다. 첫 번째는 연구

결과에 대한 검증이 어렵다는 것이다. 검증을 위해서는 실제 기능을 구현하여

사용성 실험을 진행해야 하는데, 차량 기능의 경우 프로토타입 구현 및 주행 중

실험의 어려움이 있기 때문에 연구의 과정이 도출한 결과에 대한 검증까지 이뤄지지

못하고 제언에서 그쳤다는 한계가 존재한다.

두 번째는 사진에 따라 유도되는 발화가 존재한다는 것이다. 본 연구에서는

실험의 안전을 확보하기 위해 실험실 환경에서 운전 관련 사진을 활용하여 운전

상황에 몰입할 수 있도록 하였다. 하지만 사진이 한정되어 있기 때문에, 특정 사진에

대해서는 특정 Intent를 가진 발화가 많이 유도되는 것을 알 수 있었다. 예를 들어

사고 사진, 차량 내부(창문, 계기판)와 같은 사진들은 비슷한 발화를 유도되었다.

Page 68: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

61

제 3 절 연구의 의의

여러 한계점에도 불구하고, 본 연구는 다음과 같은 측면에서 의의를 갖는다.

먼저 VUI의 발전에 발맞추어, 실제 차량 내 VUI 탑재 시 고려해야 할 논의점을

제시했다는 데에 의의가 있다. 인터랙션의 구성 중 사용자 측면에서 정의되는 니즈

및 표현 단계에 대한 사용자 조사를 진행함으로써, 사용자 중심의 인터페이스를

디자인 할 수 있는 가능성을 열었다. 또한 음성 인터랙션의 인풋 소스인 사용자의

발화를 수집하고 분석하여 결과를 도출했다는 데에 의의가 있다. 이를 통해, 기존의

설문이나 인터뷰로는 파악하기 힘든 사용자의 니즈를 파악했다는 데에 의의가 있다.

Page 69: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

62

참고 문헌

[1] Michael H. Cohen, James P. Gianglam, Jennifer Balogh. (2004) Voice User Interface Design. Addison-Wesley. [2] P. Milhorat, S. Schlögl, G. Chollet, and J. Boudy, “What if everyone could do it?: a framework for easier spoken dialog system design,” in Proceedings of the 5th ACM SIGCHI symposium on Engineering interactive computing systems, 2013, pp. 217–222. [3] 이윤근, “대화형 자연어 음성인터페이스 기술 및 서비스 현황,” 2013 년도 대한전자공학

회 하계종합학술대회, pp. 1847–1849, 2013. [4] 이규섭. (2016). 인공지능기반음성인식, 사람보다낫다 - 해외사업자의음성인식기술활용서

비스중심으로. 디지털에코보고서. [5] B. Shneiderman. (1992). Designing the user interface: strategies for effective human-computer interaction. Addison-Wesley Reading (vol. 3) [6] 정지수. (2017). 사물인터넷의 핵심, 음성인식 스피커. 메리츠 종금 증권리서치 산업분석

자료 [7] 김찬욱, 김성배, 이건표. (2017). 인공지능 스피커 사용자 적응 패턴 연구. 한국디자인학회 학술발표대회 논문집, , 158-159. [8] Kwon, J. and Hong, K. (2006). “A Survey on Voice User Interface Design Methodology,” Journal of Computing Science and Engineering, Vol. 24, No. 1, pp. 27-36. [9] S. Schlögl, G. Chollet, M. Garschall, M. Tscheligi, and G. Legouverneur. (2013). Exploring voice user interfaces for seniors. In Proceedings of the 6th International Conference on Pervasive Technologies Related to Assistive Environments (PETRA '13). ACM, Article 52 , 2 pages. [10] 최재호, 김훈태 (2016). 스마트폰 음성 인터페이스의 사용 현황 및 사용자 인식에 대한 조사 연구. 한국전자거래학회지, 21(4), 29-40. [11] 전성준, 이상진, 김진우 (2016). 자율 주행 자동차에서 대화형 에이전트의 물리적 실재 디자인에 대한 연구. 한국 HCI학회 학술대회, 343-344. [12] Ronald Ecker, Verena Broy, Andreas Butz, and Alexander De Luca. (2009). pieTouch: a direct touch gesture interface for interacting with in-vehicle information systems. In Proceedings of the 11th International Conference on Human-Computer Interaction with Mobile Devices and Services(MobileHCI '09). ACM, New York, NY, USA, , Article 22 , 10 pages. [13] Ronald Ecker, Verena Broy, Katja Hertzschuch, and Andreas Butz. (2010). Visual cues supporting direct touch gesture interaction with in-vehicle information systems. In Proceedings of the 2nd International Conference on Automotive User Interfaces and Interactive Vehicular Applications(AutomotiveUI '10). ACM, New York, NY, USA, 80-87. [14] Chris Carter, Robert Graham. (2000). Experimental Comparison of Manual and Voice Controls for the Operation of in-Vehicle Systems. Proceedings of the Human Factors and

Page 70: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

63

Ergonomics Society Annual Meeting, 44(20), 286-289. [15] Eric Corbett and Astrid Weber. 2016. What can I say?: addressing user experience challenges of a mobile voice user interface for accessibility. In Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services (MobileHCI '16). ACM, New York, NY, USA, 72-82. [16] Cosmin Munteanu, Pourang Irani, Sharon Oviatt, Matthew Aylett, Gerald Penn, Shimei Pan, Nikhil Sharma, Frank Rudzicz, Randy Gomez, Ben Cowan, and Keisuke Nakamura. 2017. Designing Speech, Acoustic and Multimodal Interactions. In Proceedings of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems (CHI EA '17). ACM, New York, NY, USA, 601-608. [17] A. Dix. (2009). Human-computer interaction. Springer. [18]J. W. Kim. (2012). Human Computer Interaction. [19] Y. Pan. (2012). A Study on Structuring and Classification of Input interaction. 대한인간공학

회지. 31(4). 493–498. [20] S. Jones. (2012). Encyclopedia of new media: An essential reference to communication and technology. Sage Publications. [21] 이재현, “멀티미디어와 디지털 세계: 뉴미디어란 무엇인가,” 서울 커뮤니케이션북스, 2004. [22] Norman, Donald A., "Psychology of Everyday Action". The Design of Everyday Things. New York: Basic Book, 1988. [23] Ting-Yao Hu, Maxine Eskenazi. (2017). Integrating Verbal and Nonvebval Input into a Dynamic Response Spoken Dialogue System. AAAI Publications, Thirty-First AAAI Conference on Artificial Intelligence. [24] Carter, T. (2016). Five-factor model as a predictor for spoken dialog systems. [25] Christopher M. Mitchell , Keelan Evanini , Klaus Zechner. (2014). A Trialogue-Based Spoken Dialogue System for Assessment of English Language Learners. [26] Pamela S. Stein, Sandra D. Challman, Jennifer K. Brueckner. (2006). Using Audience Response Technology for Pretest Reviews in an Undergraduate Nursing Course. Journal of Nursing Education, 45(11) [27] Mareno, N., Bremner, M. & Emerson, C. (2010). The Use of Audience Response Systems in Nursing Education: Best Practice Guidelines. International Journal of Nursing Education Scholarship, 7(1). [28] Liu Deyun, 김희철. (2011). ARS 사용성 테스트를 위한 시뮬레이터 구현. 한국정보통신학

회논문지, 15(12), 2679-2686. [29]김호원, 김희철. (2011). ARS 메뉴체계 사용성 저해요소에 대한 실험연구. 한국정보통신

학회논문지, 15(2), 462-470. [30] Harvey C, Stanton NA, Pickering CA, McDonald M, Zheng P. (2011). To twist or poke? A method for identifying usability issues with the rotary controller and touch screen for control of

Page 71: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

64

in-vehicle information systems. Journal of Ergonomics, 54(7). [31] Badescu, M., Wampler, C., and Mavroidis, C. (2002). Rotary haptic knob for vehicular instrument controls. 10th symposium on haptic interfaces for virtual environmental and teleoperator systems, Orlando, Florida, USA, 24–25 March, 2002. New York: IEEE Press. [32] Cellario, M., 2001. Human-centered intelligent vehicles: toward multimodal interface integration. IEEE Intelligent Transport Systems, 16 (4), 78–81. [33] Chiang, D.P., Brooks, A.M., and Weir, D.H., 2004. On the highway measures of driver glance behavior with an example automobile navigation system. Applied Ergonomics, 35 (3), 215–223. [34] Ma, R. and Kaber, D.B., 2007. Situation awareness and driving performance in a simulated navigation task. Ergonomics, 50 (8), 1351–1364. [35] Gary Burnett, Glyn Lawson, Laura Millen, and Carl Pickering. 2011. Designing touchpad user-interfaces for vehicles: which tasks are most suitable?. Behav. Inf. Technol. 30, 3 (May 2011), 403-414. [36] Engstrom, J., Johansson, E., and Ostlund, J., 2005. Effects of visual and cognitive load in real and simulated motorway driving. Transportation Research Part F: Traffic Psychol- ogy and Behaviour, 8 (2), 97–120. [37] Burnett, G.E., et al., 2005. Writing and driving: an assessment of handwriting recognition as a means of alphanumeric data entry in a driving context. Advances in Transportation Studies, Special issue, 59–72. [38] Summerskill, S.J., Porter, J.M., and Burnett, G.E., 2003. Feeling your way home: the use of haptic interfaces within cars to make safety pleasurable. In: Proceedings of 3rd International conference on ‘Design and Emotion’, held 1–3 July, 2002 in Loughborough, UK. [39] Kenneth Majlund Ba h, Mads Gregers Jæger, Mikael B. Skov, and Nils Gram Thomassen. 2008. You can touch, but you can't look: interacting with in-vehicle systems. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '08). ACM, New York, NY, USA, 1139-1148. [40] Tsimhoni, O., Smith, D., and Green, P., 2002. Destination entry while driving: speech recognition versus a touch- screen keyboard. Technical Report UMTRI-2001-24. Ann Arbor, MI: The University of Michigan Transpor- tation Research Institute. [41] Ga ̈rtner, U., Ko ̈ nig, W., and Wittig, T., 2001. Evaluation of manual vs. speech input when using a driver information system in real traffic. In: Proceedings of international driving symposium on human factors in driver assessment, training and vehicle design. [42] Sivak, M., 1996. The information that drivers use: is it indeed 90% visual? Perception, 25 (9), 1081–1089. [43] Sirkin, David, et al. (2016). Eliciting conversation in robot vehicle interactions. Proceedings of the Association for the Advancement of Artificial Intelligence Spring Symposium Series: Enabling Computing Research in Socially Intelligent Human Robot Interaction. [44] Nikolas Martelaro and Wendy Ju. 2017. WOz Way: Enabling Real-time Remote Interaction Prototyping & Observation in On-road Vehicles. In Companion of the 2017 ACM Conference on

Page 72: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

65

Computer Supported Cooperative Work and Social Computing (CSCW '17 Companion). ACM, New York, NY, USA, 21-24. [45] Alexander Eriksson, Anders Lindström, Albert Seward, Alexander Seward, Katja Kircher. (2014). Can User-Paced, Menu-free Spoken Language Interfaces Improve Dual Task Handling While Driving?. International Conference on Human-Computer Interaction, HCI 2014: Human-Computer Interaction. Advanced Interaction Modalities and Techniques, 394-405. [46] Scott R. Klemmer, Anoop K. Sinha, Jack Chen, James A. Landay, Nadeem Aboobaker, and Annie Wang. 2000. Suede: a Wizard of Oz prototyping tool for speech user interfaces. In Proceedings of the 13th annual ACM symposium on User interface software and technology (UIST '00). ACM, New York, NY, USA, 1-10. [47] Steven Dow, Jaemin Lee, Christopher Oezbek, Blair MacIntyre, Jay David Bolter, and Maribeth Gandy. 2005. Wizard of Oz interfaces for mixed reality applications. In CHI '05 Extended Abstracts on Human Factors in Computing Systems (CHI EA '05). ACM, New York, NY, USA, 1339-1342. [48] Steven Dow, Blair MacIntyre, Jaemin Lee, Christopher Oezbek, Jay David Bolter, and Maribeth Gandy. 2005. Wizard of Oz Support throughout an Iterative Design Process. IEEE Pervasive Computing 4, 4 (October 2005), 18-26. [49] Pearl, Cathy. "Designing Voice User Interfaces: Principlesof Conversational Experiences." (2016). [50] Amazon Voice Design Guide, https://developer.amazon.com/designing-for-voice/ [51] Riccardo Coppola and Maurizio Morisio. 2016. Connected Car: Technologies, Issues, Future Trends. ACM Comput. Surv. 49, 3, Article 46 (October 2016), 36 pages. [52] Hwan Hwangbo, Seul Chan Lee, and Yong Gu Ji. 2016. Complexity Overloaded in Smart Car: How to Measure Complexity of In-vehicle Displays and Controls?. In Adjunct Proceedings of the 8th International Conference on Automotive User Interfaces and Interactive Vehicular Applications. ACM, New York, NY, USA, 81-86. [53] 김호원, 김희철. (2011). ARS 메뉴체계 사용성 저해요소에 대한 실험연구. 한국정보통신

학회논문지, 15(2), 462-470. [54] J.M. Atlee, J. Gannon. (1993). State-based model checking of event-driven system requirements. IEEE Transactions on Software Engineering 19(1), 24-40. [55] Anjishnu Kumar, Arpit Gupta, (2017). Just ASK: Building an Architecture for Extensible Self-Service Spoken Language Understanding. 1st Workshop on Conversational AI at NIPS 2017. [56] D Schnelle-Walka, S Radomski. (2017). NLU vs. Dialog Management: To Whom am I Speaking?. IUI 2016 Workshop: A joint Workshop on Smart Connected and Wearable Things, March 10th, 2016, Sonoma, CA, USA. [57] H Lieberman, T Selker. (2003). Agents for the user interface. Handbook of Agent Technology, 2003 [58] Alexander Serenko. (2008). A model of user adoption of interface agents for email notification. Interacting with Computers, 20(4-5), 1 September 2008, 461–472.

Page 73: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

66

[59] Xiao, Jun. (2006). Empirical Studies on Embodied Conversational Agents. In Partial Fulfillment Of the Requirements for the Degree Doctor of Philosophy in Computer Science, Georgia Institute of Technology. [60] 이현정. (2017). 오프 더 셸프(Off-the-shelf) 인공지능 서비스를 활용한 질적 분석의 사용

자 경험 연구 -자동 키워드 추출의 사용성·수용성 평가를 중심으로. 석사학위논문, 서울대학

교 대학원. [61] Anders Lindström , Jessica Villing , Staffan Larsson. (2008). The effect of cognitive load on disfluencies during in-vehicle spoken dialogue. In Proceedings of Interspeech2008. [62] Dirk Schnelle-Walka. 2010. A pattern language for error management in voice user interfaces. In Proceedings of the 15th European Conference on Pattern Languages of Programs (EuroPLoP '10). 23 pages. [63] 정재열, 정성미, 조호연, 신동희. (2014). 비언어적 커뮤니케이션을 위한 스마트폰 음성 사용자 인터페이스(VUI) 연구. 한국HCI학회 학술대회, , 171-174. [64] Bohus, Dan & Rudnicky, Alexander. (2005). Sorry I didn't Catch That: An Investigation of Non-understanding Errors and Recovery Strategies. Proceedings of the 6th SIGdial Workshop on Discourse and Dialogue. [65] Comes, Sherry. "Interactive Voice Response (IVR): The missing link". IT Pro Protal. [66] Nora demeter. (2014). Context aware voice user interface. [67] Seungyeop Han, Matthai Philipose, and Yun-Cheng Ju. 2013. NLify: lightweight spoken natural language interfaces via exhaustive paraphrasing. In Proceedings of the 2013 ACM international joint conference on Pervasive and ubiquitous computing (UbiComp '13). ACM, New York, NY, USA, 429-438. [68] Franc¸ois Portet, Michel Vacher, Caroline Golanski, Camille Roux, and Brigitte Meillon. (2013). Design and evaluation of a smart home voice interface for the elderly: acceptability and objection aspects. Personal and Ubiquitous Computing 17, 1, 127–144. [69] Michel Vacher. (2013). Design and evaluation of a smart home voice interface for the elderly: acceptability and objection aspects. Personal and Ubiquitous Computing, 17(1), 127-144. [70] BRUSH, A.J., JOHNS, P., INKPEN, K. and MEYERS, B. (2011). Speech@home: an exploratory study, CHI ‘11 Extended Abstracts on Human Factors in Computing Systems 2011, ACM, pp. 617-632. [71] Michel Vacher. (2013). Design and evaluation of a smart home voice interface for the elderly: acceptability and objection aspects. Personal and Ubiquitous Computing, 17(1), 127-144. [72] 김진현, 최재형, 조광수. (2017). 대화형 에이전트의 사과 오류 회복 전략과 사용자의 정

서상태가 사용자 경험에 미치는 영향. 한국HCI학회 학술대회, 350-353. [73] Jannette Maciej, MARK Vollrath. (2009). Comparison of manual vs. speech-based interaction with in-vehicle information systems. Accident Analysis & Prevention, 41(5), 924-930.

Page 74: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

67

[74] Kidong Kang, Sungyong Ahn, Peom Park. (2014). A Proposal of the Next-Generation Voice Interface Evaluation Model in the Vehicle Environment through a Case Study. 대한인간공학회 학술대회논문집, , 735-738. [75] Leonardo Angelini, Jürgen Baumgartner. (2016). A comparison of three interaction modalities in the car: gestures, voice and touch. In Actes de la 28ième conférence francophone sur l'Interaction Homme-Machine (IHM '16). ACM, 188-196. [76] Lee, Kong Aik & Larcher, Anthony & Thai, Helen & Ma, Bin & Li, Haizhou. (2011). Joint Application of Speech and Speaker Recognition for Automation and Security in Smart Home.. 3317-3318. [77] CHALFONTE, B.L., FISH, R.S. and KRAUT, R.E. (1991). Expressive richness: a comparison of speech and text as media for revision, Proceedings of the SIGCHI Conference on Human Factors in Computing Systems 1991, ACM, pp. 21-26.

Page 75: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

68

Abstract

Exploratory Research on User Needs and Speech Characteristics in

In-Vehicle Voice User Interface

An A-ju

Department of Digital Contents Convergence

The Graduate School

Seoul National University

Voice interface is becoming more common due to development of voice

processing technology. Voice interfaces are applied not only within the home but also

within the vehicle. Voice interfaces within the vehicle are shifting from the recognition of

words that are simply instructed to the identification of speech intent. These VUI's

distinct character differs from traditional interfaces is that users express their own

desires without having to analyze the system. Accordingly, implementing an In-Vehicle

VUI requires first to precede the user-centered exploratory study on VUI features and

features appropriate to these interfaces.

The goal of this study is to identify the emerging needs from the use of In-Vehicle

VUI and identify the characteristics of the Articulation / Observation phases in

interaction, thus identifying the expectations that users have for the Voice Agent. User

needs will help design the functionality of the subsequent system, and identifying the

characteristics of the Articulation / Observation phases will help design the

Performance / Presentation phases of the system later.

In this study, we conducted an experiment to collect and analyze user voice that

may appear during the use of VUI while driving. Due to the nature of the study subject

driving conditions, the test was conducted in a laboratory environment using visual

Page 76: In-Ve h i c le Vo i c e Us e r Inte r face 에서의s-space.snu.ac.kr/bitstream/10371/142269/1/000000150630.pdf · 지각, 해석, 평가에 해당하는 부분이 사용자 – 시스템

69

cues rather than actual driving conditions to ensure a safe experiment. Also, the

difficulty with prototyping of VUI, the experiment was conducted using the Wizard of Oz

method.

The experiment consists of an experiment to collect the voice of the user who may

appear while driving and an interview with 11 drivers. Intents and objects of the

collected voice data were identified and subsequent analysis was conducted based on

them.

The analysis results are as follows. In-Vehicle VUI-there are four emerging needs:

1) Calculating and providing information in the vehicle which is not known to the user in

relation to actual driving, 2) Providing additional and daily information related to the

destination by voice while driving, 3) Providing information on what the driver reports

and listens to, 4) Delegating tasks that are difficult for the driver while driving. And this

need arose chiefly in non-driving situations. During the interaction with In-Vehicle VUI-

the articulation phase has five characteristics: situation descriptions, causal

explanations, connections, composite commands and outcome descriptions. Features

that were shown during the observation phase were re-confirmating, testing and

evaluation. Based on the previous analysis, we identified the user's expectations for

the In-Vehicle Agent. Expectation was 1) the same / more extended senses as the

driver, 2) Providing easily translated information, 3) Providing information related to

daily life outside of the operation, 4) Natural Conversation like doing with Humans, and

5) Understanding the operating reasons of the system.

Based on the results of the study, the issues to be considered when implementing

In-Vehicle VUI were discussed and each was suggested systematically. First, the agent

must share its senses with the driver. Second, the scope and capabilities of the

system's data utilization must be extended. Third, they should be prepared for

emergencies that describe the user and their context-lines. Lastly, don't forget that

there is a user's concern with the blackbox.

Keywords : Voice User Interface, In-Vehicle Interface, User study, Wizard of Oz Student Number : 2016-26031