rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1....

21

Upload: others

Post on 01-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

Univerzita Komenského v Bratislave

Fakulta matematiky, fyziky a informatiky

Rozpoznávanie re£i v zjednodu²enom

anglickom jazyku

Bakalárska práca

2019Dávid �uba

Page 2: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

Univerzita Komenského v Bratislave

Fakulta matematiky, fyziky a informatiky

Rozpoznávanie re£i v zjednodu²enom

anglickom jazyku

Bakalárska práca

�tudijný program: 2511 Aplikovaná informatika

�tudijný odbor: Aplikovaná informatika

�koliace pracovisko: Katedra aplikovanej informatiky

�kolite©: prof. Ing. Igor Farka², Dr.

Bratislava, 2019

Dávid �uba

Page 3: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

76105311

Univerzita Komenského v BratislaveFakulta matematiky, fyziky a informatiky

ZADANIE ZÁVEREČNEJ PRÁCE

Meno a priezvisko študenta: Dávid ŠubaŠtudijný program: aplikovaná informatika (Jednoodborové štúdium, bakalársky

I. st., denná forma)Študijný odbor: aplikovaná informatikaTyp záverečnej práce: bakalárskaJazyk záverečnej práce: slovenskýSekundárny jazyk: anglický

Názov: Rozpoznávanie reči v zjednodušenom anglickom jazykuSpeech recognition in simplified English

Anotácia: V interakcii človeka s robotickým systémom vzniká prirodzená potrebakomunikovať v prirodzenom jazyku, často v nejakej konkrétnej doméne.V súčasnosti existuje niekoľko systémov, najmä pre angličtinu, ktoré sa dajúpre taký účel použiť, prípadne dotrénovať pre potreby užívateľa s cieľommaximalizovať presnosť rozpoznania slov, nezávisle od hovoriaceho.

Cieľ: 1. Naštudujte si problematiku rozpoznávannia rečí, princíp skrytýchmarkovovských reťazcov a umelých neurónových sietí, a oboznámte sa sosystémom HTK Toolkit.2. Dotrénujte a otestujte systém HTK na vami pripravenej dátovej množine(oznamovanie a príkazové anglické vety týkajúce sa opisu objektov na scéne,viacero hovoriacich).3. Doprogramujte potrebné skripty potrebné pre nasadenie systémudo prevádzky.

Literatúra: Jurasfky D., Martin J. (2008) Speech and Language Processing, PearsonInternational Edition.HTK Toolkit, Cambridge, UK, http://htk.eng.cam.ac.uk/

Vedúci: prof. Ing. Igor Farkaš, Dr.Katedra: FMFI.KAI - Katedra aplikovanej informatikyVedúci katedry: prof. Ing. Igor Farkaš, Dr.

Dátum zadania: 24.10.2018

Dátum schválenia: 24.10.2018 doc. RNDr. Damas Gruska, PhD.garant študijného programu

študent vedúci práce

Page 4: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

iii

�estné prehlásenie: £estne prehlasujem, ºe som túto bakalársku prácu vypraco-

val samostatne s pouºitím uvedenej literatúry.

V Bratislave d¬a: ...............

.....................

Dávid �uba

Page 5: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

iv

Po¤akovanie: �akujem.

Page 6: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

v

Abstrakt

Abstrakt.

K©ú£ové slová: rozpoznávanie re£i, HTK, skryté markovovské modely

Page 7: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

vi

Abstract

Abstract.

Keywords: speech recognition, HTK, hidden markov models

Page 8: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

Obsah

Úvod 1

1 Úvod do problematiky 2

1.1 Úvod do rozpoznávania re£i . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Typy rozpoznávania . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 História . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.1 Za£iatky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.2 Dynamic time warping . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.3 Skryté Markovovské modely . . . . . . . . . . . . . . . . . . . . 5

1.2.4 Neurónové siete . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Podobné práce a systémy . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 HTK 8

2.1 HTK toolkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Podobné nástroje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 In²talácia HTK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Skryté markovovské modely 11

3.1 Zmesi gausiánov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

vii

Page 9: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

Úvod

Úvod.

1

Page 10: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

1. Úvod do problematiky

V tejto kapitole sa budeme najskôr venova´ histórii rozpoznávania re£i. Pozrieme sa na

rôzne prístupy k nej a na sú£astný stav vývoja. Nakoniec si predstavíme rôzne podobné

systémy a práce, ktoré sa venovali tejto téme.

1.1 Úvod do rozpoznávania re£i

Problém rozpoznávania re£i - ASR(z angl. Automatic speech recognition) vznikol spo-

lo£ne s vývojom modernej výpo£tovej techniky. Hoci e²te stále nie je uspokojivo vyrie-

²ený, dne²né systémy sú dostato£ne úspe²né pre ich pouºitie v niektorých oblastiach.

Proces rozpoznania re£i je náro£ný a oblastí, ktorými sa pri ¬om musíme zaobera´

je nieko©ko a siahajú do viacerých oborov.

• Akustika - ako vzniká slovo v ©udskom hlasovom trakte, jeho ²írenie rôznymi

prostrediami a nakoniec spracovanie u²ným ústrojenstvom

• Spracovanie signálu - problematika digitalizovania signálu, odstra¬ovania ²umu,

vyextrahovania vhodných informácií potrebných pre rozpozanie re£i

• Lingvistika - stavba jazyka, rozdelenie slov na slabiky a hlásky, vz´ah medzi

zvukom(fonetika) a významom(sémantika)

• Rozpoznávanie vzorov - po£íta£ové algoritmy a metódy na klasi�káciu dát, h©a-

dania podobností

Po£íta£ musí by´ schopný zachyti´ zvukovú vlnu, ²íriacu sa vzduchom, spracova´

ju, rozdeli´ na slová, prípadne hlásky a poskytnú´ pouºívate©ovi prepis vyslovenej re£i

(1.1).

2

Page 11: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 1. ÚVOD DO PROBLEMATIKY 3

Obr. 1.1: Rozpoznanie slovného spojenia "dobrý de¬ ÄSR systémom

Zloºitých problémov ktoré nám pri rozpoznávaní re£i vyvstanú je nieko©ko. Kaºdý

£lovek má iný hlas. �eny v䣲inou vy²²í, muºi niº²í. Dokonca aj jednej osobe sa mení

hlas v priebehu d¬a. Iný má ke¤ ráno vstane a iný napríklad po£as choroby. Na²a

re£ sa lí²í aj v tempe. Môºme slovo vyslovi´ rýchlej²ie, pomal²ie. Znenie slova sa mení

aj v závislosti od emócii, od pouºitého kontextu. Na obrázku (1.2) vidíme porovnanie

zvukovej vlny slova "má²"v dvoch rôznych vetách, vyslovených tým istým re£níkom

hne¤ za sebou. Tvar vlny je síce podobný, ale díºka slova vo vete "Má² sa dobre?"je

dvojnásobne dlh²ia oproti vete Äko sa má²?". �al²í faktor vstupujúci do do procesu

rozpoznávania je vplyv pozadia. Absolútne tiché prostredie je nepouºite©né, lebo sa

nedá dosiahnu´ v reálnom nasadení systémov. Vºdy musíme po£íta´ so ²umom pochá-

dzajúcim z nedokonalosti mikrofónu alebo z prostredia. Rozhovor v pozadí, otvorenie

dverí alebo hu£anie ventilátora zmenia charakter zvukovej vlny. Modely ASR systémov

musia by´ robustné a snaºi´ sa eliminova´ tieto neºiaduce javy.

(a) Má² sa dobre? (b) Ako sa má²?

Obr. 1.2: Porovnanie zvukových v¨n slova má² v 2 rôznych vetách.

1.1.1 Typy rozpoznávania

ASR systémy môºme rozdeli´ pod©a nieko©kých základných kritérií.

Môºme rozpoznáva´ samotné hlásky, izolované slová alebo plynulú re£. Rozpoz-

návanie hlások je náro£nej²ie, kôli absencii kontextu, ktorý nám môºe pomôc´ ur£i´

Page 12: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 1. ÚVOD DO PROBLEMATIKY 4

pravdepodobnos´ priradenia hlásky k danej zvukovej sekvencii. Podobný princíp platí

aj pri rozoznávaní izolovaných slov a plynulej re£i, zloºenej z viet. Pri de�novanej gra-

matike jazyka vieme vypo£íta´ pravdepodobnos´ výskytu daného slova vo vete. Pri

plynulej re£i je v²ak problém s rozli£nými variantami toho istého slova pod©a pouºitia,

ako sme si ukázali na obrázku (1.2).

Hlavne v minulosti boli ASR systémy závislé na re£níkovi. To znamená, ºe boli

schopné rozpozna´ re£ iba jedného, resp. nieko©kých ©udí. Bolo beºné, ºe po kúpe

komer£ného softvéru na transkripciu re£i, musel pouºívate© pre£íta´ a nahra´ pripravený

text a tak dotrénova´ softvér na jeho konkrétny hlas. Dnes je snaha vyvíja´ systémy

nezávislé na re£níkovi. Je to moºné hlavne v¤aka dostupnému mnoºstvu dát a zlep²eniu

hardvéru.

Zaujíma nás aj ve©kos´ slovnej zásoby. Ko©ko slov je rozpoznáva£ schopný identi-

�kova´. Samozrejme je jednoduch²ie rozli²ova´ medzi nieko©kými povelmi, ako pozna´

jadro slovnej zásoby jazyka. V䣲ina moderných systémov s ve©kou slovnou zásobou je

preto zaloºená na rozpoznaní foném, resp. viacerých spojených foném - trifónov, bifó-

nov, difónov. Z nich sa potom vyskladajú slová. Rozpoznáva£ by mal by´ teda schopný

rozpozna´ aj neznáme slovo, na ktoré nebol ²peciálne trénovaný.

�al²ie kritérium ASR systému je £i bude transkripcia prebieha´ v reálnom £ase.

Ak chceme ovláda´ hlasom nejaké zariadenie, reakcia systému musí by´ okamºitá aj za

cenu miernych nepresností. Naopak pri generovaní prepisu videa je výhodnej²ie necha´

systém dlh²ie pracova´ a získa´ tak kvalitnej²í text.

1.2 História

Pouºitie rozpoznávania re£i je v poslednom £ase ve©mi sklo¬ované, hlavne kôli produk-

tom ve©kých spolo£ností napr. Alexa, Siri alebo Google Assistent, ktoré sú spo©ahlivo

ovládané hlasom. O túto problematiku sa v²ak zaujímali informatici uº desa´ro£ia do-

zadu a jej vývoj pre²iel rôznymi objavmi a zmenami, ktoré vyústili do dne²ného stavu.

1.2.1 Za£iatky

Za prvý pokus o ASR systém môºme povaºova´ rozpoznáva£ Äudrey"z roku 1952 zo-

strojený v Bell Laboratories. Vedel rozpozna´ £íslice do desa´ vyslovené jedným re£-

níkom. Zaloºený bol na rozpoznaní formantov, ²pi£iek vo zvukovom spektre, po£as

samohlások kaºdej £íslice [3]. �al²ie výskumy sa zameriavali na rozpoznanie nieko©-

kých samohlások a spoluhlások, £o sa ukázal ako dobrý postup, ke¤ºe z hlások vieme

vysklada´ neskôr slová. Slovná zásoba v²ak bola stále obmedzená na desa´, dvadsa´

izolovaných slov.

Page 13: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 1. ÚVOD DO PROBLEMATIKY 5

1.2.2 Dynamic time warping

Posun nastal vymyslením algoritmu Dynamic time warping - DTW, ktorý slúºi na

h©adanie podobnosti medzi dvoma lineárnymi vstupmi lí²íacimi sa v rýchlosti za pomoci

dynamického programovania.

Rovnaké slovo vyslovené dvoma rôznymi re£níkmi sa v䣲inou lí²i v tempe. Niekto

rozpráva rýchlej²ie a niekto pomal²ie. DTW öhýba"£asovú os, aby zrovnal vstupné

signály.

Obr. 1.3: Ukáºka zarovnávania dvoch signálov pomocou ohýbania £asovej osi

Neznáme slovo sa samostatne porovnáva so v²etkými slovami v danom slovníku.

Vyberie sa to, s ktorým má najv䣲iu zhodu. Prístup je teda klasi�ka£ný, z £oho plynie

problém, ºe hoci sa slovo nemusí nachádza´ vôbec v rozpoznávanom slovníku, ani sa

na ºiadne podoba´, algoritmus ho vºdy priradí k najpodobnej²iemu. Tento postup

sa osved£il najme pri rozpoznávaní men²ieho po£tu izolovaných slov. Ve©kos´ slovnej

zásoby, ktorú ASR systém dokázal rozpozna´ ale stúpla na nieko©ko desiatok slov.

1.2.3 Skryté Markovovské modely

�al²í ve©ký skok v ASR systémoch priniesli skryté markovovské modely - HMM(z

angl. Hidden Markov Models). Tomuto rie²eniu sa budeme podrobne venova´ v ¤al²ích

kapitolách. Za£ali sa pouºíva´ v osemdesiatych rokoch a tento nový ²tatistický prístup

bol povaºovaný za najlep²í aº do nedávnej minulosti. S rozli£nými vylep²eniami sa

HMM e²te stále pouºíva v niektorých komer£ných softvérch.

Page 14: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 1. ÚVOD DO PROBLEMATIKY 6

1.2.4 Neurónové siete

Pouºívanie umelých neurónových sietí - ANN (z angl. arti�cial neural networks) v

oblasti umelej inteligencie je dnes ve©mi moderné. Tento model v²ak bol známy uº

v pä´desiatych rokoch. Úspe²né pokusy o jeho aplikáciu v oblasti rozpoznávania re£i

sa dosiahli v osemdesiatych a devä´desiatych rokoch minulého storo£ia. ANN neboli

pouºité samostatne, ale vylep²ovali konkrétne problémy v ²tatistických HMM systé-

moch, napríklad odhad rozdelenia pravdepodonosti alebo vektorizácia vstupného sig-

nálu. Predstavený bol HMM/MLP model (MLP - multi layer perceptron) [4], ktorý

na£rtol budúcnos´ pouºitia ANN v ASR, ale vtedaj²í hardvér a algoritmy na u£enie,

neposta£ovali aby dokázali konkurova´ systémom zaloºených na skrytých Markovov-

ských modeloch.

Odvtedy vývoj pokro£il a pomerne dobrú úspe²nos´ dosahovali aj systémy zalo-

ºené hlavne na neurónových sie´ach. Samotný klasi�kátor je realizovaný ANN, ale e²te

stále je pouºité predspracovanie signálu alebo vektorizácia signálu algoritmami, aké

sa pouºívajú napríklad pri HMM systémoch a budeme si o nich hovori´ v neskor²ích

kapitolách. Nejde teda o rozpoznávanie öd za£iatku do konca"(angl. End-to-End) ne-

urónovými sie´ami.

Rozpoznávaniu £ísel slovenského jazyka za pomoci neurónových sietí sa venuje práca

Vojtecha Slovika [5]. Pouºil trojvrstvovú klasi�ka£nú ANN s jednou vrstvou skrytých

neurónov. Pouºil aj techniku ökna do minulosti a budúcnosti", ktoré eliminuje problém

s £asovým kontextom re£i, teda ºe výslovnos´ hlásky závisí aj od hlásky pred ¬ou a

po nej. Podarilo sa mu dosiahnu´ dobrú úspe²nos´ okolo 90% pre 16-slovný slovník a 8

rôznych re£níkov.

Skuto£nú revolúcia do problému ASR v²ak priniesla metóda hlbokého u£enia(angl.

deep learning) v posledných pár rokoch. K natrénovaniu takejto DNN siete (z angl. deep

neural network) treba ve©ké mnoºstvo výpo£tovej sily a ve©ké mnoºstvo dát. Dnes to

uº nie je problém, v¤aka vývojú ²pecializovaných gra�ckých kariet a technologickým

gigantom ako napríklad Google, ktorý vie pohodlné zozbiera´ ohromné mnoºstvá ho-

vorenej re£i od svojich pouºívate©ov.

DNN ënd-to-end"rozpoznáva£e sú schopné v䣲ej abstrakcie nad vstupným signá-

lom, teda lep²ie vyuºijú kontext £asti signálu ako predchádzajúce rozpoznáva£e, ktoré

ho analyzujú po mali£kých £astiach. Navy²e, ako potvrdil tento experiment [6] pri tré-

novaní nie je potrebný fonetický prepis tréningových dát, £o predstavuje ve©ké u²etrenie

práce pri príprave datasetov. DNN systémy úspe²nos´ou rozpoznávania slov aj plynu-

lej re£i, uº prevy²ujú klasické HMM modely a práve týmto smerom sa uberá aktuálny

vývoj ASR.

Page 15: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 1. ÚVOD DO PROBLEMATIKY 7

1.3 Podobné práce a systémy

Automatické rozpoznávanie re£i je zaujímavý problém pre komer£nú sféru, kôli moº-

nosti ovláda´ zariadenia hlasom. Systémy ako Google Assistent, Siri alebo Alexa dosa-

hujú vysokú úspe²nos´ pre plynulú re£ a ve©kú slovnú zásobu. Pravdepodobne fungujú

na technikách DNN. Je ale potrebný internetový prístup. To ich robí v niektorých situ-

áciách nepouºite©nými. Systémy bez potreby internetu majú vy²²iu nepresnos´ alebo

obmedzenú slovnú zásobu.

Oblasti rozpoznávania re£i sa venovala práca [7]. Cie© bol rozpozna´ slovenské hlásky

s vyuºitím rôznych techník, ako napríklad modelovanie ²umu pozadia. Rozpoznávanie

samostatných hlások je ´aº²í problém ako rozpoznávanie slov, kôli absencii kontextu.

Dosiahnutá úspe²nos´ sa pohybovala len okolo 50%, ale podarilo sa dosiahnu´ mierne

zlep²enie po pouºití optimaliza£nej metódy klasteringu. Túto techniku by sme mohli

vyuºi´ aj v na²ej práci.

Rozpoznávaním re£i zaloºenom na zmesiach gausiánov sa venovala práca [8]. Oproti

²tandardným gausiánom pouºíva hlbokú architektúru. To znamená, ºe pouºijeme viac

vrstiev gausiánskych zmesí nad sebou. Ide o kombináciu techník hlbokého u£enia a

²tandardného HMM-GMM prístupu (GMM - z angl. Gaussian Mixture Models). Na

vyhodnotenie úspe²nosti tohto prístupu, bol systém natrénovaný na rozpoznávanie slo-

venských £íslic. Dosiahol mierne zlep²enie o necelé percento oproti modelu bez hlbo-

kej architektúry. Nevýhodou tohoto modelu sú zvý²ené £asové nároky na trénovanie,

ktoré môºe trva´ aj desa´krát dlh²ie. Na základe poznatkov o hlbokých architektúrach

môºme predpoklada´, ºe navrhnutý model bude úspe²nej²í pri dostato£ne ve©kej tré-

novacej mnoºine, av²ak pri nedostatku trénovacích dát bude ma´ v䣲iu chybovos´ ako

²tandardný model.

Page 16: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

2. HTK

V tejto kapitole si povieme nie£o o nástroji na prácu so skrytými markovovskými mo-

delmi HTK [2] (z angl. Hidden markov model ToolKit). Uvedieme si aj iné systémy

umoº¬ujúce prácu s HMM.

2.1 HTK toolkit

HTK je nástroj vyvinutý na Cambridge University. Primárne je ur£ený na výskum

okolo rozpoznávania re£i, ale pouºitie môºe nájs´ aj v iných oblastiach pouºívajúcich

HMM, napríklad rozpoznávanie znakov alebo DNA sekvenovanie. Poskytuje viacero

nástrojov na spracovanie signálu, inicializáciu HMM modelov, ich tréning a analýzu

výsledkov. Takisto je k HTK vydaná podrobná dokumentácia aj s príkladmi pouºitia

[2]. Uvedieme si základné a najpouºívanej²ie nástroje v rôznych fázach vývoja ASR

systému pomocou HMM.

Príprava dát: na za£iatku treba pripravi´ trénovaciu a testovaciu mnoºinu nahrávok

spolu s ich transkripciou - HSLAB. Na manipuláciu s nahrávkami ako je ich spájenie,

delenie a ich parametrizáciu slúºi HCopy. Na konvertovanie a upravovanie súborov s

transkripciou re£i slúºi HLed.

Trénovanie: Po vytvorení vhodnej HMM architektúry a vytvorení prototypov mo-

delov(ru£ne editovate©né textové súbory) ich môºme inicializova´. Na inicializovanie a

prvotný odhad parametrov pomocou Viterbiho algoritmu má systém HTK nástroj HI-

nit. Potom môºme pouºi´ HERest, ktorý pouºíva Baum-Welch algoritmus na úpravu

odhadov parametrov modelu. HHEd slúºi na úpravu jednotlivých HMM, napríklad

pridanie gausiánov do jednotlivých stavov. Potom treba celý model pretrénova´ znova

nástrojom HERest.

Rozpoznávanie: HVite realizuje samotné rozpoznávanie. Vstupom je súbor de�nu-

júci gramatiku jazyka (aké sekvencie slov sú dovolené), sie´ HMM, slovník výslovnosti

slov a neznámy audio súbor. Za pomoci Viterbiho algoritmu sa zisti´uje prepis slova,

ktorý uloºí do súboru. Alternatívou k HVite je HDecode, ktorý sa hodí pre v䣲ie

slovníky.

Analýza: Posledný krok je zistenie úspe²nosti rozpoznávania pomocou HResults.

8

Page 17: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 2. HTK 9

Tento nástroj porovná výstup z HVite a správny prepis audia za pomoci dynamického

programovania. Spo£íta chyby nahradenia, odstránenia a vloºenia.

Na obrázku 2.1 môºme vidie´ spomínané fázy a nástroje poskytované HTK toolki-

tom.

Obr. 2.1: Rôzne nástroje poskytované HTK toolkitom

2.2 Podobné nástroje

Hoci je uº HTK pomerne starý nástroj, neustále zlep²enia(posledná nová verzia je z

roku 2015), podrobná dokuntácia a ve©a vo©ne dostupných materiálov robia z neho

konkurencie schopný softvér.

O nie£o nov²í je systém Kaldi [11]. Oproti HTK má výhodu vo©nej²ej licencie a dá

sa viac upravi´ pod©a potrieb. Na druhej strane mu chýba podrobná a zrozumite©ná

dokumentácia akou disponuje HTK. Podrobnej²ej analýze týchto dvoch nástrojov sa

venovala táto práca [8]. Na vykonanom teste dosiahli porovnate©né výsledky, Kaldi o

nie£o lep²ie.

Posledným nástrojom, ktorý spomenieme je CMUSPhinx [12]. Jeho výhodou je pod-

Page 18: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

KAPITOLA 2. HTK 10

pora jazykov Java a Python, £o ho robí pouºite©ným v mnohých prostriediach. Taktieº

ponúka od©ah£enú verziu Pocketsphinx, ktorá beºí aj na opera£nom systéme Android,

teda je pouºite©ná v mobilných aplikáciách. Je v²ak viacej kompaktný a neponúka také

podrobné moºnosti stavby modelov a ich trénovania ako HTK alebo Kaldi.

2.3 In²talácia HTK

Návod na in²taláciu HTK na Linuxe aj Windowse je dostupný online [2]. In²talácia

by mala by´ pomerne priamo£iara, autor práce v²ak mal s ¬ou problémy na linuxo-

vej distribúcii Debian, preto sa rozhodol uvies´ pár bodov, ktoré odstránia prípadé

problémy.

Nástroje HTK sú 32-bitová aplikácie, £o spôsobuje problémy s gra�ckými kniºnicami

na 64-bitových systémoch. Jediný spôsob, ktorý sa osved£il bolo vynecha´ z kompilácie

nástroj HSlab, ktorý jediný pouºíva tieto kniºnice. Skript con�gure bolo treba spusti´

nasledovne:

$ c on f i gu r e −−without−x −−d i sab l e−hs lab

HSlab slúºi na nahrávanie re£i a tvorbu súborov s transkripciou re£i na trénovanie.

Alternatíva k nemu je napríklad program Wavesurfer [14].

Druhou chybou, ktorá sa vyskytla po spustení príkazumake install bolo nesprávne

odsadenie v skripte MakeFile. V adresári htk/HLMTools ho treba upravi´. Na riadku

77 vymaºeme odsadenie tvorené medzerami a nahradíme ich tabelátorom.

Page 19: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

3. Skryté markovovské modely

Skrytý Markovov model - HMM je ²tatistický model generujúci postupnos´ symbo-

lov. Pomocou HMM sa dajú modelova´ postupnosti symbolov, ak predpokladáme, ºe

modelovaný jav sa v rôznych okamihoch nachádza v rôznych stavoch a generovanie sym-

bolov nezáleºí na stavoch, v ktorých bol jav predtým a potom. HMM je vlastne kone£ný

automat, ktorého prechody medzi stavmi sú ováhované pravdepodobnos´ami a kaºdý

vygenerovaný symbol sa generuje pod ur£itou pravdepodobnos´ou. HMM generuje sym-

bol vºdy v jednom stave, potom sa presúva do druhého stavu. Príklad jednoduchého

modelu môºme vidie´ na obrázku 3.1.

Obr. 3.1: HMM model

3.1 Zmesi gausiánov

DOROBI�.

11

Page 20: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

Literatúra

[1] Jurafsky D., Martin J., Speech and Language Processing, Third Edition draft, 2018

[2] HTK, Hidden Markov Model Toolkit, http://htk.eng.cam.ac.uk/ [nav²tívené

8.1.2019]

[3] Juang B. H., Rabiner L. R., Automatic speech recognition�a brief history of the

technology development, Georgia Institute of Technology, Atlanta, Rutgers Univer-

sity and the University of California, Santa Barbara

[4] Bourlard H., Morgan N., Connectionist Speech Recognition: A Hybrid Approach,

The Kluwer International Series in Engineering and Computer Science, Boston,

MA: Kluwer, 1994

[5] Rozpoznávanie foném £ísel slovenského jazyka neurónovou sie´ou, Slovik V., 2007,

Diplomová práca, FMFI UK

[6] Graves A., Jaitly N., Towards End-to-End Speech Recognition with Recurrent Ne-

ural Networkss, International Conference on Machine Learning (ICML), 2014

[7] Ritomský O., Zvý²enie úspe²nosti rozpoznávania izolovaných hlások vyuºitím tech-

niky modelovania ²umu pozadia, 2015, Bakalárska práca, FMFI UK

[8] �uppa M., Speech recognition based on deep gaussian mixture models, 2016, Ba-

kalárska práca, FMFI UK

[9] Young S., Evermann G., Gales M., Hain T., Kershaw D., Liu X., Moore G., Odell

J., Ollason D., Povey D., Valtchev V., Woodland P., The HTK Book (for HTK

Version 3.4), 2006, Cambridge University Press

[10] Young S. J., Young S., The HTK hidden Markov model toolkit:Design and philo-

sophy, 1993, University of Cambridge, Department of Engineering

[11] Kaldi toolkit, http://kaldi-asr.org/ [nav²tívené 19.1.2019]

[12] CMUSphinx speech recognition system, https://cmusphinx.github.io/ [nav²tívené

19.1.2019]

12

Page 21: Rozpoznávanie re£i v zjednodu²enom anglickom jazykudavinci.fmph.uniba.sk/~suba13/praca.pdf · 1. Úvod do problematiky V tejto apitolek sa budeme najskôr venoa´v histórii rozpoznáaniav

LITERATÚRA 13

[13] Wavesurfer tool for sound, http://www.speech.kth.se/wavesurfer [nav²tívené

19.1.2019]