Značaj govora i čula sluha
• Glas bolje izražava (a uho oseća)
– smisao i značenje
– pol, starost, raspoloženje
• Alternative:
– pantomima, pismo...
• Uloge u životu čoveka
– opstanak: čuje zvuk sa svih strana,
čak i kad spava
– sporazumevanje: govor, muzika, sirena
TEDxNoviSad, December 3rd, 2011
emitovanje glasa
(vokalni trakt)
smišljanje poruke
jezički kod
Šta će da kaže? tekst
nervno-mišićna aktivnost
Kako će da kaže? prozodija
zvučna pobuda (pluća i glasnice)
artikulacija
GOVORNIK
Način izgovora
Jačina i visina tona
SLUŠALAC
shvatanje poruke
Niz reči = rečenice semantika
Niz fonema = reči sintaksa
spektralna analiza
pomeraji bazilarne
membrane
mehaničko-nervna transdukcija
jezički kod
Razlikovanje fonema
Govorna komunikacija artikulatorna fonetika auditorna fonetika
akustička fonetika 4 ASR i TTS ::: Govorni signal
Agenda
1. Stvaranje (artikulacija) i slušanje (percepcija) govora
– modelovanje procesa izgovaranja i slušanja
– karakteristike po kojima se razlikuju glasovi
• osnova za ASR, kodovanje i dr. obrade govornog signala
2. Reprezentacije govornog signala
– talasni oblik s(t) (obiman, redundantan, varijabilan)
– spektrogram s(t,f) (bolji, ali i dalje jako varijabilan)
3. Snimanje govora i merenje razumljivosti
– izbor i postavke mikrofona za snimanje govora
– objektivne i subjektivne mere kvaliteta govornog signala
5 ASR i TTS ::: Govorni signal
Artikulatorna fonetika
Motivacija: • Modelovanje produkcije govora razumevanje strukture govornog signala projektovanje algoritama za obradu govornog signala
Proces artikulacije govora: • Pluća pokrenu vazdušnu struju kroz
vokalni trakt • Oscilacije vazduha se prenose kroz
niz povezanih otvora i šupljina, nailaze na različite oblike komora i prepreka – specifična je konfiguracija i pokreti
organa vokalnog trakta za svaki glas – vrši se (ko)artikulacija niza glasova
6 ASR i TTS ::: Govorni signal
Uticaj delova VT i uha na zvuk
VT je niz cevi i šupljina; i slušni kanal je kao cev
• Posmatrajmo zvuk od ulaza u jednu cev
– Da li je talasni front na ulazu u slušni kanal ravan ili sferni?
– Kako se menja zvučni pritisak u prostoru i vremenu?
• progresivni zvučni talas
– Šta ako je cev zatvorena sa druge strane?
• progresivni i reflektovani zvučni talas
http://paws.kettering.edu/~drussell/Demos/waves-intro/waves-intro.html
Artikulatorna fonetika
7 ASR i TTS ::: Govorni signal
Akustička teorija produkcije govora
Detaljna akustička teorija mora da razmotri sledeće efekte:
• Vremenska varijacija oblika vokalnog trakta
• Gubici usled sprovođenja toplote i viskozne frikcije na zidovima vokalnog trakta
• Mekoća zidova vokalnog trakta
• Radijacija zvuka sa usana
• Uparivanje nazalnog trakta
• Pobuđivanje zvuka u vokalnom traktu
• Na ovom kursu ćemo razmotriti efekte prostiranja zvuka (bez gubitaka) kroz krutu glatku cev – sa zatvorenim krajem sa krutim/mekim zidom
Artikulatorna fonetika
8 ASR i TTS ::: Govorni signal
Stojeći talasi u cevi
• Duvački instrumenti (npr. flauta ili klarinet)
– duvamo sve, vraćaju se rezonantne f
• Slušni kanal
– ovde se traži max na bubnoj opni
• Vokalni trakt (niz povezanih cevi)
– svaka komora ima svoju rezonansu formanti
– postoje samo neparni harmonici
pritsak
pritsak
pritsak
zatvoren krajotvoren kraj
...,3,2,1,4
)12( nL
cn
cf
n
n
...,3,2,1,4
)12( nnL n
Artikulatorna fonetika
9 ASR i TTS ::: Govorni signal
Uticaj akustičkih cevi na govor
• Na koje frekvencije je uho najosetljivije?
• Koja je rezonantna frekvencija slušnog kanala? (dužina je oko 2,5 cm)
– rezonansa je oko:
• opseg 3-4 kHz se pojačava za oko 12 dB – a oko 7 kHz za svega 3 dB
• Dužina vokalnog trakta je oko 17 cm. U kom opsegu se generiše najviše energije u govoru?
– rezonansa cevi od 17 cm je:
• A od čega zavisi osnovna frekvencija glasa?
Hz3400cm5,24
sm340
41
l
cf
Hz500cm174
sm340
41
l
cf
Artikulatorna fonetika
10 ASR i TTS ::: Govorni signal
Geometrija rezonatora u VT
2 8
8
12
12
AA
LL
8/1
2.1
12
12
AA
LL
8
1
12
12
AA
LL
8/1
3/1
12
12
AA
LL
8
5.1
12
12
AA
LL
2
2
2
2 1
1
1
1
1
cm6.17L
cm5.1421 LL
cm6.1721 LL
F1 F2 F3 F4
F1 F2 F3 F4
F1 F2 F3 F4
F1 F2 F3 F4
F1 F2 F3 F4
F1 F2 F3 F4
780 1240 2720 3350
220 1800 3800
630 1770 3240
260 1990 3050 4130
2280
2230
320 1200 2300 3430
500 1500 2500 3500
[i]
[a]
Artikulatorna fonetika
12 ASR i TTS ::: Govorni signal
• Konfiguracija vokalnog trakta
– usta dominantno utiču na oblik
• Model vokalnog trakta
• Obvojnica rezultujućeg spektra
Modeli i spektri pojedinih glasova
From Mark Liberman’s Web site
Artikulatorna fonetika
13 ASR i TTS ::: Govorni signal
Delovi govornog mehanizma
ždrelo artikulacioni organi
fonatorni organi
respiratorni organi
Artikulatorna fonetika
14 ASR i TTS ::: Govorni signal
Model akustičkih cevi
Niz šupljina povezanih cevima su ekvivalentno LC kolo – rezonatori. Oni filtriraju – uobličavaju spektar
(formiraju formantne oblasti) - karakteristično za svaki glas.
Artikulatorna fonetika
15 ASR i TTS ::: Govorni signal
Modelovanje govornog mehanizma
Periodična pobuda
Šumna pobuda
zvučna bezvučna
Vokalni trakt
govor
glas: M Ž D
f0 125 225 300
f0min 80 150 200
f0max 200 350 500
Artikulatorna fonetika
16 ASR i TTS ::: Govorni signal
Linearni model produkcije govora
Voiced Excitation
Unvoiced Excitation
IMPULSE TRAIN GENERATOR I(z)
VOCAL TRACT MODEL V(z)
RADIATION MODEL R(z)
RANDOM NOISE GENERATOR N(z)
Voiced/Unvoiced Switch
Pitch Period
AV
AN
Vocal Tract
Parameters
GLOTTAL PULSE MODEL G(z)
uG(n)
pL(n)
Artikulatorna fonetika
17 ASR i TTS ::: Govorni signal
IMPULSE TRAIN GENERATOR I(z)
VOCAL TRACT MODEL V(z)
RADIATION MODEL R(z)
RANDOM NOISE GENERATOR N(z)
Voiced/Unvoiced Switch
Pitch Period
AV
AN
Vocal Tract
Parameters
GLOTTAL PULSE MODEL G(z)
uG(n)
pL(n)
1/F0
Time Freq. F0 2F0 ...
-12 dB/oct
|I(F)G(F)|
=
Linearni model produkcije govora
Artikulatorna fonetika
18 ASR i TTS ::: Govorni signal
IMPULSE TRAIN GENERATOR I(z)
VOCAL TRACT MODEL V(z)
RADIATION MODEL R(z)
RANDOM NOISE GENERATOR N(z)
Voiced/Unvoiced Switch
Pitch Period
AV
AN
Vocal Tract
Parameters
GLOTTAL PULSE MODEL G(z)
uG(n)
pL(n)
Time
=
Frequency
|N(F)|
Linearni model produkcije govora
Artikulatorna fonetika
19 ASR i TTS ::: Govorni signal
IMPULSE TRAIN GENERATOR I(z)
VOCAL TRACT MODEL V(z)
RADIATION MODEL R(z)
RANDOM NOISE GENERATOR N(z)
Voiced/Unvoiced Switch
Pitch Period
AV
AN
Vocal Tract
Parameters
GLOTTAL PULSE MODEL G(z)
uG(n)
pL(n)
1
( )
1N
k
k
k
GV z
z
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
Frequency
+6 dB/oct
Frequency
|V(F)| |R(F)|
Linearni model produkcije govora
Artikulatorna fonetika
20 ASR i TTS ::: Govorni signal
IMPULSE TRAIN GENERATOR I(z)
VOCAL TRACT MODEL V(z)
RADIATION MODEL R(z)
RANDOM NOISE GENERATOR N(z)
Voiced/Unvoiced Switch
Pitch Period
AV
AN
Vocal Tract
Parameters
GLOTTAL PULSE MODEL G(z)
uG(n)
pL(n)
1
( )
1N
k
k
k
GV z
z
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
0 500 1000 1500 2000 2500 3000 3500 4000-4
-2
0
2
4
6
8x 10
-12
Frequency
+6 dB/oct
1/F0
Time Freq. F0 2F0 ...
-12 dB/oct
Frequency
|V(F)| |R(F)|
|I(F)G(F)|
Time
=
Frequency
|N(F)|
=
Linearni model produkcije govora
Artikulatorna fonetika
21 ASR i TTS ::: Govorni signal
Modelovanje govornog aparata
• Pobuda se može razložiti na zvučni i bezvučni deo
• Model vokalnog trakta je vremenski promenljivi digitalni filtar
Artikulatorna fonetika
22 ASR i TTS ::: Govorni signal
Funkcije govornih organa
pluća grkljan ždrelo vokalni trakt
nazalni trakt
izdisaj pomeranje
glasnica rezonancija rezonancija
rezonancija
subglotalni pritisak
glotalni talas
govorni talas
intenzitet zvučnost i F0 modulacija modulacija
modulacija
organi
funkcije
rezultujući efekti
fonacija (prozodijski parametri) artikulacija (spektralni parametri)
Artikulatorna fonetika
23 ASR i TTS ::: Govorni signal
Oralni izgovor
Nazalni izgovor
Oralni i nazalni izgovor
ASR i TTS ::: Govorni signal 24
Auditorna fonetika
Auditorna fonetika
Motivacija: • Modelovanje percepcije govora
razumevanje prirodnog prepoznavanja i razumevanja govora projektovanje algoritama za ASR i SLU – problem je (ne)poznavanje viših kognitivnih
nivoa
Proces percepcije govora: • Talasni front stigne do spoljnjeg uha • Ušna školjka i slušni kanal usmeravaju zvuk
na bubnu opnu – usmeravaju i posebno pojačavaju govorne
frekvencije
• Oscilacije bubne opne se prenose na bazilarnu membranu – vrši spektralnu analizu u toku vremena
• Mozak razaznaje niz glasova, shvata reči i rečenice, opaža emocije
28 ASR i TTS ::: Govorni signal
Delovi slušnog aparata
Slušne koščice
Bubna opna
Pužasto teloKohlea
Presek kroz uho
Ušna školjka
Slušni kanal
2.5 cm 0.4 cm2
Auditorna fonetika
29 ASR i TTS ::: Govorni signal
Kako čujemo?
Spoljašnje uho
Srednje uho
Kohlearni fluidi Unutrašnje trepljaste
ćelije
Slušni nerv
zvuk 16 kHz
50 Hz
35 mm0
Fre
kven
cija
Položaj0 1 2 3 4
02
0-2
0-4
0-6
0
Frekvencija kHz
Am
pli
tuda
dB
Auditorna fonetika
30 ASR i TTS ::: Govorni signal
Položaj maksimalnog pomeraja bazilarne membrane za različite frekvencije pobude
Auditorna fonetika
32 ASR i TTS ::: Govorni signal
Osećaj promene visine tona U
hu
pri
met
ne
pro
men
e fe
kven
cije
850 segmenata bazilarne membrane
32 mm po 37 m.
Mel vs. Hz skala: - ista do 500 Hz
- posle logaritamska
Mel skala je linearna duž bazilarne membrane.
Radna grupa ćelija bazilarne membrane
- oko 100 mela.
Auditorna fonetika
33 ASR i TTS ::: Govorni signal
Izvorni zvučni signal Filtriranje (uklanjanje
prva tri harmonika)
Spektar ostatka
Virtuelna visina tona
• Uho detektuje f0 iako je nema
• Kombinacija tonova
– 2f1-f2, 3f1-2f2 i 4f1-3f2
Auditorna fonetika
34 ASR i TTS ::: Govorni signal
Subjektivni osećaj visine tona (pič)
• Ton iste frekvencije različito se doživljava ako je tiši ili glasniji subjektivni osećaj = visina tona (vezana za pič period)
• Povećanjem intenziteta – osećaj visine tona se pomera naviše kod viših frekvencija
• jači zvuk izgleda još viši
– osećaj visine tona se pomera naniže kod nižih frekvencija
• pojačavanjem disharmoničnog zvuka 168 i 318 Hz počinje da se čuje kao harmoničan ton 150 i 300 Hz
• Visina tona se vezuje za melodijsku skalu – kriva Mel-Hz kao pozicije Hz na bazilarnoj membrani
• Visina tona od 1000 mela = frekvenciji od 1000 Hz – samo za nivo od 60 dB
Auditorna fonetika
35 ASR i TTS ::: Govorni signal
• Da li se efekat maskiranja odigrava na bazilarnoj membrani ili u CNS?
Eksperiment:
• Maskirajući zvuk na jedno uho, a maskirani na drugo. Ishod?
• Kritični opsezi – povezani sa bazilarnom
membranom
– širina se povećava na višim frekvencijama
– terce se dobro poklapaju sa kritičnim opsezima
Krive maskiranja
Auditorna fonetika
37 ASR i TTS ::: Govorni signal
• Vremenska razlika između levog i desnog uha
– fazne razlike – dominiraju ispod 1 kH
• Razlika u glasnoći na dva uha je i zbog zasenjivanja glave i ušnih školjki
– razlike u intenzitetu – dominiraju iznad 1 kHz
Binauralna lokalizacija izvora
Auditorna fonetika
38 ASR i TTS ::: Govorni signal
Zakon prvog talasnog fronta
• Prvo se čuje direktan zvuk, a potom refleksije
• Ako je vremenska razlika između dva signala na mestu slušaoca veća od 1 ms – pozicija slušnog doživljaja zavisi od pravca u kom se nalazi
izvor čiji signal je prvi stigao do slušaoca
– drugi izvor postaje irelevantan u smislu lokalizacije
• Eksperiment sa govorom – stereo postavka zvučnika
• dozirano kašnjenje i intenzitet iz drugog zvučnika
• slušalac javlja kada opazi “refleksiju”
Auditorna fonetika
39 ASR i TTS ::: Govorni signal
Fuzija audio signala
• Nakon direktnog zvuka
– uho prikuplja refleksije još 20-30 ms
• rane refleksije doprinose intenzitetu zvuka
– stiče se utisak o
• zvučnom izvoru – lokacija i dr. i
• ambijentu – koliko brzo iščezava zvuk
• Refleksije koje kasne za više od 50 ms
– čuju se kao eho ili odjek (jeka)
Auditorna fonetika
40 ASR i TTS ::: Govorni signal
Odjek (jeka)
• Ako kašnjenje prekorači neku gornju granicu
– nastaju dva slušna doživljaja – odjek (jeka)
– njihove pozicije zavise od pozicija izvora
• Prag jeke nema oštru granicu (kašnjenja)
– kreće se između 35 i 50 ms
– zavisi od vrste i glasnosti signala, kao i smera upada
– povećanjem glasnosti prag se smanjuje, tj. odjek se uočava kod manjeg kašnjenja
Auditorna fonetika
41 ASR i TTS ::: Govorni signal
• Koja tri parametra karakterišu sinusoidu?
• Kako se očitava frekvencija?
• Kakva je veza između sinusoida i govornog signala?
• Sabijanje/razređivanje vazduha su pozitivne/negativne amplitude
Jedan ton i govorni signal
ASR i TTS ::: Analiza govornog signala 43
Kolika je osnovna frekvencija (f0) govornog signala na slici?
Akustička fonetika
Pič je subjektivni osećaj f0 (visina tona)
– linearna veza do 1kHz
– logaritamska preko 1kHz
Mel je jedinica za visinu tona
• Mel skala
– model f0-pič mapiranja
Subjektivni osećaj visine tona
ASR i TTS ::: Analiza govornog signala 47
Par zvukova koji su po piču perceptualno ekvidistantni udaljeni su za isti broj mela.
)700]Hz[1ln(1127]mel[ ff
Akustička fonetika
Spektar jedne rečenice
Način Nivo
Max 88dBA
Shout 82dBA
vLoud 74dBA
Raised 65dBA
Normal 57dBA
Relaxed 50dBA
Whisper 40dBA
1m, anechoic
Akustička fonetika
48 ASR i TTS ::: Analiza govornog signala
Bezvučni glas [š]
Zvučni glas [a]
Obvojnica i zvučnost u spektru
50 ASR i TTS ::: Analiza govornog signala
Akustička fonetika
ASR i TTS ::: Analiza govornog signala 51
Akustička fonetika
Glasovi se najviše
razlikuju po obvojnici spektra.
ASR i TTS ::: Analiza govornog signala 52
Akustička fonetika
Glasovi se najviše
razlikuju po obvojnici spektra.
ASR i TTS ::: Analiza govornog signala 57
Širokopojasni spektrogram
“Two plus seven is less than ten” Akustička fonetika
ASR i TTS ::: Analiza govornog signala 58
Uskopojasni spektrogram
“Two plus seven is less than ten” Akustička fonetika
• Koji je frekvencijski opseg govora?
• Koliki je dinamički opseg govora?
• Koju karakteristiku usmerenosti izabrati? – ako čita neće praviti neočekivane izlete iz ose mikrofona
• koristiti usmeren mikrofon – super- ili hiper-kardioid – izbegava se reflektovani zvuk i buka
– ako je slobodna interpretacija – okreće glavu, gestikulira
• koristiti manje usmeren mikrofon – kardioid
Potrebne karakteristike mikrofona
ASR i TTS ::: Govorni signal 60
Postavljanje mikrofona
• Govor – za RTV, film, razglas, pozorište – uvek je najvažnija razumljivost
• Snimatelj se na probi (15-20s) prilagodi govorniku – zanima nas zvučna snaga, spektar i dinamika
– profesionalci su izabrani bez govornih mana
• Govornik se smešta u ambijent i podesi mu se položaj mikrofona – bitna visina i ugao ka govorniku
Problemi u snimanju govora • Prenaglašenost sibilanata (piskavih glasova)
– rešavaju se zakretanjem mikrofona za 20-tak stepeni • jer je mikrofon najosetljiviji na VF u pravcu ose
• Kod praskavaca (ploziva) problem je jak vazdušni udar
– rešava se udaljavanjem mikrofona • osa ostaje u pravcu usta
• Oba problema može da reši i specijalni štitnik
– windschutz, windscreen
• Eventualni mali gubitak u nivou signala lako se pojača
• Problemi se rešavaju postavkom mikrofona, a tek onda filtrima
• Kod više govornika, prvo se postavlja najkritičniji
– retko se jednim mikrofonom rešava više od 3-4 govornika • npr. ženski glas bliže ali van ose
• za više govornika bolja je osmičasta karakteristika usmerenosti
Snimanje govora sa više mikrofona
• Prednosti: – grupisanje izvođača sa
govornim manama
– slobodnije korišćenje filtara, bojenja, i sl.
– lako balansiranje glasovne ravnoteže
– veći komfor za izvođače
• Problemi: – otežana operativnost za
snimatelja
• prati tekst
• replike prati odsečna regulacija
– povećan nivo šuma i reverberacije
• ne trebaju svi odjednom
– preklapanje signala
– u slušalicama nema binauralnu lokalizaciju
Ozvučavanje vokala
• Za snimanje u studiju
– cevni mikrofon (npr. Neumann U 48)
• Za izvođenje uživo
– robusnost, otpornost na vlagu, udarce; dinamički kardioidni mikrofon (najčešće SHURE SM 58)
• Zaštitne mrežice (zbog ploziva)
• Zakretanje mikrofona kod visokih frekvencija
• Kompresor
– drži dinamiku vokala ujednačenom
• Reverb
– uklapa vokal u celokupnu sliku, daje efekat prostora vokalu
Merenje razumljivosti govora
• Zadovoljavajuća
– logatomi 65%
• 75% - dobra
• 60% - nedovoljna
– reči >90%
– rečenice blizu 100%
66
Mean Opinion Score (MOS) skala
• Neprimetna oštećenja
• Primetna ali ne smetaju
• Malo smetaju
• Smetaju
• Veoma smetaju
67
Govor u bučnoj sredini
Kriterijumi u dB(A)
Mogućnost sporazumevanja telefon i dr.
ispod 50 normalna
55 zadovoljavajuća
60-65 manje-više otežana
70
teška (samo govorne komande
i neki zvučni signali)
iznad 75
nezadovoljavajuća (ne može se računati na sporazumevanje
govorom)
70
Udaljenost sa koje se razume govor
Kriterijumi u dB(A)
Udaljenost u metrima (normalan govor)
Udaljenost u metrima (glasan govor)
40-45 5 10
45-50 2,5 5
50-60 1 2
60-65 0,70 1,20
70 0,40 0,80
75 0,22 0,45
80 0,13 0,25
85 0,07 0,14
90 - 0,08
Za buku do 70 dB(A) govornik se razume iz prihvatljive blizine. Pri buci od preko 75 dB(A) moguće je dovikivanje na uvo.
71
Pitanja - artikulacija govora
• Opisati govornu komunikaciju od govornika do slušaoca.
• Koji su delovi govornog aparata? – Objasniti funkcije pojedinih govornih organa.
• Kako rade glasnice?
• Koji efekat stvaraju pluća?
• Kako funkcioniše vokalni trakt?
• Skicirati model govornog mehanizma. – Kako se modeluju (bez)zvučni glasovi?
– Kako se modeluje uticaj vokalnog trakta?
• Kako izgleda dugovremeni spektar govora?
• Po čemu se razlikuju spektri pojedinih vokala?
• Šta pokazuje spektrogram?
Snimanje glasa (govor/vokal)
• Karakteristike mikrofona: – frekvencijski opseg
– dinamički opseg
– karakteristika usmerenosti
• Kako se rešava: – prenaglašenost sibilanata
– vazdušni udar praskavaca
• Prednosti i mane korišćenja posebnih mikrofona za svakog govornika
Merenja govornog signala
• Objasniti MOS skalu – Šta se meri i izražava na njoj?
• Šta su logatomi i kako se sa njima meri razumljivost?
• Kako glasnost govora utiče na njegovu razumljivost?
• Kako reverberacija utiče na razumljivost govora?
• Kako nivo buke utiče na mogućnost sporazumevanja govorom?
Pitanja - snimanje i merenje govora