kertausta: lähde-suodin –malli
DESCRIPTION
Kertausta: lähde-suodin –malli. Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x ( n ) on kurkunpää-ääni ja ulostulona y ( n ) mitattu puhesignaali. X(z). H(z). Y(z). Kertausta: lineaarinen ennustus. - PowerPoint PPT PresentationTRANSCRIPT
• Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla
• Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali
Kertausta: lähde-suodin –malli1
H(z)
Y(z)
X(z)
• Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista
• Lyhenne LP (linear prediction) tai LPC (linear predictive coding)
• Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää
• Ideana ennustaa puhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisen suotimen avulla (edellisten näytteiden lineaarikombinaationa)
• Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin
– > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin
Kertausta: lineaarinen ennustus2
Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin)
All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella
siten, että neliövirhe E minimoituu:
Kertausta: lineaarinen ennustus3
....1
1)(
11
1p
p zazazA
p
k
knykany1
)()()(ˆ
N
naOPT nynyna
1
2))()((minarg)(
N
n
nynyE1
2))()((
Optimaaliset suotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi.
Autokorrelaatiofunktion r(n) avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:
Kertausta: lineaarinen ennustus4
)(
)3()2()1(
)(
)3()2()1(
)0()3()2()1(
)3()0()1()2()2()1()0()1()1()2()1()0(
pr
rrr
pa
aaa
rprprpr
prrrrprrrrprrrr
• Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen
• Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö
lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla
Kertausta: Levinson-Durbin –rekursio5
yRx
• Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä
• Esim. kun aste on 3:
ratkaistaan , , ja lopuksi uudet parametrit (1), .
Kertausta: Levinson-Durbin –rekursio6
2
3
2
2
23
2
2
00
00
1)1()2(
0
0)2()1(
1
E
q
k
q
E
aa
kaa
R
000
)3()2()1(
1 3
3
3
3
E
aaa
R
0123
1012
2101
3210
rrrrrrrrrrrrrrrr
R
• Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)
Kertausta: Formanttien estimointi7
• Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi
tekijöihin
missä ovat LP-polynomin nollakohdat
Kertausta: Formanttien estimointi: tekijöihin jako8
pp zazazA ...1)( 1
1
),1)...(1)(1()( 112
11
zzzzzzzA p
pzzz ,...,, 21
• Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella
Kertausta: Napaparin amplitudivaste: formantin taajuus9
2.021.0
• Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z)
• Autokorrelaatio voidaan nyt laskea glottisherätteestä X(z) puhekehyksen Y(z) sijaan
ÞFormanttien vaikutus pienenee
• Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta.
• Menetelmästä käytetään nimitystä SIFT (simple inverse filter tracking)
Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT
10
A(z)Y(z) )()()( zAzYzX
• SIFT-esisuodatettu autokorrelaatio:
Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa
11
PLP,Perceptual
Linear Prediction
eli ihmisen kuuloon perustuva
lineaariprediktioanalyysi
Miksi mikä PLP ?• PLP (Perceptual Linear Prediction) – parametrejä/featureita käytetään
ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit.
• PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.
Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus
• Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset:
f0 2*f0 4*f0
• eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti:
log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)
Spektrogrammi pianon äänistä C1 – c5
Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.
f0
f0
f0
Ihmiskuulon ominaisuuksia - kriittinen kaista
• Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.
Äänenkorkeusaistimuksen mallinnus
• Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta:
1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia.
2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.
Mel - taajuusasteikko
1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta.
eli 1000 Hz = 1000 Mel
)700
1(log2595 10Hz
Melff
Bark-taajuusasteikko
2
7500arctan5.3
)00076.0arctan(13
Hz
HzBark
f
ff
Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.
Pianon äänistä C1 – c5
Mel-taajuuksinen spektrogrammi
Ja
Bark-taajuuksinenspektrogrammi
Bark –asteikon käyttö• Yhden kriittisen kaistan ’äänimäärä’ saadaan:
, k=1…26
jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus.
• Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.
kH
kL
kHSkBark
)()()(
)(S )(kH
kH
kL
Äänenkorkeusaistimuksen mallinnus PLP:ssä
• Perceptual Linear Prediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.
Bark –skaalan mukainen suodinrivistö PLP:ssäBark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin
ja Bark-asteikon keskitaajuudet
konvoloidaan keskenään:
ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle
)6/sinh(600 Barkff
Ihmiskuulon ominaisuuksia- äänekkyys eri äänenkorkeuksilla
• Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.
Kuulon herkkyyden mallinnus eri taajuuksilla
• Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle.
• Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.
Kuulon herkkyyden mallinnus PLP:ssä
Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:
Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen
• Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti:
• Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: .
• Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkuden havainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:
Äänenvoimakkuuden ilmaisu PLP:ssä
• PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta:
3 )()( zHzSL
3 xL
Spektrin kuulonmukainen käsittely PLP:ssä
3√()
3 )()()()( fHfHfPkP eql
f
ffkperceptual
kH
kL