kertausta: lähde-suodin –malli

• Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla

• Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali

Kertausta: lähde-suodin –malli1

H(z)

Y(z)

X(z)

• Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista

• Lyhenne LP (linear prediction) tai LPC (linear predictive coding)

• Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää

• Ideana ennustaa puhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisen suotimen avulla (edellisten näytteiden lineaarikombinaationa)

• Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin

– > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin

Kertausta: lineaarinen ennustus2

Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin)

All-pole –järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella

siten, että neliövirhe E minimoituu:


....1

1)(

11

1p

p zazazA

p

k

knykany1

)()()(ˆ

N

naOPT nynyna

1

2))()((minarg)(

N

n

nynyE1

2))()((

Optimaaliset suotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi.

Autokorrelaatiofunktion r(n) avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:


)(

)3()2()1(

)(

)3()2()1(

)0()3()2()1(

)3()0()1()2()2()1()0()1()1()2()1()0(

pr

rrr

pa

aaa

rprprpr

prrrrprrrrprrrr

• Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen

• Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö

lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

Kertausta: Levinson-Durbin –rekursio5

yRx

• Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä

• Esim. kun aste on 3:

ratkaistaan , , ja lopuksi uudet parametrit (1), .

Kertausta: Levinson-Durbin –rekursio6

2

3

2

2

23

2

2

00

00

1)1()2(

0

0)2()1(

1

E

q

k

q

E

aa

kaa

R

000

)3()2()1(

1 3

3

3

3

E

aaa

R

0123

1012

2101

3210

rrrrrrrrrrrrrrrr

R

• Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)

Kertausta: Formanttien estimointi7

• Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi

tekijöihin

missä ovat LP-polynomin nollakohdat

Kertausta: Formanttien estimointi: tekijöihin jako8

pp zazazA ...1)( 1

1

),1)...(1)(1()( 112

11

zzzzzzzA p

pzzz ,...,, 21

• Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella

Kertausta: Napaparin amplitudivaste: formantin taajuus9

2.021.0

• Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z)

• Autokorrelaatio voidaan nyt laskea glottisherätteestä X(z) puhekehyksen Y(z) sijaan

ÞFormanttien vaikutus pienenee

• Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta.

• Menetelmästä käytetään nimitystä SIFT (simple inverse filter tracking)

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT

10

A(z)Y(z) )()()( zAzYzX

• SIFT-esisuodatettu autokorrelaatio:

Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa

11

PLP,Perceptual

Linear Prediction

eli ihmisen kuuloon perustuva

lineaariprediktioanalyysi

Miksi mikä PLP ?• PLP (Perceptual Linear Prediction) – parametrejä/featureita käytetään

ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit.

• PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.

Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus

• Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset:

f0 2*f0 4*f0

• eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti:

log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

Spektrogrammi pianon äänistä C1 – c5

Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

f0

f0

f0

Ihmiskuulon ominaisuuksia - kriittinen kaista

• Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

Äänenkorkeusaistimuksen mallinnus

• Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta:

1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia.

2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

Mel - taajuusasteikko

1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta.

eli 1000 Hz = 1000 Mel

)700

1(log2595 10Hz

Melff

Bark-taajuusasteikko

2

7500arctan5.3

)00076.0arctan(13

Hz

HzBark

f

ff

Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

Pianon äänistä C1 – c5

Mel-taajuuksinen spektrogrammi

Ja

Bark-taajuuksinenspektrogrammi

Bark –asteikon käyttö• Yhden kriittisen kaistan ’äänimäärä’ saadaan:

, k=1…26

jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus.

• Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.

kH

kL

kHSkBark

)()()(

)(S )(kH

kH

kL

Äänenkorkeusaistimuksen mallinnus PLP:ssä

• Perceptual Linear Prediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.

Bark –skaalan mukainen suodinrivistö PLP:ssäBark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin

ja Bark-asteikon keskitaajuudet

konvoloidaan keskenään:

ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle

)6/sinh(600 Barkff

Ihmiskuulon ominaisuuksia- äänekkyys eri äänenkorkeuksilla

• Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

Kuulon herkkyyden mallinnus eri taajuuksilla

• Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle.

• Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.

Kuulon herkkyyden mallinnus PLP:ssä

Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:

Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen

• Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti:

• Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: .

• Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkuden havainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:

Äänenvoimakkuuden ilmaisu PLP:ssä

• PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta:

3 )()( zHzSL

3 xL

Spektrin kuulonmukainen käsittely PLP:ssä

3√()

3 )()()()( fHfHfPkP eql

f

ffkperceptual

kH

kL

kertausta: lähde-suodin –malli

Documents