mel frequency cepstral coefficients - tuni.fi · 2013. 2. 6. · ihmiskuulo...

THE audio feature:

MFCC Mel Frequency

Cepstral Coefficients

Ihmiskuulo

• MFCC-’kertoimien’ tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla.

• Näin on todettu myös tapahtuvan, sillä MFCC:t ovat yleisimmin käytetty audio-piirre, niin puhujan, puheen kuin ympäristöääntenkin automaattisessa tunnistuksessa.

• MFCC-piirteet ottavat (ainakin jollakin tavalla) huomioon ihmiskorvan – epälineaarisen korkeusaistimuksen – taipumuksen yhdistää taajuustasossa lähellä toisiaan

olevat äänikomponentit – epälineaarisen äänenvoimakkuusaistimuksen

Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus

• Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset:

f0 ⇝ 2*f0 ⇝ 4*f0

• eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti:

log(f0) + log(f0) = log(2*f0)

log(2*f0) + log(2*f0) = log(4*f0)

Spektrogrammi pianon äänistä C1 – c5

Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

Ihmiskuulon ominaisuuksia - kriittinen kaista (taajuusintegrointi)

• Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

Äänenkorkeusaistimuksen mallinnus

• Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta, joilla mallinnetaan sekä epälineaarista taajuusaistimusta että kriittisen kaistan taajuuksien yhteensulautumista:

1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia.

2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

Mel - taajuusasteikko

1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta.

eli 1000 Hz = 1000 Mel

1(log2595 10Hz

Bark-taajuusasteikko

7500arctan5.3

)00076.0arctan(13

HzBark

Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

Pianon äänistä C1 – c5

Mel-taajuuksinen spektrogrammi

Bark-taajuuksinen spektrogrammi

Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla

Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

Kuulon herkkyyden mallinnus eri taajuuksilla Tätä ihmiskorvan ominaisuutta mallinnetaan äänisignaalinkäsittelyssä yleensä suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi:

* jo aiemmin mainitulla esikorostus-suotimella:

* tai esimerkiksi äänitasomittauksissa käytetään useimmiten IEC-standardin määrittelemää A-suodinta ennen energian laskemista äänisignaalista: 11)( bzzH

Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen

• Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti:

• Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: 𝐿𝐼 = 10𝑙𝑜𝑔10 (𝐼) .

Joko päästään asiaan? Mikä se asia taas olikaan?

- THE audiopiirre, joka

useimmissa äänen tunnistus-systeemeissä lasketaan kustakin

puhe/äänikehyksestä, eli:

MFCC – Mel Frequency Cepstral coefficients

MFCC:iden laskeminen

– määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0…8000Hz) tasalevyisiä ’kaistanpäästösuotimia’.

– Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen:

zSkEmax

– Otetaan logaritmi jokaisesta E(k):sta k=1…K

zSkEmax

– Lasketaan diskreetti kosinimuunnos (II) vektorista log(E)

zSkEmax

– Lasketaan diskreetti kosinimuunnos (II) vektorista log(E)

– Eli MFCC:t ovat yhtä kuin DCT-kertoimet vektorista log(E)

zSkEmax

mel frequency cepstral coefficients - tuni.fi · 2013. 2. 6. · ihmiskuulo...

Documents

e10 6 1todavia necesito de tu abrazo 4a5a alda mfcc r03 ·...

anÁlise cepstral baseada em diferentes famÍlias … ·...

valintakoeopas 2019 - tuni.fi · dostoina (pdf, sibelius...

speaker identification by combining mfcc and phase...

terveyssosiaalityön valtakunnalliset päivät 14. -...

專題研究 week 4 - live...

pengenalan ucapan metoda mfcc-hmm untuk …

mfcc usa definition-letter

chon dac trung mfcc trong

evaluation of synchronized damped oscillator cepstral coe

pengenalan pembicara dengan ekstraksi ciri mfcc...

perluasan metode mfcc ld ke 2d sebagai esktraksi ciri

tuni.fi · web viewkoska 770 000 e>633 400 e , metso...

platforma za klasi kacijo zvo cnih...

jari stenvall professori johtamisen ja talouden tiedekunta...

thuật toán trích Đặc trưng mfcc

1bicaradengan praproses mfcc - repository.ipb.ac.id ·...

classificação de sons urbanos usando motifs e...

reconocimiento de voz basado en mfcc, sbc y espectrogramas...

هیلوا عیامتجا لماعت یرارقرب -...