jani mÄkinen ÄÄnilÄhteiden separointi polyfonisesta musii- kista … mäkinen.pdf ·...
Post on 09-Mar-2020
7 Views
Preview:
TRANSCRIPT
JANI MÄKINENÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII-KISTA KÄYTTÄEN AIKA-TAAJUUSTASON MASKEJAKandidaatintyö
Tarkastaja: Hanna SilénOhjaaja: Anssi KlapuriJätetty tarkastettavaksi15. joulukuuta 2013
I
TIIVISTELMÄ
TAMPEREEN TEKNILLINEN YLIOPISTOTietotekniikan koulutusohjelmaMÄKINEN, JANI: Äänilähteiden separointi polyfonisesta musiikista käyttäenaika-taajustason maskejaKandidaatintyö, 22 sivua, 4 liitesivuaJoulukuu 2013Pääaine: Signaalinkäsittely ja multimediaTarkastaja: Hanna SilénOhjaaja: Anssi KlapuriAvainsanat: Äänilähteiden separointi, polyfoninen musiikki, vaihevokooderi, MIDI
Äänilähteen separointi on yksi audiosignaalinkäsittelyn tunnetuimmista ongelmista.
Tavoitteena on erotella yksittäinen äänisignaali usean äänisignaalin sekoituksen jou-
kosta. Tässä työssä ongelma esitetään ratkaistavaksi polyfoniselle musiikille, josta
separoidaan yksittäinen instrumentti. Tämä ratkaistaan käyttäen aika-taajuustason
maskeja separoinnissa. Menetelmän toimivuutta pohditaan erillisyysanalyysin kaut-
ta, jossa hyödynnetään W-Disjoint Orthogonality -mittaa. Lopuksi menetelmää so-
velletaan käyttämällä maskien muodostamiseen MIDI-audiosta laskettua informaa-
tiota.
Erillisyysanalyysin perusteella menetelmä on toimiva. Näitä tuloksia tukee myös
maskipohjaisen separoinnin tulokset. MIDI-pohjaisen separoinnin tulokset eivät sel-
laisenaan ole kovinkaan käyttökelpoisia. Niitä voidaan kuitenkin hyödyntää audion
uudelleenmiksauksessa, joka tässä tapauksessa koostuisi instrumenttien äänenvoi-
makkuuksien muuntamisesta sekoituksessa.
II
ALKUSANAT
Tämä kandidaatintyö on jatkoa kesän 2013 työlleni signaalinkäsittelyn laitoksen au-
dioryhmässä tutkimusapulaisena. Haluaisin kiittää Anssi Klapuria mahdollisuudes-
ta työskennellä mielenkiintoisen projektin parissa ja kaikista arvokkaista neuvoista
kandidaatintyön kirjoittamisprosessin aikana. Lisäksi kiitokset kuuluvat Hanna Silé-
nille kommenteista kandidaatintyöhön liittyen sekä työtoverilleni Tuomo Tuunaselle
yleisistä neuvoista ja MIDI-työkaluista.
III
SISÄLLYS
1. Johdanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Diskreetti Fourier-muunnos . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Spektrogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Vaihevokooderi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Tietokanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4. Erillisyysanalyysi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1 W-Disjoint Orthogonality . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Tulokset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5. Maskipohjainen separointi . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5.1 Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5.2 Teorian todentaminen ja tulokset . . . . . . . . . . . . . . . . . . . . 12
6. MIDI-pohjainen separointi . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.1 MIDI-formaatti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Tulokset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3 Audion uudelleenmiksaus . . . . . . . . . . . . . . . . . . . . . . . . . 18
7. Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Lähteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
A. Tietokannan kappaleet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
IV
TERMIT JA NIIDEN MÄÄRITELMÄT
DFT Diskreetti Fourier-muunnos (engl. Discrete Fourier Transform)
FFT Nopea algoritmi DFT:lle (engl. Fast Fourier Transform)
MIDI Sähköisiä viestejä soittimien välillä välittävä tiedostojärjestelmä (engl.
Musical Instrument Digital Interface)
PSR Signaalin energian säilymissuhde (engl. Preserved-Signal Ratio)
SIR Signaali-häiriösuhde (engl. Signal-to-Interference Ratio)
SNR Signaali-kohinasuhde (engl. Signal to Noise Ratio)
STFT Lyhytaikainen (kehyksittäinen) DFT (engl. Short Time Fourier Trans-
form)
WDO Äänilähteiden aika-taajuustason päällekkäisyyttä mittaava suure (engl.
W-Disjoint Orthogonality)
1
1. JOHDANTO
Musiikki on määritelty eri aikakausina erilaisin tavoin. Olennaisesti se on ääneen
perustuva taiteenmuoto, johon liittyy useita piirteitä, kuten rytmi, rakenne ja sävel.
Yksikäsitteistä määritelmää ei ole, mutta voidaan ajatella kaiken musiikin tavoit-
teeksi miellyttävyys ihmiskorvalle. Tästäkin syystä musiikki on usein polyfonista eli
sisältää useamman kuin yhden äänilähteen. Nykyaikana on yleistä, että musiikki-
kappaleessa on instrumentteina esimerkiksi rummut, kitara, basso ja laulu. Tällaista
kappaletta varten yleensä äänitetään jokainen soitin erikseen studiossa ja myöhem-
min nämä miksataan yhteen yhdeksi kappaleeksi. Mitä jos halutaankin palata taak-
sepäin tässä operaatiossa? Lähtökohtana on valmis useamman instrumentin kappale,
josta halutaan separoida yksittäinen soitin. Tämä kandidaatintyö käsittelee tämän
ongelman ratkaisua digitaalisen signaalinkäsittelyn menetelmin.
Äänilähteiden separoinnilla musiikista on useita käytännön sovelluksia. Separoi-
duilla instrumenteilla voitaisiin alkuperäisen audion sijaan luoda miksaus, jossa on
vain osa alkuperäisistä soittimista. Tällaista musiikkia voitaisiin käyttää hyväksi
soittimen harjoittelussa itse soittaen puuttuva soitin mukaan, kuten karaokessa lau-
letaan puuttuva laulu mukaan. Lisäksi olisi mahdollista uudelleenmiksata audiota
siten, että muutetaan tietyn soittimen tai instrumenttijoukon äänenvoimakkuutta
sekoituksessa.
Yleisesti ajateltuna äänilähteen erottelu (engl. source separation) on ollut pitkään
yksi puhe- ja audiosignaalinkäsittelyn tärkeimpiä ratkaistavia ongelmia. Ensimmäi-
sen kerran ongelmaa on analysoitu niin kutsutun Cocktail Party -ongelman avulla
jo vuonna 1953 [1]. Ongelmaan on kehitetty erilaisia ratkaisuja pohjautuen muun
muassa pääkomponenttianalyysiin ja ei-negatiiviseen matriisihajotelmaan. Monet
signaalinkäsittelyn operaatiot olettavat signaalit joko lähes häiriöttömiksi tai sisältä-
vän gaussista häiriötä. Tämän vuoksi matemaattiset perustat ja signaalinkäsittelyn
perinteiset menetelmät eivät toimi useamman äänen ja häiriölähteen sekoituksessa.
Ratkaisu ongelmaan on separoida äänilähteiden sekoituksesta puhdas äänisignaa-
li, jolloin voidaan hyödyntää perinteisiä menetelmiä. Tarkemmin näistä separoinnin
toteutuskeinoista ja sovelluskohteista on kerrottu lähteessä [2].
Tässä kandidaatintyössä separointiongelmaa on lähdetty ratkaisemaan aika-taa-
juustason maskien avulla. Oleellinen osa työtä on myös erillisyysanalyysi, jolla voi-
daan todistaa polyfoniselle musiikille tarpeelliset lähtökohdat separointia varten.
1. Johdanto 2
Aika-taajuustason maskeja hyödyntävää separointia on tutkittu onnistuneesti aiem-
min puhesignaalien tapauksessa [3; 4] sekä musiikissa kahden instrumentin sekoi-
tuksissa [5]. Tässä työssä separointia testataan useamman soittimen sekoituksessa,
jolloin ongelma on haastavampi. Separoinnin käytännön toteuttamiseen käytetään
MIDI-audion (engl. Musical Instrument Digital Interface) tarjoamaa informaatiota.
Tästä menetelmästä käytetään tässä työssä nimeä MIDI-pohjainen separointi. Mas-
kipohjaista separointia on myös sovellettu ilman informaatiota äänilähteistä klus-
teroinnin avulla [6]. Oleellinen vaikutus separointiongelmaa ratkaistaessa maskien
avulla on aika-taajuusmuunnoksella. Eri muunnosten vaikutusta separoinnin laa-
tuun on tutkittu [5], ja lupaavia tuloksia on saavutettu myös adaptiivisten aika-
taajuusmuunnosten avulla [7].
Työn kannalta oleellinen pohjustava teoria on käyty läpi luvussa 2. Tärkeä osa on
myös työssä käytetty data. Luvussa 3 on työtä varten kerätystä audiotietokannasta
lisätietoa. Jotta maskipojainen separointi olisi toteuttamiskelpoinen ratkaisu poly-
foniselle musiikille, on tutkittava instrumenttien eroavaisuuksia aika-taajuustasossa.
Tätä on käsitelty luvussa 4. Analyysin jälkeen voidaan testata maskipohjaista sepa-
rointia luvussa 5. Tätä sovelletaan edelleen käyttäen MIDI-formaatin mukaista au-
diota. Luvussa 6 on esitetty oleellinen informaatio MIDI-formaatista ja separoinnin
tulokset. Työn oleellisimmat tulokset, ongelmat, sovelluskohteet sekä jatkokehitysi-
deat on esitetty luvussa 7.
3
2. TEORIA
Ymmärtääksemme maskipohjaisen separoinnin ja erillisyysanalyysin teoriaa, tar-
vitaan muutama signaalinkäsittelyn perusterminologiaan liittyvä teoria esitietona.
Tässä luvussa esitellään lyhyesti diskreetti Fourier-muunnos, signaalin spektrogram-
miesitys sekä vaihevokooderi.
2.1 Diskreetti Fourier-muunnos
Saadaksemme selville signaalin taajussisällön tarvitsemme Fourier-muunnoksen kä-
sitettä. Diskreettiaikainen Fourier-muunnos määritellään signaalille x(n) kaavalla
X(n) =N−1∑k=0
x(k)w−knN , (2.1)
jossa N on signaalin jakso ja wN = e2πi/N eli ykkösen N:s juuri. Käänteinen dis-
kreettiaikainen Fourier-muunnos määritellään signaalille X(n) kaavalla
x(n) =1
N
N−1∑k=0
X(k)wknN . (2.2)
Käytännön totetutuksissa ongelmaksi muodostuu muunnoksen hitaus. N :n mittai-
sen signaalin DFT vaatii N2 kertolaskua ja N(N − 1) yhteenlaskua. Kun Fourier-
muunnos on N-ulotteinen, sen vaatima ajantarve on suoraan verrannollinen dimen-
sion neliöön [8, s.45]. Fourier-muunnos saadaan kuitenkin toteutettua huomattavasti
nopeammin niin kutsutulla nopealla Fourier-muunnoksella eli FFT:llä. Menemättä
sen tarkemmin teknisiin yksityiskohtiin FFT:ssä muunnos muodostetaan yhdistä-
mällä rekursiivisesti osajonojen muunnokset. Tämän avulla laskennallinen komplek-
sisuus pienenee luokkaan O(NlogN), mikä on erityisesti hyödyllistä N :n kasvaessa.
Käytännön sovelluksissa FFT:n käyttäminen suoran DFT:n määritelmän sijaan on
tämän vuoksi välttämätöntä.
Mainittakoon vielä termi STFT (lyhytaikainen Fourier-muunnos, engl. Short Ti-
me Fourier Transform), joka tarkoittaa kehyksittäistä Fourier-muunnosta. Siinä sig-
naalista otetaan lyhyitä (n. 10�100 ms) paloja, jotka kerrotaan sopivalla ikkunafunk-
tiolla. Ikkunafunktion arvot ovat nolla kehyksen ulkopuolella. Kun kehys on kerrottu
ikkunafunktiolla, lasketaan diskreetti Fourier-muunnos kyseisessä kehyksessä. Kos-
2. Teoria 4
ka signaalit voidaan yleensä olettaa stationäärisiksi tarpeeksi lyhyellä aikavälillä, on
kehyksittäinen prosessointi erittäin hyödyllinen työkalu muun muassa audionkäsit-
telyssä. Tätä sovelletaankin esimerkiksi spektrogrammin laskennassa sekä vaihevo-
kooderissa.
2.2 Spektrogrammi
Audiolle löytyy erittäin luonnollinen esitysmuoto spektrogrammin muodossa. Tästä
saadaan selville audion (tai muun signaalin) aika-taajuussisältö. Spektrogrammin
käsite on erittäin tarpeellinen myöhemmissä luvuissa, joten on hyödyllistä hieman
tutustua teoriaan sen taustalla.
Spektrogrammin laskentaan käytetään kehyksittäistä prosessointia, yleisimmin
STFT:tä. Tällöin signaali jaetaan lyhyisiin kehyksiin, lasketaan ikkunafunktiolla pai-
notetusta kehyksestä DFT, jolloin tuloksena saadaan signaalin kompleksinen spekt-
rogrammi. Yleensä käytännön sovellusten kannalta kiinnostavampi on magnitudis-
pektrogrammi, joka saadaan laskemalla kompleksisesta versiosta pisteittäin itseisar-
von neliö. Lisäksi yleensä spektrogrammissa negatiiviset taajuudet eivät graa�sen
tarkastelun kannalta ole tarpeellisia, joten spektrogrammista tarkastellaan vain aika-
akselin yläpuoleista osaa.
Kuva 2.1: Spektrogrammi 10 sekunnin mittaisesta audiosignaalista.
Spektrogrammin graa�sessa esityksessä yleensä on vaaka-akselilla aika ja pysty-
akselilla taajuus. Energia tietyssä aika-taajuuskoordinaatissa kuvataan tällöin vä-
rein, esimerkiksi sinisestä keltaisen kautta punaiseen. Tällaisessa esityksessä ajalli-
sesti lyhyet äänet (transientit) näkyvät pystyviivoina ja taajudellisesti vakiot äänet
2. Teoria 5
(harmoniset) näkyvät vaakaviivoina (ks. kuva 2.1).
2.3 Vaihevokooderi
Vaihevokooderi mahdollistaa mielenkiintoisen ja intuitiivisen tavan muokata ään-
tä. Ideana on tehdä äänisignaalista kaksiulotteinen esitys, muokata tätä esitystä ja
rekonstruoida uusi äänisignaali muokatusta esityksestä. Tämä menetelmä voidaan
jakaa kolmeen vaiheeseen: analyysi, transformaatio ja synteesi. Näin saatua mene-
telmää kutsutaan vaihevokooderiksi.
Ikkunafunktio (Hamming)
Signaali (valkoista kohinaa)
Ikkunoitu signaali
Kuva 2.2: Ikkunointifunktion (Hamming) kuvaaja ja sen vaikutus signaaliin.
Vaihevokooderia voidaan lähestyä kahden eri mallin avulla. Ensimmäinen on täs-
säkin työssä käytetty kehyksittäinen analyysi-synteesi-malli ja toinen on suodinpank-
kimalli [9]. Suodinpankkimallin yksinkertaistettu idea on mallintaa ääni sinisignaa-
lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä
tämä toteutaan suodinpankin avulla. Tämä työn kannalta on oleellisempaa käsitel-
lä kehyksittäinen analyysi-synteesi-malli. Analyysivaiheessa äänisignaali muutetaan
Fourier-muunnoksen avulla taajuustasoon. Kun signaali prosessoidaan kehyksittäin
ensin ikkunafunktiolla ja tämän jälkeen Fourier-muunnoksella, saadaan signaalin
aika-taajuustason esitys. Tarvittavat muokkaukset ääneen tehdään tässä vaiheessa.
Kun muutokset on tehty, jokaisesta kehyksestä lasketaan käänteis-DFT, saadut ai-
katason kehykset ikkunoidaan sopivalla funktiolla (kuva 2.2) ja peräkkäiset kehykset
summataan limittäin. Kehyksien päällekkäisyys on sama kuin analyysivaiheen pro-
sessoinnissa. Tätä aika-taajuustason esityksestä aikatason signaaliin muuntavaa me-
netelmää kutsutaan overlap-add-tekniikaksi, koska peräkkäiset kehykset summataan
limittäin synteesivaiheessa.
6
3. TIETOKANTA
Kandidaatintyössä käytetty tietokanta on koottu signaalinkäsittelyn laitoksen au-
dioryhmän töissä kesällä 2013. Tietokantaan kerättiin 304 kappaletta moniraita-
audiota. Moniraita-data ladattiin Karaoke-version-sivustolta [10]. Koska tämä tie-
tokanta on tarkoitettu audioryhmän tutkimuskäyttöön tämän kandidaatintyön ohel-
la, on tietokanta tallennettu audioryhmän verkkolevylle. Pääsy tähän tietokantaan
on rajoitettu tekijänoikeuksien vuoksi. Tarkka lista kaikista tietokannan kappaleista
löytyy liitteenä (ks. liite A).
Tietokannan audiodata on moniraita-audiota eli jokaisesta kappaleesta löytyy
normaalin miksatun version lisäksi erilliset raidat yksittäisille instrumenteille. Näitä
tarvitaan muun muassa maskipohjaisen separoinnin todentamiseksi sekä lopullisten
tulosten arviointiin. Instrumenttien jako eri raitoihin on toteutettu Karaoke-Version
-sivuston valitsemalla jaolla. Tätä varten tietokannassa käytetään annotointiin sa-
moja instrumenttien nimiä kuin sivustolla.
1 2 3 4 5 6 7 8 9 10 11 12 13 140
5
10
15
20
25
30
35
40
45
50Raitojen lukumäärä kappaleille
Kuva 3.1: Raitojen lukumäärä moniraita-audio tietokannassa
Instrumenttiraitojen lukumäärä kappaleissa vaihtelee kahden ja 14 välillä. Jakau-
ma raitojen määrälle on kuvassa 3.1. Keskimääräinen raitojen lukumäärä on 10.1
raitaa, mediaani on 10 raitaa ja yleisin raitojen lukumäärä on 9 raitaa 48 kappa-
3. Tietokanta 7
leella. Raidoissa esiintyvien instrumenttien osuus kaikista kappaleista on esitettynä
kuvassa 3.2. Yleisin instrumentti on laulu, joka on raitana jokaisessa 304 kappalees-
sa. Tämän jälkeen yleisimmät instrumentit järjestyksessä ovat rummut, taustalau-
lu, basso, sähkökitara ja piano. Huomionarvoista instrumenttien nimeämisessä on se,
että kitaroita on jaoteltu useampaan luokkaan. Samaa luokittelua käytetään myös
myöhemmin WDO-laskennassa, kun arvioidaan menetelmän toimivuutta tietyille
instrumenteille.
0 10 20 30 40 50 60 70 80 90 100
Synth stringsDistorted electric guitar
Synth KeysElectronic drum kit
Electric pianoBass synth
OrganPercussionSynthesizer
Synth padAcoustic guitar
StringsLead electric guitar
Rhythm electric guitarPiano
Electric guitarBass
Backing vocalsDrum kit
Lead vocal
Prosenttiosuus (%)
Instrumenttien esiintyminen tietokannassa
Kuva 3.2: Eri instrumenttien esiintymisosuus kappaleista prosentteina
Hakemistorakenne jakautuu siten, että ylimpänä tasona on artistin nimi ja tämän
alla kappaleen nimi (esimerkiksi Elvis_Presley/Jailhouse_Rock). Nimistä poistet-
tiin erikoismerkit ja välilyönnit prosessoinnin helpottamiseksi myöhemmissä vaiheis-
sa. Jokaisen kappaleen hakemistosta löytyy mp3-formaatissa täysi miksaus (full mix)
sekä yksittäisten instrumenttien audiot. Instrumenttiraitojen nimissä on käytetty
numerointia, jonka selitys löytyy hakemistosta löytyvästä annotointitiedostosta.
Kappaleet tietokantaan valittiin mahdollisimman suosittujen joukosta. Tarkoi-
tuksena oli saada laaja valikoima populäärimusiikkia eri vuosikymmeniltä. Tähän
käytettiin kriteerinä Billboardin kaikkien aikojen sadan parhaan artistin listaa [11].
Toinen rajoittava tekijä kappaleille oli, että niille haluttiin löytyvän mahdollisimman
tarkasti sovitetut MIDI-versiot. Tässä käytettiin apuna MIDI-tiedostojen hankkimi-
seen käytettyä midimusic.de-sivuston määrittelemää premium-luokitusta [12]. Näin
parannetaan mahdollisuuksia saada hyviä tuloksia erottelusta myöhemmin.
8
4. ERILLISYYSANALYYSI
Ennen kuin siirrymme maskipohjaiseen separointiin, on hyvä analysoida menetel-
män toimivuutta polyfoniselle musiikille. Maskipohjaisen separoinnin taustalla on
oletus, että äänilähteet ovat helposti eroteltavissa aika-taajuustasolla. Erillisyyden
määrittämiseen käytetään W-Disjoint Orthogonality -mittaa [4]. WDO antaa käsi-
tyksen kuinka hyvin lähde on erotettavissa toisesta lähteestä aika-taajuustasossa.
Lähellä arvoa yksi oleva WDO tarkoittaa erittäin hyvin erottuvaa signaalia. Mitä
pienempi arvo on, sitä enemmän lähteiden energiat menevät päällekkäin.
4.1 W-Disjoint Orthogonality
Olkoon signaali x K:n lähteen lineaarinen summa eli x =∑K
k=1 sk, missä sk on yk-
sittäisen lähteen k signaali. Lähteelle k laskettaessa WDO:ta, tarvitaan maskia (taa-
juus)muunnoksen jälkeen. Maski on ykkösistä ja nollista koostuva matriisi, jota käy-
tetään signaalinkäsittelyssä poimimaan kaksiulotteisesta esityksestä (kuva, spektro-
grammi) tietyt pisteet. Ideaali binäärinen maski k:lle lasketaan kaavalla
Mk(γ) =
1, kun |Sk(γ)| > |Yk(γ)|
0, muulloin(4.1)
missä Sk(γ) on lähteen k energia aika-taajuusesityksessä ja Yk(γ) on kaikkien muiden
äänilähteiden energia aika-taajuustasossa alueella γ. Tuloksena saatu maski kertoo
siis missä kohdissa aika-taajuustasoa lähteen k energia on suurempi kuin muiden
äänilähteiden energia yhteensä. Kyseisissä aika-taajuustason pisteissä äänilähde k
peittää muut äänilähteet. Kun maski muodostetaan hyödyntämällä valmiiksi ero-
tellun kohdeinstrumentin ja muiden äänilähteiden aika-taajuusesitystä, kutsutaan
lopputulosta oracle-maskiksi. Tämä maski on WDO:n kannalta kyseiselle instru-
mentille optimaalisin. Tällöin laskennassa on hyödynnetty tarkkaa informaatiota
kohdeinstrumentista, jota käytännön sovelluksissa ei ole saatavilla. Kun ääniläh-
teelle on muodostettu binäärinen maski, voidaan laskea PSRM (Signaalin energian
säilymissuhde, engl. Preserved Signal Ratio) ja SIRM (Signaali-häiriösuhde, engl.
Signal-to-Interference Ratio) seuraavien kaavojen mukaisesti:
PSRM =||M(γ)Sk(γ)||2
||Sk(γ)||2(4.2)
4. Erillisyysanalyysi 9
SIRM =||M(γ)Sk(γ)||2
||M(γ)Yk(γ)||2(4.3)
Tällöin WDO määritellään kaavalla
WDOM = PSRM −PSRM
SIRM
(4.4)
Teoreettinen maksimi WDOM = 1 tarkoittaa, että lähde k voidaan separoida täy-
dellisesti sekoituksesta maskilla Mk.
4.2 Tulokset
Analyysi toteutettiin Matlab-ympäristössä käyttäen muunnoksessa DFT:tä ja Hamming-
ikkunaa 50 % päällekkäisyydellä. Tuloksia laskettiin kolmella eri analyysi-ikkunan
pituudella: 23 ms, 46 ms ja 93 ms. Testit suoritettiin kaikille tietokannan kappaleille
ja niiden jokaiselle instrumenttiraidalle.
0 0.2 0.4 0.6 0.8 1
Bass synth
Organ
Percussion
Synth pad
Synthesizer
Strings
Lead electric guitar
Acoustic guitar
Rhythm electric guitar
Piano
Bass
Drum kit
Backing vocals
Lead vocal
Electric guitar
WDO arvot instrumenteille, analyysi−ikkunan pituus 23 ms
Kuva 4.1: WDO-analyysin tulokset 15 instrumentille, joille oli eniten tuloksia. Analyysi-
ikkunan pituus 23 ms.
Kuvaan 4.1 valittiin 15 instrumenttia, joille oli eniten raitoja tietokannassa. Nä-
mä tulokset ovat kiinnostavimpia ja niitä voidaan melko luotettavasti analysoida
tilastollisesti. Kuvaan valittujen instrumenttien tulosten lukumäärä on väliltä 96 ja
321, eniten tuloksia sisältävä instrumentti (sähkökitara) ylimpänä. Vaaka-akselilla
kulkee WDO-arvot, suurempi arvo on parempi. Tulokset on esitetty niin sanotun
laatikkokuvaajan (engl. boxplot) muodossa. Se kuvaa tiiviissä muodossa tulosten ti-
lastolliset tunnusluvut. Punainen pystyviiva on arvojen mediaani, sininen laatikko
4. Erillisyysanalyysi 10
rajaa tulosten kvartiilivälin ja mustat katkoviivoin erotetut janat rajaavat tulosten
vaihteluvälin poisluettuna ulkolaiset, jotka on merkitty yksittäisinä pisteinä kuvaa-
jaan punaisina +-merkkeinä. Koska suurempi WDO-arvo on parempi, lähempänä
oikeaa reunaa sijaitsevat jakaumat ovat erillisyysanalyysin kannalta paremmin erot-
tuvia instrumentteja. Kuvaajasta nähdään selkeästi rumpujen analyysin tulosten
jakauman sijaitsevan muita oikeammalla. Rumpujen mediaani on kaikkein suurin
ja kvartiiliväli on kaikkein lähimpänä ykköstä. Muita instrumentteja parempi tulos
johtuu siitä, että suurimassa osassa kappaleita rummut on ainoa transienttimainen
äänilähde. Tällöin sen energia on jakautunut aika-taajuustasossa laajalle taajuusa-
lueelle kapeilla aikaväleillä, kun taas muiden instrumenttien energia on jakautunut
ajallisesti pidemmille väleille ja taajuudeltaan kapeille alueille. Tämä tekee rum-
muista hyvin erottuvan aika-taajuustason energioiden suhteen muista instrumen-
teista. Muiden instrumenttien tulokset leviävät melko laajalle alueelle, joten niistä
ei voida vielä tehdä kovinkaan luotettavia johtopäätöksiä. Tulokset kuitenkin ovat
nollaa suurempia ja yksittäisiä lähellä yhtä olevia arvoja on useampia, mikä antaa
motivaation lähteä toteuttamaan maskipohjaista separointia.
0 0.2 0.4 0.6 0.8 1
Bass synth
Organ
Percussion
Synth pad
Synthesizer
Strings
Lead electric guitar
Acoustic guitar
Rhythm electric guitar
Piano
Bass
Drum kit
Backing vocals
Lead vocal
Electric guitar
WDO arvot instrumenteille, analyysi−ikkunan pituus 46 ms
Kuva 4.2: WDO-analyysin tulokset 15 instrumentille, joille oli eniten tuloksia. Analyysi-
ikkunan pituus 46 ms.
Analyysi-ikkunan pituuden kasvattaminen ei vaikuta suuresti lopputulokseen (ku-
va 4.2). Rummuille saadaan edelleen selkeästi parhaat tulokset kokonaisuutena,
muiden instrumenttien tulosten ollessa melko tasaisia. Basson ja syntetisoidun bas-
son tulokset paranevat hieman ikkunan pituuden kasvaessa, koska taajuusresoluutio
paranee. Analyysi-ikkunan pituutta lyhennettäessä muunnoksen taajuusresoluutio
4. Erillisyysanalyysi 11
heikkenee, mutta aikaresoluutio paranee. Tämän pitäisi teoriassa parantaa tuloksia
transienttimaisille äänille. Yksittäinen suurin WDO-arvo saatiin ikkunan pituudesta
riippumatta huilulle (ei kuvissa), tulosten keskiarvon (0.17) ollessa kuitenkin hyvin
samalla tasolla muiden instrumenttien kanssa.
12
5. MASKIPOHJAINEN SEPAROINTI
Maskipohjaisen separoinnin lähtökohtana on luvussa 4 mainittu aika-taajuustason
maski. Tämän avulla voidaan separoida yksittäinen äänilähde miksauksesta. Itse
maskin lisäksi tarvitaan muutamia audiosignaalinkäsittelyn operaatioita, joita käsi-
tellään seuraavaksi.
5.1 Teoria
Kun on laskettu maski M(γ) lähteelle, voidaan lähde separoida miksauksen aika-
taajuusesityksestä X(γ) kaavalla
Sk(γ) =
X(γ), kun M(γ) = 1
0, muulloin(5.1)
mikä saavutetaan myös kertomalla M ja X keskenään pisteittäin. Tuloksena saatu
Sk(γ) sisältää siis ne aika-taajustason pisteet, jossa lähde k peittää (maskaa) muut
lähteet.
Tuloksesta Sk(γ) voidaan palata takaisin aikatasoon luvussa 2 mainitun vaihe-
vokooderin mukaisella tavalla. Aikatason signaalin pitäisi nyt sisältää ainoastaan
lähteen k tuottama ääni.
5.2 Teorian todentaminen ja tulokset
Separointi toteutettiin Matlab-ympäristössä. Tulosten vertailussa käytettiin signaali-
kohinasuhdetta (SNR, engl. Signal to Noise Ratio) desibeliasteikolla. Varmentaak-
semme teorian oikeellisuuden, testattiin maskin muodostamistamisessa käytettävän
epäyhtälön muokkaamista hieman. Epäyhtälöön asetettiin kerroin m, jolle annettiin
arvoja väliltä [0, 2]. Tällöin yhtälö 4.1 muuntuu muotoon
Mk(γ) =
1, kun |Sk(γ)| > m · |Yk(γ)|
0, muulloin(5.2)
Tässä tapauksessa voidaan vertailla, kuinka epäyhtälön ehdon muuttaminen vaikut-
taa tuloksena saatavan maskin erottelukykyyn ja täten myös separoinnin tuloksena
5. Maskipohjainen separointi 13
saatavan äänisignaalin signaali-kohinasuhteeseen. Arvoilla m < 1 maskia muodos-
taessa ei vaadita, että kohdesignaalin energia olisi suurempi kuin muiden äänilähtei-
den energia. Esimerkiksi arvolla m = 0.6 maskiin valitaan arvo 1, kun kohdesignaa-
lin energia on vähintään 60 prosenttia muiden äänilähteiden energiasta. Vastaavasti
kertoimilla m > 1 kohteen energia tulee ylittää muiden lähteiden energian monin-
kertaisesti. Kertoimen muuttamisen lisäksi tuloksia laskettiin eri analyysi-ikkunan
pituuksilla, kuten aiemmin luvussa 4. Maskin muodostamisessa käytettiin audio-
signaalien magnitudispektrogrammeja, minkä vuoksi ennen palaamista aikatasoon
täytyy generoida negatiiviset taajuudet spektrogrammiin. Käytännössä tämä toteu-
tettiin lisäämällä matriisiin alempi puolikas, joka muodostetaan peilaamalla magni-
tudispektrogrammi aika-akselin suhteen.
Taulukko 5.1: SNR-arvot eri maskivertailun muuttujan m arvoilla kappaleelle Rolling in
the Deep (esittäjä Adele).
instrumentti m = 0.6 m = 0.8 m = 1.0 m = 1.2 m = 1.4Drum kit 7.87 8.58 8.78 8.66 8.34Tambourine 7.13 7.81 8.02 7.94 7.66Eggs 1.38 1.55 1.40 1.19 1.02Hand clap 4.63 5.28 5.40 5.21 4.90Bass 5.49 6.17 6.38 6.28 5.90Acoustic Guitar 1.74 2.43 2.37 2.20 2.01Electric guitar 1.64 2.17 2.16 1.98 1.74Piano 3.53 3.88 3.85 3.70 3.51Backing vocals 7.96 8.45 8.56 8.44 8.21Lead vocal 13.58 14.11 14.33 14.31 14.19
Taulukon 5.1 tuloksista nähdään, että maksimi SNR-arvot on saavutettu yhtä-
lön 5.2 avulla arvolla m = 1, mikä vastaa teorian taustalla olevaa yhtälöä 4.1. Tä-
män vuoksi yhtälöä 4.1 on käytetty maskien muodostamisessa työn myöhemmissä
vaiheissa. Muutamien instrumenttien tapauksessa suurin SNR-arvo on saavutettu
kertoimella m = 0.8, mutta näissäkin tapauksissa vastaava arvo kertoimella m = 1
on lähes yhtä suuri. Yleisessä tapauksessa voidaan kuitenkin olettaa, että teoria on
toimiva ja maskin muodostamisessa vertailukertoimena tulee käyttää arvoa m = 1.
Edellisen luvun WDO-analyysin perusteella oli syytä odottaa, että parhaat erot-
telutulokset saataisiin rummuille. Hieman yllättäen SNR-arvoja (kuva 5.1) tarkas-
telemalla huomataan, että laulu sai suurimpia arvoja. Tämä johtuu siitä, että SNR
ei riipu ainoastaan WDO-arvoista, vaan myös instrumentin SNR-arvoista sen domi-
noimissa aika-taajuustason pisteissä. Tässä tapauksessa laulu tuottaa hyvät SNR-
tulokset, sillä laulun äänipainetaso miksauksessa on yleensä suhteellisen korkea ver-
rattuna muihin instrumentteihin. Rummuillekkin tulokset ovat kuitenkin hyviä.
5. Maskipohjainen separointi 14
0 5 10 15 20
Bass synth
Organ
Percussion
Synth pad
Synthesizer
Strings
Lead electric guitar
Acoustic guitar
Rhythm electric guitar
Piano
Bass
Drum kit
Backing vocals
Lead vocal
Electric guitar
SNR arvot instrumenteille, analyysi−ikkunan pituus 23 ms
SNR (dB)
Kuva 5.1: Maskipohjaisen separoinnin tuloksien SNR-arvot 15 instrumentille, joille oli eni-
ten tuloksia. Analyysi-ikkunan pituus 23 ms.
Kuva 5.2: Spektrogrammit maskipohjaisen separoinnin tulokselle (vas.) ja valmiiksi erote-
tulle instrumenttiraidalle. Kuvat 10 sekunnin pätkä kappaleesta Waterloo (esittäjä ABBA).
Huomionarvoista on kuitenkin se, että kaikilla soittimilla SNR-arvot ovat vähin-
tään kohtuullisia (luokkaa 5 - 10 dB) ja erottelutuloksille kuultava laatu oli erittäin-
kin hyvä. Separoinnin lopputulosta ja moniraita-audiosta saatua instrumenttirai-
taa ei kuuntelutesteissä pystynyt erottamaan toisistaan. Separoinnin laatu nähdään
5. Maskipohjainen separointi 15
myös kuvasta 5.2, missä spektrogrammit ovat lähes identtiset. Hyvät erottelutulok-
set näissä testeissä johtuvat oracle-maskista. Käytännön sovelluksessa oracle-maskia
ei voida hyödyntää, mutta tulokset ovat varmentaneet maskipohjaisen separoinnin
periaatteen toimivuuden polyfoniselle musiikille. Seuraavassa luvussa otetaan käy-
tännönläheisempi näkökulma ongelman ratkaisuun.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
5
10
15
20
25SNR−arvot WDO−arvojen funktiona
WDO
SN
R (
dB)
Kuva 5.3: SNR- ja WDO-arvojen keskinäinen riippuvuus. Pystyakselilla SNR-arvot desi-
beleinä, vaaka-akselilla WDO-arvot. Analyysi-ikkunan pituus 46 ms.
WDO-analyysin ja maskipohjaisen separoinnin välinen yhteys näkyy hyvin ku-
vaajasta 5.3. WDO- ja SNR-arvojen välillä on positiivinen riippuvuus, mikä tukee
taustalla olevaa teoriaa. Näin ollen suurempi erottuvuus aika-taajuustasossa mah-
dollistaa paremman separointituloksen ainakin SNR-arvon kannalta.
16
6. MIDI-POHJAINEN SEPAROINTI
Totesimme luvussa 5 maskipohjaisen separoinnin toimivaksi menetelmäksi ääniläh-
teen separointiin. Tässä luvussa kyseistä menetelmää sovelletaan MIDI-audion avul-
la testidataan. MIDI-tiedostojen avulla lasketaan maski, jonka jälkeen laskenta on
aivan kuten maskipohjaisessa separoinnissa.
6.1 MIDI-formaatti
Signaalinkäsittelyn operaatiot ovat samat kuin aiemmin mainitussa maskipohjaises-
sa separoinnissa. Nyt erona on vain se, että maski muodostetaan tiettyä kappaletta
vastaavalla MIDI-audiolla. Tätä varten on hyvä kasitellä lyhyesti MIDI-audion for-
maattia ja teoriaa.
MIDI määrittelee protokollan ja rajapinnan soittimien välille, jotta ne voivat vä-
littää keskenään viestejä. MIDI:n välittämät viestit tulkitaan yleensä eri instrument-
tien nuoteiksi, joilla on siis tietty korkeus, äänenväri ja nopeus. Lisäksi formaatti si-
sältää kontrollisignaaleja, joilla ohjataan erilaisia parametreja, kuten äänenvoimak-
kuutta, sekä kellosignaalin, jonka avulla synkronoidaan tempo eri laitteiden välillä.
MIDI-audiosta puhuttaessa tässä dokumentissa tarkoitetaan MIDI-tiedostosta syn-
tetisoitua äänisignaalia. Syntetisoinnin voi suorittaa sopivalla laitteistolla tai tar-
koitukseen soveltuvalla ohjelmistolla. MIDI-audion laatu onkin täysin riippuvainen
syntetisaattorista ja teoriassa voidaankin saavuttaa erittäin hyvälaatuista audiota.
Äänilähteen separoinnin käytännön toteutuksen kannalta oleellisia hyötyjä MIDI-
formaatissa ja -audiossa on useita. MIDI-tiedostot ovat kompakteja esityksiä, vie-
den vain vähän tallennustilaa. Tämä tarkoittaa, että käytännössä voitaisiin toteut-
taa kattavakin tietokanta kappaleita hyvin pieneen tallennustilaan. MIDI:t sisältävät
myös instrumentit erillisinä raitoina/kanavoina, jolloin niiden erottelu ei vaadi itses-
sään yhtään signaalinkäsittelyn operaatiota. Tämä voidaan toteuttaa täysin ohjel-
mallisesti. Kun haluttu instrumentti on erotettu omaksi MIDI-audiokseen, voidaan
laskea estimaatti maskille Mk kaavalla 4.1.
Ratkaisusta aiheutuu kuitenkin muutama ongelma. Suurimpana se, ettei voida
olettaa normaalin audion ja MIDI-audion olevan ajallisesti täysin synkronoituja.
Ongelman ratkaisu ei ole lainkaan triviaali, vaan automaattisesti toteutettuna ky-
seessä on erittäin haastava ongelma. Haastavuuden vuoksi ongelman ratkaisu on
tämän kandidaatintyön laajuuden ulkopuolella. Tässä työssä käytetystä ratkaisus-
6. MIDI-pohjainen separointi 17
ta on kerrottu seuraavassa aliluvussa. Toinen pienempi ongelma on syntetisoidun
MIDI-audion laadun riittävyys riittävän hyvään separointitulokseen. Luvussa 6.2 on
kerättynä separoinnin tulokset kappaleille, joissa MIDI-kappaleen sovitus on mah-
dollisimman alkuperäistä audiota vastaava.
6.2 Tulokset
Separointia testattiin Matlabilla. MIDI-audion syntetisointiin käytettiin TiMidity++
-ohjelmistoa [13]. Testeissä käytettiin 30 sekunnin mittaisia testinäytteitä kappaleis-
ta, jotta audiosignaalit pysyisivät mahdollisimman hyvin ajallisesti synkronoituina.
Signaalit synkronoitiin manuaalisesti käyttäen audionkäsittelyohjelmistoa.
Taulukko 6.1: MIDI-pohjaisen separoinnin tulossignaalien SNR-arvot desibeleinä.
Analyysi-ikkunan pituus 46 ms, testinäytteiden pituus 30 s.
Toto - AfricaDrums and percussion Synthesizer Thumb piano
3.3668 0.8484 2.1175CCR - CottonFields
Drum kit Bass Electric guitar Lead vocal1.2911 2.7614 0.62627 0.80334
R.E.M. - ShinyHappy People
Drum kit Bass Strings Lead vocal0.95209 0.5319 0.52336 0.7154
Adele - SomeoneLike You
Piano Lead vocal2.5239 6.6104
James Blunt -Stay The Night
Drum kit Bass Lead vocal0.23964 1.1775 1.7591
U2 - With OrWithout You
Drum kit Bass Lead vocal1.4542 2.6282 0.46614
Depeche Mode -Wrong
Electronic drum kit Bass synth Synth Lead Lead vocal0.21314 2.3893 6.1356 3.2599
Taulukon 6.1 tulokset on laskettu instrumenteille, joiden MIDI-vastineet olivat
mahdollisimman hyvin sovitettu alkuperäisen kappaleen instrumenttiraidan kaltai-
seksi. Tuloksista nähdään, että näille instrumenteille saadaan SNR-arvojen kannalta
kohtuullisia tuloksia. On tärkeää muistaa, että lopullinen separoinnin tulos on erit-
täin riippuvainen MIDI-audion sovituksen laadusta. Tulosta saataisiin parannettua
käyttämällä laadukkaampaa dedikoitua laitteistoa pelkän ohjelmiston sijaan MIDI-
tiedostojen syntetisoinnissa. Valitettavasti tällaisen ratkaisun kustannukset kasvavat
suureksi, joten sen testaaminen on tämän kandidaatintyön mittakaavan ulkopuolella.
Tässä tapauksessa, kun synkronoinnin aiheuttamat ongelmat on suurimmalta osin
saatu eliminoitua, saadaan parhaiten sovitetuille instrumenteille jopa yli kuuden de-
sibelin SNR-arvoja. Näille instrumenteille separoinnin lopputuloksen kuultava laatu
on tarpeeksi hyvä, jotta niitä voitaisiin kuunnella sellaisenaan esimerkiksi kyseisen
6. MIDI-pohjainen separointi 18
instrumentin soittamista harjoitellessa. Muille instrumenteille kuultava laatu ei ole
aivan yhtä hyvä, mutta niitä voitaisiin soveltaa esimerkiksi audion remiksaamiseen.
6.3 Audion uudelleenmiksaus
MIDI-pohjaisen separoinnin laatu ei välttämättä ole sovellettavissa puhtaaseen in-
strumentin separointiin. Aiheutuva häiriö on kuitenkin muista äänilähteistä (instru-
menteista) ajallisesti riippuvaa, joten luonnollinen sovelluskohde olisi audion uu-
delleenmiksaaminen. Lisäksi muut instrumentit (ja erityisesti kohdeinstrumentti)
peittävät separointivirheitä ja artefaktoja.
Kuva 6.1: Spektrogrammit MIDI-pohjaisen separoinnin tuloksella tehdylle remiksaukselle
(vasemmalla) sekä separoinnissa aiheutuneelle virheelle (oikealla). Virhesignaali on laskettu
moniraita-audion avulla muodostetun remiksauksen ja separointipohjaisen remiksauksen
erotuksena.
Tässä tapauksessa audion uudelleenmiksaus toteutettaisiin eri instrumenttien ää-
nenvoimakkuuksien tasojen muuttamisena. Näin ollen saataisiin tehtyä kappaleesta
versio, jossa esimerkiksi rumpujen äänenvoimakkuutta on vahvistettu. Käytännön
sovelluksessa voitaisiin arvioida automaattisesti separointituloksen laatua, esimer-
kiksi tutkimalla kuinka hyvin sekoiteaudion ja vastaavan syntetisoidun MIDI-audion
spektrogrammit vastaavat toisiaan ja laskemalla kuinka suuri osa energiasta kuuluu
tietylle instrumentille. Tällöin tarjotaan uudelleenmiksausvaihtoehtoa vain instru-
menteille, joille separoinnin lopputuloksen laatu on tarpeeksi hyvä. MIDI-tiedostojen
pieni tallenustilantarve mahdollistaa myös, että jokaista kappaletta kohden olisi
6. MIDI-pohjainen separointi 19
useampi MIDI-tiedosto, joista voitaisiin valita parhaiten separointiin soveltuva ver-
sio.
Uudelleenmiksausta testattiin erisuuruisilla lineaarisilla kertoimilla vahvistaen se-
kä heikentäen yhtä instrumenttia kerrallaan kappaleesta. Otetaan yksikäsitteisyy-
den vuoksi käyttöön seuraavat merkinnät: remiksauskerroin X, kaikkien instru-
menttien alkuperäinen miksaus F (t) sekä MIDI-pohjaisen separoinnin tulossignaali
Y (t). Näin ollen esimerkiksi kerroin X = 0.5 vahvistaa instrumenttiraidan äänenvoi-
makkuuden 1.5-kertaiseksi alkuperäiseen verrattuna. Jos remiksauskerroin on välillä
X ∈ [−0.7, 0.7], niin miksauksesta F (t) +X · Y (t) ei kuule artefaktoja tai häiriötä.
Tämä nähdään myös kuvasta 6.1. Remiksatun signaalin ja separoinnista aiheutuvan
virheen aika-taajuustason energiat menevät päällekkäin, jolloin signaalissa esiinty-
vä virheet maskautuvat kuulon peittokynnyksen alle. Suuremmilla kertoimilla oli
kuultavissa pientä häiriötä, joten esimerkiksi yksittäisen instrumentin poistaminen
täysin ei näillä tuloksilla ole mahdollista.
20
7. YHTEENVETO
Tässä kandidaatintyössä testattiin maskipohjaisen separoinnin toimivuutta polyfo-
niselle musiikille ja sovellettiin menetelmää MIDI-tiedostojen avulla. Testit suori-
tettiin mahdollisimman monipuolisesti eri vuosikymmenten suosituille musiikkikap-
paleille. Erillisyysanalyysistä ja maskipohjaisesta separoinnista saadut tulokset var-
mensivat menetelmä toimivuuden. MIDI-pohjaisella separoinnilla saavutettiin myös
hyviä tuloksia, jota voidaan soveltaa audion uudelleenmiksaamiseen.
Täysin ongelmaton menetelmä ei kuitenkaan ole. MIDI-pohjainen separointi on
erittäin riippuvainen MIDI-audion sovituksesta ja instrumenttiraitojen toteutuksen
tarkkuudesta. Lisäksi ilman ajallista synkronointia, menetelmä toimii erittäin hei-
kosti. Tästä huolimatta, jos nämä ongelmat saadaan ratkaistua, voidaan menetelmää
pitää erittäin varteenotettavana vaihtoehtona instrumentin separointiin. Jotta me-
netelmää voitaisiin hyödyntää käytännön sovelluksissa, täytyisi edellä mainittujen
ongelmakohtien lisäksi toteuttaa normaalin musiikin ja sen MIDI-vastineen yhdis-
tävä algoritmi.
21
LÄHTEET
[1] Cherry C. Some Experiments on the Recognition of Speech, with One and with
Two Ears. The Journal of the Acoustical Society of America, vol. 25, number
5, 1953. pp. 975�979.
[2] Virtanen T., Singh R. & Raj B. Techniques for Noise Robustness in Automatic
Speech Recognition. 2012, John Wiley & Sons. 514 p.
[3] Jourjine, A., Rickard, S. & Yilmaz, Ö. Blind Separation of Disjoint Orthogonal
Signals: Demixing n Sources from 2 Mixtures, IEEE International Conference
on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, June 5�9, 2000.
Piscataway, NJ, United States 2000, IEEE. pp. 2985�2988.
[4] Yilmaz, Ö. & Rickard, S. Blind Separation of Speech Mixtures via Time-
Frequency Masking, IEEE Transactions on Signal Processing, vol. 52, 2004.
pp. 1830�1847.
[5] Giannoulis, D., Barchiesi, D., Klapuri, A. & Plumbley, M.D. On the Disjointess
of Sources in Music Using Di�erent Time-Frequency Representations. IEEE
Workshop on Applications of Signal Processing to Audio and Acoustics, New
Paltz, NY, United States, October 16-19, 2011. pp. 261�264.
[6] Guo W., Zong, Q. A Blind Separation Algorithm of Speech Mixtures Based on
Time-Frequency Masking. IEEE International Conference on Consumer Elect-
ronics, Communications and Networks, YiChang, Hubei, China, April 21�23,
2012. pp. 2258�2261.
[7] Nesbit, A., Vincent, E. & Plumbley, M.D. 2009. Benchmarking Flexible Adapti-
ve Time-Frequency Transforms for Underdetermined Audio Source Separation,
IEEE International Conference on Acoustics, Speech, and Signal Processing,
Taipei, Taiwan, April 19�24, 2009. pp. 37�40.
[8] Huttunen H. Signaalinkäsittelyn menetelmät. Tampere 2005, Tampereen tek-
nillinen yliopisto. Luentomoniste. 117 s.
[9] Zölzer, U. DAFX: Digital Audio E�ects. 2011, John Wiley & Sons. 602 p.
[10] Karaoke-Version [WWW]. [viitattu 12.11.2013]. Saatavissa: http://www.
karaoke-version.com.
[11] Billboard Hot 100 50th Anniversary Charts [WWW]. [viitattu 12.11.2013].
Saatavissa: http://en.wikipedia.org/wiki/Billboard_Hot_100_50th_
Anniversary_Charts#All-Time_top_artists.
LÄHTEET 22
[12] GEERDES midimusic: Midi�les & MP3 Playbacks: Article groups [WWW].
[viitattu 11.12.2013]. Saatavissa: http://www.midimusic.de/index.php?id=
artikel&L=eng#c340
[13] TiMidity++ [WWW]. [viitattu 10.12.2013]. Saatavissa: http://timidity.
sourceforge.net/.
23
A. TIETOKANNAN KAPPALEET
Kappaleet muodossa esittäjä - kappale
ABBA - Chiquitita Lynyrd Skynyrd - Sweet Home Alabama
ABBA - Dancing Queen Madonna - Celebration
ABBA - Fernando Madonna - La Isla Bonita
ABBA - Honey, Honey Madonna - Miles Away
ABBA - Mamma Mia Mariah Carey - All I Want For Christmas Is
You
ABBA - Money, Money, Money Metallica - Nothing Else Matters
ABBA - S.O.S. Metallica - Whiskey In The Jar
ABBA - Thank You For The Music Michael Bublé - All Of Me
ABBA - The Winner Takes It All Michael Bublé - Everything
ABBA - Waterloo Michael Bublé - Feeling Good
AC/DC - Hells Bells Michael Bublé - Haven't Met You Yet
AC/DC - Highway To Hell Michael Bublé - Home
AC/DC - Rock 'n' Roll Train Michael Bublé - It's A Beautiful Day
AC/DC - T.N.T. Michael Bublé - Save The Last Dance For Me
AC/DC - You Shook Me All Night Long Michael Jackson - Beat It
Adele - Don't You Remember Michael Jackson - Billie Jean
Adele - Rolling In The Deep Michael Jackson - Black Or White
Adele - Set Fire To The Rain Michael Jackson - Heal The World
Adele - Skyfall Michael Jackson - Thriller
Adele - Someone Like You Michael Jackson - You Are Not Alone
Alanis Morissette - Guardian Mika - Happy Ending
Alice Cooper - Poison Mika - Relax (Take It Easy)
Alicia Keys - If I Ain't Got You Muse - Feeling Good
Amy Macdonald - Don't Tell Me That It's
Over
Nancy Sinatra - These Boots Are Made For
Walkin'
Aretha Franklin - (You Make Me Feel Like) A
Natural Woman
Neil Diamond - Forever In Blue Jeans
Barry Manilow - Copacabana Neil Diamond - Sweet Caroline
Beyoncé - Halo Neil Young - Heart Of Gold
Beyoncé - If I Were A Boy Nickelback - Gotta Be Somebody
Billy Idol - Rebel Yell Nickelback - Rockstar
Billy Joel - Honesty Nickelback - When We Stand Together
Billy Ray Cyrus - Achy Breaky Heart Oasis - Wonderwall
Blondie - Call Me Opus - Live Is Life
Blondie - The Tide Is High Paul Anka - A Steel Guitar And A Glass Of
Wine
Bob Dylan - Knockin' On Heaven's Door Phil Collins - In The Air Tonight
A. Tietokannan kappaleet 24
Bob Seger - Against The Wind Phil Collins - You'll Be In My Heart
Bob Seger - Old Time Rock & Roll Pink - Blow Me (One Last Kiss)
Bon Jovi - Because We Can Pink - Fuckin' Perfect
Bon Jovi - Bed Of Roses Pink - Please Don't Leave Me
Bon Jovi - It's My Life Pink - So What
Bon Jovi - Livin' On A Prayer Pink - Sober
Bon Jovi - Runaway Pink - Try
Bon Jovi - We Weren't Born To Follow Pink Floyd - Another Brick In The Wall (Part
II)
Boney M - Daddy Cool Pink Floyd - Wish You Were Here
Bonnie Tyler - It's A Heartache Prince - Purple Rain
Bonnie Tyler - Total Eclipse Of The Heart PSY - Gangnam Style
Bruce Springsteen - Dancing In The Dark PSY - Gentleman
Bruce Springsteen - Hungry Heart Queen - Bohemian Rhapsody
Bruce Springsteen - Streets Of Philadelphia Queen - I Want To Break Free
Bruce Springsteen - The River Queen - We Are The Champions
Bruce Springsteen - Working On A Dream Queen - We Will Rock You
Bryan Adams - (Everything I Do) I Do It For
You
R.E.M. - Losing My Religion
Bryan Adams - Have You Ever Really Loved
A Woman?
R.E.M. - Shiny Happy People
Bryan Adams - Summer Of '69 Rammstein - Du Hast
Cee Lo Green - Fuck You Red Hot Chili Peppers - Californication
Céline Dion - I'm Alive Red Hot Chili Peppers - Can't Stop
Céline Dion - My Heart Will Go On Red Hot Chili Peppers - The Adventures Of
Rain Dance Maggie
Céline Dion - The Power Of Love Rihanna - Diamonds
Cher - Believe Rihanna - Don't Stop The Music
Chicago - Hard To Say I'm Sorry Rihanna - Russian Roulette
Chubby Checker - Let's Twist Again Rihanna - S&M
Chubby Checker - The Twist Robbie Williams - Angels
Chuck Berry - Johnny B. Goode Robbie Williams - Bodies
Chuck Berry - You Can Never Tell Robbie Williams - Candy
Coldplay - Every Teardrop Is A Waterfall Robbie Williams - Feel
Coldplay - Fix You Robbie Williams - Let Me Entertain You
Coldplay - Paradise Robbie Williams - Morning Sun
Coldplay - Viva La Vida Robbie Williams - You Know Me
Creedence Clearwater Revival - Bad Moon Ri-
sing
Rod Stewart - Sailing
Creedence Clearwater Revival - Cotton Fields Ronan Keating - When You Say Nothing At
All
Creedence Clearwater Revival - Have You
Ever Seen The Rain?
Roxette - It Must Have Been Love
Creedence Clearwater Revival - Proud Mary Roxette - Listen To Your Heart
Cyndi Lauper - Girls Just Wanna Have Fun Roxette - She's Got Nothing On (But The Ra-
dio)
Cyndi Lauper - Time After Time Roxette - The Look
A. Tietokannan kappaleet 25
Daft Punk feat. Pharrell Williams - Get Lucky Roy Orbison - California Blue
David Bowie - Changes Roy Orbison - Crying
Deep Purple - Child In Time Roy Orbison - Oh, Pretty Woman
Deep Purple - Smoke On The Water Roy Orbison - You Got It
Depeche Mode - Just Can't Get Enough Sam Cooke - Wonderful World
Depeche Mode - Wrong Santana - Black Magic Woman
Die Toten Hosen - Hier Kommt Alex Scorpions - Wind Of Change
Du�y - Mercy Seal - Kiss From A Rose
Du�y - Warwick Avenue Sean Paul - She Doesn't Mind
Ella Fitzgerald - Summertime September - Cry For You
Elton John - Can You Feel The Love Tonight? Stevie Wonder - I Just Called To Say I Love
You
Elton John - Circle Of Life Stevie Wonder - Sir Duke
Elton John - Song For Guy Stevie Wonder - Superstition
Elton John - Your Song Stevie Wonder - You Are The Sunshine Of My
Life
Elvis Presley - Blue Christmas Sting - Fields Of Gold
Elvis Presley - Blue Suede Shoes Survivor - Eye Of The Tiger
Elvis Presley - Can't Help Falling In Love Take That - Rule The World
Elvis Presley - Jailhouse Rock Take That - The Flood
Elvis Presley - Return To Sender Taylor Swift - I Knew You Were Trouble
Elvis Presley - Suspicious Minds Taylor Swift - You Belong With Me
Elvis Presley - Viva Las Vegas The Beatles - All My Loving
Empire Of The Sun - We Are The People The Beatles - All You Need Is Love
Eric Clapton - Lay Down Sally The Beatles - Help!
Eric Clapton - Tears In Heaven The Beatles - I Saw Her Standing There
Eric Clapton - Tulsa Time The Beatles - Let It Be
Eric Clapton - Wonderful Tonight The Beatles - Sgt. Pepper's Lonely Hearts
Club Band
Europe - The Final Countdown The Beatles - While My Guitar Gently Weeps
Eurythmics - Sweet Dreams (Are Made Of
This)
The Beatles - Yellow Submarine
Fleetwood Mac - Don't Stop The Beatles - Yesterday
Foreigner - I Want To Know What Love Is The Bellamy Brothers - Let Your Love Flow
Foster The People - Pumped Up Kicks The Blues Brothers - Everybody Needs Some-
body To Love
Frank Sinatra - Fly Me To The Moon The Carpenters - Jambalaya (On The Bayou)
Frank Sinatra - My Way The Cranberries - Zombie
Frank Sinatra - New York, New York The Doors - The End
Frank Sinatra - The Way You Look Tonight The Eagles - Hotel California
Gloria Gaynor - I Will Survive The Eagles - How Long
Green Day - Basket Case The Eagles - Take It Easy
Green Day - Wake Me Up When September
Ends
The Eagles - Tequila Sunrise
Guns N' Roses - November Rain The Gossip - Heavy Cross
Haddaway - What Is Love The Gossip - Move In The Right Direction
Hurts - Stay The Gossip - Perfect World
A. Tietokannan kappaleet 26
Hurts - Wonderful Life The Killers - Human
James Blunt - 1973 The Monkees - I'm A Believer
James Blunt - Same Mistake The Police - Every Breath You Take
James Blunt - Stay The Night The Police - Roxanne
Jay-Z feat. Alicia Keys - Empire State Of
Mind
The Pussycat Dolls - Sway
Je� Buckley - Hallelujah The Rolling Stones - Honky Tonk Women
Jennifer Lopez - Let's Get Loud The Rolling Stones - (I Can't Get No) Satis-
faction
Jerry Lee Lewis - Great Balls Of Fire The Rolling Stones - Jumpin' Jack Flash
Jethro Tull - Locomotive Breath The Who - Baba O'Riley
Joan Jett - I Love Rock 'N Roll The Who - Who Are You
John Lennon - Imagine The Who - Won't Get Fooled Again
Johnny Cash - Folsom Prison Blues Tina Turner - Proud Mary
Johnny Cash - I Walk The Line Tina Turner - The Best
Johnny Cash - Ring Of Fire Tina Turner - What's Love Got To Do With
It
Journey - Don't Stop Believing Tom Jones - Help Yourself
Katy Perry - Firework Tom Jones - It's Not Unusual
Katy Perry - Hot N Cold Tom Jones - She's A Lady
Katy Perry - I Kissed A Girl Tom Petty - Learning To Fly
Katy Perry - Last Friday Night (T.G.I.F.) Toto - Africa
Katy Perry - Teenage Dream Toto - Hold The Line
Kings Of Leon - Sex On Fire U2 - Beautiful Day
Kings Of Leon - Use Somebody U2 - Sunday Bloody Sunday
Kiss - I Was Made For Lovin' You U2 - With Or Without You
Kylie Minogue - All The Lovers Uriah Heep - Lady In Black
Kylie Minogue - In My Arms Usher - More
Lady Gaga - Alejandro Usher - Scream
Lady Gaga - Bad Romance Van Halen - Jump
Lady Gaga - Born This Way Village People - Y.M.C.A.
Lady Gaga - Just Dance Westlife - The Rose
Lady Gaga - Marry The Night Westlife - You Raise Me Up
Lady Gaga - Paparazzi Wham! - Last Christmas
Lady Gaga - The Edge Of Glory Whitney Houston - Greatest Love Of All
Led Zeppelin - Stairway To Heaven Whitney Houston - How Will I Know
Lenny Kravitz - I'll Be Waiting Whitney Houston - I Wanna Dance With So-
mebody
Lionel Richie - Hello Whitney Houston - I Will Always Love You
Lou Bega - Mambo No. 5 Whitney Houston - One Moment In Time
Louis Armstrong - What A Wonderful World ZZ Top - Gimme All Your Lovin'
Lynyrd Skynyrd - Simple Man ZZ Top - Sharp Dressed Man
top related