jani mÄkinen ÄÄnilÄhteiden separointi polyfonisesta musii- kista … mäkinen.pdf ·...

31

Upload: others

Post on 09-Mar-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

JANI MÄKINENÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII-KISTA KÄYTTÄEN AIKA-TAAJUUSTASON MASKEJAKandidaatintyö

Tarkastaja: Hanna SilénOhjaaja: Anssi KlapuriJätetty tarkastettavaksi15. joulukuuta 2013

Page 2: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

I

TIIVISTELMÄ

TAMPEREEN TEKNILLINEN YLIOPISTOTietotekniikan koulutusohjelmaMÄKINEN, JANI: Äänilähteiden separointi polyfonisesta musiikista käyttäenaika-taajustason maskejaKandidaatintyö, 22 sivua, 4 liitesivuaJoulukuu 2013Pääaine: Signaalinkäsittely ja multimediaTarkastaja: Hanna SilénOhjaaja: Anssi KlapuriAvainsanat: Äänilähteiden separointi, polyfoninen musiikki, vaihevokooderi, MIDI

Äänilähteen separointi on yksi audiosignaalinkäsittelyn tunnetuimmista ongelmista.

Tavoitteena on erotella yksittäinen äänisignaali usean äänisignaalin sekoituksen jou-

kosta. Tässä työssä ongelma esitetään ratkaistavaksi polyfoniselle musiikille, josta

separoidaan yksittäinen instrumentti. Tämä ratkaistaan käyttäen aika-taajuustason

maskeja separoinnissa. Menetelmän toimivuutta pohditaan erillisyysanalyysin kaut-

ta, jossa hyödynnetään W-Disjoint Orthogonality -mittaa. Lopuksi menetelmää so-

velletaan käyttämällä maskien muodostamiseen MIDI-audiosta laskettua informaa-

tiota.

Erillisyysanalyysin perusteella menetelmä on toimiva. Näitä tuloksia tukee myös

maskipohjaisen separoinnin tulokset. MIDI-pohjaisen separoinnin tulokset eivät sel-

laisenaan ole kovinkaan käyttökelpoisia. Niitä voidaan kuitenkin hyödyntää audion

uudelleenmiksauksessa, joka tässä tapauksessa koostuisi instrumenttien äänenvoi-

makkuuksien muuntamisesta sekoituksessa.

Page 3: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

II

ALKUSANAT

Tämä kandidaatintyö on jatkoa kesän 2013 työlleni signaalinkäsittelyn laitoksen au-

dioryhmässä tutkimusapulaisena. Haluaisin kiittää Anssi Klapuria mahdollisuudes-

ta työskennellä mielenkiintoisen projektin parissa ja kaikista arvokkaista neuvoista

kandidaatintyön kirjoittamisprosessin aikana. Lisäksi kiitokset kuuluvat Hanna Silé-

nille kommenteista kandidaatintyöhön liittyen sekä työtoverilleni Tuomo Tuunaselle

yleisistä neuvoista ja MIDI-työkaluista.

Page 4: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

III

SISÄLLYS

1. Johdanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1 Diskreetti Fourier-muunnos . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Spektrogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 Vaihevokooderi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Tietokanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4. Erillisyysanalyysi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.1 W-Disjoint Orthogonality . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2 Tulokset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5. Maskipohjainen separointi . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.1 Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.2 Teorian todentaminen ja tulokset . . . . . . . . . . . . . . . . . . . . 12

6. MIDI-pohjainen separointi . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.1 MIDI-formaatti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.2 Tulokset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6.3 Audion uudelleenmiksaus . . . . . . . . . . . . . . . . . . . . . . . . . 18

7. Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Lähteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

A. Tietokannan kappaleet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Page 5: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

IV

TERMIT JA NIIDEN MÄÄRITELMÄT

DFT Diskreetti Fourier-muunnos (engl. Discrete Fourier Transform)

FFT Nopea algoritmi DFT:lle (engl. Fast Fourier Transform)

MIDI Sähköisiä viestejä soittimien välillä välittävä tiedostojärjestelmä (engl.

Musical Instrument Digital Interface)

PSR Signaalin energian säilymissuhde (engl. Preserved-Signal Ratio)

SIR Signaali-häiriösuhde (engl. Signal-to-Interference Ratio)

SNR Signaali-kohinasuhde (engl. Signal to Noise Ratio)

STFT Lyhytaikainen (kehyksittäinen) DFT (engl. Short Time Fourier Trans-

form)

WDO Äänilähteiden aika-taajuustason päällekkäisyyttä mittaava suure (engl.

W-Disjoint Orthogonality)

Page 6: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

1

1. JOHDANTO

Musiikki on määritelty eri aikakausina erilaisin tavoin. Olennaisesti se on ääneen

perustuva taiteenmuoto, johon liittyy useita piirteitä, kuten rytmi, rakenne ja sävel.

Yksikäsitteistä määritelmää ei ole, mutta voidaan ajatella kaiken musiikin tavoit-

teeksi miellyttävyys ihmiskorvalle. Tästäkin syystä musiikki on usein polyfonista eli

sisältää useamman kuin yhden äänilähteen. Nykyaikana on yleistä, että musiikki-

kappaleessa on instrumentteina esimerkiksi rummut, kitara, basso ja laulu. Tällaista

kappaletta varten yleensä äänitetään jokainen soitin erikseen studiossa ja myöhem-

min nämä miksataan yhteen yhdeksi kappaleeksi. Mitä jos halutaankin palata taak-

sepäin tässä operaatiossa? Lähtökohtana on valmis useamman instrumentin kappale,

josta halutaan separoida yksittäinen soitin. Tämä kandidaatintyö käsittelee tämän

ongelman ratkaisua digitaalisen signaalinkäsittelyn menetelmin.

Äänilähteiden separoinnilla musiikista on useita käytännön sovelluksia. Separoi-

duilla instrumenteilla voitaisiin alkuperäisen audion sijaan luoda miksaus, jossa on

vain osa alkuperäisistä soittimista. Tällaista musiikkia voitaisiin käyttää hyväksi

soittimen harjoittelussa itse soittaen puuttuva soitin mukaan, kuten karaokessa lau-

letaan puuttuva laulu mukaan. Lisäksi olisi mahdollista uudelleenmiksata audiota

siten, että muutetaan tietyn soittimen tai instrumenttijoukon äänenvoimakkuutta

sekoituksessa.

Yleisesti ajateltuna äänilähteen erottelu (engl. source separation) on ollut pitkään

yksi puhe- ja audiosignaalinkäsittelyn tärkeimpiä ratkaistavia ongelmia. Ensimmäi-

sen kerran ongelmaa on analysoitu niin kutsutun Cocktail Party -ongelman avulla

jo vuonna 1953 [1]. Ongelmaan on kehitetty erilaisia ratkaisuja pohjautuen muun

muassa pääkomponenttianalyysiin ja ei-negatiiviseen matriisihajotelmaan. Monet

signaalinkäsittelyn operaatiot olettavat signaalit joko lähes häiriöttömiksi tai sisältä-

vän gaussista häiriötä. Tämän vuoksi matemaattiset perustat ja signaalinkäsittelyn

perinteiset menetelmät eivät toimi useamman äänen ja häiriölähteen sekoituksessa.

Ratkaisu ongelmaan on separoida äänilähteiden sekoituksesta puhdas äänisignaa-

li, jolloin voidaan hyödyntää perinteisiä menetelmiä. Tarkemmin näistä separoinnin

toteutuskeinoista ja sovelluskohteista on kerrottu lähteessä [2].

Tässä kandidaatintyössä separointiongelmaa on lähdetty ratkaisemaan aika-taa-

juustason maskien avulla. Oleellinen osa työtä on myös erillisyysanalyysi, jolla voi-

daan todistaa polyfoniselle musiikille tarpeelliset lähtökohdat separointia varten.

Page 7: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

1. Johdanto 2

Aika-taajuustason maskeja hyödyntävää separointia on tutkittu onnistuneesti aiem-

min puhesignaalien tapauksessa [3; 4] sekä musiikissa kahden instrumentin sekoi-

tuksissa [5]. Tässä työssä separointia testataan useamman soittimen sekoituksessa,

jolloin ongelma on haastavampi. Separoinnin käytännön toteuttamiseen käytetään

MIDI-audion (engl. Musical Instrument Digital Interface) tarjoamaa informaatiota.

Tästä menetelmästä käytetään tässä työssä nimeä MIDI-pohjainen separointi. Mas-

kipohjaista separointia on myös sovellettu ilman informaatiota äänilähteistä klus-

teroinnin avulla [6]. Oleellinen vaikutus separointiongelmaa ratkaistaessa maskien

avulla on aika-taajuusmuunnoksella. Eri muunnosten vaikutusta separoinnin laa-

tuun on tutkittu [5], ja lupaavia tuloksia on saavutettu myös adaptiivisten aika-

taajuusmuunnosten avulla [7].

Työn kannalta oleellinen pohjustava teoria on käyty läpi luvussa 2. Tärkeä osa on

myös työssä käytetty data. Luvussa 3 on työtä varten kerätystä audiotietokannasta

lisätietoa. Jotta maskipojainen separointi olisi toteuttamiskelpoinen ratkaisu poly-

foniselle musiikille, on tutkittava instrumenttien eroavaisuuksia aika-taajuustasossa.

Tätä on käsitelty luvussa 4. Analyysin jälkeen voidaan testata maskipohjaista sepa-

rointia luvussa 5. Tätä sovelletaan edelleen käyttäen MIDI-formaatin mukaista au-

diota. Luvussa 6 on esitetty oleellinen informaatio MIDI-formaatista ja separoinnin

tulokset. Työn oleellisimmat tulokset, ongelmat, sovelluskohteet sekä jatkokehitysi-

deat on esitetty luvussa 7.

Page 8: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

3

2. TEORIA

Ymmärtääksemme maskipohjaisen separoinnin ja erillisyysanalyysin teoriaa, tar-

vitaan muutama signaalinkäsittelyn perusterminologiaan liittyvä teoria esitietona.

Tässä luvussa esitellään lyhyesti diskreetti Fourier-muunnos, signaalin spektrogram-

miesitys sekä vaihevokooderi.

2.1 Diskreetti Fourier-muunnos

Saadaksemme selville signaalin taajussisällön tarvitsemme Fourier-muunnoksen kä-

sitettä. Diskreettiaikainen Fourier-muunnos määritellään signaalille x(n) kaavalla

X(n) =N−1∑k=0

x(k)w−knN , (2.1)

jossa N on signaalin jakso ja wN = e2πi/N eli ykkösen N:s juuri. Käänteinen dis-

kreettiaikainen Fourier-muunnos määritellään signaalille X(n) kaavalla

x(n) =1

N

N−1∑k=0

X(k)wknN . (2.2)

Käytännön totetutuksissa ongelmaksi muodostuu muunnoksen hitaus. N :n mittai-

sen signaalin DFT vaatii N2 kertolaskua ja N(N − 1) yhteenlaskua. Kun Fourier-

muunnos on N-ulotteinen, sen vaatima ajantarve on suoraan verrannollinen dimen-

sion neliöön [8, s.45]. Fourier-muunnos saadaan kuitenkin toteutettua huomattavasti

nopeammin niin kutsutulla nopealla Fourier-muunnoksella eli FFT:llä. Menemättä

sen tarkemmin teknisiin yksityiskohtiin FFT:ssä muunnos muodostetaan yhdistä-

mällä rekursiivisesti osajonojen muunnokset. Tämän avulla laskennallinen komplek-

sisuus pienenee luokkaan O(NlogN), mikä on erityisesti hyödyllistä N :n kasvaessa.

Käytännön sovelluksissa FFT:n käyttäminen suoran DFT:n määritelmän sijaan on

tämän vuoksi välttämätöntä.

Mainittakoon vielä termi STFT (lyhytaikainen Fourier-muunnos, engl. Short Ti-

me Fourier Transform), joka tarkoittaa kehyksittäistä Fourier-muunnosta. Siinä sig-

naalista otetaan lyhyitä (n. 10�100 ms) paloja, jotka kerrotaan sopivalla ikkunafunk-

tiolla. Ikkunafunktion arvot ovat nolla kehyksen ulkopuolella. Kun kehys on kerrottu

ikkunafunktiolla, lasketaan diskreetti Fourier-muunnos kyseisessä kehyksessä. Kos-

Page 9: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

2. Teoria 4

ka signaalit voidaan yleensä olettaa stationäärisiksi tarpeeksi lyhyellä aikavälillä, on

kehyksittäinen prosessointi erittäin hyödyllinen työkalu muun muassa audionkäsit-

telyssä. Tätä sovelletaankin esimerkiksi spektrogrammin laskennassa sekä vaihevo-

kooderissa.

2.2 Spektrogrammi

Audiolle löytyy erittäin luonnollinen esitysmuoto spektrogrammin muodossa. Tästä

saadaan selville audion (tai muun signaalin) aika-taajuussisältö. Spektrogrammin

käsite on erittäin tarpeellinen myöhemmissä luvuissa, joten on hyödyllistä hieman

tutustua teoriaan sen taustalla.

Spektrogrammin laskentaan käytetään kehyksittäistä prosessointia, yleisimmin

STFT:tä. Tällöin signaali jaetaan lyhyisiin kehyksiin, lasketaan ikkunafunktiolla pai-

notetusta kehyksestä DFT, jolloin tuloksena saadaan signaalin kompleksinen spekt-

rogrammi. Yleensä käytännön sovellusten kannalta kiinnostavampi on magnitudis-

pektrogrammi, joka saadaan laskemalla kompleksisesta versiosta pisteittäin itseisar-

von neliö. Lisäksi yleensä spektrogrammissa negatiiviset taajuudet eivät graa�sen

tarkastelun kannalta ole tarpeellisia, joten spektrogrammista tarkastellaan vain aika-

akselin yläpuoleista osaa.

Kuva 2.1: Spektrogrammi 10 sekunnin mittaisesta audiosignaalista.

Spektrogrammin graa�sessa esityksessä yleensä on vaaka-akselilla aika ja pysty-

akselilla taajuus. Energia tietyssä aika-taajuuskoordinaatissa kuvataan tällöin vä-

rein, esimerkiksi sinisestä keltaisen kautta punaiseen. Tällaisessa esityksessä ajalli-

sesti lyhyet äänet (transientit) näkyvät pystyviivoina ja taajudellisesti vakiot äänet

Page 10: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

2. Teoria 5

(harmoniset) näkyvät vaakaviivoina (ks. kuva 2.1).

2.3 Vaihevokooderi

Vaihevokooderi mahdollistaa mielenkiintoisen ja intuitiivisen tavan muokata ään-

tä. Ideana on tehdä äänisignaalista kaksiulotteinen esitys, muokata tätä esitystä ja

rekonstruoida uusi äänisignaali muokatusta esityksestä. Tämä menetelmä voidaan

jakaa kolmeen vaiheeseen: analyysi, transformaatio ja synteesi. Näin saatua mene-

telmää kutsutaan vaihevokooderiksi.

Ikkunafunktio (Hamming)

Signaali (valkoista kohinaa)

Ikkunoitu signaali

Kuva 2.2: Ikkunointifunktion (Hamming) kuvaaja ja sen vaikutus signaaliin.

Vaihevokooderia voidaan lähestyä kahden eri mallin avulla. Ensimmäinen on täs-

säkin työssä käytetty kehyksittäinen analyysi-synteesi-malli ja toinen on suodinpank-

kimalli [9]. Suodinpankkimallin yksinkertaistettu idea on mallintaa ääni sinisignaa-

lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

tämä toteutaan suodinpankin avulla. Tämä työn kannalta on oleellisempaa käsitel-

lä kehyksittäinen analyysi-synteesi-malli. Analyysivaiheessa äänisignaali muutetaan

Fourier-muunnoksen avulla taajuustasoon. Kun signaali prosessoidaan kehyksittäin

ensin ikkunafunktiolla ja tämän jälkeen Fourier-muunnoksella, saadaan signaalin

aika-taajuustason esitys. Tarvittavat muokkaukset ääneen tehdään tässä vaiheessa.

Kun muutokset on tehty, jokaisesta kehyksestä lasketaan käänteis-DFT, saadut ai-

katason kehykset ikkunoidaan sopivalla funktiolla (kuva 2.2) ja peräkkäiset kehykset

summataan limittäin. Kehyksien päällekkäisyys on sama kuin analyysivaiheen pro-

sessoinnissa. Tätä aika-taajuustason esityksestä aikatason signaaliin muuntavaa me-

netelmää kutsutaan overlap-add-tekniikaksi, koska peräkkäiset kehykset summataan

limittäin synteesivaiheessa.

Page 11: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

6

3. TIETOKANTA

Kandidaatintyössä käytetty tietokanta on koottu signaalinkäsittelyn laitoksen au-

dioryhmän töissä kesällä 2013. Tietokantaan kerättiin 304 kappaletta moniraita-

audiota. Moniraita-data ladattiin Karaoke-version-sivustolta [10]. Koska tämä tie-

tokanta on tarkoitettu audioryhmän tutkimuskäyttöön tämän kandidaatintyön ohel-

la, on tietokanta tallennettu audioryhmän verkkolevylle. Pääsy tähän tietokantaan

on rajoitettu tekijänoikeuksien vuoksi. Tarkka lista kaikista tietokannan kappaleista

löytyy liitteenä (ks. liite A).

Tietokannan audiodata on moniraita-audiota eli jokaisesta kappaleesta löytyy

normaalin miksatun version lisäksi erilliset raidat yksittäisille instrumenteille. Näitä

tarvitaan muun muassa maskipohjaisen separoinnin todentamiseksi sekä lopullisten

tulosten arviointiin. Instrumenttien jako eri raitoihin on toteutettu Karaoke-Version

-sivuston valitsemalla jaolla. Tätä varten tietokannassa käytetään annotointiin sa-

moja instrumenttien nimiä kuin sivustolla.

1 2 3 4 5 6 7 8 9 10 11 12 13 140

5

10

15

20

25

30

35

40

45

50Raitojen lukumäärä kappaleille

Kuva 3.1: Raitojen lukumäärä moniraita-audio tietokannassa

Instrumenttiraitojen lukumäärä kappaleissa vaihtelee kahden ja 14 välillä. Jakau-

ma raitojen määrälle on kuvassa 3.1. Keskimääräinen raitojen lukumäärä on 10.1

raitaa, mediaani on 10 raitaa ja yleisin raitojen lukumäärä on 9 raitaa 48 kappa-

Page 12: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

3. Tietokanta 7

leella. Raidoissa esiintyvien instrumenttien osuus kaikista kappaleista on esitettynä

kuvassa 3.2. Yleisin instrumentti on laulu, joka on raitana jokaisessa 304 kappalees-

sa. Tämän jälkeen yleisimmät instrumentit järjestyksessä ovat rummut, taustalau-

lu, basso, sähkökitara ja piano. Huomionarvoista instrumenttien nimeämisessä on se,

että kitaroita on jaoteltu useampaan luokkaan. Samaa luokittelua käytetään myös

myöhemmin WDO-laskennassa, kun arvioidaan menetelmän toimivuutta tietyille

instrumenteille.

0 10 20 30 40 50 60 70 80 90 100

Synth stringsDistorted electric guitar

Synth KeysElectronic drum kit

Electric pianoBass synth

OrganPercussionSynthesizer

Synth padAcoustic guitar

StringsLead electric guitar

Rhythm electric guitarPiano

Electric guitarBass

Backing vocalsDrum kit

Lead vocal

Prosenttiosuus (%)

Instrumenttien esiintyminen tietokannassa

Kuva 3.2: Eri instrumenttien esiintymisosuus kappaleista prosentteina

Hakemistorakenne jakautuu siten, että ylimpänä tasona on artistin nimi ja tämän

alla kappaleen nimi (esimerkiksi Elvis_Presley/Jailhouse_Rock). Nimistä poistet-

tiin erikoismerkit ja välilyönnit prosessoinnin helpottamiseksi myöhemmissä vaiheis-

sa. Jokaisen kappaleen hakemistosta löytyy mp3-formaatissa täysi miksaus (full mix)

sekä yksittäisten instrumenttien audiot. Instrumenttiraitojen nimissä on käytetty

numerointia, jonka selitys löytyy hakemistosta löytyvästä annotointitiedostosta.

Kappaleet tietokantaan valittiin mahdollisimman suosittujen joukosta. Tarkoi-

tuksena oli saada laaja valikoima populäärimusiikkia eri vuosikymmeniltä. Tähän

käytettiin kriteerinä Billboardin kaikkien aikojen sadan parhaan artistin listaa [11].

Toinen rajoittava tekijä kappaleille oli, että niille haluttiin löytyvän mahdollisimman

tarkasti sovitetut MIDI-versiot. Tässä käytettiin apuna MIDI-tiedostojen hankkimi-

seen käytettyä midimusic.de-sivuston määrittelemää premium-luokitusta [12]. Näin

parannetaan mahdollisuuksia saada hyviä tuloksia erottelusta myöhemmin.

Page 13: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

8

4. ERILLISYYSANALYYSI

Ennen kuin siirrymme maskipohjaiseen separointiin, on hyvä analysoida menetel-

män toimivuutta polyfoniselle musiikille. Maskipohjaisen separoinnin taustalla on

oletus, että äänilähteet ovat helposti eroteltavissa aika-taajuustasolla. Erillisyyden

määrittämiseen käytetään W-Disjoint Orthogonality -mittaa [4]. WDO antaa käsi-

tyksen kuinka hyvin lähde on erotettavissa toisesta lähteestä aika-taajuustasossa.

Lähellä arvoa yksi oleva WDO tarkoittaa erittäin hyvin erottuvaa signaalia. Mitä

pienempi arvo on, sitä enemmän lähteiden energiat menevät päällekkäin.

4.1 W-Disjoint Orthogonality

Olkoon signaali x K:n lähteen lineaarinen summa eli x =∑K

k=1 sk, missä sk on yk-

sittäisen lähteen k signaali. Lähteelle k laskettaessa WDO:ta, tarvitaan maskia (taa-

juus)muunnoksen jälkeen. Maski on ykkösistä ja nollista koostuva matriisi, jota käy-

tetään signaalinkäsittelyssä poimimaan kaksiulotteisesta esityksestä (kuva, spektro-

grammi) tietyt pisteet. Ideaali binäärinen maski k:lle lasketaan kaavalla

Mk(γ) =

1, kun |Sk(γ)| > |Yk(γ)|

0, muulloin(4.1)

missä Sk(γ) on lähteen k energia aika-taajuusesityksessä ja Yk(γ) on kaikkien muiden

äänilähteiden energia aika-taajuustasossa alueella γ. Tuloksena saatu maski kertoo

siis missä kohdissa aika-taajuustasoa lähteen k energia on suurempi kuin muiden

äänilähteiden energia yhteensä. Kyseisissä aika-taajuustason pisteissä äänilähde k

peittää muut äänilähteet. Kun maski muodostetaan hyödyntämällä valmiiksi ero-

tellun kohdeinstrumentin ja muiden äänilähteiden aika-taajuusesitystä, kutsutaan

lopputulosta oracle-maskiksi. Tämä maski on WDO:n kannalta kyseiselle instru-

mentille optimaalisin. Tällöin laskennassa on hyödynnetty tarkkaa informaatiota

kohdeinstrumentista, jota käytännön sovelluksissa ei ole saatavilla. Kun ääniläh-

teelle on muodostettu binäärinen maski, voidaan laskea PSRM (Signaalin energian

säilymissuhde, engl. Preserved Signal Ratio) ja SIRM (Signaali-häiriösuhde, engl.

Signal-to-Interference Ratio) seuraavien kaavojen mukaisesti:

PSRM =||M(γ)Sk(γ)||2

||Sk(γ)||2(4.2)

Page 14: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

4. Erillisyysanalyysi 9

SIRM =||M(γ)Sk(γ)||2

||M(γ)Yk(γ)||2(4.3)

Tällöin WDO määritellään kaavalla

WDOM = PSRM −PSRM

SIRM

(4.4)

Teoreettinen maksimi WDOM = 1 tarkoittaa, että lähde k voidaan separoida täy-

dellisesti sekoituksesta maskilla Mk.

4.2 Tulokset

Analyysi toteutettiin Matlab-ympäristössä käyttäen muunnoksessa DFT:tä ja Hamming-

ikkunaa 50 % päällekkäisyydellä. Tuloksia laskettiin kolmella eri analyysi-ikkunan

pituudella: 23 ms, 46 ms ja 93 ms. Testit suoritettiin kaikille tietokannan kappaleille

ja niiden jokaiselle instrumenttiraidalle.

0 0.2 0.4 0.6 0.8 1

Bass synth

Organ

Percussion

Synth pad

Synthesizer

Strings

Lead electric guitar

Acoustic guitar

Rhythm electric guitar

Piano

Bass

Drum kit

Backing vocals

Lead vocal

Electric guitar

WDO arvot instrumenteille, analyysi−ikkunan pituus 23 ms

Kuva 4.1: WDO-analyysin tulokset 15 instrumentille, joille oli eniten tuloksia. Analyysi-

ikkunan pituus 23 ms.

Kuvaan 4.1 valittiin 15 instrumenttia, joille oli eniten raitoja tietokannassa. Nä-

mä tulokset ovat kiinnostavimpia ja niitä voidaan melko luotettavasti analysoida

tilastollisesti. Kuvaan valittujen instrumenttien tulosten lukumäärä on väliltä 96 ja

321, eniten tuloksia sisältävä instrumentti (sähkökitara) ylimpänä. Vaaka-akselilla

kulkee WDO-arvot, suurempi arvo on parempi. Tulokset on esitetty niin sanotun

laatikkokuvaajan (engl. boxplot) muodossa. Se kuvaa tiiviissä muodossa tulosten ti-

lastolliset tunnusluvut. Punainen pystyviiva on arvojen mediaani, sininen laatikko

Page 15: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

4. Erillisyysanalyysi 10

rajaa tulosten kvartiilivälin ja mustat katkoviivoin erotetut janat rajaavat tulosten

vaihteluvälin poisluettuna ulkolaiset, jotka on merkitty yksittäisinä pisteinä kuvaa-

jaan punaisina +-merkkeinä. Koska suurempi WDO-arvo on parempi, lähempänä

oikeaa reunaa sijaitsevat jakaumat ovat erillisyysanalyysin kannalta paremmin erot-

tuvia instrumentteja. Kuvaajasta nähdään selkeästi rumpujen analyysin tulosten

jakauman sijaitsevan muita oikeammalla. Rumpujen mediaani on kaikkein suurin

ja kvartiiliväli on kaikkein lähimpänä ykköstä. Muita instrumentteja parempi tulos

johtuu siitä, että suurimassa osassa kappaleita rummut on ainoa transienttimainen

äänilähde. Tällöin sen energia on jakautunut aika-taajuustasossa laajalle taajuusa-

lueelle kapeilla aikaväleillä, kun taas muiden instrumenttien energia on jakautunut

ajallisesti pidemmille väleille ja taajuudeltaan kapeille alueille. Tämä tekee rum-

muista hyvin erottuvan aika-taajuustason energioiden suhteen muista instrumen-

teista. Muiden instrumenttien tulokset leviävät melko laajalle alueelle, joten niistä

ei voida vielä tehdä kovinkaan luotettavia johtopäätöksiä. Tulokset kuitenkin ovat

nollaa suurempia ja yksittäisiä lähellä yhtä olevia arvoja on useampia, mikä antaa

motivaation lähteä toteuttamaan maskipohjaista separointia.

0 0.2 0.4 0.6 0.8 1

Bass synth

Organ

Percussion

Synth pad

Synthesizer

Strings

Lead electric guitar

Acoustic guitar

Rhythm electric guitar

Piano

Bass

Drum kit

Backing vocals

Lead vocal

Electric guitar

WDO arvot instrumenteille, analyysi−ikkunan pituus 46 ms

Kuva 4.2: WDO-analyysin tulokset 15 instrumentille, joille oli eniten tuloksia. Analyysi-

ikkunan pituus 46 ms.

Analyysi-ikkunan pituuden kasvattaminen ei vaikuta suuresti lopputulokseen (ku-

va 4.2). Rummuille saadaan edelleen selkeästi parhaat tulokset kokonaisuutena,

muiden instrumenttien tulosten ollessa melko tasaisia. Basson ja syntetisoidun bas-

son tulokset paranevat hieman ikkunan pituuden kasvaessa, koska taajuusresoluutio

paranee. Analyysi-ikkunan pituutta lyhennettäessä muunnoksen taajuusresoluutio

Page 16: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

4. Erillisyysanalyysi 11

heikkenee, mutta aikaresoluutio paranee. Tämän pitäisi teoriassa parantaa tuloksia

transienttimaisille äänille. Yksittäinen suurin WDO-arvo saatiin ikkunan pituudesta

riippumatta huilulle (ei kuvissa), tulosten keskiarvon (0.17) ollessa kuitenkin hyvin

samalla tasolla muiden instrumenttien kanssa.

Page 17: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

12

5. MASKIPOHJAINEN SEPAROINTI

Maskipohjaisen separoinnin lähtökohtana on luvussa 4 mainittu aika-taajuustason

maski. Tämän avulla voidaan separoida yksittäinen äänilähde miksauksesta. Itse

maskin lisäksi tarvitaan muutamia audiosignaalinkäsittelyn operaatioita, joita käsi-

tellään seuraavaksi.

5.1 Teoria

Kun on laskettu maski M(γ) lähteelle, voidaan lähde separoida miksauksen aika-

taajuusesityksestä X(γ) kaavalla

Sk(γ) =

X(γ), kun M(γ) = 1

0, muulloin(5.1)

mikä saavutetaan myös kertomalla M ja X keskenään pisteittäin. Tuloksena saatu

Sk(γ) sisältää siis ne aika-taajustason pisteet, jossa lähde k peittää (maskaa) muut

lähteet.

Tuloksesta Sk(γ) voidaan palata takaisin aikatasoon luvussa 2 mainitun vaihe-

vokooderin mukaisella tavalla. Aikatason signaalin pitäisi nyt sisältää ainoastaan

lähteen k tuottama ääni.

5.2 Teorian todentaminen ja tulokset

Separointi toteutettiin Matlab-ympäristössä. Tulosten vertailussa käytettiin signaali-

kohinasuhdetta (SNR, engl. Signal to Noise Ratio) desibeliasteikolla. Varmentaak-

semme teorian oikeellisuuden, testattiin maskin muodostamistamisessa käytettävän

epäyhtälön muokkaamista hieman. Epäyhtälöön asetettiin kerroin m, jolle annettiin

arvoja väliltä [0, 2]. Tällöin yhtälö 4.1 muuntuu muotoon

Mk(γ) =

1, kun |Sk(γ)| > m · |Yk(γ)|

0, muulloin(5.2)

Tässä tapauksessa voidaan vertailla, kuinka epäyhtälön ehdon muuttaminen vaikut-

taa tuloksena saatavan maskin erottelukykyyn ja täten myös separoinnin tuloksena

Page 18: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

5. Maskipohjainen separointi 13

saatavan äänisignaalin signaali-kohinasuhteeseen. Arvoilla m < 1 maskia muodos-

taessa ei vaadita, että kohdesignaalin energia olisi suurempi kuin muiden äänilähtei-

den energia. Esimerkiksi arvolla m = 0.6 maskiin valitaan arvo 1, kun kohdesignaa-

lin energia on vähintään 60 prosenttia muiden äänilähteiden energiasta. Vastaavasti

kertoimilla m > 1 kohteen energia tulee ylittää muiden lähteiden energian monin-

kertaisesti. Kertoimen muuttamisen lisäksi tuloksia laskettiin eri analyysi-ikkunan

pituuksilla, kuten aiemmin luvussa 4. Maskin muodostamisessa käytettiin audio-

signaalien magnitudispektrogrammeja, minkä vuoksi ennen palaamista aikatasoon

täytyy generoida negatiiviset taajuudet spektrogrammiin. Käytännössä tämä toteu-

tettiin lisäämällä matriisiin alempi puolikas, joka muodostetaan peilaamalla magni-

tudispektrogrammi aika-akselin suhteen.

Taulukko 5.1: SNR-arvot eri maskivertailun muuttujan m arvoilla kappaleelle Rolling in

the Deep (esittäjä Adele).

instrumentti m = 0.6 m = 0.8 m = 1.0 m = 1.2 m = 1.4Drum kit 7.87 8.58 8.78 8.66 8.34Tambourine 7.13 7.81 8.02 7.94 7.66Eggs 1.38 1.55 1.40 1.19 1.02Hand clap 4.63 5.28 5.40 5.21 4.90Bass 5.49 6.17 6.38 6.28 5.90Acoustic Guitar 1.74 2.43 2.37 2.20 2.01Electric guitar 1.64 2.17 2.16 1.98 1.74Piano 3.53 3.88 3.85 3.70 3.51Backing vocals 7.96 8.45 8.56 8.44 8.21Lead vocal 13.58 14.11 14.33 14.31 14.19

Taulukon 5.1 tuloksista nähdään, että maksimi SNR-arvot on saavutettu yhtä-

lön 5.2 avulla arvolla m = 1, mikä vastaa teorian taustalla olevaa yhtälöä 4.1. Tä-

män vuoksi yhtälöä 4.1 on käytetty maskien muodostamisessa työn myöhemmissä

vaiheissa. Muutamien instrumenttien tapauksessa suurin SNR-arvo on saavutettu

kertoimella m = 0.8, mutta näissäkin tapauksissa vastaava arvo kertoimella m = 1

on lähes yhtä suuri. Yleisessä tapauksessa voidaan kuitenkin olettaa, että teoria on

toimiva ja maskin muodostamisessa vertailukertoimena tulee käyttää arvoa m = 1.

Edellisen luvun WDO-analyysin perusteella oli syytä odottaa, että parhaat erot-

telutulokset saataisiin rummuille. Hieman yllättäen SNR-arvoja (kuva 5.1) tarkas-

telemalla huomataan, että laulu sai suurimpia arvoja. Tämä johtuu siitä, että SNR

ei riipu ainoastaan WDO-arvoista, vaan myös instrumentin SNR-arvoista sen domi-

noimissa aika-taajuustason pisteissä. Tässä tapauksessa laulu tuottaa hyvät SNR-

tulokset, sillä laulun äänipainetaso miksauksessa on yleensä suhteellisen korkea ver-

rattuna muihin instrumentteihin. Rummuillekkin tulokset ovat kuitenkin hyviä.

Page 19: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

5. Maskipohjainen separointi 14

0 5 10 15 20

Bass synth

Organ

Percussion

Synth pad

Synthesizer

Strings

Lead electric guitar

Acoustic guitar

Rhythm electric guitar

Piano

Bass

Drum kit

Backing vocals

Lead vocal

Electric guitar

SNR arvot instrumenteille, analyysi−ikkunan pituus 23 ms

SNR (dB)

Kuva 5.1: Maskipohjaisen separoinnin tuloksien SNR-arvot 15 instrumentille, joille oli eni-

ten tuloksia. Analyysi-ikkunan pituus 23 ms.

Kuva 5.2: Spektrogrammit maskipohjaisen separoinnin tulokselle (vas.) ja valmiiksi erote-

tulle instrumenttiraidalle. Kuvat 10 sekunnin pätkä kappaleesta Waterloo (esittäjä ABBA).

Huomionarvoista on kuitenkin se, että kaikilla soittimilla SNR-arvot ovat vähin-

tään kohtuullisia (luokkaa 5 - 10 dB) ja erottelutuloksille kuultava laatu oli erittäin-

kin hyvä. Separoinnin lopputulosta ja moniraita-audiosta saatua instrumenttirai-

taa ei kuuntelutesteissä pystynyt erottamaan toisistaan. Separoinnin laatu nähdään

Page 20: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

5. Maskipohjainen separointi 15

myös kuvasta 5.2, missä spektrogrammit ovat lähes identtiset. Hyvät erottelutulok-

set näissä testeissä johtuvat oracle-maskista. Käytännön sovelluksessa oracle-maskia

ei voida hyödyntää, mutta tulokset ovat varmentaneet maskipohjaisen separoinnin

periaatteen toimivuuden polyfoniselle musiikille. Seuraavassa luvussa otetaan käy-

tännönläheisempi näkökulma ongelman ratkaisuun.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

5

10

15

20

25SNR−arvot WDO−arvojen funktiona

WDO

SN

R (

dB)

Kuva 5.3: SNR- ja WDO-arvojen keskinäinen riippuvuus. Pystyakselilla SNR-arvot desi-

beleinä, vaaka-akselilla WDO-arvot. Analyysi-ikkunan pituus 46 ms.

WDO-analyysin ja maskipohjaisen separoinnin välinen yhteys näkyy hyvin ku-

vaajasta 5.3. WDO- ja SNR-arvojen välillä on positiivinen riippuvuus, mikä tukee

taustalla olevaa teoriaa. Näin ollen suurempi erottuvuus aika-taajuustasossa mah-

dollistaa paremman separointituloksen ainakin SNR-arvon kannalta.

Page 21: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

16

6. MIDI-POHJAINEN SEPAROINTI

Totesimme luvussa 5 maskipohjaisen separoinnin toimivaksi menetelmäksi ääniläh-

teen separointiin. Tässä luvussa kyseistä menetelmää sovelletaan MIDI-audion avul-

la testidataan. MIDI-tiedostojen avulla lasketaan maski, jonka jälkeen laskenta on

aivan kuten maskipohjaisessa separoinnissa.

6.1 MIDI-formaatti

Signaalinkäsittelyn operaatiot ovat samat kuin aiemmin mainitussa maskipohjaises-

sa separoinnissa. Nyt erona on vain se, että maski muodostetaan tiettyä kappaletta

vastaavalla MIDI-audiolla. Tätä varten on hyvä kasitellä lyhyesti MIDI-audion for-

maattia ja teoriaa.

MIDI määrittelee protokollan ja rajapinnan soittimien välille, jotta ne voivat vä-

littää keskenään viestejä. MIDI:n välittämät viestit tulkitaan yleensä eri instrument-

tien nuoteiksi, joilla on siis tietty korkeus, äänenväri ja nopeus. Lisäksi formaatti si-

sältää kontrollisignaaleja, joilla ohjataan erilaisia parametreja, kuten äänenvoimak-

kuutta, sekä kellosignaalin, jonka avulla synkronoidaan tempo eri laitteiden välillä.

MIDI-audiosta puhuttaessa tässä dokumentissa tarkoitetaan MIDI-tiedostosta syn-

tetisoitua äänisignaalia. Syntetisoinnin voi suorittaa sopivalla laitteistolla tai tar-

koitukseen soveltuvalla ohjelmistolla. MIDI-audion laatu onkin täysin riippuvainen

syntetisaattorista ja teoriassa voidaankin saavuttaa erittäin hyvälaatuista audiota.

Äänilähteen separoinnin käytännön toteutuksen kannalta oleellisia hyötyjä MIDI-

formaatissa ja -audiossa on useita. MIDI-tiedostot ovat kompakteja esityksiä, vie-

den vain vähän tallennustilaa. Tämä tarkoittaa, että käytännössä voitaisiin toteut-

taa kattavakin tietokanta kappaleita hyvin pieneen tallennustilaan. MIDI:t sisältävät

myös instrumentit erillisinä raitoina/kanavoina, jolloin niiden erottelu ei vaadi itses-

sään yhtään signaalinkäsittelyn operaatiota. Tämä voidaan toteuttaa täysin ohjel-

mallisesti. Kun haluttu instrumentti on erotettu omaksi MIDI-audiokseen, voidaan

laskea estimaatti maskille Mk kaavalla 4.1.

Ratkaisusta aiheutuu kuitenkin muutama ongelma. Suurimpana se, ettei voida

olettaa normaalin audion ja MIDI-audion olevan ajallisesti täysin synkronoituja.

Ongelman ratkaisu ei ole lainkaan triviaali, vaan automaattisesti toteutettuna ky-

seessä on erittäin haastava ongelma. Haastavuuden vuoksi ongelman ratkaisu on

tämän kandidaatintyön laajuuden ulkopuolella. Tässä työssä käytetystä ratkaisus-

Page 22: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

6. MIDI-pohjainen separointi 17

ta on kerrottu seuraavassa aliluvussa. Toinen pienempi ongelma on syntetisoidun

MIDI-audion laadun riittävyys riittävän hyvään separointitulokseen. Luvussa 6.2 on

kerättynä separoinnin tulokset kappaleille, joissa MIDI-kappaleen sovitus on mah-

dollisimman alkuperäistä audiota vastaava.

6.2 Tulokset

Separointia testattiin Matlabilla. MIDI-audion syntetisointiin käytettiin TiMidity++

-ohjelmistoa [13]. Testeissä käytettiin 30 sekunnin mittaisia testinäytteitä kappaleis-

ta, jotta audiosignaalit pysyisivät mahdollisimman hyvin ajallisesti synkronoituina.

Signaalit synkronoitiin manuaalisesti käyttäen audionkäsittelyohjelmistoa.

Taulukko 6.1: MIDI-pohjaisen separoinnin tulossignaalien SNR-arvot desibeleinä.

Analyysi-ikkunan pituus 46 ms, testinäytteiden pituus 30 s.

Toto - AfricaDrums and percussion Synthesizer Thumb piano

3.3668 0.8484 2.1175CCR - CottonFields

Drum kit Bass Electric guitar Lead vocal1.2911 2.7614 0.62627 0.80334

R.E.M. - ShinyHappy People

Drum kit Bass Strings Lead vocal0.95209 0.5319 0.52336 0.7154

Adele - SomeoneLike You

Piano Lead vocal2.5239 6.6104

James Blunt -Stay The Night

Drum kit Bass Lead vocal0.23964 1.1775 1.7591

U2 - With OrWithout You

Drum kit Bass Lead vocal1.4542 2.6282 0.46614

Depeche Mode -Wrong

Electronic drum kit Bass synth Synth Lead Lead vocal0.21314 2.3893 6.1356 3.2599

Taulukon 6.1 tulokset on laskettu instrumenteille, joiden MIDI-vastineet olivat

mahdollisimman hyvin sovitettu alkuperäisen kappaleen instrumenttiraidan kaltai-

seksi. Tuloksista nähdään, että näille instrumenteille saadaan SNR-arvojen kannalta

kohtuullisia tuloksia. On tärkeää muistaa, että lopullinen separoinnin tulos on erit-

täin riippuvainen MIDI-audion sovituksen laadusta. Tulosta saataisiin parannettua

käyttämällä laadukkaampaa dedikoitua laitteistoa pelkän ohjelmiston sijaan MIDI-

tiedostojen syntetisoinnissa. Valitettavasti tällaisen ratkaisun kustannukset kasvavat

suureksi, joten sen testaaminen on tämän kandidaatintyön mittakaavan ulkopuolella.

Tässä tapauksessa, kun synkronoinnin aiheuttamat ongelmat on suurimmalta osin

saatu eliminoitua, saadaan parhaiten sovitetuille instrumenteille jopa yli kuuden de-

sibelin SNR-arvoja. Näille instrumenteille separoinnin lopputuloksen kuultava laatu

on tarpeeksi hyvä, jotta niitä voitaisiin kuunnella sellaisenaan esimerkiksi kyseisen

Page 23: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

6. MIDI-pohjainen separointi 18

instrumentin soittamista harjoitellessa. Muille instrumenteille kuultava laatu ei ole

aivan yhtä hyvä, mutta niitä voitaisiin soveltaa esimerkiksi audion remiksaamiseen.

6.3 Audion uudelleenmiksaus

MIDI-pohjaisen separoinnin laatu ei välttämättä ole sovellettavissa puhtaaseen in-

strumentin separointiin. Aiheutuva häiriö on kuitenkin muista äänilähteistä (instru-

menteista) ajallisesti riippuvaa, joten luonnollinen sovelluskohde olisi audion uu-

delleenmiksaaminen. Lisäksi muut instrumentit (ja erityisesti kohdeinstrumentti)

peittävät separointivirheitä ja artefaktoja.

Kuva 6.1: Spektrogrammit MIDI-pohjaisen separoinnin tuloksella tehdylle remiksaukselle

(vasemmalla) sekä separoinnissa aiheutuneelle virheelle (oikealla). Virhesignaali on laskettu

moniraita-audion avulla muodostetun remiksauksen ja separointipohjaisen remiksauksen

erotuksena.

Tässä tapauksessa audion uudelleenmiksaus toteutettaisiin eri instrumenttien ää-

nenvoimakkuuksien tasojen muuttamisena. Näin ollen saataisiin tehtyä kappaleesta

versio, jossa esimerkiksi rumpujen äänenvoimakkuutta on vahvistettu. Käytännön

sovelluksessa voitaisiin arvioida automaattisesti separointituloksen laatua, esimer-

kiksi tutkimalla kuinka hyvin sekoiteaudion ja vastaavan syntetisoidun MIDI-audion

spektrogrammit vastaavat toisiaan ja laskemalla kuinka suuri osa energiasta kuuluu

tietylle instrumentille. Tällöin tarjotaan uudelleenmiksausvaihtoehtoa vain instru-

menteille, joille separoinnin lopputuloksen laatu on tarpeeksi hyvä. MIDI-tiedostojen

pieni tallenustilantarve mahdollistaa myös, että jokaista kappaletta kohden olisi

Page 24: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

6. MIDI-pohjainen separointi 19

useampi MIDI-tiedosto, joista voitaisiin valita parhaiten separointiin soveltuva ver-

sio.

Uudelleenmiksausta testattiin erisuuruisilla lineaarisilla kertoimilla vahvistaen se-

kä heikentäen yhtä instrumenttia kerrallaan kappaleesta. Otetaan yksikäsitteisyy-

den vuoksi käyttöön seuraavat merkinnät: remiksauskerroin X, kaikkien instru-

menttien alkuperäinen miksaus F (t) sekä MIDI-pohjaisen separoinnin tulossignaali

Y (t). Näin ollen esimerkiksi kerroin X = 0.5 vahvistaa instrumenttiraidan äänenvoi-

makkuuden 1.5-kertaiseksi alkuperäiseen verrattuna. Jos remiksauskerroin on välillä

X ∈ [−0.7, 0.7], niin miksauksesta F (t) +X · Y (t) ei kuule artefaktoja tai häiriötä.

Tämä nähdään myös kuvasta 6.1. Remiksatun signaalin ja separoinnista aiheutuvan

virheen aika-taajuustason energiat menevät päällekkäin, jolloin signaalissa esiinty-

vä virheet maskautuvat kuulon peittokynnyksen alle. Suuremmilla kertoimilla oli

kuultavissa pientä häiriötä, joten esimerkiksi yksittäisen instrumentin poistaminen

täysin ei näillä tuloksilla ole mahdollista.

Page 25: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

20

7. YHTEENVETO

Tässä kandidaatintyössä testattiin maskipohjaisen separoinnin toimivuutta polyfo-

niselle musiikille ja sovellettiin menetelmää MIDI-tiedostojen avulla. Testit suori-

tettiin mahdollisimman monipuolisesti eri vuosikymmenten suosituille musiikkikap-

paleille. Erillisyysanalyysistä ja maskipohjaisesta separoinnista saadut tulokset var-

mensivat menetelmä toimivuuden. MIDI-pohjaisella separoinnilla saavutettiin myös

hyviä tuloksia, jota voidaan soveltaa audion uudelleenmiksaamiseen.

Täysin ongelmaton menetelmä ei kuitenkaan ole. MIDI-pohjainen separointi on

erittäin riippuvainen MIDI-audion sovituksesta ja instrumenttiraitojen toteutuksen

tarkkuudesta. Lisäksi ilman ajallista synkronointia, menetelmä toimii erittäin hei-

kosti. Tästä huolimatta, jos nämä ongelmat saadaan ratkaistua, voidaan menetelmää

pitää erittäin varteenotettavana vaihtoehtona instrumentin separointiin. Jotta me-

netelmää voitaisiin hyödyntää käytännön sovelluksissa, täytyisi edellä mainittujen

ongelmakohtien lisäksi toteuttaa normaalin musiikin ja sen MIDI-vastineen yhdis-

tävä algoritmi.

Page 26: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

21

LÄHTEET

[1] Cherry C. Some Experiments on the Recognition of Speech, with One and with

Two Ears. The Journal of the Acoustical Society of America, vol. 25, number

5, 1953. pp. 975�979.

[2] Virtanen T., Singh R. & Raj B. Techniques for Noise Robustness in Automatic

Speech Recognition. 2012, John Wiley & Sons. 514 p.

[3] Jourjine, A., Rickard, S. & Yilmaz, Ö. Blind Separation of Disjoint Orthogonal

Signals: Demixing n Sources from 2 Mixtures, IEEE International Conference

on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, June 5�9, 2000.

Piscataway, NJ, United States 2000, IEEE. pp. 2985�2988.

[4] Yilmaz, Ö. & Rickard, S. Blind Separation of Speech Mixtures via Time-

Frequency Masking, IEEE Transactions on Signal Processing, vol. 52, 2004.

pp. 1830�1847.

[5] Giannoulis, D., Barchiesi, D., Klapuri, A. & Plumbley, M.D. On the Disjointess

of Sources in Music Using Di�erent Time-Frequency Representations. IEEE

Workshop on Applications of Signal Processing to Audio and Acoustics, New

Paltz, NY, United States, October 16-19, 2011. pp. 261�264.

[6] Guo W., Zong, Q. A Blind Separation Algorithm of Speech Mixtures Based on

Time-Frequency Masking. IEEE International Conference on Consumer Elect-

ronics, Communications and Networks, YiChang, Hubei, China, April 21�23,

2012. pp. 2258�2261.

[7] Nesbit, A., Vincent, E. & Plumbley, M.D. 2009. Benchmarking Flexible Adapti-

ve Time-Frequency Transforms for Underdetermined Audio Source Separation,

IEEE International Conference on Acoustics, Speech, and Signal Processing,

Taipei, Taiwan, April 19�24, 2009. pp. 37�40.

[8] Huttunen H. Signaalinkäsittelyn menetelmät. Tampere 2005, Tampereen tek-

nillinen yliopisto. Luentomoniste. 117 s.

[9] Zölzer, U. DAFX: Digital Audio E�ects. 2011, John Wiley & Sons. 602 p.

[10] Karaoke-Version [WWW]. [viitattu 12.11.2013]. Saatavissa: http://www.

karaoke-version.com.

[11] Billboard Hot 100 50th Anniversary Charts [WWW]. [viitattu 12.11.2013].

Saatavissa: http://en.wikipedia.org/wiki/Billboard_Hot_100_50th_

Anniversary_Charts#All-Time_top_artists.

Page 27: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

LÄHTEET 22

[12] GEERDES midimusic: Midi�les & MP3 Playbacks: Article groups [WWW].

[viitattu 11.12.2013]. Saatavissa: http://www.midimusic.de/index.php?id=

artikel&L=eng#c340

[13] TiMidity++ [WWW]. [viitattu 10.12.2013]. Saatavissa: http://timidity.

sourceforge.net/.

Page 28: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

23

A. TIETOKANNAN KAPPALEET

Kappaleet muodossa esittäjä - kappale

ABBA - Chiquitita Lynyrd Skynyrd - Sweet Home Alabama

ABBA - Dancing Queen Madonna - Celebration

ABBA - Fernando Madonna - La Isla Bonita

ABBA - Honey, Honey Madonna - Miles Away

ABBA - Mamma Mia Mariah Carey - All I Want For Christmas Is

You

ABBA - Money, Money, Money Metallica - Nothing Else Matters

ABBA - S.O.S. Metallica - Whiskey In The Jar

ABBA - Thank You For The Music Michael Bublé - All Of Me

ABBA - The Winner Takes It All Michael Bublé - Everything

ABBA - Waterloo Michael Bublé - Feeling Good

AC/DC - Hells Bells Michael Bublé - Haven't Met You Yet

AC/DC - Highway To Hell Michael Bublé - Home

AC/DC - Rock 'n' Roll Train Michael Bublé - It's A Beautiful Day

AC/DC - T.N.T. Michael Bublé - Save The Last Dance For Me

AC/DC - You Shook Me All Night Long Michael Jackson - Beat It

Adele - Don't You Remember Michael Jackson - Billie Jean

Adele - Rolling In The Deep Michael Jackson - Black Or White

Adele - Set Fire To The Rain Michael Jackson - Heal The World

Adele - Skyfall Michael Jackson - Thriller

Adele - Someone Like You Michael Jackson - You Are Not Alone

Alanis Morissette - Guardian Mika - Happy Ending

Alice Cooper - Poison Mika - Relax (Take It Easy)

Alicia Keys - If I Ain't Got You Muse - Feeling Good

Amy Macdonald - Don't Tell Me That It's

Over

Nancy Sinatra - These Boots Are Made For

Walkin'

Aretha Franklin - (You Make Me Feel Like) A

Natural Woman

Neil Diamond - Forever In Blue Jeans

Barry Manilow - Copacabana Neil Diamond - Sweet Caroline

Beyoncé - Halo Neil Young - Heart Of Gold

Beyoncé - If I Were A Boy Nickelback - Gotta Be Somebody

Billy Idol - Rebel Yell Nickelback - Rockstar

Billy Joel - Honesty Nickelback - When We Stand Together

Billy Ray Cyrus - Achy Breaky Heart Oasis - Wonderwall

Blondie - Call Me Opus - Live Is Life

Blondie - The Tide Is High Paul Anka - A Steel Guitar And A Glass Of

Wine

Bob Dylan - Knockin' On Heaven's Door Phil Collins - In The Air Tonight

Page 29: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

A. Tietokannan kappaleet 24

Bob Seger - Against The Wind Phil Collins - You'll Be In My Heart

Bob Seger - Old Time Rock & Roll Pink - Blow Me (One Last Kiss)

Bon Jovi - Because We Can Pink - Fuckin' Perfect

Bon Jovi - Bed Of Roses Pink - Please Don't Leave Me

Bon Jovi - It's My Life Pink - So What

Bon Jovi - Livin' On A Prayer Pink - Sober

Bon Jovi - Runaway Pink - Try

Bon Jovi - We Weren't Born To Follow Pink Floyd - Another Brick In The Wall (Part

II)

Boney M - Daddy Cool Pink Floyd - Wish You Were Here

Bonnie Tyler - It's A Heartache Prince - Purple Rain

Bonnie Tyler - Total Eclipse Of The Heart PSY - Gangnam Style

Bruce Springsteen - Dancing In The Dark PSY - Gentleman

Bruce Springsteen - Hungry Heart Queen - Bohemian Rhapsody

Bruce Springsteen - Streets Of Philadelphia Queen - I Want To Break Free

Bruce Springsteen - The River Queen - We Are The Champions

Bruce Springsteen - Working On A Dream Queen - We Will Rock You

Bryan Adams - (Everything I Do) I Do It For

You

R.E.M. - Losing My Religion

Bryan Adams - Have You Ever Really Loved

A Woman?

R.E.M. - Shiny Happy People

Bryan Adams - Summer Of '69 Rammstein - Du Hast

Cee Lo Green - Fuck You Red Hot Chili Peppers - Californication

Céline Dion - I'm Alive Red Hot Chili Peppers - Can't Stop

Céline Dion - My Heart Will Go On Red Hot Chili Peppers - The Adventures Of

Rain Dance Maggie

Céline Dion - The Power Of Love Rihanna - Diamonds

Cher - Believe Rihanna - Don't Stop The Music

Chicago - Hard To Say I'm Sorry Rihanna - Russian Roulette

Chubby Checker - Let's Twist Again Rihanna - S&M

Chubby Checker - The Twist Robbie Williams - Angels

Chuck Berry - Johnny B. Goode Robbie Williams - Bodies

Chuck Berry - You Can Never Tell Robbie Williams - Candy

Coldplay - Every Teardrop Is A Waterfall Robbie Williams - Feel

Coldplay - Fix You Robbie Williams - Let Me Entertain You

Coldplay - Paradise Robbie Williams - Morning Sun

Coldplay - Viva La Vida Robbie Williams - You Know Me

Creedence Clearwater Revival - Bad Moon Ri-

sing

Rod Stewart - Sailing

Creedence Clearwater Revival - Cotton Fields Ronan Keating - When You Say Nothing At

All

Creedence Clearwater Revival - Have You

Ever Seen The Rain?

Roxette - It Must Have Been Love

Creedence Clearwater Revival - Proud Mary Roxette - Listen To Your Heart

Cyndi Lauper - Girls Just Wanna Have Fun Roxette - She's Got Nothing On (But The Ra-

dio)

Cyndi Lauper - Time After Time Roxette - The Look

Page 30: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

A. Tietokannan kappaleet 25

Daft Punk feat. Pharrell Williams - Get Lucky Roy Orbison - California Blue

David Bowie - Changes Roy Orbison - Crying

Deep Purple - Child In Time Roy Orbison - Oh, Pretty Woman

Deep Purple - Smoke On The Water Roy Orbison - You Got It

Depeche Mode - Just Can't Get Enough Sam Cooke - Wonderful World

Depeche Mode - Wrong Santana - Black Magic Woman

Die Toten Hosen - Hier Kommt Alex Scorpions - Wind Of Change

Du�y - Mercy Seal - Kiss From A Rose

Du�y - Warwick Avenue Sean Paul - She Doesn't Mind

Ella Fitzgerald - Summertime September - Cry For You

Elton John - Can You Feel The Love Tonight? Stevie Wonder - I Just Called To Say I Love

You

Elton John - Circle Of Life Stevie Wonder - Sir Duke

Elton John - Song For Guy Stevie Wonder - Superstition

Elton John - Your Song Stevie Wonder - You Are The Sunshine Of My

Life

Elvis Presley - Blue Christmas Sting - Fields Of Gold

Elvis Presley - Blue Suede Shoes Survivor - Eye Of The Tiger

Elvis Presley - Can't Help Falling In Love Take That - Rule The World

Elvis Presley - Jailhouse Rock Take That - The Flood

Elvis Presley - Return To Sender Taylor Swift - I Knew You Were Trouble

Elvis Presley - Suspicious Minds Taylor Swift - You Belong With Me

Elvis Presley - Viva Las Vegas The Beatles - All My Loving

Empire Of The Sun - We Are The People The Beatles - All You Need Is Love

Eric Clapton - Lay Down Sally The Beatles - Help!

Eric Clapton - Tears In Heaven The Beatles - I Saw Her Standing There

Eric Clapton - Tulsa Time The Beatles - Let It Be

Eric Clapton - Wonderful Tonight The Beatles - Sgt. Pepper's Lonely Hearts

Club Band

Europe - The Final Countdown The Beatles - While My Guitar Gently Weeps

Eurythmics - Sweet Dreams (Are Made Of

This)

The Beatles - Yellow Submarine

Fleetwood Mac - Don't Stop The Beatles - Yesterday

Foreigner - I Want To Know What Love Is The Bellamy Brothers - Let Your Love Flow

Foster The People - Pumped Up Kicks The Blues Brothers - Everybody Needs Some-

body To Love

Frank Sinatra - Fly Me To The Moon The Carpenters - Jambalaya (On The Bayou)

Frank Sinatra - My Way The Cranberries - Zombie

Frank Sinatra - New York, New York The Doors - The End

Frank Sinatra - The Way You Look Tonight The Eagles - Hotel California

Gloria Gaynor - I Will Survive The Eagles - How Long

Green Day - Basket Case The Eagles - Take It Easy

Green Day - Wake Me Up When September

Ends

The Eagles - Tequila Sunrise

Guns N' Roses - November Rain The Gossip - Heavy Cross

Haddaway - What Is Love The Gossip - Move In The Right Direction

Hurts - Stay The Gossip - Perfect World

Page 31: JANI MÄKINEN ÄÄNILÄHTEIDEN SEPAROINTI POLYFONISESTA MUSII- KISTA … Mäkinen.pdf · 2017-02-08 · lien summana ja moduloida näiden signaalien amplitudia ja taajuutta. Käytännössä

A. Tietokannan kappaleet 26

Hurts - Wonderful Life The Killers - Human

James Blunt - 1973 The Monkees - I'm A Believer

James Blunt - Same Mistake The Police - Every Breath You Take

James Blunt - Stay The Night The Police - Roxanne

Jay-Z feat. Alicia Keys - Empire State Of

Mind

The Pussycat Dolls - Sway

Je� Buckley - Hallelujah The Rolling Stones - Honky Tonk Women

Jennifer Lopez - Let's Get Loud The Rolling Stones - (I Can't Get No) Satis-

faction

Jerry Lee Lewis - Great Balls Of Fire The Rolling Stones - Jumpin' Jack Flash

Jethro Tull - Locomotive Breath The Who - Baba O'Riley

Joan Jett - I Love Rock 'N Roll The Who - Who Are You

John Lennon - Imagine The Who - Won't Get Fooled Again

Johnny Cash - Folsom Prison Blues Tina Turner - Proud Mary

Johnny Cash - I Walk The Line Tina Turner - The Best

Johnny Cash - Ring Of Fire Tina Turner - What's Love Got To Do With

It

Journey - Don't Stop Believing Tom Jones - Help Yourself

Katy Perry - Firework Tom Jones - It's Not Unusual

Katy Perry - Hot N Cold Tom Jones - She's A Lady

Katy Perry - I Kissed A Girl Tom Petty - Learning To Fly

Katy Perry - Last Friday Night (T.G.I.F.) Toto - Africa

Katy Perry - Teenage Dream Toto - Hold The Line

Kings Of Leon - Sex On Fire U2 - Beautiful Day

Kings Of Leon - Use Somebody U2 - Sunday Bloody Sunday

Kiss - I Was Made For Lovin' You U2 - With Or Without You

Kylie Minogue - All The Lovers Uriah Heep - Lady In Black

Kylie Minogue - In My Arms Usher - More

Lady Gaga - Alejandro Usher - Scream

Lady Gaga - Bad Romance Van Halen - Jump

Lady Gaga - Born This Way Village People - Y.M.C.A.

Lady Gaga - Just Dance Westlife - The Rose

Lady Gaga - Marry The Night Westlife - You Raise Me Up

Lady Gaga - Paparazzi Wham! - Last Christmas

Lady Gaga - The Edge Of Glory Whitney Houston - Greatest Love Of All

Led Zeppelin - Stairway To Heaven Whitney Houston - How Will I Know

Lenny Kravitz - I'll Be Waiting Whitney Houston - I Wanna Dance With So-

mebody

Lionel Richie - Hello Whitney Houston - I Will Always Love You

Lou Bega - Mambo No. 5 Whitney Houston - One Moment In Time

Louis Armstrong - What A Wonderful World ZZ Top - Gimme All Your Lovin'

Lynyrd Skynyrd - Simple Man ZZ Top - Sharp Dressed Man