extrac˘ao autom~ atica de tempo musical …a principal diferenca entre a base de funcoes da...

8
EXTRA ¸ C ˜ AO AUTOM ´ ATICA DE TEMPO MUSICAL UTILIZANDO TRANSFORMADA WAVELET E O ESPECTRO R ´ ITMICO Antˆ onio Carlos Lopes Fernandes Jr. * , Furio Damiani * * Universidade Estadual de Campinas Faculdade de Engenharia El´ etrica e de Computa¸ ao Departamento de Semicondutores Instrumentos e Fotˆonica Campinas, S˜ ao Paulo, Brasil Emails: [email protected], [email protected] Abstract— The detection of tempo in a musical signal is a very important task, and still open, for many applications in music information retrieval area. In this paper, we present the result of tempo detection process using a new approach based on Wavelet Transform, Complex Domain and the Rhythmic Spectrum. The Wavelet Transform is used to separate the musical signal in different resolutions to build multiresolution Onset Detection Functions using the method of the Complex Domain. Then multiresolution Periodicity Detection Functions are generated by autocorrelation functions. Then a new descriptor proposed by us, the Rhythmic Spectrum, is used to calculate two tempo candidates frequencies. The final decision is taken from a heuristic method based on some musical metrical structures. Keywords— Music Information Retrieval (MIR), Tempo Detection, Onsets, Audio Descriptors, Feature Ex- traction,Digital Signal Processing. Resumo— Adetec¸c˜aode tempo em um sinal musical ´ e uma tarefa muito importante, e ainda aberta, para diversasaplica¸c˜ oesna´areaderecupera¸c˜aodeinforma¸c˜aomusical. Neste artigo apresentamos o resultado da detec¸c˜ao de andamento utilizando uma nova proposta baseada em Transformada Wavelet, Dom´ ınio Complexo e o Espectro R´ ıtmico. A Transformada Wavelet ´ e utilizada para separar o sinal musical em resolu¸c˜oes distintas paraconstru¸c˜ aodeFun¸c˜oesdeDetec¸c˜aode Onsets multirresolucionais usando o m´ etodo do Dom´ ınio Complexo. Em seguida, Fun¸c˜oes de Detec¸c˜ao de Periodicidades multirresolucionais s˜ao geradas por interm´ ediodefun¸c˜oesde autocorrela¸c˜ao. Em seguida, um novo descritor proposto por n´os, o Espectro R´ ıtmico, ´ e utilizado para o c´alculo de duas frequˆ encias candidatas ao tempo musical. A decis˜ao final ´ e tomada a partir de um m´ etodo heur´ ıstico baseado em algumas estruturas m´ etricas musicais. Palavras-chave— Recupera¸ c˜aodeInforma¸c˜aoMusical(MIR), Detec¸c˜ao de Tempo, Onsets, Descritores de ´ Audio,Extra¸c˜ ao de Atributos, Processamento Digital de Sinais. 1 Introdu¸c˜ ao Atualmente, com o avan¸ co tecnol´ ogico na ´ area do ´ audio digital e sua populariza¸c˜ aoaextra¸c˜ ao de ca- racter´ ısticas destes sinais para uma determinada aplica¸c˜ ao tornou-se um dos t´ opicos mais impor- tantes nesta ´ area. Dentre as aplica¸c˜ oes pode-se destacar a classifica¸ ao de gˆ eneros musicais, a ge- ra¸c˜ ao autom´ atica de playlist eo Beat Tracking (Lerch, 2012). Dentre as caracter´ ısticas mais fun- damentais que necessitam ser conhecidas em um sinal musical est´ ao tempo, dado em batidas por minuto (bpm). O tempo de uma m´ usica, ou an- damento, ´ e a taxa com que uma pessoa intuitiva- mente bate os p´ es para acompanh´ a-la. Muita pesquisa tem sido feita com o objetivo de calcular de forma automatizada o tempo de um sinal musical. Em geral duas estrat´ egias b´ asicas ao utilizadas: a constru¸ ao de uma fun¸ ao que re- presente os eventos sonoros (onsets ) que ocorrem no sinal e a confec¸c˜ ao de uma fun¸c˜ ao que repre- sente as periodicidades existentes neste sinal de onsets. Contudo dada a riqueza de detalhes que existem em uma grava¸ ao musical, in´ umeros ins- trumentos com espectros muitas vezes superpostos e formas de onda temporais tamb´ em superpostas, a tarefa de se obter o andamento para o conjunto completo n˜ ao ´ e das mais simples. Neste artigo, propomos o uso conjunto da Transformada Wavelet com o Dom´ ınio Complexo (complex domain ) para a constru¸c˜ ao de Fun¸ oes deDetec¸c˜ ao de Onsets em n´ ıveis de resolu¸c˜ ao dis- tintos, o c´ alculo posterior das Fun¸ oesdeDetec¸c˜ ao de Periodicidades nestes diversos n´ ıveis, a utiliza- ¸c˜ ao da Transformada de Fourier destas fun¸c˜ oes de periodicidades para o c´ alculo de frequˆ encias r´ ıt- micas candidatas, a compara¸ ao destas com um novo m´ etodo heur´ ıstico e a decis˜ ao do tempo mu- sical correspondente. 1.1 BasesTe´oricas Boa parte dos m´ etodos atuais de detec¸ ao de tempo compartilham uma filosofia b´ asica: o c´ al- culo deuma Fun¸c˜ ao de Dete¸ ao de Onsets (ODF ) e de uma Fun¸c˜ ao de Dete¸c˜ ao de Periodicidades (PeDF ). A ODF ´ e uma vers˜ ao subamostrada do sinal de ´ audio que exibe os onsets do sinal musi- cal desenvolvida a partir da observa¸c˜ ao de mu- dan¸ cas em diferentes propriedades do sinal. A PeDF ´ e uma fun¸c˜ ao que representa as periodi- cidades mais proeminentes exibidas na ODF de onde se extrai, ap´ os processamento, o tempo mu- sical perceptual. Processos de pr´ e-processamento podem ou n˜ ao ser realizados antes do c´ alculo da Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014 173

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

EXTRACAO AUTOMATICA DE TEMPO MUSICAL UTILIZANDOTRANSFORMADA WAVELET E O ESPECTRO RITMICO

Antonio Carlos Lopes Fernandes Jr.∗, Furio Damiani∗

∗Universidade Estadual de CampinasFaculdade de Engenharia Eletrica e de Computacao

Departamento de Semicondutores Instrumentos e FotonicaCampinas, Sao Paulo, Brasil

Emails: [email protected], [email protected]

Abstract— The detection of tempo in a musical signal is a very important task, and still open, for manyapplications in music information retrieval area. In this paper, we present the result of tempo detection processusing a new approach based on Wavelet Transform, Complex Domain and the Rhythmic Spectrum. The WaveletTransform is used to separate the musical signal in different resolutions to build multiresolution Onset DetectionFunctions using the method of the Complex Domain. Then multiresolution Periodicity Detection Functions aregenerated by autocorrelation functions. Then a new descriptor proposed by us, the Rhythmic Spectrum, is usedto calculate two tempo candidates frequencies. The final decision is taken from a heuristic method based on somemusical metrical structures.

Keywords— Music Information Retrieval (MIR), Tempo Detection, Onsets, Audio Descriptors, Feature Ex-traction,Digital Signal Processing.

Resumo— A deteccao de tempo em um sinal musical e uma tarefa muito importante, e ainda aberta, paradiversas aplicacoes na area de recuperacao de informacao musical. Neste artigo apresentamos o resultado dadeteccao de andamento utilizando uma nova proposta baseada em Transformada Wavelet, Domınio Complexo eo Espectro Rıtmico. A Transformada Wavelet e utilizada para separar o sinal musical em resolucoes distintaspara construcao de Funcoes de Deteccao de Onsets multirresolucionais usando o metodo do Domınio Complexo.Em seguida, Funcoes de Deteccao de Periodicidades multirresolucionais sao geradas por intermedio de funcoes deautocorrelacao. Em seguida, um novo descritor proposto por nos, o Espectro Rıtmico, e utilizado para o calculode duas frequencias candidatas ao tempo musical. A decisao final e tomada a partir de um metodo heurısticobaseado em algumas estruturas metricas musicais.

Palavras-chave— Recuperacao de Informacao Musical (MIR), Deteccao de Tempo, Onsets, Descritores de

Audio, Extracao de Atributos, Processamento Digital de Sinais.

1 Introducao

Atualmente, com o avanco tecnologico na area doaudio digital e sua popularizacao a extracao de ca-racterısticas destes sinais para uma determinadaaplicacao tornou-se um dos topicos mais impor-tantes nesta area. Dentre as aplicacoes pode-sedestacar a classificacao de generos musicais, a ge-racao automatica de playlist e o Beat Tracking(Lerch, 2012). Dentre as caracterısticas mais fun-damentais que necessitam ser conhecidas em umsinal musical esta o tempo, dado em batidas porminuto (bpm). O tempo de uma musica, ou an-damento, e a taxa com que uma pessoa intuitiva-mente bate os pes para acompanha-la.

Muita pesquisa tem sido feita com o objetivode calcular de forma automatizada o tempo de umsinal musical. Em geral duas estrategias basicassao utilizadas: a construcao de uma funcao que re-presente os eventos sonoros (onsets) que ocorremno sinal e a confeccao de uma funcao que repre-sente as periodicidades existentes neste sinal deonsets. Contudo dada a riqueza de detalhes queexistem em uma gravacao musical, inumeros ins-trumentos com espectros muitas vezes superpostose formas de onda temporais tambem superpostas,a tarefa de se obter o andamento para o conjunto

completo nao e das mais simples.Neste artigo, propomos o uso conjunto da

Transformada Wavelet com o Domınio Complexo(complex domain) para a construcao de Funcoesde Deteccao de Onsets em nıveis de resolucao dis-tintos, o calculo posterior das Funcoes de Deteccaode Periodicidades nestes diversos nıveis, a utiliza-cao da Transformada de Fourier destas funcoes deperiodicidades para o calculo de frequencias rıt-micas candidatas, a comparacao destas com umnovo metodo heurıstico e a decisao do tempo mu-sical correspondente.

1.1 Bases Teoricas

Boa parte dos metodos atuais de deteccao detempo compartilham uma filosofia basica: o cal-culo de uma Funcao de Detecao de Onsets (ODF )e de uma Funcao de Detecao de Periodicidades(PeDF ). A ODF e uma versao subamostrada dosinal de audio que exibe os onsets do sinal musi-cal desenvolvida a partir da observacao de mu-dancas em diferentes propriedades do sinal. APeDF e uma funcao que representa as periodi-cidades mais proeminentes exibidas na ODF deonde se extrai, apos processamento, o tempo mu-sical perceptual. Processos de pre-processamentopodem ou nao ser realizados antes do calculo da

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

173

Page 2: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

ODF como por exemplo a separacao em bandasde frequencias (Gainza and Coyle, 2011).

Existem varios metodos de pre-processamento, geracao de ODF e PeDF epos-processamento utilizados em sistemas detec-tores de tempo. A ODF pode ser baseada emcaracterısticas extraıdas do sinal ou em modelosprobabilısticos (Bello et al., 2005). No caso dautilizacao de caracterısticas dos sinais, o focopode estar no domınio do tempo ou no domınioda frequencia. Em Laroche (2001) a ODF egerada a partir de mudancas de energia no sinal,em Duxbury et al. (2003) tanto o modulo quantoa fase sao utilizados para perceber mudancas nosinal. Abordagens usando modelos probabilısticos(Bello et al., 2005) sao baseadas no conceito deque o sinal pode ser descrito por algum modelode probabilidade. O metodo de construcao daPeDF mais utilizado e a funcao de autocorrelacao(ACF ) (Alonso et al., 2004) (Dixon, 2006). Ou-tros metodos incluem, por exemplo, comb filters(Klapuri et al., 2006) (Scheirer, 1998), e analiseespectral (Peeters, 2011) (Alonso et al., 2004).No que se refere ao pre-processamento as op-coes existentes seguem em linhas gerais doiscaminhos: sinal unico como entrada (Daviesand Plumbley, 2007) ou analise em sub-bandas(Gainza and Coyle, 2011). Em relacao aopos-processamento da PeDF pode-se destacarponderacoes (Gainza and Coyle, 2011), imposicaode limiares e construcao de histogramas.

1.2 Sistema Proposto

A proposta deste artigo segue a filosofia de que umsistema de deteccao de tempo pode ser livrementeinspirado no sistema aural e neural humano. Comisto, e necessario dotar o algoritmo de um sistemaanalogo ao auditivo, capaz de separar estımulossonoros em faixas de frequencia, e de um sistemaanalogo ao neural, capaz de tomar decisoes a res-peito do tempo da peca musical. Optamos poranalise em sub-bandas do sinal musical de inte-resse. O objetivo aqui foi o de simular o comporta-mento de um musico quando este se concentra emum determinado instrumento, dentre um conjuntode fontes sonoras, para perceber o andamento noqual ele deve executar o seu proprio instrumento.Desta forma, decidimos gerar sinais em resolucoesdistintas, e a partir destas, construir as ODF equi-valentes e posteriormente as PeDF equivalentes acada resolucao. Com isto escolhemos a Transfor-mada Wavelet como a principal estrategia de pre-processamento para a analise mutirresolucao. Ainstancia decisoria ficou a cargo da nova aborda-gem aqui proposta: o Espectro Rıtmico e a Deci-sao Heurıstica.

2 Wavelets e Multirresolucao

A Transformada Wavelet (Strang and Nguyen,1997) se baseia no produto interno de um sinalx(t) com uma base de funcoes oscilantes wjk(t) lo-calizadas em um determinado intervalo de tempoque sao escalonadas e deslocadas ao longo do eixotemporal:

bjk =< x(t), wjk(t) > (1)

onde j representa a escala, k representa o deslo-camento e wjk = w(2jt − k) sao as versoes esca-lonadas e deslocadas de uma wavelet mae w(t).Esta e a equacao de analise que gera os coefici-entes bjk. A principal diferenca entre a base defuncoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as waveletssao, na maioria das aplicacoes, de suporte com-pacto, isto e, restritas a um intervalo de tempobem definido enquanto a base de Fourier oscilaeternamente. Isto ja demonstra a capacidade daswavelets de poderem localizar eventos no tempo.Uma outra diferenca vem do processo de represen-tacao de um sinal em diversas escalas. Atraves doescalonamento das wavelets o mesmo sinal podeser visto com mais ou menos detalhes.

Para avaliar o poder desta ferramenta mate-matica para o contexto de extracao de caracterıs-ticas de audio musical realizamos uma Transfor-mada Wavelet Discreta (DWT ) em um sinal debateria formado por bumbo (B) e caixa (C) sendoexecutado a 100 bpm na Figura 1.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

x 105

−0.5

0

0.5

a)

Sin

al

500 1000 1500 2000 2500 3000 3500 4000

−505

10

b)

A7

0.5 1 1.5 2 2.5

x 105

−0.05

0

0.05

Amostras

c)

D1

CBCB B

Figura 1: Decomposicao Wavelet em 7 nıveis, coi-flet: (a) Sinal, (b) Aproximacao (A7), (c) Detalhe1 (D1). Os outros detalhes foram omitidos parasimplificacao.

No topo da Figura 1 (letra a) esta o audio dabateria com 44, 1 kHz de amostragem. O com-passo equivale ao padrao (B, C, B, B, C) iden-tificado na Figura 1 e que se repete por mais 4vezes. Pode-se observar que no sinal aproxima-cao (A7) (letra b) a proeminencia e do bumbo.O ultimo nıvel de resolucao, detalhe 1 (D1) (le-tra c), mostra a presenca marcante da caixa e umspike, provavelmente gerado pelo kick do pedal debumbo. Podemos observar entao que a multir-resolucao promovida pela Transformada wavelet

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

174

Page 3: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

separou o sinal em diferentes escalas.Com este exemplo, percebe-se que um pre-

processamento utilizando Wavelets pode gerar re-sultados interessantes para a deteccao de onsetse uma posterior analise de periodicidades existen-tes no sinal. Desta forma, apos a avaliacao deformas de wavelet mae e nıveis possıveis, decidi-mos utilizar a Transformada Wavelet com 5 nıveisde decomposicao e wavelet mae coiflet3. A esco-lha desta base de funcoes se deve ao fato das coi-flets serem wavelets biortogonais e, portanto, defase linear, o que contribui para a simplificacao doprocesso de compensacao de atrasos distintos nobanco de filtros (algoritmo DWT ) para os diferen-tes sinais em possıveis aplicacoes do nosso sistemaem tempo real.

Definiu-se o numero de amostras a serem pro-cessadas dos sinais como sendo potencia de base2, para adequacoes ao algoritmo DWT. Entao,os sinais analisados possuem 524.288 amostras(219), o que corresponde a aproximadamente 11,89segundos de audio (em taxa de amostragem de44,1kHz). Assim, foram gerados, para cada ar-quivo de audio, 6 vetores de coeficientes Wavelet :Aproximacao 5 (A5), Detalhe 5 (D5), Detalhe 4(D4), Detalhe 3 (D3), Detalhe 2 (D2), e Detalhe1 (D1). Cada vetor passou pelos processamentosindicados nas secoes a seguir.

3 Funcoes de Deteccao de Onsets

A geracao de ODF, processo tambem denomi-nado de reducao, esta associada a tarefa de de-teccao de onsets de forma bastante consolidada(Bello et al., 2005) (Bello et al., 2004) (Gainza andCoyle, 2011) (Dixon, 2006). O objetivo da redu-cao e, independente de pre-processamentos, trans-formar um sinal de audio em uma versao drasti-camente subamostrada que possua as ocorrenciasde transientes do sinal original.

De um modo geral os metodos de reducao po-dem ser divididos em dois grandes grupos: meto-dos baseados no uso de caracterısticas predefinidasdo sinal ou metodos baseados em modelos proba-bilısticos do sinal (Dixon, 2006). Dentre os meto-dos existentes optou-se por realizar um metodo es-pectral: Domınio Complexo (ODFCD) (Duxburyet al., 2003). Este metodo e mais adequado doque o puramente energetico para sinais polifonicose para detectar onsets suaves gerados por instru-mentos sem ataque percussivo, como por exemploinstrumentos de sopro e algumas cordas, como oviolino excitado com arco.

A abordagem geral e a separacao do sinal alvoem frames, com determinado numero de amostras,e cada frame, apos o processo de reducao, gera umvalor que compoe a ODF, representando um onsetmusical. O padrao aqui utilizado foi um tamanhode frame igual a 2048 amostras.

O metodo do Domınio Complexo (ODFCD)

utiliza tanto as informacoes de magnitude quantode fase dos espectros dos frames. Comparacoesentre quadros adjacentes sao utilizadas para ava-liar se houve ou nao um onset entre dois blocos.A Transformada de Fourier do n-esimo frame, ja-nelada por uma janela de Hanning H(m) de ta-manho N de um sinal x(n) e dada por,

X(k, n) =N−1∑m=0

x(m)H(m)e−2jπmk

N , (2)

onde X(k, n) e o k-esimo bin do n-esimo frametransformado. Cada bin de cada frame e possuium valor de amplitude e de fase. Estas duas in-formacoes para uma determinada frequencia, deum frame, podem ser visualizadas como um fasor.Para um frame subsequente podem haver mudan-cas de amplitude e fase do fasor. A distancia Eu-clidiana entre os dois fasores e o parametro utili-zado para a construcao da ODFCD (Equacao 3):

Γk(n) =

√R2k(n) + R2

k(n)− 2Rk(n)Rk(n)C (3)

onde Γ(n) e a distancia Euclidiana, Rk(n) e Rk(n)sao os modulos da STFT de frames adjacentes,C = cos(∆φ), ∆φ = princarg[φk(n) − φk(n)],

φk(n) e φk(n) = 2φk(n − 1) − φk(n − 2), as fa-ses dos espectros de frames adjacentes. A funcaoprincarg mapeia a fase para o intervalo [−π, π].

Desta forma a ODFCD e calculada por in-termedio da soma de todos os bins em um frame(Equacao 4):

ODFCD(n) =

N∑k=0

Γk(n). (4)

Uma ODF e exibida na Figura 2 letra b. Osinal analisado x(t) e o mesmo audio de bateriaanterior. A ODF e processada com um filtro demedia movel (MA), Figura 2 letra b, e este pro-cesso gera um limiar abaixo do qual a funcao edescartada gerando um versao que chamamos deODF limitada (ODFL) (Figura 2, letra c).

Observe que, na Figura 2 letra b, os onsets(asteriscos) foram localizados, para ilustracao,apos um processo de peak picking, por uma buscade maximos locais. A ODF limitada (ODFL) foicalculada para cada resolucao de todas as musicasdo banco de dados e utilizada para o calculo dasPeDF na proxima secao.

4 Funcoes de Deteccao de Periodicidades

A chamada Funcao de Deteccao de Periodicidade(PeDF ) (Gainza and Coyle, 2011) expressa as pe-riodicidades existentes no sinal musical. A par-tir das periodicidades das ODF de cada resolu-cao gera-se um conjunto de PeDF corresponden-tes por intermedio de funcoes de autocorrelacao

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

175

Page 4: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

x 105

−0.50

0.5

Amostras

a)

x(t

)

50 100 150 200 250

2000

4000

6000

Frames

b)

OD

FC

D

50 100 150 200 2500

5000

Frames

c)

OD

FL

ODFCD

Média Móvel Onset

C B C

Figura 2: ODF calculada a partir de sinal de ba-teria da Figura 1: (a) audio bateria (x(t)), (b)ODFCD, Media Movel e onsets, (c) ODFL.

−300 −200 −100 0 100 200 3000

0.5

1

1.5

2

2.5x 10

4

D (Amostras)

Pe

DF

A5

∆D

=8 ∆D

=16

Figura 3: PeDF da aproximacao 5 (PeDFA5).

(ACF ). Esta funcao examina quao similar umasequencia x(n) e quando comparada com seus va-lores previos quando se desloca a sequencia de di-versos valores de atraso D. Desta forma, a PeDFcalculada em nossa abordagem se torna:

PeDF (D) =1

N

N−1∑n=0

ODFL(D)ODFL(n+D)

(5)Para avaliar as PeDF multirresolucionais de

um sinal musical, mostraremos resultados obti-dos a partir de uma musica do banco de dadosconstruıdo para este trabalho. A cancao e de umgrupo brasileiro executada a 82 bpm com guitarra,baixo, bateria, teclado e outros instrumentos depercussao, onde ha uma fusao de alguns generosmusicais como baiao, reggae e rock :

Observa-se da Figura 3 que a sua PeDFA5

exibe dois valores candidatos ∆D = 8 e ∆D = 16.Utilizando a equacao de reducao (Fernandes Jrand Damiani, 2013), que leva em conta o tamanhodos frames (2048 amostras) e a taxa de amostra-gem do sinal de audio original,

T =60

(2048)(1/44100)(∆D)(6)

calcula-se os tempos equivalentes: T1 = 161, 5bpm e T2 = 80.8 bpm, respectivamente. O valorde T2 esta muito proximo do tempo perceptual de82 bpm do sinal e o de T1 e um multiplo. Caso

−300 −200 −100 0 100 200 300−1

0

1

2

3

4x 10

4

D (Amostras)

Pe

DF

D1

Figura 4: PeDF do detalhe 1 (PeDFD1).

contrario ocorre com o grafico da PeDFD1na Fi-

gura 4, onde a dinamica de amplitudes da funcaotorna a tarefa do calculo do melhor candidato atempo um processo arduo.

As diferencas existentes entre os dois casos,aqui exibidos, e as existentes tambem nas outras4 resolucoes, omitidas por questoes de espaco notexto, sugerem que uma das resolucoes pode sereleita para o calculo do andamento musical ou quetodas podem ser avaliadas para o reconhecimentode um padrao de tempo comum. Logo, assim comoum musico real faria para descobrir com que anda-mento tocaria seu instrumento para acompanharum conjunto musical ouvindo ou a massa sonoracompleta ou um instrumento especıfico, e precisouma estrategia de decisao que escolha a melhor re-solucao, ou o melhor conjunto de resolucoes, paraum determinado sinal de entrada.

O metodo da ACF por si so, nao e suficientepara o calculo automatico de periodicidades. Istose deve a grande dinamica que pode ocorrer nestasfuncoes, ao aparecimento de multiplos e submulti-plos do perıodo e ao fato de eventos de amplitudebaixa em alta frequencia poderem parecer menosimportantes. Contudo, o uso da TransformadaWavelet para analise mutirresolucao permite a ob-servacao de PeDF multirresolucionais que podemsuplantar as dificuldades elencadas anteriormente.Mas para isto se faz necessario a escolha do melhornıvel de resolucao e do melhor candidato a tempodentro do nıvel escolhido. Para os nossos obje-tivos de calculo automatico de andamento musi-cal e preciso projetar uma instancia decisoria quesera alimentada pelas PeDF multirresolucionaispara uma tomada de decisao. Esta instancia uti-liza uma nova abordagem denominada EspectroRıtmico.

5 Espectro Rıtmico

As formas das 6 PeDF geradas para cada mu-sica, conforme discutido anteriormente, variambastante da primeira resolucao (PeDFA5) ate aultima (PeDFD1

). Em geral, uma das resolucoesextremas A5 ou D1 exibem um comportamentoquase periodico. Baseado nesta tendencia opta-

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

176

Page 5: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

−300 −200 −100 0 100 200 300−2

0

2

4

6

8

10x 10

4

D

Pe

DF

A5

Figura 5: PeDF da aproximacao 5 (PeDFA5).

mos por realizar uma transformada de Fourier des-tas PeDF para retirar de seus espectros, aqui de-nominados de Espectro Rıtmico (RS ), os melhorescandidatos a tempo.

Para automatizar a escolha da PeDF menosruidosa, ou seja, a com caracterıstica mais perio-dica, utilizamos um descritor classico para sinaisde audio denominado spectral flatness (νSF )(Equacao 7) (Lerch, 2012). Este descritor e umamedida de quao plano e um espectro de amplitude.

νSF =α

β(7)

onde os parametros α e β sao dados respectiva-mente pelas Equacoes 8 e 9:

α = exp

2

F·F/2−1∑k=0

log(|X(k, n)|)

(8)

β = exp

2

F·F/2−1∑k=0

|X(k, n)|

(9)

onde F e o comprimento do frame para analise,que no nosso caso e o proprio comprimento daPeDF .

E possıvel verificar a viabilidade do uso destedescritor para a selecao de PeDF candidatas ob-servando os exemplos a seguir. Nas Figuras 5 e 7exibimos as PeDFA5

e PeDFD1, respectivamente,

de uma musica em nosso banco de dados. Nas Fi-guras 6 e 8 estao descritos os respectivos espectrosde amplitude, SPeDFA5

e SPeDFD1.

Observe que o espectro da Figura 6 tem umatendencia mais plana visualmente, resultado con-firmado pelos valores de νSF calculados na Tabela1.

Tabela 1: Resultados Spectral Flatness

Descritor Funcao Resultado

νSF PeDFA50, 3774

νSF PeDFD1 0, 2990

−10 −5 0 5 100

0.5

1

1.5

2

x 106

f (Hz)

SP

eD

FA

5

Figura 6: Densidade Espectral de Potencia daPeDFA5 .

−300 −200 −100 0 100 200 300−2

0

2

4

6

8x 10

4

D

Pe

DF

D1

Figura 7: PeDF do detalhe 1 (PeDFD51)..

−10 −5 0 5 100

0.5

1

1.5

2

x 106

f(Hz)

SP

eD

FD

1

Figura 8: Densidade Espectral de Potencia daPeDFD1

.

E importante ressaltar que, como pode ser ob-servado das Figuras 6 e 8, a faixa de frequenciasde interesse do RS, neste trabalho, compreendeos valores entre 0, 6 Hz (36 bpm) e 4 Hz (240bpm), faixa rıtmica. Esta faixa, portanto, estabem aquem da que se costuma trabalhar em pro-cessamento de audio (espectro audıvel) pois a es-cala temporal dos fenomenos rıtmicos e distintada escala temporal das oscilacoes percebidas comonotas musicais.

Dado que nos exemplos aqui expostos o νSFda PeDFD1

foi menor, indicando uma tendenciamenos ruidosa desta funcao, a sua densidade es-pectral pode ser utilizada para a extracao de can-didatos a tempo. O maior pico observado na Fi-gura 8 na faixa rıtmica possui um valor de frequen-cia f = 2, 24 Hz que multiplicado por 60 geraT = 134, 4 bpm. O andamento desta musica ede 66 bpm, ou seja, a componente de frequencia

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

177

Page 6: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

mais proeminente exibiu aproximadamente o do-bro do andamento. Outras informacoes podem serretiradas em faixas superiores de frequencia comoa segunda harmonica do andamento encontrado.Assim, decidimos elaborar um metodo de decisaoheurıstico simples que, a partir das raias do espec-tro rıtmico, estime o andamento musical.

6 Decisao Heurıstica

Para a confeccao de uma instancia decisoria a par-tir das informacoes que podem ser extraıdas doRS utilizamos conceitos basicos sobre as estrutu-ras metricas que podem ocorrer em um sinal musi-cal. Por exemplo, e possıvel que uma cancao exiba3 nıveis hierarquicos com eventos ocorrendo a 60,120 e 240 bpm. Isto sugere que a faixa rıtmica doRS pode ser avaliada em mais de uma particaopara a busca de similaridades em nıveis hierarqui-cos distintos. Com isto optamos por avaliar o RSem duas faixas:

• 0, 6 ≤ f1 ≤ 4 Hz (36 ≤ T1 ≤ 240 bpm)

• 4 < f2 ≤ 6 Hz (240 < T1 ≤ 360 bpm)

onde f1 e f2 sao os valores em Hertz das frequen-cias relacionadas aos picos maximos calculadosnas faixas em questao. Uma vez calculadas asduas frequencias elas sao subdivididas formandoum conjunto de possibilidades metricas:

• f1 → vf1 , (f1, f1/2, f1/3, f1/4, f1/5, f1/6)

• f2 → vf2 , (f2/2, f2/3, f2/4, f2/5, f2/6, f2/8)

Estes valores sao comparados e confronta-seeste resultado com um determinado valor de tole-rancia:

|vf1 − vf2 | ≤ tol (10)

onde tol e a tolerancia. Para garantir que hajasempre uma saıda do algoritmo, com a maior si-milaridade possıvel entre os valores comparados,tol e incrementado de 0, 01 Hz (0, 6 bpm), a cadaverificacao, a partir do tol = 0. Apesar, da pos-sibilidade de coexistencia de nıveis metricos mul-tiplos, as comparacoes de f1 com os submultiplosde f2 sao prioritariamente checadas no fluxo deoperacoes do algoritmo.

7 Resultados

7.1 Banco de Dados

Para avaliar os algoritmos implementados foi ne-cessaria a confeccao de um banco de dados quecontivesse 3 atributos principais: quantidade,qualidade e diversidade. Desta forma 507 musi-cas dos mais diversos generos musicais e andamen-tos foram selecionadas. Deve-se ressaltar que estebanco de musicas difere bastante dos utilizados

na literatura (Zapata and Gomes, 2011) pois 66%das cancoes sao brasileiras, musicas com caracte-rısticas intrınsecas de fusao de diversas matrizesrıtmicas, o que torna a tarefa em estudo bastantecomplexa. Todos os arquivos deste banco de dadosforam importados para o ambiente computacionala partir de CDs de audio originais e armazenadosem formato wave para garantir a qualidade no quese refere a resposta em frequencia. O downmixingdos arquivos, ou seja, transformacao de sinais este-reo em sinais mono, e realizado gerando um unicovetor por musica.

Para garantir uma correta determinacao ma-nual dos andamentos de cada peca musical e odescarte de musicas com flutuacoes de tempo, aseguinte metodologia foi empregada:

• escolha de musicas executadas com bateriaou instrumentos de percussao reforcando osbeats;

• audicao de um trecho de cada peca entre osinstantes de tempo ti = 40s e tf = 90s de-terminando o bpm e sua estabilidade dentrodeste trecho;

• uso de um programa comercial de tempo tap-ping via teclado do computador para deter-minacao manual de andamento.

O trecho de audio selecionado a partir dos 40segundos iniciais garante, geralmente, que a partetransitoria do arranjo musical tenha sido execu-tada. O programa de tempo tapping foi validadocomparando os resultados determinados a partirde um metronomo digital. Assim, este conjuntode andamentos formam o ground truth do nossosistema.

7.2 Testes e Analise de Erro

Alguns estudos comparativos sobre algoritmos deextracao de tempo foram realizados pela comuni-dade MIR e um dos mais recentes (Zapata andGomes, 2011) considera 3 metricas para a avalia-cao de desempenho da extracao de andamento:

• Metrica 1: Valores detectados que estejamdentro de janela de precisao de 4% do groundtruth;

• Metrica 2: Valores detectados que estejamdentro de janela de precisao de 4% do groundtruth e seus submultiplos (1/2 e 1/3) e mul-tiplos (2 e 3);

• Metrica 3: Valores detectados que estejamdentro de janela de precisao de 4% do groundtruth e seus submultiplos (1/2, 1/3 e 1/4) emultiplos (2, 3, 4 e 6);

As metricas 2 e 3 buscam incluir a deteccaode tempo que sofra de ambiguidades devido aos

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

178

Page 7: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

varios nıveis hierarquicos do beat, pois e comumresultados como tempo dobrado, triplicado e etc.Tomando estas metricas como baliza, deve-se ob-servar que:

• 4%@60 bpm = 2, 4 bpm

• 4%@120 bpm = 4, 8 bpm

• 4%@240 bpm = 9, 6 bpm

ou seja, o tamanho da janela de precisao varia deacordo com o valor do ground truth.

Avaliando o desempenho do nosso sistema apartir dos resultados obtidos para o conjunto de507 musicas do nosso banco de dados, se conside-rarmos a janela de precisao, houve um ındice deacerto de 37,67%, considerando a metrica 1. EmZapata and Gomes (2011), 23 algoritmos sao ava-liados e o pior e o melhor desempenho, avaliandosomente a metrica 1, foi de 5, 15% e 60, 43%, res-pectivamente. Neste confronto e importante res-saltar um aspecto. A base de dados usada em Za-pata and Gomes (2011) e muito diferente da nossabase. So para citar uma diferenca fundamental,das 465 musicas do trabalho de Zapata and Go-mes (2011) 59 sao do genero eletronico e 144 musi-cas classificadas como grega e balca, enquanto nonosso banco de musicas nao ha musica eletronicae mais de 66% e de musica brasileira. O generode musica eletronica torna a tarefa em questao,extracao de tempo, muito mais simplificada, poisa presenca marcante do beat neste tipo de mu-sica e ponto fulcral. Para alem disto, como citadoanteriormente, a musica brasileira possui um cor-pus extremamente variado e complexo do pontode vista rıtmico devido a fusao de elementos dosamba, africanos, indıgenas, ocidentais e outros,estando estes elementos marcadamente presentesem nosso banco de dados. Se utilizarmos a me-trica 2 o desempenho de nosso sistema sobe para62,92% enquanto o pior e o melhor em Zapataand Gomes (2011) sao 32, 26% e 91, 18%, respec-tivamente.

8 Conclusoes

Neste artigo apresentamos uma nova abordagempara a extracao automatica de tempo musical ava-liando as transformadas de Fourier de funcoes dedeteccao de periodicidade (PeDF ) multirresoluci-onais, denominadas por nos de Espectro Rıtmico.Para a construcao das PeDF utilizamos a Trans-formada Wavelet para a analise multirresolucao eo metodo do Domınio Complexo para o calculo defuncoes de deteccao de onsets em cada resolucao.A analise a partir do RS foi feita utilizando-se umtratamento heurıstico baseado em possibilidadesmetricas existentes no ritmo. O resultado de nossosistema para um banco de dados com 507 musicas,construıdo por nos, mostrou ser competitivo com

os algorıtmos recentemente avaliados. Conside-rando a metrica 1 obtivemos 37,67% de acertos epara a metrica 2 62,92%. Dado que o nosso bancode dados possui 66% de musica brasileira com ge-neros musicais como samba, samba de roda, ijexae outros, e que a complexidade rıtmica e uma ca-racterıstica inerente destes generos, o desempenhoexibido pelo sistema aqui desenvolvido e promis-sor. Para o prosseguimento da pesquisa, incluire-mos a analise das outras resolucoes da PeDF e acorrelacao das resolucoes. Pretende-se, tambem,o refinamento do tratamento heurıstico de decisaoa partir do uso de outras estrategias.

Referencias

Alonso, M., David, B. and Richard, G. (2004). Ahybrid approach to musical note onset detec-tion, Proc. 5th Int. Symp. Music Inf. Retrie-val (ISMIR-2004).

Bello, J. P., Daudet, L. and Abdallah, S. (2005).A tutorial on onset detection in music sig-nals, IEEE Transactions on Audio, Speech,and Language Processing pp. 1–13.

Bello, J. P., Duxbury, C., Davies, M. and San-dler, M. (2004). On the Use of Phase andEnergy for Musical Onset Detection in theComplex Domain, IEEE Signal ProcessingLetters 11(6): 553–556.

Davies, M. E. P. and Plumbley, M. D. (2007).Context-Dependent Beat Tracking of MusicalAudio, IEEE Transactions on Audio, Speechand Language Processing 15(3): 1009–1020.

Dixon, S. (2006). Onset detection revisited, Proc.Digital Audio Effects (DAFx-06), Montreal,Canada.

Duxbury, C., Bello, J. P., Davies, M. and Sandler,M. (2003). Complex domain onset detectionfor musical signals, Proc. Digital Audio Ef-fects (DAFx-03), London, UK.

Fernandes Jr, A. C. L. and Damiani, F. (2013).Tempo extraction in musical signals usingcomplex domain and wavelet transforms,Proceedings of the SPS 2013, Campinas, Bra-zil.

Gainza, M. and Coyle, E. (2011). Tempo Detec-tion Using a Hybrid Multiband Approach,IEEE Transactions on Audio, Speech, andLanguage Processing 19(1): 57–68.

Klapuri, A., Eronen, A. and Astola, J. (2006).Analysis of the meter of acoustic musical sig-nals, IEEE Transactions on Audio, Speechand Language Processing 14(1): 342–355.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

179

Page 8: EXTRAC˘AO AUTOM~ ATICA DE TEMPO MUSICAL …A principal diferenca entre a base de funcoes da Transformada Wavelet e da Transfor-mada de Fourier esta no fato de que as wavelets s~ao,

Laroche, J. (2001). Estimating Tempo, Swing,and Beat Locations in Audio Recordings ,IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics pp. 135–138.

Lerch, A. (2012). An Introduction to Audio Con-tent Analysis, first edn, John Wiley and Sons,New Jersey, USA.

Peeters, G. (2011). Spectral and Temporal Pe-riodicity Representations of Rhythm for theAutomatic Classification of Music Audio Sig-nal, IEEE Transactions on Audio, Speech,and Language Processing 19(5): 1242–1252.

Scheirer, E. (1998). Tempo and beat analysis ofacoustic musical signals, The Journal of theAcoustical Society of America 103: 588–601.

Strang, G. and Nguyen, T. (1997). Waveletand Filter Banks, second edn, Wellesley-Cambridge Press, Wellesley MA, USA.

Zapata, J. R. and Gomes, E. (2011). Comparativeevaluation and combination of audio tempoestimation approaches, AES 42nd Internati-onal Conference, Ilmenau, Germany, pp. 1–10.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

180