a large audio features cuidado peeters 2003 cuidadoaudiofeatures

25
G. Peeters A Large Set of Audio Features for Sound Description 2004 23/04/04 1/25 [email protected] http://www.ircam.fr/ 1 Introduction 1.1 Features taxonomy ! "

Upload: ivan-eiji-yamauchi-simurra

Post on 26-Aug-2014

41 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 1/25

��������������� ���������������� � ��������

� ��� ������ ��� ��������������

���� ��� � � � �� � ���� ��

�������������� ����������������������������! #"%$'&($')+*,"!��-#.�/0$#&($�12/!������354� (67�#8�9��:*�-#���!;�&#�<$'=�"0�><?7@A@�BDC����E&$(��F0�E�!�A��/

[email protected]://www.ircam.fr/;�/!��$'&�9��2G�3�6 @DHEI�JD�!;��&K �I�@�@ABML

1 Introduction

1.1 Features taxonomy

N�OEP0QSRUTEVUP�N�NXWUYZR�[\VUQU]^TE_0T�O [`WEabOEcUPDaSP0QUO�dUY�P

e�cUPfOETE]gPhP�iSOEP0VSO�WEajOEcUPfRUP�N�_0Y�T k�O'TWUVlkmYMWUn0TERUP0Rpo�[XOcUPqaSP0QUOEdUY�P�N

• � �� ��� ��������

• � ���������� ��������

rts u<vUwyx zD{�|A}A~ sK���,� ~�|��� � ~ w } �,sK�2v� �y�<�Ux {

� v | �,wyv��,wyv { �y� |zD{y|A}A~ sK���,� ~�|�DxK�y�<wyx

zD{y|A}A~ sK���,� ~�|

� {y� �<� ~ wyx� �y� { xKs vUu z�{y|A}A~ sK���,� ~�|

� �UvU�<w ��{ v���wyx� ~�{y� � { v }��

r { u ��{ v��,wM��s �2v

� ������ �� �� ����� ������������ �������

�! ��������" �� ��

Page 2: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 2/25

��QUo�N�OY�QU_0OEVUP�NMN � WaZOEcUP�aUP0QUO�dUYMP

P�iSOEY�QU_0OETWUVmk Y�WU_0P�NMNgWEahOcUP2aUP0QUOEd2Y�P•

• •

��� ���y��� ���� ������ ����(���M��������������� �����U�0���E����� ������!�"���$#0�M� �&%�'(� �'� ' � � ����)*� %�� �+���*) %�� � ����A� �0����:���� ������) ��� ���2�

• # �� ����� �� ���$ �

• # �� ����� ������

• % ����� � �������$ �

• & ������� �� ���� �������$ �

,

-.-0/ 132 4658789:2 ;6<>=? <:@�AB9:462 CD 9E;6F>=132 G"4�<>=8H0@ <>ABFI F>@ C8F>J�K�58<>=D 9�;6F>=132 G"4�<:=

L 4�78K�<>48K�<:4�F�9:587/ F>AMJ�9:@ <>=N F�78C�@ 2 J�K�9>@ 7L 4878K�<:4�K�<>48F�9>58713J�F�C8K�@ <:=N F�78C�@ 2 J�K�9>@ 7

L 4�78K�<>48K�<:4�F�9:587I F>@ C8F>J�K�58<>=N F�78C�@ 2 J�K�9:@ 7L 4878K�<>48K�<>48F�9:5�7? <:@�AB9:462 CN F�78C�@ 2 J�K�9:@ 7

O = 9:P�<>=/ F>AMJ�9:@ <>=N F�78C�@ 2 J�K�9>@ 7

Q 48F>@ G6R Q 48S�F>= 9:J / F>AMJ�9:@ <:=AT9E;6F>= 2 48GO = 9:P�<>=/ F>AMJ�9:@ <:=N F�78C�@ 2 J�K�9:@ 7

� ������' �� ���������� ����( ������� ( ��������( �� ��� ������

���������� ����������! �����������

• ) ��� �����������$ �

• * ��������� �������$ �

1.2 Organization of the paper

Page 3: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 3/25

2 Pre-computing

• • • •

2.1 Energy envelop

� ��������$

YM] N

��� ������

�� � ��������� ��� ��������� ��� ��� �� �

� � � � � �� ��! � � � � � � � � � � � ��!�" !

2.2 Short-Time Fourier Transform

#�#%$&�' (�)�*+�,.- */10 2�' (�)�*+ ,.- */10�3�4&5' (6)�*+

7 )�2�89*)�8:*)�0�;<�2$ 0=/�>�;- *+? 0�2�@�-A' >�89;�- 2

7 )�2�8:*)�89*)�0�;<�2&5>�0�@�8�- *+

? 0�2�@ -A' >�8:;- 2

2�' (6)�*+ ,B- */10�3 4 ,B- 0�CD3 4�E%*/�>D+ 3 4

2.3 Sinusoidal Harmonic modeling

F�F%G

H�I J K�L�M�I NDOPQ ORAS1M�J I TU=MDNDVP

H5I W�J�OP�XBR OS1VXBR V�YDZ�[�\.OS�] P Z�[

H5I W�J�O�P

^�J�L�_:OJ�_:OJ�V�M�K�LQ ORAS1M�J I T`�V�L�T�RAI ]�_:MR L

X.R V�Y6a�Z [�\%OSb]DP a�Z�[

Page 4: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 4/25

2.4 Perceptual model

• •

�������� ��� ����� ���� ����� ������� �� ����! !������ �!"!#%$'&(��)��� #%$��� �����

*+��,�� ���� ����'�!��,����� ������� �� �-��',��.� � ��� � � ,/ &���)��� 0���� �#�$

2.4.1 Mid-ear filtering

10-4

10-2

100

102

104

106

-120

-100

-80

-60

-40

-20

0

Frequency [Hz]

Am

plitu

de [d

b20]

� ������+ �, � - ���������������������. �����

�������

2.4.2 Mel scale

� ��������$ �

• a 12=

• a 33456678 334

56678+⋅= 9;:99<:= >�?

@ aaS_

0 0.5 1 1.5 2 2.5

x 104

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Frequency [Hz]

Number of mel bands: 24

� ������/ �, ���� �� �

Page 5: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 5/25

� � oUP��:TEV�� ������� P0VUR�� � ��

==

�����������

�� ����� �� �������! #"%$���&�'(!) �

2.4.3 Bark scale

� ��������$

*+,-./

⋅+*+,-./

⋅=01012

3 a0 0.5 1 1.5 2 2.5

x 104

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Frequency [Hz]

Number of bark bands: 24

� ������0 �1 ��2 �� �� �

� ��

==

�����4576�8

49 57:�; 6) )<=>1�?!@#ACB�1�D�E( ) �

Page 6: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 6/25

2.5 Amplitude and Frequency scale

2.5.1 Amplitude scales

• • �

2.5.2 Frequency scales

• •

0 2000 4000 60000

0.05

0.1

Freq

Am

pl

0 2000 4000 60000

2

4

6

8x 10

-3

Freq

Pow

er

0 2000 4000 60000

50

100

150

200

Freq

Log-

ampl

-10 -5 0 50

0.05

0.1

Log-freq

Am

pl

-10 -5 0 50

2

4

6

8x 10

-3

Log-freq

Pow

er

-10 -5 0 50

50

100

150

200

Log-freq

Log-

ampl

� ������3 �& ������ ���

4 �- ���5 ����- ���. ����� 6 ���- �� ���� �(

4 � � ��- ���5 ����- ���. ����� 6 ������ (

4 � � - ���5 ����- ���. ����� 6 ��- �� ���� �(

4 �- ���� 5 ���- ���. ����� 6 ���- �� ���� �(

�4 � � ��- ���� 5 ���- ���. ����� 6 ������ (

4 � � - ���� 5 �5 ���- ���. ����� 6 ��- �� ���� �

2.6 Descriptors on Spectrum / Harmonic peaks / Bark bands

Page 7: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 7/25

3 Global temporal features

3.1 Envelop characterization

3.1.1 Attack / Decay / Sustain / Release envelop modeling

� ������ 7

attack decay sustain release

� ������7 �% �8 ����� �����$ ��� & 9 ���8 ���( �" �� ��

� ��������� ��������������� �����! �������

�������

:

attack rest

sustained sound

non-sustained sound

� ������: �% �8 ����� �����$ ��9 ���8 ���( �" �� ��

� ��������� ��������������� �����! �������

�������

Page 8: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 8/25

3.1.2 Attack part

• •

3.1.2.1 Estimation of the start and end of the attack

� �! � �� ���� � �� �� $

time

ener

gy20%

...

start end

attack

90%

� ����8 �� � ���� � � � �� � � " ��2 ��� ����

� �� � $

OEc ;O ; OEc ;� ; O ;������ O ; �

OEc����� ; @ �

OEc 5�6 8� ; @� �@���

O ��� O 5�6 8OEc ��� OEc 5�6 8

time

ener

gy

effo

rt 1

2

threshold 2...

threshold 1

effo

rt 2

3...

start end

attack

Page 9: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 9/25

3.1.2.2 Log-Attack Time (mpeg7:LogAttackTime) DT.g_lat� ��������$

� �� �����$

��� −=

3.1.2.3 Temporal increase (cuidado:TemporalIncrease) DT.g_incr� ��������

� �� ����� � ;

3.1.3 Sustain part

• •

3.1.3.1 Decrease part: Temporal decrease (cuidado:TemporalDecrease) DT.g_decr� ��������$

O������������ < �

>−−⋅= αα

3.1.3.2 Sustain part: Energy Modulation and Fundamental frequency modulation(mpeg7:AudioPower ScalableSeriesType element name="Modulation")(mpeg7:AudioFUndamentalFrequency ScalableSeriesType element name="Modulation")

� ��������

� �� �����$

Page 10: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 10/25

3.1.4 Example

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20

0.5

1F:\data\class\sol\sust\bowedstring\alto\mf\alto\_a\_gref\_mf\_si3\_12.wav

0 1 2 3 4 5 6 7 8 9 100

5000

10000

15000Dlat: -0.53981 - threshold: 0.15 - Dincr: 3.265 - Ddecr: -0.28535

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20

0.5

1

satt_posn eatt_posnmaxenv_posn

incr (r-) incr2(r--) desc (r-)

� ������; �< �- ���2 �# �� ���� �# �� ������ ��������6

� ������������ ���

4 # �5 �% ����� �% �8 ����" �� ��������� ���� � ��� 8 �������������

4 , � ��5 �% ������������ ������ ���������� ���� � �

4 1 � 5 �9 �����������2 ( ������������ � ������������ ���

0 0.5 1 1.5 2 2.50

0.1

0.2

0.3

0.4

0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2-0.2

0

0.2

0.4

0.6MODam: 0.060872 - MODfr: 5.3833

0 5 10 15 20 25 30 35 40 45 500

0.005

0.01

0.015

fft(envelopv-polyfit)

envelop-vpolyfithatenvelop-v

� ������ = �% ����� �� ���������� ���

4 # �5 �% ����� �% �8 ���

4 , � ��5 �% ����� �% �8 ������� ��������� ����������� �� �

����������������

4 1 � 5 ��� ���� ��������� ���� �������� ������� ���8 ���

Page 11: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 11/25

3.2 Others

3.2.1 Temporal centroid (mpeg7:TemporalCentroid) DT.g_tc� ��������$

� �� �����$

⋅=

���

���

���

3.2.2 Effective Duration (cuidado:TemporalEffectiveDuration) DT.g_ed

� ��������$

time

ener

gy

threshold

effective duration

4 Instantaneous temporal features

4.1 Auto-correlation (cuidado:AudioZcr) DT.i_xcorr_m

� ��������$

� �� �����$−−

=

+⋅=�

��

�� �

� �������

0 200 400 600 800-0.2

-0.1

0

0.1

0.2

Time

Am

plitu

de

-20 -10 0 10 20-0.5

0

0.5

1

Time

Am

plitu

de

0 1000 2000 3000 4000 5000 60000

50

100

150

200

250

Frequency

Am

plitu

de

signal xcorr

signalxcorr

� ������ �4 �- ���5 ���������4 �- ���� 5 �����-

���������������

4 � � 5 ���������� ���� ��������� ��� ��������

��8 �������� �� �� � �����- ���������� ��� � ������

Page 12: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 12/25

4.2 Zero-crossing rate (cuidado:AudioXcorr) DT.i_zcr_v

� ��������$

� ������ ' �> ��- ������������� ? / + ' � � �����

8 ��� ������� ������

� ������ + �> ��- ������������� ? 7 0 = � � �����

��8 ��� ������� ������

5 Energy features

5.1 Total Energy (mpeg7:AudioPower) DE.i_tot_v� ��������

5.2 Harmonic Part Energy (cuidado:AudioHarmonicPower) DE.i_harmo_v� ��������$

5.3 Noise Part Energy (cuidado:AudioNoisePower) DE.i_noise_v� ��������$

Page 13: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 13/25

6 Spectral features

6.1 Spectral shape description

6.1.1 Spectral centroid (mpeg7:AudioSpectrumCentroid) DS.i_sc_v

⋅= ���� δµ

• ��������� =

• = ��� �����

�����������

6.1.2 Spectral spread (mpeg7:AudioSpectrumSpread) DS.i_ss_v

⋅−= ���� δµσ ��

6.1.3 Spectral skewness (cuidado:AudioSpectrumSkewness) DS.i_skew_v

� �⋅−= ����� δµ ��

���σ

γ �=

• • •

• •

- 5 0 - 4 0 - 3 0 -2 0 -1 0 0 1 0 2 0 3 0 4 0 5 00

0 . 0 1

0 . 0 2

0 . 0 3

0 . 0 4

0 . 0 5

0 . 0 6

0 . 0 7

0 . 0 8

0 . 0 9

m e a n : 7 . 8 7 2 e - 0 1 7 s td : 5 s k e w : - 8 . 3 2 5 4 e - 0 1 7 k u r t: 3

d a tag a u s s f i t

- 5 0 -4 0 - 3 0 -2 0 - 1 0 0 1 0 2 0 3 0 4 0 5 00

0 .0 0 5

0 .0 1

0 .0 1 5

0 .0 2

0 .0 2 5m e a n : 1 6 .6 7 s td : 2 3 .5 7 1 4 s k e w : - 0 .5 6 5 6 9 k u r t: 2 .4

d a tag a u s s fi t

- 5 0 - 4 0 - 3 0 - 2 0 - 1 0 0 1 0 2 0 3 0 4 0 5 00

0 .0 0 5

0 .0 1

0 .0 1 5

0 .0 2

0 .0 2 5m e a n : - 1 6 .6 7 s td : 2 3 .5 7 1 4 s k e w : 0 .5 6 5 6 9 k u r t : 2 .4

d a tag a u s s f i t

Page 14: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 14/25

6.1.4 Spectral kurtosis (cuidado:AudioSpectrumKurtosis) DS.i_kurto_v

� �⋅−= ����� δµ

�����

σγ �=

• • •

• •

- 5 0 - 4 0 - 3 0 - 2 0 -1 0 0 1 0 2 0 3 0 4 0 5 00

0 .0 1

0 .0 2

0 .0 3

0 .0 4

0 .0 5

0 .0 6

0 .0 7

0 .0 8

0 .0 9

m e a n : 7 .8 7 2 e -0 1 7 s td : 5 s k e w : - 8 .3 2 5 4 e - 0 1 7 k u rt : 3

d a tag a u s s f it

- 1 0 -8 - 6 - 4 - 2 0 2 4 6 8 1 0

0 .0 0 5

0 .0 1

0 .0 1 5

0 .0 2

0 .0 2 5m e a n : - 2 .1 5 9 7 e -0 1 5 s td : 2 8 .8 7 0 4 s k e w : 3 .1 2 0 4 e - 0 1 6 k u r t: 1 .8

d a tag a u s s f i t

- 1 0 -8 - 6 - 4 - 2 0 2 4 6 8 1 00

0 .2

0 .4

0 .6

0 .8

1

1 .2

m e a n : 0 .0 0 4 9 9 9 8 s td : 1 .4 1 4 2 s k e w : 5 .3 0 3 2 e - 0 0 7 k u r t: 6 .0 0 0 3

d a tag a u s s f it

6.1.5 Spectral slope (cuidado:AudioSpectrumSlope) DS.i_slope_v

� ��������$

� �� �����$ �������� � � � ��� +⋅=

� �� ��

� ������

−=

� �� ��

� ��������������

������� �"! ##

Page 15: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 15/25

6.1.6 Spectral decrease (cuidado:AudioSpectrumDecrease) DS.i_decr_v

� ��������$

� �� �����$

==

−−= �

���

� ����

��� � ��� � � ����6.1.7 Spectral roll-off (cuidado:AudioSpectrumRollOff) DS.i_rolloff_v

� ��������$

� �� �����$

=��

��

�� ���� � �

a � N�Y����

� ������ / �4 # �5 �% ����� �������� �����

���. ����� �" �� �; 0 @ ������������- ������. �����

� 8 ��������� ������ �4 � � 5 ���� ����8 �������� �����

���. ����� �" �� �; 0 @ ������������- ������. �����

� 8 ��������� ������

6.2 Temporal variation of spectrum

6.2.1 Temporal variation of spectrum: spectral variation (cuidado:AudioSpectrumVariation)DS.i_var_v

� ��������$

Q��O ��� � Q��O �� �� �����$

⋅−−=

��� �

���

��

���

���

��

Page 16: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 16/25

6.3 Global spectral shape description

6.3.1 Mel Frequency Cepstral Coefficients (MFCC) (cuidado:AudioMFCC) DP.i_MFCC_m

� ��������$

� �� �����$

s(n) FFT MelBand

LogDCTMFCC

0 1000 2000 3000 4000 5000 6000-20

-15

-10

-5

Frequency

Log-

am

plitu

de spectrummid-ear spectrum

0 5 10 15 20 25-3

-2

-1

0

1

Mel band

Log-

am

plit

ude Mel band spectrum

MFCC spectrum

0 2 4 6 8 10 12-10

-5

0

5

MFC coefficient

Va

lue

MFCC

� ������ 0 �4 # �5 ��������������� ��� �� � - ���

������ �������� �� ��� � ������ �4 � � ��5 �, ���� ��

������� ��� �, � � � �������� �� � ������

4 � � 5 �, � � � �����������

� ���- , � � � ( �� ���- � ���- , � � � $

�����������������

∂∂=

��

��� �

������� �

∂∂=

7 Harmonic features

7.1.1 Fundamental frequency (mpeg7:AudioFundamentalFrequency)DH.i_f0_v

7.1.2 Noisiness (mpeg7:AudioHarmonicity) DH.i_noisiness_v

����������

� ����� ��������

=

Page 17: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 17/25

7.1.3 Inharmonicity (cuidado:AudioInharmonicity) DH.i_inharmo_v

−=

���

�� �� � � � ����� � �

� f0 2 f0 3 f0 4 f0 5 f0 6 f0 7 f0

frequency

ener

gy

f(1) f(2) f(3) f(4) f(5) f(6)

� ������ 3 �� �� ��� ����� ������������� �����$

� ��� ����� �������� � ������� ( �� ���8 � ��������

���2 ��� �������������

7.1.4 Harmonic Spectral Deviation (mpeg7:HarmonicSpectralDeviation)DH.i_devs_v

( )−= � �������� ���

Q��c � c� �

��� �c �a��c �

0 2 4 6 8 100

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

Frequency [harm number]

Am

plitu

de

Spectral deviation: 0.15374

spectral envelopharmonics

� ������ 7 �) ��� ������� ����������� ��������

��8 ��������� ������ ������� ���������� �8 ����

�������� ������

Page 18: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 18/25

7.1.5 Odd to Even Harmonic Energy Ratio (cuidado:HarmonicSpectralOERatio):DH.i_oeratio_v

� ��������$ �

� �� �����$

=

==����

����

� ���

����������

0 5 10 15 200

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

Frequency [harmonic number]

Am

plitu

de

Odd/even harmonic energy ratio: 3.2431

odd harmoniceven harmonic

� ������ : �� ��� �% 8 ���� ��� �����������������

��� �

7.1.6 Tristimulus (cuidado:HarmonicSpectralTristimulus): DH.i_tri*_v� ��������$

P0ODQ�� ,

� �� �����$

= � ����

++= � ������

== ���

����

� �

0 5 10 15 200

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4tri1: 0.49442 tri2: 0.45368 tri3: 0.0519

tristimulus1tristimulus2tristimulus3

� ������ ; �� ����� ��� ����� � ���2 � ����� ( �� ��

�� ����� �� ��� ����� �� � ( ����� ��� ���� �� � ���2 �

���� ������ ������� ������� ����

Page 19: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 19/25

8 Perceptual features

8.1 Features

8.1.1 Total Loudness and specific loudness (cuidado:AudioLoudness): DP.i_loud_v� ���������$

��������� �� ���� ��� � ��� � �

������=

����� ����

=���� �� �� ��� ��

��� � � �

8.1.2 Relative Specific Loudness (cuidado:AudioRelativeSpecificLoudness):DP.i_specloudnorm_m

�����������=

8.1.3 Sharpness (cuidado:AudioSharpness) DP.i_sharp_v

������

� ����� ��� = ⋅⋅

⋅=�

� � ���<=

�� ���≥⋅=

�� ����

8.1.4 Spread (cuidado:AudioSpread) DP.i_spread_v

!"#$%& −= ' (

'')+* ,

Page 20: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 20/25

9 Various features

9.1 Spectral Flatness/Crest measure (mpeg7:AudioSpectrumFlatness) DP.sfm_m

& ������� � �������

��������

=

���������

����������

������ ����������������

!�

• • • •

& ������� � ���

( )( )

∈=

"�#�$�%$�&�'( )*+, *�-�.-�/�0)*, *�-�.-�/�013254

6� �8 ������& � , ��# ����� � � ������

7�8:9�;�<9�;�<>=�? ⋅= @ABCDE−

==�?9�;�<FHG�I�J�KMLON P

* ���������� �����$

QSR ( )−= TUWV XY�Z\[^] µ_a`_a`

Page 21: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 21/25

10 Temporal modeling

10.1.1 Meani �

= � �������� ������ ��� �����

��� �������� ������

10.1.2 Variancei �

( )�

�−

= � � ������ � �����

"!$#�%'&() "!$#�%'&) "!$#�%'&(

* +,+,+, -

10.1.3 Deviationi �

( )..

+

−++= / 0 1�243/ 0 1�243

57698$:<;57698$:<;=5768�:<;>5768�:<;>5768�:<;5?68$:@;=A�;�6BDC EFGH

EHEFHEFGH

10.1.4 Temporal modeling an mpeg-7 audio scalable series

mpeg7::scalableseries. weight

scalableseries AudioLoudnessTypempeg7:scalableseries numOfElements=1 element name

Element Name Mpeg-7

Meanyes

VarianceYes

DerivativeExtension

Modulationextension

Page 22: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 22/25

���������������� �������������� ���� ���

������� ����� �!���� � ��"

#$��! � %& �'(���)��*����

+ ��" �,��������&� -�

�,�.�-�

/ ���� �����

!����� / ���&� / �

�, �! ��� ���0� -�

12121

3�4 3�537698:69;753<0=7>&3�;769=

3�4 3�537698:69;753<0=�?0;7@ A ;�6CBD37=

#$��! � %& �'(��)��*����

3�4 3753�698:69;753<0=7E�;�F�=

3�4 3�537698:69;753<0=7G93�@ A H�;78 A H�3�=

3�4 3�537698:69;753<0=7>&I7J9K94 ;78 A I769=

� ������' = �# �� ������ ������������������� ��������$ ��! �� �������� ���� �* " ��# � ��� ��������

Page 23: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 23/25

11 List of all descriptors

LLD Listframe based

number of features acronym xml tag

Temporal FeaturesGlobal Temporal FeaturesLog Attack Time n 1 DTg_lat mpeg7:LogAttackTimeTemporal Increase n 1 DTg_incr cuidado:TemporalIncreaseTemporal Decrease n 1 DTg_decr cuidado:TemporalDecreaseTemporal Centroid n 1 DTg_tc mpeg7:TemporalCentroidEffective Duration n 1 DTg_ed cuidado::TemporalEffectiveDurationInstantaneous Temporal FeaturesSignal Auto-correlation function y 12 DTi_xcorr_m cuidado:AudioXcorrZero-corssing rate y 1 DTi_zcr cuidado:AudioZcrEnergy FeaturesTotal energy y 1 DEi_tot_v mpeg7:AudioPowerTotal energy Modulation (frequency, amplitude) n 2 DTg_mod_fr, DTg_mod_am ScalableSeriesType element name="Modulation"Total harmonic energy y 1 DEi_harmo_v cuidado:AudioHarmonicPowerTotal noise energy y 1 DEi_noise_v cuidado:AudioNoisePowerSpectral FeaturesSpectral ShapeSpectral centroid y 6 DSi_sc_m mpeg7:AudioSpectrumCentroid (mpeg7:SpectralCentroid)Spectral spread y 6 DSi_ss_m mpeg7:AudioSpectrumSpreadSpectral skewness y 6 Dsi_skew_m cuidado:AudioSpectrumSkewnessSpectral kurtosis y 6 Dsi_kurto_v cuidado:AudioSpectrumKurtosisSpectral slope y 6 Dsi_slope_v cuidado:AudioSpectrumSlopeSpectral decrease y 1 Dsi_decs_c cuidado:AudioSpectrumDecreaseSpectral rolloff y 1 Dsi_rolloff_v cuidado:AudioSpectrumRollOffSpectral variation y 3 Dsi_variation_v cuidado:AudioSpectrumVariationGlobal spectral shape descriptionMFCC y 12 DPi_mfcc_m cuidado:AudioMFCCDelta MFCC y (post) 12 DPi_Dmfcc_mDelta Delta MFCC y (post) 12 DPi_DDmfcc_mHarmonic FeaturesFundamental frequency y 1 DHi_f0_v mpeg7:AudioFundamentalFrequencyFundamental fr. Modulation (frequency, amplitude) n 2 F0 Mod AM, FR ScalableSeriesType element name="Modulation"Noisiness y 1 DHi_noisiness_v mpeg7:AudioHarmonicityInharmonicity y 1 DHi_inharmo_v cuidado:AudioInharmonicityHarmonic Spectral Deviation y 3 DHi_devs_v mpeg7:HarmonicSpectralDeviationOdd to Even Harmonic Ratio y 3 Dhi_oeratio_v cuidado:HarmonicSpectralOERatioHarmonic Tristimulus y 9 Dhi_tri_v cuidado:HarmonicSpectralTristimulusHarmonic Spectral ShapeHarmonicSpectral centroid y 6 DHi_sc_m mpeg7:HarmonicSpectralCentroidHarmonicSpectral spread y 6 DHi_ss_m mpeg7:HarmonicSpectralSpreadHarmonicSpectral skewness y 6 DHi_skew_m cuidado:HarmonicSpectralSkewnessHarmonicSpectral kurtosis y 6 DHi_kurto_v cuidado:HarmonicSpectralKurtosisHarmonicSpectral slope y 6 DHi_slope_v cuidado:HarmonicSpectralSlopeHarmonicSpectral decrease y 1 DHi_decs_c cuidado:HarmonicSpectralDecreaseHarmonicSpectral rolloff y 1 DHi_rolloff_v cuidado:HarmonicSpectralRollOffHarmonicSpectral variation y 3 DHi_variation_v mpeg7:HarmonicSpectralVariationPerceptual FeaturesLoudness y 1 DPi_loud_v AudioLoudnessRelaitveSpecific Loudness y 24 DPi_specloud_m cuidado:AudioRelativeSpecificLoudnessSharpness y 1 DPi_sharp_v cuidado:AudioSharpnessSpread y 1 DPi_spread_v cuidado:AudioSpreadPerceptual Spectral Envelope ShapePerceptual Spectral centroid y 6 DPi_sc_m cuidado:AudioFilterbankCentroidPerceptual Spectral spread y 6 DPi_ss_m cuidado:AudioFilterbankSpreadPerceptual Spectral skewness y 6 DPi_skew_m cuidado:AudioFilterbandSkewnessPerceptual Spectral kurtosis y 6 DPi_kurto_v cuidado:AudioFilterbankKurtosisPerceptual Spectral Slope y 6 DPi_slope_v cuidado:AudioFilterbankSlopePerceptual Spectral Decrease y 1 DPi_decs_c cuidado:AudioFilterbankDecreasePerceptual Spectral Rolloff y 1 DPi_rolloff_v cuidado:AudioFilterbankRolloffPerceptual Spectral Variation y 3 DPi_variation_v cuidado:AudioFilterbankVariationOdd to Even Band Ratio y 3 DP_ioeratio_v cuidado:AudioFilterbankOERatioBand Spectral Deviation y 3 DPi_devs_v cuidado:AudioFilterbankDeviationBand Tristimulus y 9 DPi_tri_v cuidado:AudioFilterbankTristimulusVarious featuresSpectral flatness y 4 DPi_sfm_m mpeg7:AudioSpectrumFlatnessSpectral crest y 4 DPi_scm_m cuidado:AudioSpectrumCrestTotal Number of Features 166

Page 24: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 24/25

12 Acknowledgement

13 References

� ���� � ����������� ���� ��� % ���+� �0� ��#��� ' � � � % )�� � � % � % ����� % � � ��� %�� � �3�����>���0�������A� % � � ���0���(� % � % � � �����\ 2��>��� �0� ����� � ���0� '&� �0� % � ' � �� ��� % ���3� ���>���7� % ������ ���� � ��������������������D� '(� �����!� % )�� � � % � % ���A� % � � �0� ' ��� % ���3� %�� ���#��� ' � � ��� ��� %�� � � �A������� � ������>� ��% � % � � � % ��� ��� � �7�������M���0���(� % � % � � ����A� �E�+�A� �0������ ��� �

= 0��������������������

� � � �3� �����U � ���!��������� % �������T�+�"����#�������#��$t��� �&% %�� �h�0�: ���� % �+�'����0� )*) % � %(' �)���>� � )*��� � ���2��� % ����� %�� �,+ % )")�� � � ���"%�� ' � �>)2�������� � �-�� ��� %��*� �E� � �>� % �.�*!� �� � ' �3� � � �.��.��������/:�� %�' ��� % � � )��� � �E�10.2*��� � ��� �E� � )"� ' �'� � ������)���� � % � � � ��3 �7� � �0������, �M� % �.�* ��%(' ���� % �(0 ��� % �54 � �� � ' �3� � � �"� � )76!�98 �>)��M�:��������;�9< � � )"� ' � � � ���:�E��.2*��� � ���f���7� % ' ��� % � � � � )������3�.% %�� � ��� %�� � ' ��3 %�' � ' � % %���� % �2�0�>) ����� ' � �"% �' ��� ��� %�� � � � )=+��>�p��� � � �-�� ��� %��"� ��� � �>� % ���<U���0�����,���?�;.����@��;� �D� � ��� � �A��#>�A����)B8 ����� % � ' �3���0�C� ��� % ��� � ) �*) % ���D� �*�#� %�' �+) % �E�����A���3��� � � ) ���E� %('>%�� �F���0���'� ' � ��� � U��>�����+) % � ��� �0�5�0 � /G��7� � ��� � ��HI�&�"J�K�K��;�.$ �2�L$ %�' #0�� ' �>)����M�&�p�0� ������ � ����������� � ����� � � %�� �H�� %�'&� �2�0�E� �N��� �O�-��� � )"� ' ���t��� ���M����.������������������3���(0�� % � �A� % � � )*�h� % ' #0�� )������7� � ����� '&� ���.3������ ��� � �� �3�'���7�M� �3�A�>���7� % 2"���M� ���2"�*� � � % � % ����� % � �&� ��� �+�y� � �2�0� % 2"����� �P���>�0� � ����)�� � �2�A� % 2"���

/��Q�J�R��"Q�J� ��

� ���� %�� ��HS�6� � )UTI��H % ' ��.���� .���VJ � � ���� � � ���#��� ' � � � % )�� � � % � % ����� % � � � � � �����'�!� � ���(�����>� � % � % � � � �"� ��>�3������.��Q����U�p�����M� ���-���>�9���� �' ��� % ������ % � )"��� %�% �.�:WS� � � �:� ' % ���"� ���M���M�X�#���� �;�Y4�� � % )*��� % � � �0��� ' �"��� % ) % ' � � � % � � �3�M) % �� � � ��� ' �>)����D�E�0� � �����M� � � �>�3�$) % �7� %�'&% � ��� % � % �M�� ' � � � ' ��� % ���+�y� %�' #0���������R����!�p�����M� �������>���A�0� �' ��� % ����Z[.Q0��� �0� �"���D� � ���M� �& ���>���7� % ���.�[���+�A����������\ ����� %�� ����� � �*!� ��p���0����t�����A� #0�����"����� �3�"����.����@��;��� �p�>)������E�0�����2�^ 2���) % ��� % � � �0�L$ ��������2�>� )��?]t�>�*) � ����� � � )Z ���(� % �3�:]t�>�*) � ���7��� �U��� �") % �/ � �����0�>���

/ 0��J�J����"J���K��

�p -/��P�"@C�"J�K�K�J��;� �0� �E�0� ' �A� % � � $����E� � �>���>�2�,�P� �*��� % ' ��) % � �D� � �'� � � � ���.�M� %�� � % � � �0� ���!��0�3���,�� ����5��� �") % ��� � � � Z � / �^�;$ �ZM� �_J���� � � � Z � /!�`< ��� �a.R����� �"��� J�K�K�J�� U���������� �U�S�V�bJ�K�K������ �0��� ' ��� % ��������7� % � % ���A� % � � �0�N] �������P� ��� % ���3� �0� ���#��� ' � � � � ��� �3#>�A�������� %�� �U+ % ����������� % ��� � ������7� % � % �M��c� % � ���� �!�� % ��8M�A� % �?� �V3 %�'&%ed ��� % � � � /��U�R���� �D� �9' � � � % � � ��W��.�fT��0�1%"��I� � U���������� � �S� �S�-�c� � )*� ' ��� ��� ���M�c�bJ�K�K�K��� �0� �7����� ' � � � �7�>� � )�)��M�.��� % � � % � � %�� ���y� ��� � �'�&3��^�0�,�p -/��P�"@�� � �L� �M� � ����� %�� ������ ' � � ��� U���������� �U�S� � � )S6!��8 �>)����Y�"J�K�K�J��;� ����� ' ��� % ����� ��� ����������� % � �f� % � � ���T)����.�M� %�� ���0�� �E�0�=���>� � )&�������7� % � % ����� % � � � � �L� �M�q���0����#0�0���*�������)�� � � U���������� �t�S�:� � )76I�98\�>)����:�"J�K�K����;�g+ % �����3��� % ����� ��� ���7� % � � $t����U� % � � �0� ���� % �U8M�A� % �7� ��3 %�'&%Ad ��� % � � �E�0�����y� ����A��� % � % ����� % � � �0�] �A������� ��� % �+� � �0� �7����� ' � � � � �M���3#>���7��� �� <-6���]t� � )�� � �*�HS�8M� # % � �����9]���� � ) � �� �"� � �!�;�������#�&< � � )"� ' � � � ����� �0��� � �M�����^����M�>� ��% � % � � �.W��.���"T �0�1%*�� 2�� � � % ���&�b+�� � �M�� ���2� % ������N/�� � � )7�h� � � � � ���7��.����@��� �D� � �7�#���*��� % � � � � )Z� ' � � �"��� % � � �0���h��>#>���7� ' �*�#� % �E����� �0��h� � �����+�9Z ' ��� % �&) % �.�M� % ' %�� �A���0��� � �-�� ��� � �"% ���*�y���!� ' � � �X�

Page 25: A Large Audio Features CUIDADO Peeters 2003 Cuidadoaudiofeatures

G. Peeters A Large Set of Audio Features for Sound Description 2004

23/04/04 25/25

�����(�����?6I�$� � )f��� � � � �3)"�`�#���� �;�=���>� � )b�#��� � �7��0� ' ��� % � � � #>���7�+) � � ���h�h+ % �>� ]t� ' ��� �'��� % #>���'�M��� �� <-6�� � ����������� � ���� � � %�� �;�\ �>� )*�a/�� �U$�� � � � ' �h�M� ���M�G��������� �M� �A��� % � % ����� % � � �^�7���M����� � � ) ����#� % � ' �3���0� �3�") % ��� �L8M� +�� � )"#0����% �0� � �*��� % ' �+) % ��D� '&� ��� %�� ��� � �V< �0�(���[� � �>���P8M����� � ��<-] ���L8M� 2������

$ �J�K�@��"J�J�Q��

6S�V8\�>)���� �2 �$��.�bJ�K�K�.�;�, 2����+���-/ �M� %�� �&� ����� ���*��)����M)��M�.��� % � ��������!)���#>�A�;� �*%(' ��� ��3��� ��� % � � � ���+� ' �

� � % �.%�������/��V��#��@�@��#�&�M y��>�M��)"���� �E�0�!���3���+�"� ��� %�� � ���>�") � �M�7� �0�q��� '(� �0����� ��� ' �A� % � #>��� �7�>� � )���� �P� � �� � % �.%�������/��V��#����K��#�M S�7�3���2�>� ���>����� % ����� � �M��� %�� �[� � � %�� ���!�1�"4��!�����3���� � % �.%�������/�� � � )D/��V$:�����*����)0�-��� K��#�&� �� �3�'��� % ��� ���.3 � ����7� % � � �E�0�M��� % � % �����(��#>� � ) ��������� � )&�!� % � % �����B#>� � )�� % )����&���M���0� � ��� % � � �0��E��.2*��� � ����� �P� �

3 :��R�J����#R�J�R��