1
CODIFICACIÓN DE AUDIO
Codificaciones Clásicas Redundancia
Escalar, Vectorial
En Tiempo PCM, logPCM, APCM, DPCM
En Frecuencia SBC, TC
Con Modelos Análisis (por) Síntesis
Codificaciones Perceptuales Relevancia
Modelos Psicoacústicos
Parámetros
Cuantificación y Codificación
ΠΘΜ
2
CODIFICACIÓN DE AUDIO
Codificación de alta calidad , PCM
Telefónica, Fs=8KHz, B=8bits, 64
Voz de banda ancha , Fs=16KHz, B=8bits, 128
Audio banda media , Fs=24KHz, B=16bits, 384
Audio banda ancha, Fs=48KHz, B=16bits, 768
CD , Fs=44.1KHz, B=16 bits, estéreo, 1410
Overheads de 49-bits/16-bit, 4320
Analógico , Fs>55KHz, B>20 bitsΠΘΜ
3
CODIFICACIÓN PERCEPTUAL
Principios Psicoacústicos
Estructura General
Modelo Psicoacústico
Análisis Tiempo-Frecuencia
Cuantificación y Codificación
Estándares ΠΘΜ
4
PRINCIPIOS PSICOACÚSTICOS
Nivel de Presión Sonora (dB)
Umbral Absoluto de Audición
Bandas Críticas
Banco de Filtros Paso Banda
Solapados y No Uniformes
Enmascaramiento
Simultáneo
TMN, NMT, NMN
Temporal
Pre, Post
ΠΘΜ
5
PRINCIPIOS PSICOACÚSTICOS
Nivel de Presión Sonora (dB)
Lspl = 20 log10 (P/Po) dB
Po = 20 µPa = 2*10e-5 N/m2
Normalización, Fondo de escala = 90 dB SPL
21(2 / )
100
1
( ) 90.302 10log ( ) ( )
1 2 ( )( ) 1 cos , ( )2 2
Nj kn N
n
b
P k w n x n e
n s nw n x nN N
π
π
−−
=
−
= +
= − =
∑ΠΘΜ
6
AUDICIÓN
Umbral Absoluto de Audición
20.8 40.6 3.331000( ) 3.64 6.5 10 ( )
1000 1000
ff fTq f e dB SPL− − − − = − +
102
103
104
0
20
40
60
80
100
ΠΘΜ
7
BANDAS CRÍTICAS
Bandas Críticas Aproximaciones
0.692
( ) 25 7 1 1.4 ( )1000fBWc f Hz
= + +
Escala Bark (Bark = 1 banda crítica)
2
( ) 13arctan(0.00076 ) 3.5arctan ( )1000fz f f Bark
= +
Ancho de Banda
ΠΘΜ
8
BANDAS CRÍTICAS
Tabla de Bandas Críticas
2000-23202320-27002700-31503150-37003700-44004400-53005300-64006400-77007700-95009500-1200012000-1550015500-20000
21502002900340040004800580070008500105001350019500
141516171819202122232425
0-100100-200200-300300-400400-510510-630630-770770-920920-10801080-12701270-14801480-17201720-2000
5015025035045057070084010001175137016001850
12345678910111213
Bwi (Hz)Fi (Hz)Nº BBwi (Hz)Fi (Hz)Nº B.
ΠΘΜ
9
ENMASCARAMIENTO
Enmascaramiento Simultáneo
Nivel del Enmascarador
Umbral de EnmascaramientoRelación Señal a Máscara (SMR)
EnmascaradorSPL (dB)
BandaCrítica
Señales Enmascaradas
ΠΘΜ
10
ENMASCARAMIENTO
Enmascaramiento Simultáneo
Ruido Enmascara Tono
SMR ∈ [-5, 5] dB
Tono Enmascara Ruido
SMR ∈ [21, 28] dB
Ruido Enmascara Ruido
SMR ≈ 26 dB
Dispersión fuera de BandaΠΘΜ
11
ENMASCARAMIENTO
Enmascaramiento Temporal
Enmascarador
Post-EnmascaramientoPre-Enmascaramiento
SPL (dB)
Tiempo (ms)1-2 50-300
SMR ≈ SMR(sim)-25 dB
ΠΘΜ
12
ENMASCARAMIENTO
Aplicaciones
No transmisión de lo Inaudible
Mantener el ruido bajo lo audible
ΠΘΜ
13
ESTRUCTURA GENERAL
Codificador Perceptual de Audio
Análisis
Tiempo-frecuencia
Análisis
Psico-Acústico
Cuantificación
Codificación
Distribución
De Bits
Codificación
Sin Pérdidas
M
U
X
Voz Bit
streamΠΘΜ
14
ANÁLISIS PSICOACÚSTICO
Análisis Psico-Acústico
Análisis de Frecuencia
Bancos de filtros, Transformaciones
Umbral Global de Enmascaramiento
Umbrales Fijos, Dependientes
Detección de Tonos, de Ruidos
Efectos dentro, fuera de banda
Combinación
Ejemplo básico
ΠΘΜ
15
ANÁLISIS PSICOACÚSTICO
Modelo 1, MPEG 1 Layer 1
Análisis FFT-512 con hanning (12ms)
Resolución de 86.13Hz a 44.1KHz
Escala Bark por transformación
Dispersión fuera de Banda limitada
Estimación Tono por máximo local de 7dBentre ±2, ±3 y ±6 en >63, >127 y >256
Estimación Ruido por BandaΠΘΜ
16
ANÁLISIS PSICOACÚSTICO
Modelo 1
Enmascaradores1
0.1 ( )10
1
( ) 10log 10 ( )P k jTM
j
P k dB+
=−
= ∑
Diezmado de Enmascaradores
Descarte bajo el umbral absoluto
Sustitución en 0.5 Bark por el mayor
Diezmado por 2 y 4 en <18 y <22
{ }0.1 ( )10( ) 10log 10 ( ) , ( ) ( )P j
NM TM kj
P k dB P j P k= ∀ ∉ ± ∆∑
1( 1)l uu
j l
k j− +
=
= ∏
ΠΘΜ
17
ANÁLISIS PSICOACÚSTICO
Modelo 1
Umbrales por tipo
( , ) ( ) 0.275 ( ) ( , ) 6.025 ( )TM TMT i j P j z j SF i j dB SPL= − + −
( , ) ( ) 0.175 ( ) ( , ) 2.025 ( )NM NMT i j P j z j SF i j dB SPL= − + −
17 0.4 ( ) 11 3 1(0.4 ( ) 6) 1 0
( , ) ( )17 0 1
(0.15 ( ) 17) 0.15 ( ) 3 1
z XM z
XM z z
z z
XM z XM z
P jP j
SF i j dB SPL
P j P j
∆ − + − ≤ ∆ < − + ∆ − ≤ ∆ <= − ∆ ≤ ∆ < − ∆ − − ≤ ∆ < −
Umbral Global
0.1 ( ) 0.1 ( , )0.1 ( , )10
1 1( ) 10log 10 10 10 ( )q NMTM
L MT i T i mT i l
gl m
T i dB SPL= =
= + +
∑ ∑
ΠΘΜ
18
ANÁLISIS PSICOACÚSTICO
Modelo de Entropía Perceptual (Modelo 2, MP3)
Análisis FFT-2048, con hanning
Espectro Bark por suma espectral en BC
Dispersión por convolución
Estimación Tono/Ruido por AplanamientoEspectral en cada Banda, SFM=µg/µa
Coeficiente de tonalidad para Umbrales
min ,160dBSFMα = −
ΠΘΜ
19
ANÁLISIS PSICOACÚSTICO
Modelo de Entropía Perceptual
Ponderación de los umbrales por tipo
14.5 ,THn Et B B BandaCritica= − − =[ ], 3, 5THt En K K dB= − ∈
(14.5 ) (1 )5.5iO i dBα α= + + −
Umbrales por banda10log ( ) ( /10)10 i iC O
iT−=
Umbral Global
max( , ( ))i i qT T T i=ΠΘΜ
20
ANÁLISIS TIEMPO-FRECUENCIA
Análisis Tiempo-Frecuencia
Bancos de Filtros (baja resolución)
Transformadas Unitarias (alta resolución)
Esquemas Híbridos
Modelos Fuente-SistemaΠΘΜ
21
BANCOS DE FILTROS
Propiedades
M filtros paso banda
Contiguos en frecuencia
Diezmado crítico en análisis
Interpolación en síntesis
Aliasing por solapamiento
Reconstrucción perfecta sin cuantificación
Error de cuantificación a enmascararΠΘΜ
22
BANCOS DE FILTROS
Propiedades
Reduce redundancias estadísticas
Diseño adecuado para evitar Aliasing
Uniformes, No Uniformes
Resolución frecuencia
Resolución tiempo (tipo, adaptación)
FIR, IIRΠΘΜ
23
BANCOS DE FILTROS
Pseudo-QMF
M-Modulaciones en coseno de un PPB
No alcanza la reconstrucción perfecta
Prototipo paso bajo FIR (Fase lineal)
Posibilidad de hacerlo con FFT
Uniforme
Complejidad baja (filtro+modulación)
Muestreo críticoΠΘΜ
24
BANCOS DE FILTROS
Pseudo-QMF
Eliminación de la distorsión de fase
Cancelación del aliasing, (w(n), L), ¿?
( ) ( 1 )k kg n h L n= − −
1( ) 2 ( )cos ( 0.5)2k kLh n w n k n
Mπ θ − = + − +
1( ) 2 ( ) cos ( 0.5)2k kLg n w n k n
Mπ θ − = + − −
( 1)4
kk
πθ = −
ΠΘΜ
25
BANCOS DE FILTROS
Polifase
Diseño fácil
Complejidad computacional baja
Uniforme
ΠΘΜ
26
TRANSFORMACIONES
Propiedades
Transformación lineal
Coeficientes incorrelados
Reconstrucción perfecta sin cuantificación
Algoritmos basados en FFT
Efectos de borde de los bloquesΠΘΜ
27
TRANSFORMACIONES
DCT, DFT
Diseño fácil
Complejidad computacional baja
Evita errores de bloque ???
ΠΘΜ
28
TRANSFORMACIONES
MDCT
Banco de filtros modulado en coseno
L = 2M y w(n) con restricciones
Alcanza la reconstrucción perfecta
Implementación con transformaciones
Solape 50%, Elimina ruido bloque
Algoritmos basados en FFT
Muestreo crítico (2M muest a M coeff)
Ventanas variantes en tiempo
ΠΘΜ
29
TRANSFORMACIONES
MDCT
Eliminación de la distorsión de fase
Cancelación del aliasing,
( ) (2 1 )k kg n h M n= − −
2 (2 1)(2 1)( ) ( ) cos4k
n M kh n w nM M
π+ + + =
ΠΘΜ
30
TRANSFORMACIONES
MDCT
Análisis
Síntesis
2 1
0
( ) ( ) ( )M
kn
X k x n h n−
=
= ∑
1
0( ) [ ( ) ( ) ( ) ( )]
MP
k kk
x n X k h n X k h n M−
=
= + +∑ ΠΘΜ
31
TRANSFORMACIONES
MDCT
Ventana lineal y condición de Nyquist
Ventana seno (MLT de Malvar), óptima
(2 1 ) ( )w M n w n− − =
1( ) sin , 0 12 2
w n n n MMπ = + ≤ ≤ −
2 2( ) ( ) 1, 0 1w n w n M n M+ + = ≤ ≤ −
ΠΘΜ
32
HÍBRIDOS
Propiedades
Combinan Bancos con Transformadas
Estructura en cascada
Flexibles en resolución de frecuencia
Permiten adaptación
Complejidad computacional media
No alcanza reconstrucción perfecta
Ejemplos: QMF+MDCT, PF+MDCTΠΘΜ
33
ECOS
Pre-eco
Señales abruptas en entornos silenciosos
Señales muy pitcheadas
Dispersión del error de cuantificación
Control de pre-ecos
Reserva de bits
Cambio de tamaño de ventana (64,1024)
Enmascaramiento temporal
Modificación de la ganancia
Modificación temporal del ruido (LP)
ΠΘΜ
34
CODIFICACIÓN
Asignación dinámica de bits
Enmascaramiento
Velocidad
Cuantificador
Uniforme/No Uniforme
Codificador
Con/Sin Pérdidas
Control ???
Directo/Indirecto
ΠΘΜ
35
CODIFICADORES
Transformación
ASPEC
Subbandas
MASCAM
Sinusoidales
Predicción linealΠΘΜ
36
ESTÁNDARES
MPEG 1 (1992)
Capa I, II y III
MPEG 2 (1994, 1997) extensión multicanal
Compatibilidad Backward
Incompotibilidad Barkward, AAC
MPEG 4 (1998)
Amplio campo de aplicaciones
MPEG 7
Descripción estandarizada deinformación multimedia (no coding)
ΠΘΜ
37
ESTÁNDARES
Normativa
Decodificador
Bitstream
Informativa
Ejemplos de modelos psicoacústicosΠΘΜ
38
MPEG 1
Características
Modos: mono, estéreo, dual, conjunto y M/S
Fs= 32 Kb/s, 44.1 Kb/s y 48 Kb/s
Capa I, 192 Kb/s (estéreo a 384 Kb/s)
Capa II, 128 Kb/s (estéreo a 192 Kb/s)
Capa III (MP3), 64 kB/s (estéreo a 128 Kb/s)ΠΘΜ
39
MPEG 1
Capa I
Banco de filtros PseudoQMF con 32 filtros
Polifase Uniforme, 750Hz de BW a 48 kHz
Filtros FIR de orden 512 (con DCT)
ΠΘΜ
40
MPEG 1
Capa I
Modelo psicoacústico con FFT-512
Ponderación Hanning
Modelo 1
SMR = Nivel max de señal en la subbanday el Nivel min de enmascaramiento en ella
Modelo 2
ΠΘΜ
41
MPEG 1
Capa I
Análisis de 12 muestras por banda (384)
Asignación dinámica de bits por modelopsicoacústico
Incrementa 1 bit el Q con mayor NMR
Factor de escala igual a la muestra mayor
Información por banda
Bits/banda (4), f. escala (6), muestra
Síntesis por bloques de 32 muestras
ΠΘΜ
42
MPEG 1
Capa II
Modelo psicoacústico con FFT-1024
Análisis de 12x3 muestras por banda (1152)
Factor de escala por bloque de 12 muestras
Envía 1, 2 o 3 según cambia
Q disponibles
3,5,7,9,15,31, ..., 65535 para baja fr
3,5, 65535 para alta (nada para [28,32]
Palabra común para Q seguidos de 3,5 y 9
ΠΘΜ
43
MPEG 1
Capa III
Banco de filtros híbrido
Resolución de bandas críticas
Polifase de 32 + MDCT de 6 o 18 p
Bloques de 12 o 36 muestras
BW mínimo de 41.67 Hz a 48 kHz
MDCT de 18 para resolución en fr
MDCT de 6 para prevenir preecos, 4ms
Ventanas de comienzo y fin
ΠΘΜ
44
MPEG 1
Capa III
Cuantificación No Uniforme
Codificación Huffman
Reserva de bits (velocidad variable)
ΠΘΜ
45
MPEG 1
Capa III
Modelo psicoacústico con FFT-1024
Ponderación Hanning
Modelo 2
Tonalidad por predicción
Asignación de bits, análisis-por-síntesisΠΘΜ
46
MPEG 1
Estructura de trama, capa I y II
Encabezamiento
12 syncr, 20 infosys y 16 cycred
Bits/banda, factor de escala
Información principal (muestras)
Datos auxiliares
Características
Autónomas
Tamaño Variable
Empaquetamiento en 188 Byte (4B header)
ΠΘΜ
47
MPEG 2
Características
Multicanal
Fs= 16 Kb/s, 22.05 Kb/s y 24 Kb/s
Mayor resolución y mayor ganancia
MPEG-2 por debajo de 64kb/s/canalΠΘΜ
48
MPEG 2
Multicanal, configuraciones
Mono, 1/0
Derecho (R), izquierdo (L), 2/0
+ Central adicional (C), 3/0
+ Mono surround, 3/1
+ Surround derecho (RS), izquierdo (SL), 3/2
+ Subwoofer [15,120]Hz, 5.1
Explotación de dependencias entre canalesΠΘΜ
49
MPEG 2
Compatibilidad
Forward, Acepta MPEG 1 mono y estéreo
Backward, MPEG 1 acepta MPEG 2 1/0 y 2/0
T1=L0=α(L+βC+δLS), α=1/(1+√2)T2=R0= α(R+βC+δRS), β=δ=√2 T3=C,T4=LS y T5=RS
T3, T4 y T5 en el campo auxiliar MPEG 1
Problemas con enmascaramiento entrecanales en el desmatriciado
No compatible, MPEG-2 AAC
ΠΘΜ
50
MPEG-2 AAC
Módulos, modelos de referencia por interfaces
Preprocesado
Banco de filtros, MDCT-1024
Modelo perceptual, MPEG-1 modelo 2
Modificación temporal de ruido (preeco)
Codificación multicanal
Predicción adaptativa backward, 2º, <16kHz
Estéreo M/S
Cuantificador,Codificador sin pérdidas
Multiplexor bitstream
ΠΘΜ
51
MPEG-2 AAC
Módulos
Asignación de bits
MPEG-1 modelo 2
Proceso de análisis-por-síntesis
49 bandas imitan la resolución del oido
Reserva de bits para bit-rate variableΠΘΜ
52
MPEG-2 AAC
Perfiles
Alta calidad
MDCT 1024 (2048m) = 8x128 (256m)
Resolución de 23.43Hz a 48kHz
Resolución de 2.6 ms a 48 kHz
Ventana senoidal para Banda estrech
Ventana KBD para fuerte atenuaciónΠΘΜ
53
MPEG-2 AAC
Perfiles
Baja complejidad
Sin predicción
Sin modificación temporal de ruido
Mínima complejidad
Banco de filtros híbridoΠΘΜ
54
MPEG-4
Características
Aplicaciones desde alta calidad audio-voz acalidad sintética audio-voz
Módulos de audio-voz de 2 a 64 kb/s
Paramétrica, 2 a 10 kb/s
Análisis-por-síntesis, 6 a 16 y 24 kb/s
Ej, CELP
Frecuencia, menor que 64 kb/s
Ej, AAC, Sust. de ruido perceptual
ΠΘΜ
55
MPEG-4
Características
Aplicaciones desde alta calidad audio-voz acalidad sintética audio-voz
Módulos de audio-voz de 2 a 64 kb/s
Paramétrica 2 a 10 kb/s
Análisis-por-síntesis, 6 a 16 kb/s
Frecuencia, menor que 64 kb/s
Módulo de sustitución de ruido perceptual
Representación paramétrica de energía
ΠΘΜ
56
APLICACIONES
Velocidad
Alta fidelidad a menos de 16kb/s/canal
WWW, de facto con MP3
Transmisión
ISDN (64kb/s)
Almacenamiento
DCC de philips usa MPEG-1 L1 (384 kb/s)
DVD (PAL y NTSC) (384 kb/s)ΠΘΜ
57
APLICACIONES
Radiodifusión radio
DAB, DVB, usan MPEG-1 LII (LIII baja vel)
Gran overhead
FM (88-108MHz)
Radiodifusión TV satélite
Huges DirectTV, ADR usan MPEG-1 LII
Eutelsat SaRa usa MPEG-1 LIII
Radiodifusión TV digital terrestre
European DVB usa MPEG-2
ΠΘΜ