ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 1
Procesamiento y Compresión de Señales de Audio
PROGRAMA DE POSGRADO EN
SISTEMAS MULTIMEDIA
Ángel de la Torre
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 2
micrófono yprocesador
transmisor RF receptor RF yemisor de estímulos
electrodo de referencia
guía de electrodos
electrodos
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 3
Imagen Rx de un implante
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 4
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 5
Sistemas de petaca y retroauricular
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 6
Percepción de la voz
Aparatoauditivo Interpretación del mensaje
Modeloacústico
(fonemas)
Modelolenguaje
(voc+gram)
Informacióncontextual
Adquisiciónde la voz
Representaciónde la voz en
el nervio auditivorespuesta
Producciónde voz
Aparatofonador
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 7
Percepción de la voz con I.C.
ImplanteCoclear Interpretación del mensaje
Modeloacústico
(fonemas)
Modelolenguaje
(voc+gram)
Informacióncontextual
Adquisiciónde la voz
Representaciónde la voz en
el nervio auditivorespuesta
Producciónde voz
Aparatofonador
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 8
Cuándo es necesario el I.C.(criterios de selección de candidatos)
• Sordera neurosensorial– No en sordera retrococlear: Implante de tronco
cerebral– No en sordera de transmisión: (Pérdidas
moderadas) Prótesis auditivas, reconstrucción cadena huesecillos
• Sordera bilateral profunda
• Incapacitante para comprensión de voz
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 9
Aportaciones del I.C.
• Percepción de la voz• Percepción de otros sonidos• Limitaciones
• Objetivo: comunicación oral– Desarrollo lingüístico en niños– Comunicación en adultos
• Funcionamiento del I.C.
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 10
Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 11
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:– Tono fundamental– Estructura fina del espectro
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 12
Características del oído humano
• Aspectos anatómicos y fisiológicos:6.000 células ciliadas internas
40.000 terminaciones nerviosas
Repolarización: 2 ms (400 - 500 disparos/seg)
Conexión sináptica: sin interacción entre canales
Mecanismos de adaptación
• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono (entre 20 Hz y 20 kHz)– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 13
Limitaciones del implante coclear
• No hay conexión sináptica:– Un electrodo estimula muchas fibras– Si se estimulan simultáneamente varios
electrodos hay interferencia entre canales
• Consecuencias:– Pocos electrodos (se representa sólo la
envolvente espectral)– Alta tasa de estimulación– En cada instante sólo se estimula un canal
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 14
Percepción con Implante Coclear
• Implante: varios electrodos (muchos menos de 4000)– ¿Por qué no más electrodos?– Intervalo de frecuencia 200 Hz - 8500 Hz
• Respuesta en el tiempo: 1500 ... 3000 disparos/seg.
• Respuesta a los distintos niveles de intensidad
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 15
Diseño de los Implantes Cocleares
• Limitaciones acoplamiento entre electrodos y terminaciones nerviosas
• Limitaciones:– procesamiento de señal
– comsumo
– tamaño
• Posibilidades y límites: sonidos / voz
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 16
¿Cómo oye un implantado?
• No se puede saber
• Sólo unos pocos pacientes están en
condiciones de hacer comparaciones
• Observación indirecta (qué son capaces
de hacer)
• Teniendo en cuenta todo el proceso de
estimulación se puede sintetizar la señal
“tal y como la oiría un implantado”
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 17
Aportaciones del Implante Coclear
• Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido)
• Para ello, antes hay que desarrollar....– habilidades perceptuales– habilidades lingüísticas
• Comprensión de la voz en ruido: difícil• Percepción de los distintos sonidos, música
– proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral)
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 18
Estrategias de codificación
• Analógicas:– Compressed Analog (Clarion)
• Pulsátiles:– Extracción de características
• F0/F1/F2 (Cochlear)• MPEAK (Cochlear)
– Híbridas:• SMSP / SPEAK (Cochlear)• N-of-M (Medel)
– Forma de onda:• ACE / CIS / CIS+ (Cochlear Clarion
Medel)
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 19
Compressed Analog
compresion
compresion
compresion
compresion
compresion
Estim. elec 1
Estim. elec 2
Estim. elec 3
Estim. elec 4
Estim. elec 5
Banco defiltros
Ajuste deniveles
Adquisiciónde la señal
Estimulación
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 20
Compressed analog
• Estimulación analógica (no pulsátil)• Estimulación simultánea de todos los electrodos
(interacción entre canales)– Estimulación bipolar– Campo eléctrico de cercanía
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 21
F0 / F1 / F2
• Estima parámetros:– F0: tono fundamental (frecuencia)– F1: primer formante (frecuencia y amplitud)– F2: segundo formante (frecuencia y amplitud)
• Estimula dos electrodos en cada ciclo:– los correspondientes a las frecuencias F1 y F2– con las amplitudes estimadas para F1 y F2– con la tasa de estimulación asociada a F0
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 22
F0 / F1 / F2
F21 k - 3 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2
A2
F1
A1Generador de
estímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 23
F0 / F1 / F2
F21 k - 3 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2
A2
F1
A1Generador de
estímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
Selecciona unoentre canales 6-20
Selecciona unoentre canales 1-5
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 24
MPEAK (Multi Peak)
F2800 - 4 k
Generador depulsos
Selección deelectrodos
Adquisiciónde la señal
Estimulación
F1300 - 1 k
F00 - 270
F2
A2
F1
A1Generador de
estímulos
Generador deestímulos
Extracción decaracterísticas
Ajuste deniveles
4 k - 6 k
2.8 k - 4 k
2 k - 2.8 k
Electrodo 20
Electrodo 17
Electrodo 14
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 25
Extracción de características
• Presentan la información esencial para percibir la voz:– Tono fundamental (F0)– Primer y segundo formante
• Representación pobre de la voz
• Sensibilidad a estimación de F0, F1 y F2:– Respuesta pobre en condiciones de ruido
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 26
SMSP, SPEAK y N-of-M
Adquisiciónde la señal
Selección de los
N canalescon mayorintensidad
Ajustede
niveles
Selección deelectrodos Estimulación
Banco de filtros ydetecc. envolvente
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 27
• Implementaciones (alta tasa de estimulación):– SMSP; SPEAK; N-of-M
• Ventajas:– Mejor representación que extracción de carac.– Menos sensible a ruido de fondo
• Inconvenientes:– Se pierde información (canales con menos
energía)
• Compromiso:– Número de canales - tasa de estimulación
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 28
CIS: Continuous Interleaved Sampling
Adquisiciónde la señal
Ajusteniveles
Banco de filtros ydetecc. envolvente
Generaciónestímulos
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 29
• Implementaciones (alta tasa de estimulación):– ACE (Nucleus)– CIS (Clarion)– CIS+ (Medel)
• Ventajas:– Todos los electrodos estimulados en cada
ciclo con alta tasa de estimulación– Mejor representación de la señal de audio– Mejor resolución en intensidad– Mayor sensibilidad
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 30
• Tendencias en estrategias de codificación:– Reducir extracción de características– Alta tasa de estimulación
• Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios:– Envolvente espectral– Resolución temporal– Resolución en intensidad
• Prestaciones:– Representación audio suficiente para comprender voz
• Limitaciones: música y ruido
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 31
¿Qué es programar el I.C.?
• Ajustar los parámetros del sistema de implante coclear para que el paciente obtenga un aprovechamiento óptimo:
– Parámetros de estimulación
– Parámetros de representación del sonido
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 32
Montaje para programar I.C.
Ordenador paraacceder al procesador
Interface Procesador
Transmisor
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 33
Programación del procesador
• Parámetros ajustables:– conexión de electrodos– niveles de estimulación en cada electrodo
• Umbrales de percepción: THR• Máximos niveles de confort: MCL
– parámetros especiales
• Objetivos: – adaptar la estimulación a los valores particulares
de cada paciente– proporcionar la máxima calidad de audición
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 34
Importancia del ajuste
• Electrodos activados:– La banda útil se reparte entre los electrodos
activos. Si un electrodo no es funcional debe desconectarse
• Umbrales de percepción:– Para tener sensibilidad (20 - 30 dB) y para poder
discriminar niveles de volumen
• Máximos niveles de confort:– Para escuchar los sonidos fuertes (80 - 110 dB)
fuertes pero sin llegar a sensación de dolor
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 35
Dificultades del ajuste
• Colaboración paciente - programador
• Capacidad / tiempo de atención del paciente
• Capacidad de expresión del paciente
• Descripción del paciente subjetiva
• Tolerancia del paciente a imprecisión
• Evolución fisiológica del paciente
• Objetivos mínimos cubiertos
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 36
Influencia de la programación en la capacidad de percepción
• El número de electrodos– rango de frecuencia
• Electrodos no funcionales conectados– excepciones transitorias
• Electrodos con estimulaciones colaterales• Sobre-estimación de umbrales• Infra-estimación de umbrales• Desajustes de MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 37
Parámetros ajustables:
• Parámetros de estimulación:– Determinación de electrodos funcionales– Rango dinámico de cada electrodo: umbral y máximo
nivel de confort
• Parámetros de representación del sonido:– Modo de estimulación– Estrategia de codificación– Bandas de frecuencia asignadas a electrodos– Tasa de estimulación– Mapeo de intensidad, volumen, sensibilidad
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 38
Determinación de electrodos funcionales– Electrodos dentro de la cóclea– Electrodos dentro de la cóclea en zona poco inervada– Electrodos fuera de la cóclea– Estimulación colateral
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 39
Rango dinámico de cada electrodo
• Rango dinámico eléctrico: es el intervalo comprendido entre– Umbral (THR): mínima estimulación eléctrica que
detecta el paciente– Máximo nivel de confort (MCL): máxima
estimulación eléctrica que tolera el paciente
• El rango dinámico debe establecerse para cada electrodo independientemente
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 40
20 dB
100 dB
THR
MCL
Rango dinámicoacústico
Rango dinámicoeléctrico
• Mapeo del rango dinámico acústico al eléctrico
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 41
Ejemplo de rango dinámico
Ecualización de canales
1 2 3 4 5 6 7 8 9 10 11 12
zona apical zona basal
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 42
Parámetros relacionados con la representación del sonido:
• Modo de estimulación• Estrategia de codificación• Bandas de frecuencia asignadas a
electrodos• Tasa de estimulación• Mapeo de intensidad• Volumen• Sensibilidad• Programas para situaciones especiales
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 43
Modo de estimulación
Configuración eléctrica de los electrodos
tierracomun
bipolar
bipolar + 1 bipolar +2
InactivoActivoReferencia
monopolar
electrodoextracoclear
alejado
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 44
Modo de estimulación
Distribución de la corriente eléctrica
InactivoActivoReferencia
tierracomun
bipolarmonopolar
bipolar + 1 bipolar +2
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 45
Bandas de frecuencia asignadas a electrodos
• Rango espectral
• Distribución de los filtros en frecuencia:(Ancho de banda y frecuencia central de cada canal)– Lineal, logarítmica, lin-log....– Elegida libremente por el programador
20 Hz 200 Hz 2 kHz 20 kHz
Rango espectral audición (20 Hz - 20 kHz)
Voz (200 Hz - 6 kHz)
Tel. (350 Hz - 3.5 kHz)
I.C. típ. (300 Hz - 5 kHz)
I. C. máx (200 Hz - 10 kHz)
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 46
Tasa de estimulación• Es el número de estímulos por segundo en cada
electrodo• Mejor cuanto más alta
– Tiempo de repolarización: 2ms– Conviene que sea superior a 800 o 1000 disparos por
segundo
• Limitada por:– Tecnología del procesador– Número de electrodos activos en cada ciclo de
estimulación– Duración de los pulsos eléctricos
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 47
Mapeo de intensidad (maplaw)
Rango dinámico acústico
20 dB 100 dB
Niv
el e
stim
. el
éctr
ico
THR
MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 48
Mapeo de intensidad (maplaw)
Rango dinámico acústico
20 dB 100 dB
Niv
el e
stim
. el
éctr
ico
THR
MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 49
Control de volumen
Nivel de volumen
0% 100%
Niv
eles
est
imad
os
THR
MCL
0
MCL utilizado
THR utilizado
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 50
Control de volumen
Nivel de volumen
0% 100%
Niv
eles
est
imad
os
THR
MCL
0
75%
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 51
Control de sensibilidad
Rango dinámico acústico
20 dB 100 dB
Niv
el e
stim
. el
éctr
ico
THR
MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 52
Control de sensibilidad
Rango dinámico acústico
20 dB 100 dB
Niv
el e
stim
. el
éctr
ico
THR
MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 53
Control de sensibilidad
Rango dinámico acústico
20 dB 100 dB
Niv
el e
stim
. el
éctr
ico
THR
MCL
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 54
Resultados en Implantes Cocleares
• Factores que afectan:– Edad de implantación– Nivel de lenguaje previo a sordera– Experiencia auditiva previa a sordera– Otros factores:
• Habilidades intelectuales• Entorno social-familiar• Presencia de otras patologías• Etc....
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 55
ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR 56