procesamiento de señales de voz
DESCRIPTION
Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz? - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/1.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1
Procesamiento de señales de voz
![Page 2: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/2.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2
La comunicación oral
![Page 3: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/3.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3
¿Qué es la voz?
• Onda de sonido (onda de presión)
• Producida por el aparato fonador
• Utilizada para comunicación (para transmisión de mensajes)
![Page 4: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/4.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4
Cuestiones varias:
• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la
señal?• ¿Cómo podemos ajustar un sistema de ayuda a la
audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción
de un fonema?• ¿Cómo podemos interpretar un error en detección o
identificación de fonemas?
![Page 5: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/5.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5
Procesamiento de voz
• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de
locutores• Detección de patologías• Diseño de ayudas para la audición
![Page 6: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/6.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6
¿Qué es la voz?
• Producción de la voz
• Percepción de la voz
• Procesamiento de señales
Dificultades al intentar relacionar la señal con las características
![Page 7: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/7.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7
Problemas del procesamiento de voz
• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición
• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy
redundante• Multi-interactividad entre niveles:
– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental
• Ruido: perturbación + efecto Lombard
![Page 8: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/8.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8
• Variabilidad de las señales de voz
• 40 ms correspondientes al fonema /a/
![Page 9: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/9.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9
Modelos de producción de voz
• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas
Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación
fonética)
![Page 10: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/10.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10
Modelo acústico de producción de voz
• Onda acústica: onda de presión en el aire con c = 350 m/s
• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm
• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura
![Page 11: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/11.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11
• Paredes no rígidas:– Pérdidas onda acústica
• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo
• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar
Modelo acústico de producción de voz (II)
![Page 12: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/12.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12
Simplificaciones
• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)
• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede
reducir a un problema unidimensional)
• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo
![Page 13: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/13.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13
Función de área
![Page 14: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/14.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14
Ecuaciones de onda
![Page 15: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/15.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15
Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)
Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo
(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.
![Page 16: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/16.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16
Pérdidas por elasticidad
• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica
• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2
![Page 17: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/17.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17
u(L,f) / uG(f)
![Page 18: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/18.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18
Formantes
• Formantes: resonancias del tracto vocal
• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz
• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
![Page 19: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/19.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19
Pérdidas por radiación de onda
• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular
de radio a en plano infinito
• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década
![Page 20: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/20.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20
u(L,f) / uG(f)
![Page 21: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/21.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21
Solución numérica para función de área correspondiente a fonema /a/
![Page 22: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/22.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22
Acoplamiento del tracto nasal
![Page 23: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/23.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23
Modelo acústico de producción de voz
• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos
• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década
![Page 24: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/24.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24
Modelo digital de producción de voz
![Page 25: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/25.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
![Page 26: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/26.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
![Page 27: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/27.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27
Clasificación de los fonemas(desde el punto de vista de la producción)
• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas
• Modo de articulación– Vocales– Consonantes
• Lugar de articulación– Vocales– Consonantes
![Page 28: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/28.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28
Clasificación de vocales
• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)
• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)
![Page 29: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/29.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
![Page 30: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/30.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30
Modo de articulación (cons.)
• Oclusivas (b,d,g,p,t,k)
• Fricativas (s,f,z,x,y)
• Africadas (ch)
• Nasales (m,n,ñ)
• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)
![Page 31: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/31.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31
Lugar de articulación (cons.)
• Bilabiales (b,p,m)
• Labiodentales (f)
• Linguodentales (t,d)
• Linguointerdentales (z)
• Linguoalveolares (s,n,l,r,R)
• Linguopalatales (y,ch,ñ,ll)
• Linguovelares (k,g,x)
![Page 32: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/32.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32
Fonemas del español
![Page 33: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/33.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33
Análisis de señales de voz
• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas
![Page 34: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/34.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34
Transformada de Fourier
• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal
compleja:
Re(z)
Im(z)
x
yr
![Page 35: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/35.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35
Espectro de potencia (1)
![Page 36: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/36.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36
Espectro de potencia (2)
![Page 37: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/37.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37
Descomposición en componentes freq.
![Page 38: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/38.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38
Linealidad de la Transformada de Fourier
![Page 39: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/39.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39
Linealidad de la Transformada de Fourier
![Page 40: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/40.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40
Filtrado
• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o
respuesta en frecuencia)
filtroexcitación señal filtrada
![Page 41: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/41.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41
Filtrado en el tiempo: convolución
![Page 42: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/42.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42
Filtrado en frecuencia: multiplicación
![Page 43: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/43.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43
Ventanas (multiplicación en tiempo)
![Page 44: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/44.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44
Ventanas (multiplicación en tiempo)
![Page 45: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/45.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45
Transformada de un tren de pulsos
![Page 46: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/46.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46
Transformada de señal periódica
![Page 47: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/47.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47
Muestreo de señales: T. de muestreo
![Page 48: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/48.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48
Transformada Fourier: Resumen
![Page 49: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/49.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49
DFT y FFT
• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)
• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento
digital de señales
![Page 50: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/50.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50
La señal de voz
/sal/
![Page 51: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/51.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51
La señal de voz
/s/ /a/ /l/
![Page 52: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/52.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52
Estacionariedad de la voz
• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-
estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales
– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:
ventanas
![Page 53: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/53.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53
Análisis con ventanas
![Page 54: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/54.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54
Análisis con ventanas
![Page 55: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/55.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
![Page 56: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/56.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
![Page 57: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/57.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
![Page 58: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/58.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58
Espectro de consonantes sonoras
/l/
/R/
/y/
/m/
/n/
/ñ/
![Page 59: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/59.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59
Espectro de consonantes fricativas
/s/
/ss/
/sh/
/z/
/f/
/j/
![Page 60: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/60.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60
Fonemas no estacionarios
• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/
![Page 61: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/61.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61
Espectrograma (representación tiempo - frecuencia)
![Page 62: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/62.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62
Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n
![Page 63: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/63.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63
Ventana en el espectrograma: 64ms / 8 ms
![Page 64: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/64.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:– Tono fundamental– Estructura fina del espectro
![Page 65: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/65.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65
Cómo funciona el oído
• Extrae información de la señal de audio.
• Envía la información al cerebro en forma de estímulos nerviosos.
• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.
![Page 66: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/66.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66
Características del oído humano
• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre
canales
• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB
![Page 67: Procesamiento de señales de voz](https://reader035.vdocuments.pub/reader035/viewer/2022081420/568157bb550346895dc53ed0/html5/thumbnails/67.jpg)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67
Capacidad del oído humano
• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz
• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y
terminaciones nerviosas (~400 disparos por seg.)
• Resolución en intensidad:– Mejor de 1 dB
• Mecanismos de adaptación.