tema2 taps def

Upload: juanpasos2368

Post on 07-Aug-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/19/2019 Tema2 TAPS Def

    1/24

    Tema 2

    Análisis Localizado de Voz

  • 8/19/2019 Tema2 TAPS Def

    2/24

    Tema 2: Análisis Localizado de Voz T2.2

    2 1 Introducción

    La voz es pseudo-estacionarias sólo a corto plazo (decenasde ms.). Para aplicar técnicas de análisis y procesado,debemos limitar el segmento a procesar en este orden de

    magnitud. Esto da origen al análisis localizado (a corto plazo) de la

    señal, que obligará al uso de TRAMAS de voz de la duración

    reseñada. El mecanismo que nos permite, dada una señal de voz,

    realizar un análisis localizado mediante el uso de tramas

    consecutivas se denomina ENVENTANADO de la señal.

  • 8/19/2019 Tema2 TAPS Def

    3/24

    Tema 2: Análisis Localizado de Voz T2.3

    2 2 Enventanado de la Señal de Voz

    Se denomina enventanado a la aplicación (multiplicación) sobre la señalde voz completa de una función limitada en el tiempo (ventana), lo queproduce una nueva señal de voz, cuyo valor fuera del intervalo definidopor la ventana es nulo.

    Podemos expresar esto como:

    siendo la señal original (de larga duración), la ventanatemporal aplicada y la trama de señal enventanada, que valdrá

    cero fuera del intervalo , siendo N  la duración enmuestras de la ventana aplicada.

    De esta forma, la necesaria aplicación de técnicas de enventanado, quenos permitirán el análisis de tramos estacionarios, conlleva el efecto

    multiplicativo (ponderación) en el tiempo de la trama actual por loscoeficientes de la ventana; y, de forma, equivalente la convolución delespectro deseado de señal con la transformada de Fourier de la ventanacorrespondiente.

    ( ) ( )   )(   n m w n s m x    −⋅=

    ( )n s    ( )n w ( )n x 

    [ ]m N m n    ,1+−∈

  • 8/19/2019 Tema2 TAPS Def

    4/24

    Tema 2: Análisis Localizado de Voz T2.4

    2 2 Enventanado de la Señal de Voz

     A continuación, se muestran algunas de las ventanas temporalesmás empleadas:

     

  • 8/19/2019 Tema2 TAPS Def

    5/24

    Tema 2: Análisis Localizado de Voz T2.5

    2 2 Enventanado de la Señal de Voz

    De entre todas las ventanas posibles, en procesado de vozdestacan dos tipos de ventanas:

    La ventana rectangular, que vale uno dentro y cero fuera:

    La ventana tipo Hamming, cuya estructura temporal está definida de lasiguiente forma (ponderación tipo coseno alzado):

    ( )⎩⎨⎧   −≤≤

    =contrariocasoen0

    101,

    ,   N n n w 

    ( )   ( )⎪⎩⎪⎨

    ⎧ −≤≤⎟ ⎠

     ⎞

    ⎜⎝ 

    ⎛ 

    π⋅−=

    contrariocasoen0101

    2460540

    ,

    ,cos..   N n N n 

    n w 

  • 8/19/2019 Tema2 TAPS Def

    6/24

    Tema 2: Análisis Localizado de Voz T2.6

    2 2 Enventanado de la Señal de Voz

    De entre todas las ventanas posibles, en procesado de vozdestacan dos tipos de ventanas:

    La ventana rectangular, que vale uno dentro y cero fuera:

    La ventana tipo Hamming, cuya estructura temporal está definida de lasiguiente forma (ponderación tipo coseno alzado):

    ( )⎩⎨⎧   −≤≤

    =contrariocasoen0

    101,

    ,   N n n w 

    ( )   ( )⎪⎩⎪⎨

    ⎧ −≤≤⎟ ⎠

     ⎞

    ⎜⎝ 

    ⎛ 

    π⋅−=

    contrariocasoen0101

    2460540

    ,

    ,cos..   N n N n 

    n w 

  • 8/19/2019 Tema2 TAPS Def

    7/24

    Tema 2: Análisis Localizado de Voz T2.7

    Del efecto multiplicativo en el dominio temporal se deduce el efectoconvolutivo en el dominio espectral. Con el objeto de minimizar esteefecto convolutivo, deberíamos emplear ventanas con lóbulo principalestrecho y lóbulos secundarios pequeños. La señal ideal en el límite será

    una delta, que no tendría efecto de ventana en el tiempo. Por ello, habráque buscar soluciones de compromiso.

    Si el lóbulo principal es ancho, el efecto convolutivo producirá unsuavizado espectral. Si los lóbulos secundarios son importantes, induciránun espectro lobulado.

    Por otro lado, se debe considerar también el efecto de ponderacióntemporal, puesto que con las ventanas tipo coseno alzado, las muestras

    de los extremos de la ventana quedan minimizadas frente a las muestrasde la zona central de la ventana.

    Para compensar este efecto, se suelen tomar ventanas temporalessolapadas, en las que las muestras extremas de una ventana sean las

    centrales en ventanas consecutivas.

    2 2 Enventanado de la Señal de Voz

    Estructura Espectral de las Ventanas de Análisis

  • 8/19/2019 Tema2 TAPS Def

    8/24

    Tema 2: Análisis Localizado de Voz T2.8

    El suavizado espectral es un efecto menos determinante que el lobuladoespectral, razón por la que predomina la elección de ventanas con lóbulossecundarios bajos, como se observa en el espectro de

    las ventanas rectangular y Hamming .

    2 2 Enventanado de la Señal de Voz

    Estructura Espectral de las Ventanas de Análisis

  • 8/19/2019 Tema2 TAPS Def

    9/24

    Tema 2: Análisis Localizado de Voz T2.9

    2 3 Análisis Temporal Localizado

    2.3.1. Energía Localizada de la Señal

    La energía localizada de la señal será:

    ( ) ( ) ( )[ ]   ( ) ( )∑∑+−=

    −∞=

    −⋅=−⋅=m 

    N m n n s    m n w n s m n w n s m E  

    1

    222

    ( ) ( )n h n w    =2Podemos expresar , quedando así:

    ( ) ( ) ( )∑+−=

    −⋅=m 

    N m n s    m n h n s m E  

    12

    En el caso de utilizar ventana rectangular, tendremos finalmente que:( ) ( )∑

    +−=

    =m 

    N m n s    n s m E  

    1

    2

  • 8/19/2019 Tema2 TAPS Def

    10/24

    Tema 2: Análisis Localizado de Voz T2.10

    Gráficamente lo podemos ver como:

    2 3 Análisis Temporal Localizado

    2.3.1. Energía Localizada de la Señal

     

  • 8/19/2019 Tema2 TAPS Def

    11/24

    Tema 2: Análisis Localizado de Voz T2.11

    Se denomina “cruce por cero” al hecho de que muestras consecutivastengan distinto signo algebraico, puesto que en este caso, entre muestray muestra la señal tendrá que tomar obligatoriamente el valor cero.

    La tasa de cruces por cero localizada se define matemáticamente como:

    Donde la función signo (sgn) toma los valores:

    2 3 Análisis Temporal Localizado

    2.3.2. Tasa de Cruces por Cero Localizada

    ( )  ( ){ } ( ){ }

    ( )∑+−=

    −⋅−−

    ⋅=m 

    N m n 

    s    m n w n s n s 

    N m Z  

    1

    211   sgnsgn

    ( ){ }

      ( )

    ( )⎩⎨

  • 8/19/2019 Tema2 TAPS Def

    12/24

    Tema 2: Análisis Localizado de Voz T2.12

    La tasa de cruces por cero nos da una idea del carácter sordo/sonoro deuna señal (entendiendo que el carácter sordo va ligado a tramo de altafrecuencia).

     A continuación se muestra la distribución de cruces por cero paratramos sonoros y sordos, calculada sobre ventanas de 10 ms.:

    2 3 Análisis Temporal Localizado

    2.3.2. Tasa de Cruces por Cero Localizada

  • 8/19/2019 Tema2 TAPS Def

    13/24

    Tema 2: Análisis Localizado de Voz T2.13

    La función de autocorrelación localizada mide el parecido de la señalconsigo misma en función de una variable desplazamiento, k . Lopodemos expresar matemáticamente como:

     Asimismo, se puede verificar que: La función de autocorrelación localizada es par: . Tiene un máximo absoluto en , esto es, . es igual a la energía (en señales determinísticas) o a la potencia media

    (en señales periódicas o aleatorias).

    2 3 Análisis Temporal Localizado

    2.3.3. Función de Autocorrelación Localizada

    ( ) ( )   ( ) 121011

    0−=+⋅=   ∑

    −−

    =

    N m m n s n s N 

    k R 

    m N 

    n s    ...,,,,,

    ( ) ( )k R k R    s s    −=0=k    ( ) ( )   k k R R    s s    ∀≥   ,0

    ( )0s R 

  • 8/19/2019 Tema2 TAPS Def

    14/24

    Tema 2: Análisis Localizado de Voz T2.14

    Se verificará que para valores de desplazamiento m  iguales al periodo de laseñal, la autocorrelación tendrá un máximo local, por lo que laautocorrelación de señales periódicas será también una señal periódica delmismo periodo.

    La figura muestra la autocorrelación de dos tramos sonoros, (a) y (b), y unosordo, (c):

    2 3 Análisis Temporal Localizado

    2.3.3. Función de Autocorrelación Localizada

  • 8/19/2019 Tema2 TAPS Def

    15/24

    Tema 2: Análisis Localizado de Voz T2.15

    La idea de la funciones de recorte es la de acentuar los máximos temporalesde la señal (correspondientes al periodo fundamental), de forma quepodamos discriminar con mayor claridad el  pitch del tramo analizado.

    Si aplicamos funciones de recorte central, y de recorte central a tres niveles:

    2 3 Análisis Temporal Localizado

    2.3.4. Estimación de Pitch mediante Autocorrelación

  • 8/19/2019 Tema2 TAPS Def

    16/24

    Tema 2: Análisis Localizado de Voz T2.16

    En la gráfica siguiente, se tienen funciones de autocorrelación localizadaen las que se ha aplicado recorte central, con N =401 puntos, con (a) elumbral CL situado al 80% del máximo, (b) al 64% y (c) al 48% :

    2 3 Análisis Temporal Localizado

    2.3.4. Estimación de Pitch mediante Autocorrelación

  • 8/19/2019 Tema2 TAPS Def

    17/24

    Tema 2: Análisis Localizado de Voz T2.17

    La representación tiempo (eje x) - frecuencia (eje y) – nivel espectral(escala de grises), conocida como ESPECTROGRAMA, puede presentaraspectos muy diferentes en función de la resolución espectral que setome.

    El espectrograma de BANDA ANCHA será aquel que presente pocaresolución espectral y, en consecuencia, mucha resolución temporal. Seráproducto de tomar ventanas temporales de pocos puntos, alcanzando

    bajas resoluciones espectrales (centenas de Hz.).

    El espectrograma de BANDA ESTRECHA será, por el contrario, aquel quepresente alta resolución espectral, es decir, poca resolución temporal.

    Para ello, tomaremos ventanas temporales amplias, dando lugar así aresoluciones espectrales de pocas decenas de Hz. :

    2 4 Análisis Localizado en Frecuencia

    2.4.1. Resolución en Espectrogramas

  • 8/19/2019 Tema2 TAPS Def

    18/24

  • 8/19/2019 Tema2 TAPS Def

    19/24

    Tema 2: Análisis Localizado de Voz T2.19

    El cepstrum (/kepstrum/), o coeficiente cepstral, , se define como latransformada inversa de Fourier del logaritmo del módulo espectral,

    El término “cepstrum” se deriva de la inversión de la palabra inglesa “spectrum” (espectro), para dar idea del cálculo de la transformadainversa del espectro.

    La variable independiente en el dominio cepstral se denomina (siguiendola misma lógica) “quefrency” .

    Dado que el cesptrum representa la transformada inversa del dominiofrecuencial, la “quefrencia” es una variable en un dominio temporal.

    La característica esencial del cepstrum es que permite separar las doscontribuciones del mecanismo de producción: estructura fina yenvolvente espectral.

    2 5 Análisis Homomórfico: El Dominio Cepstral

    ( )τc ( )ωX  

  • 8/19/2019 Tema2 TAPS Def

    20/24

    Tema 2: Análisis Localizado de Voz T2.20

    Si denominamos x[n]  a la señal de voz, derivada de la convolución de laseñal de excitación, g[n] , con la respuesta impulsiva del tracto vocal,h[n] , y siendo sus DFTs respectivas, tendremos que:

    Si ahora tomamos logaritmos sobre el módulo de esta expresión,tendremos:

    Calculando ahora la transformada inversa, IDFT, resultará:

    2 5 Análisis Homomórfico: El Dominio Cepstral

    ( ) ( ) ( )ω⋅ω=ω   H G X  

    ( ) ( ) ( )ω+ω=ω   H G X     logloglog

    ( ) ( ) ( ) ( )ω+ω=ω=τ   H G X  c    logloglog IDFTIDFTIDFT

    ( ) ( ) ( )ωωω   H G X   y,,

  • 8/19/2019 Tema2 TAPS Def

    21/24

    Tema 2: Análisis Localizado de Voz T2.21

    Como se observa de la expresión anterior, en el dominio cepstral, lascomponentes de estructura fina y de envolvente espectral aparecenahora como sumandos, en lugar de convolucionarse en el dominiotemporal original: se produce la DECONVOLUCIÓN de las componentes

    fundamentales de la señal vocal.  Además, en el dominio cepstral se verifica que las componentes debida a

    la estructura armónica aparecen como picos equiespaciados a altasquefrencias, justamente separados por el valor de que se corresponde

    con el periodo fundamental del tramo analizado. La respuesta del tracto vocal aparece en bajas quefrencias, como señal

    impulsiva que abarca los primeros coeficientes cepstrales.

    2 5 Análisis Homomórfico: El Dominio Cepstral

  • 8/19/2019 Tema2 TAPS Def

    22/24

    Tema 2: Análisis Localizado de Voz T2.22

    La figura muestra una trama sonora y su correspondiente cepstrum:

    2 5 Análisis Homomórfico: El Dominio Cepstral

  • 8/19/2019 Tema2 TAPS Def

    23/24

    Tema 2: Análisis Localizado de Voz T2.23

    Mediante un proceso de “liftering”, o de filtrado en el dominio cepstral,podremos seleccionar y separar la componente que se desee.

    Con un filtrado paso bajo (selección de los primeros coeficientes

    cepstrales), tendremos la estructura de envolvente espectral. Si nos quedamos, por el contrario, con los coeficientes altos, tendremos

    una estimación precisa del  pitch de la trama de la señal bajo estudio.

    Reseñar que si seleccionamos los primeros coeficientes cepstrales, querepresentan la estructura de formantes, y calculamos nuevamente latransformada de Fourier sobre ellos, obtenemos ahora una buenaestimación de la envolvente espectral.

    De esta forma, este procedimiento nos permitiría el cálculo de losformantes de la trama bajo análisis.

    2 5 Análisis Homomórfico: El Dominio Cepstral

  • 8/19/2019 Tema2 TAPS Def

    24/24

    Tema 2: Análisis Localizado de Voz T2.24

    2 5 Análisis Homomórfico: El Dominio Cepstral

    La figura siguiente muestra la evolución de tramas temporales y loscorrespondientes vectores cepstrales, para hombre (izqda.) y mujer(drcha.):