comparacion entre wavelets y fourier

7/25/2019 Comparacion entre Wavelets y Fourier

1/109

COMPARACIN ENTRE ANLISISWAVELETS Y FOURIER APLICADOS

AL RECONOCIMIENTO AUTOMTICO

DEL HABLA

TESIS QUE PRESENTA

HUGO LEONARDO RUFINER DI PERSIA

PARA LA OBTENCIN DEL GRADO DE

MAESTRO EN INGENIERA BIOMDICAASESOR

DR. JOHN GODDARD CLOSE

DICIEMBRE DE 1996

Casa Abierta al Tiempo

UNIVERSIDAD AUTNOMA METROPOLITANA - IZTAPALAPADIVISIN CIENCIAS BSICAS E INGENIERIA

sinc

(i)ResearchCenterforSignals,SystemsandComputationalIntelligence(fich.unl.edu.ar/sinc)

H.L

.Rufiner;"ComparacinentreAnlisisWavele

tsyFourieraplicadosalReconocimientoAutom

ticodelHabla"

UniversidadAutnomaMetropolitana,Mxico,

199

6.


2/109

A mi madre Silvia Di Persia,

Por su ejemplo

A mi esposa Stella,

Por su apoyo y comprensin

A mi hijo Juan,

Por su ternura y alegra

sinc


H.L



ticodelHabla"


199

6.


3/109

Agradecimientos

A la Universidad Nacional de Entre Ros (UNER), a la Provincia de Entre Ros, ya la Organizacin de Estados Americanos (OEA) por el soporte econmico quepermiti mi estancia en Mxico y la realizacin de esta tesis.

A mi asesor, el Dr. John Goddard, por su constante disposicin al debate y suvaliosa orientacin sin la cul seguramente este trabajo no hubiera sido elmismo.

Al Ing. Agustn Carpio y a la Med. Susana Perrone por su intervencin en elConvenio de Intercambio de Recursos Humanos (UNER-UAMI) que posibilit

mis estudios.

Al M. Miguel Cadena Mndez por su gestin que hizo posible esta experiencia.

A mis compaeros del Laboratorio de Audiologa de la UAMI, por favorecer elclima ameno de trabajo y convivencia que posibilit mi labor.

A todos mis compaeros de la FI-UNER por su apoyo constante a pesar dedistancias y contratiempos.

sinc


H.L



ticodelHabla"


199

6.


4/109

PrefacioLa emulacin de la forma de comunicacin humana por las computadoras ha sido una metalargamente perseguida. Alcanzarla permitira interactuar con nuestras mquinas de unamanera ms sencilla y completamente distinta a la actual. Durante el desarrollo de mi tesisde licenciatura abord una parte de la solucin de este vasto problema a travs de diversastcnicas de Inteligencia Artificial. Posteriormente encar el anlisis de la voz mediantetcnicas clsicas y modelos de odo. Aqu comenz a aparecer la idea de comparar unanlisis similar al que realiza nuestro odo (como el anlisis Wavelets) con las tcnicasclsicas basadas en estimadores espectrales (como el anlisis de Fourier).

En el presente trabajo se pretende evaluar la mejor de estas dos alternativas (Wavelets yFourier) para la etapa de preprocesamiento de un Sistema de Reconocimiento Automticodel Habla utilizando Redes Neuronales.

Esta tesis se organizar de la siguiente manera: En la primera parte se introducir al lectoren el problema, terminologa y antecedentes. En el captulo siguiente se abordarnsomeramente los aspectos fisiolgicos ms relevantes de la comunicacin humana parasealar los mecanismos responsables de la produccin, emisin, recepcin yreconocimiento del habla. El comprender la naturaleza de la seal de voz nos permitircomprender que parmetros son ms importantes para la discriminacin de los distintosfonemas y el conocer como funciona el sistema auditivo nos autoriza a evaluar otros tiposde anlisis. En el captulo tercero se describen los datos utilizados en los experimentos ylos criterios para su recoleccin y eleccin. El captulo siguiente se ocupa del tema delprocesamiento de la seal de voz. Se introduce as el anlisis clsico y el basado en

Wavelets, describiendo las principales familias de Wavelets y presentando un mtodo paraescoger el anlisis que mejor discrimine entre los fonemas elegidos. En el captulo cinco seexpone lo referente a las redes neuronales que actan como clasificadores de los patronesgenerados en la etapa de anlisis en los distintos fonemas. Aqu se describen lasarquitecturas de redes que permiten aprovechar de manera eficiente los aspectos dinmicosde la seal de voz para su clasificacin o reconocimiento. En el captulo seis se presentanlos resultados de los experimentos junto con su interpretacin y conclusiones. Finalmentese presentan las referencias y la bibliografa empleada durante el trabajo.

sinc


H.L



ticodelHabla"


199

6.


5/109

Indice

I . INTRODUCCIN ........................................................................................................... 1

ANTECEDENTES Y DEFINICIONES......................................................................................... 1DESCRIPCIN DEL TRABAJO ................................................................................................ 6

II . ASPECTOS FISIOLGICOS ...................................................................................... 8

INTRODUCCIN.................................................................................................................... 8MECANISMO DE PRODUCCIN DEL HABLA ........................................................................... 8LA SEAL DE VOZ ............................................................................................................. 13FISIOLOGA DE LA AUDICIN ............................................................................................. 15

III . LOS DATOS................................................................................................................ 22INTRODUCCIN.................................................................................................................. 22DESCRIPCIN DE TIMIT.................................................................................................... 23

Organizacin de los datos ............................................................................................ 24Tipos de Archivo........................................................................................................... 24Seleccin de Hablantes................................................................................................. 26Condiciones de Grabacin ........................................................................................... 26Texto del Corpus........................................................................................................... 26Subdivisin en Entrenamiento y Prueba ...................................................................... 27Cdigos de Smbolos Fonmicos y Fonticos .............................................................. 28

DATOS ELEGIDOS PARA LOS EXPERIMENTOS ...................................................................... 30

IV . EL PROCESAMIENTO............................................................................................. 37

INTRODUCCIN.................................................................................................................. 37TRANSFORMADA DE FOURIER............................................................................................ 38

Transformada de Fourier de Tiempo Corto................................................................. 38TRANSFORMADA WAVELET............................................................................................... 40FUNDAMENTOS TERICOS Y DEFINICIONES....................................................................... 45

Propiedades del Anlisis Multiresolucin ................................................................... 49TRANSFORMADA WAVELET DISCRETA.............................................................................. 49FAMILIAS DE WAVELETS ................................................................................................... 50

Meyer............................................................................................................................ 52

Daubechies ................................................................................................................... 55Symmlets ....................................................................................................................... 55Coiflets.......................................................................................................................... 58Splines........................................................................................................................... 58Vaidyanathan................................................................................................................ 63

ELECCIN DE LA BASE PTIMA ......................................................................................... 63ASPECTOS DE IMPLEMENTACIN PRCTICA ...................................................................... 65

sinc


H.L



ticodelHabla"


199

6.


6/109

V . EL CLASIFICADOR ................................................................................................... 67

INTRODUCCIN.................................................................................................................. 67REDESNEURONALES ESTTICAS:PERCEPTRON MULTICAPA ........................................... 69REDESNEURONALES DINMICAS...................................................................................... 71

Extensin de Retropropagacin para Aprendizaje Temporal...................................... 71

Redes Neuronales con retardos temporales ................................................................. 72Redes de Jordan y Elman ............................................................................................. 72Retropropagacin a travs del tiempo ......................................................................... 73

CRITERIOS PARA LA ELECCIN DE LA ARQUITECTURANEURONAL.................................... 76REDES DE KOHONEN.......................................................................................................... 76ELECCIN DE LA FAMILIA DE WAVELETS .......................................................................... 77ASPECTOS DE IMPLEMENTACIN PRCTICA ...................................................................... 79

VI . RESULTADOS Y CONCLUSIONES....................................................................... 83

INTRODUCCIN.................................................................................................................. 83EXPERIMENTOS REALIZADOS ............................................................................................ 83

RESULTADOS ..................................................................................................................... 85INTERPRETACIN Y CONCLUSIONES .................................................................................. 91RECOMENDACIONES Y SUGERENCIAS FINALES................................................................... 93

VII . REFERENCIAS......................................................................................................... 94

sinc


H.L



ticodelHabla"


199

6.


7/109

1

I . Introduccin

Antecedentes y Definic iones

El Reconocimiento Automtico del Habla (RAH) es un campo multidisciplinario conespecial vinculacin al Reconocimiento de Formasy a la Inteligencia Artificial(IA). Suobjetivo es la concepcin e implementacin de sistemas automticos capaces deinterpretar la seal vocal humana en trminos de categoras lingsticas de un universodado. Segn el tipo de categora, universo y locutor/es presenta distintos grados decomplejidad. Para una revisin completa del tema ver [LHR90].

Varias dcadas de Investigacin y Desarrollo fueron estableciendo la importancia de lassiguientes dimensiones en la comprensin de las propiedades de un sistema dereconocimiento automtico del habla [LHR90]:

Dependencia Vs. Independencia del Hablante: un sistema Dependiente del Hablante(DH) est entrenado para reconocer solamente una nica voz. Un sistema

Independiente del Hablante (IH) puede reconocer el habla emitida por virtualmentecualquier persona, aunque con menos exactitud.

Palabras Aisladas Vs. Discurso Continuo: Un sistema de Reconocimiento de Pa-labras Aisladas (RPA) requiere que se efecten pausas entre las palabras

pronunciadas. El Reconocimiento del Discurso Continuo (RDC) permite emitir el

habla en una forma ms natural, pero es ms complejo y ms sujeto a errores. Amplitud del Vocabulario y Complejidad de la Gramtica: el vocabulario de un

sistema define el conjunto de palabras reconocibles, y la gramtica define el tipo deoraciones -o secuencias de palabras- permitidas. Los sistemas de reconocimiento delhabla con vocabularios pequeos y gramticas restrictivas son ms fciles deimplementar, pero los sistemas con vocabularios amplios y gramticas permisivasson ms tiles.

Reconocimiento del Habla Vs. Comprensin del Habla: Un sistema dereconocimiento del habla produce una secuencia de palabras mientras que un sistema

de comprensin intenta interpretar la intencin del hablante.Todos los sistemas con interfaces orales -tanto los comerciales como los prototiposexperimentales- se esfuerzan en lograr una gran precisin. Generalmente esa meta se al-canza a costa de sacrificar una o ms de las dimensiones anteriores. La estructurageneral de uno de estos sistemas tiene esencialmente tres componentes o etapas

1. Procesamiento o Anlisis del Habla: en esta etapa se realiza algn tipo de anlisis dela seal de voz en trminos de la evolucin temporal de parmetros espectrales(previa conversin A/D de la seal). Esto tiene por funcin hacer ms evidentes lascaractersticas necesarias para la etapa siguiente. A veces tambin tiene por objeto

reducir la dimensin de los patrones para facilitar tambin su clasificacin.

sinc(

i)ResearchCenterf

orSignals,SystemsandComputationalIntelligence(fich.unl.edu.ar/sinc)

H.

L.

Rufiner;"Compara

cinentreAnlisisWaveletsyFourieraplicad

osalReconocimientoAutomticodelHabla"

UniversidadAutnomaM

etropolitana,Mxico,

1996.


8/109

I. Introduccin 2

2. Reconocimiento o Clasificacin de Unidades Fonticas : esta etapa clasifica oidentifica los segmentos de voz ya procesados con smbolos fonticos (fonemas,dfonos o slabas). A veces se puede asociar una probabilidad con este smbolofontico, lo que permite ampliar la informacin presentada al siguiente mdulo.

3. Anlisis en Funcin de Reglas del Lenguaje : En esta ltima etapa se puedenaprovechar las reglas utilizadas en la codificacin del mensaje contenido en la sealpara mejorar el desempeo del sistema y producir una transcripcin adecuada. Aquse utilizan otras fuentes de conocimiento como la Ortografa, la Sintctica, laSemntica o la Pragmtica (ver ms adelante).

A veces se agrega un nivel ms o que podra llamarse etapa de Comprensin, esto escuando el sistema est orientado a realizar alguna accin en funcin de rdeneshabladas. Debe aclararse que la separacin en reconocimiento y comprensin esarbitraria ya que en realidad nosotros realizamos estos procesos al mismo tiempo y conuna fuerte interaccin entre ellos. El RAH presenta inconvenientes especiales involu-

crados con el proceso de comprensin que hacen que un sistema prctico de este tiposea difcil de implementar [Whi90]. La conversin sin ninguna restriccin de la sealanalgica en su correspondiente representacin fonolgica (reconocimiento) no se halogrado hasta el momento. El lenguaje humano tiene una inmensa complejidadsintctica y semntica, no comparable con el de ninguna otra especie, y esto nos da unaidea del potencial informtico necesario para intentar comprenderlo o al menostranscribirlo.

Algunos de los problemas se presentan en esta aplicacin -especialmente en el RDC- sedetallan a continuacin [LHR90]:

Ambigedad: Existen ambigedades tanto a nivel de las unidades bsicas, comolingstico (palabras que solo pueden ser interpretadas en el contexto) y tambindebidas a la coarticulacin. Existen palabras con distinto significado y funcin que

poseen la misma representacin fonolgica (homfonos).

SealAnal gi ca

PreprocesoCl as i f i cac i n

deFonemas

A/ DSi nt axi s,

Or t ogr af a,et c

ool aa

Hol a

SealDi gi t al

Anl i s i sEspect r al

Secuenci aFonemas

Transcr i pci nf i nal

Figura 1: Componentes de un Sistema de Reconocimiento.

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


9/109

I. Introduccin 3

Ruido de fondo: Se produce superposicin de la seal de voz pura con el sonidocircundante e inclusive con otras voces presentes en el recinto a las cuales no debe

prestarse atencin.

Variaciones entre hablantes: Existen modificaciones debidas a acentos regionales,

dialectos y a las diferentes caractersticas propias de cada hablante.

Variaciones del mismo hablante: Hay variaciones en la seal del mismo hablante, endistintos momentos, debido a distintos estados anmicos como felicidad, depresin,emocin o inclusive debido a cambios en el estado de salud.

Segmentacin: En forma contraria a lo que se podra esperar, la mayora de laspalabras no aparecen separadas en la seal normal -nosotroslasentendemoseparadas-, y tampoco es posible separarlas slo con la informacin contenida en dicha seal.Esto es debido a la interarticulacin entre los fonemas de las palabras adyacentes, sufalta de silencio intermedio y adems porque algunos fonemas que deben repetirse en

su representacin escrita aparecen slo una vez en la seal vocal.

Una idea aproximada de la complejidad involucrada en el reconocimiento de la seal devoz se puede obtener al apreciar un espectrograma de una emisin tpica y su corres-

pondiente representacin temporal ( Figura 2). Este revela las complejas relacionestemporales-frecuenciales que deben establecerse para reconocer o clasificar los fonemasincluidos en la seal, sin tener en cuenta las ambigedades de orden superior y otrasdificultades intrnsecas.

En un sistema tpico el proceso de reconocimiento y comprensin del lenguaje habladoconsiste en una serie de transformaciones que se aplican a la seal de voz original, estas

transformaciones pueden ser vistas como la interpretacin de esa seal a la luz dediferentes clases de conocimiento.

La resolucin completa del problema del reconocimiento del discurso continuo debehacer uso de las siguientes fuentes de conocimiento o niveles de anlisis [LHR90]:

1. Fontico:se encarga de la representacin de las caractersticas fsicas de los sonidosutilizados para la produccin del habla.

2. Fonmico: se ocupa de la descripcin de las variaciones en la pronunciacin queaparecen dentro de una palabra o cuando las palabras son dichas juntas en una frase

(coarticulacin, fusin de slabas, etc.).

3.Morfmico: realiza una descripcin del modo en que los morfemas (unidades designificacin) son combinados para formar palabras. (formacin de plurales,conjugacin de verbos, etc.).

4. Prosdico: consiste en una descripcin de la fluctuacin en la acentuacin yentonacin durante el transcurso de una frase (que tambin lleva informacin acercade lo que se est diciendo).

5. Sintctico:constituye la gramtica o reglas de formacin de frases, dando lugar a una

limitacin del numero de frases (no todas las combinaciones de palabras son frasesautorizadas).

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


10/109

I. Introduccin 4

6. Semntico:consiste en analizar el significado de las palabras y las frases que puedeser visto tambin como una restriccin sobre el alcance del mensaje. (no todas lasfrases validas gramaticalmente tienen significado).

7. Pragmtico:se ocupa de las reglas de conversacin (en un dialogo la respuesta de un

interlocutor no debe ser solamente una frase con significado sino tambin unarespuesta razonable a cerca de lo que se esta diciendo).

No obstante lo anterior, actualmente se pueden desarrollar sistemas prcticos queutilicen solo algunas de las fuentes antedichas, ya que el sistema completo en el sentidoanterior requerira una cantidad enorme de procesamiento y sofisticacin.

La simplificacin ms notable consiste en un sistema que reconozca solo palabrasaisladas (generalmente 200 o 300 palabras) en un universo delimitado, o RPA ygeneralmente del tipo DH. En la otra punta tenemos el RDC sin restricciones en elhablante y aceptando frases complejas. Entre ambas hay una gran gama deconfiguraciones, algunas con aplicacin industrial, sin embargo la ambiciosa meta delRDC parece resistirse a los ms complejos mtodos puestos en juego para abordarla.

El conocimiento fontico fue utilizado en los primeros sistemas de RPA. En estossistemas se utilizaban plantillas fonticas de referencia que se comparaban con la en-trada al sistema, midiendo la distancia con respecto a ella se poda asociar dicha entradacon una palabra especifica. Como se puede ver, este enfoque tan rgido es imposible deextender al dominio del discurso continuo y de vocabulario ilimitado.

Figura 2: Sonograma y Espectrograma

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


11/109

I. Introduccin 5

Dadas la alta variabilidad de las caractersticas acsticas de los sonidos segn sucontexto es necesario elegir una representacin de la seal que incluya aspectos de lamisma que puedan distinguir unidades elementales. Dos tipos de unidades en estesentido son: los alfonos y los fonemas. Los alfonos son las representaciones de lossonidos segn aparecen realmente en las palabras. Los fonemas son representaciones

ms abstractas que capturan las caractersticas comunes de una clase de alfonos y sepueden caracterizar por una matriz de rasgos acsticos.

La mayor ventaja de la utilizacin de fonemas como unidad de base para representar laspalabras habladas es que nunca hay ms de 40 distintos por lengua (del orden de 20 parael castellano) ya que este tipo de representacin no tendra en cuenta rasgos propios delhablante o emociones. La desventaja es que los fonemas son unidades abstractas que nose encuentran en forma explcita en la seal de voz. Es decir que, en el habla natural, losfonemas son realizados mediante la accin coordinada de todo el aparato fonador, por loque existen fuertes modulaciones entre ellos. Por ello la seal acstica real de cadafonema depende de cual le precede, del que le sigue y del estado transitorio del aparato

fonador.

Clasificar a los alfonos en fonemas abstractos necesita un anlisis muy fino de lamanera en la que el contexto del discurso determina los alfonos de un fonema. Estosestn sometidos a alto grado de variacin debido a las diferencias entre hablantes, las deun mismo locutor y las producidas por el contexto. La dependencia del entorno se debeal fenmeno ya mencionado de la coarticulacin; es el caso por ejemplo de lascaractersticas acsticas de las vocales que responden a las de las consonantesadyacentes y viceversa, y a si existen espacios a continuacin o antes de ellas. Adems,los rasgos de los alfonos pueden verse afectados por elementos suprasegmentales, esdecir, que afectan a ms de un segmento, como acento y entonacin.

Otro tipo de unidad frecuentemente utilizada son los dfonos, que consisten en la uninde dos fonemas desde la porcin estable del primero hasta la posicin estable delsegundo. Esto asegura que se tiene en cuenta la informacin contenida en lastransiciones, la cual ha demostrado ser de gran importancia para la inteligibilidad en

pruebas psicoacsticas con voz sinttica. En general han confirmado ser unidadesfonticas ms fcilmente identificables que los fonemas [GWS92]. Asimismo sonmucho menos numerosos que las slabas lo que facilita su manejo y la implementacinde los mtodos utilizados para su clasificacin.

La dificultad para resolver los problemas asociados al reconocimiento del hablamediante tcnicas de procesamiento convencionales, est dado por la complejidad de lasseales implicadas, ya que las mismas presentan funciones estadsticas de densidadsuperpuestas, tienen formas complicadas en espacios de varias dimensiones o son noestacionarias [Koh88]. El castellano presenta ventajas comparativas frente a los idiomasanglosajones, y an otras lenguas latinas, a los efectos de ser reconocido por unamquina. Su menor nmero de fonemas bsicos, la mayor separabilidad de suscaractersticas acsticas y la correspondencia entre las regiones de decisin determi-nadas por estas ltimas con los respectivos fonemas, facilitan la tarea; sin embargo, el

problema ms grave est centrado en aceptar las seales provenientes de cualquier ha-blante, con independencia del tono de voz, velocidad de pronunciacin y discontinuidad

en el modo de hablar.

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


12/109

I. Introduccin 6

Aunque las tcnicas utilizadas por los sistemas de reconocimiento automtico del hablahan mejorado notablemente su desempeo en los ltimos aos, sta dista mucho de seradecuada para algunas aplicaciones. La mayor parte de los sistemas se basa en laaplicacin de Modelos Ocultos de Markov (HMM), los que han sido tiles para tratarlos aspectos secuenciales de la seal de habla, pero no han sido tan eficientes como

clasificadores de fonemas [MoB95]. Tambin se ha recurrido para esta tarea al empleode redes neuronales artificiales y en particular a aquellas arquitecturas que permitantratar los aspectos dinmicos de la seal de voz. La aparicin de tcnicas deentrenamiento eficaces para redes neuronales -en particular las redes anteroalimentadas-

permiti la aplicacin de las mismas al procesamiento del habla, aunque hasta hacepoco tiempo estuvieron orientadas a patrones estacionarios. Para evitar este escollo sedisearon redes neuronales que -adems de los patrones estticos- incorporaransimultneamente informacin generada en diferentes instantes. As surgieron las Redes

Recurrentes (RNNs) y las Redes con Retardos Temporales (TDNNs) que permitendescubrir caractersticas acstico-fonticas y sus relaciones a lo largo del tiempo[WHH89].

Descr ipcin del Trabajo

Mediante el presente estudio se pretende avanzar un poco ms hacia la compresin delos pasos implicados en el diseo de un dispositivo capaz de traducir voz a texto. Elmismo consiste en una comparacin objetiva entre distintos tipos de anlisis o

preprocesamiento para un sistema de RAH. Explcitamente la comparacin se realizaentre el anlisis de Fourier con ventanas y el anlisis basado en Wavelets. Se suponeque cuanto mejor sea el anlisis o proceso utilizado para generar los patrones aidentificar (en este caso de voz), ms separadas quedan las clases en el espacio de

patrones y las regiones obtenidas son ms simples. Esto conlleva una mayor facilidadpara aprender las regiones de decisin mediante tcnicas de aprendizaje automtico. Enparticular, distintas arquitecturas de redes neuronales artificiales han demostradoresolver bien los problemas relacionados con el RAH. Entre estas se pueden citar losPerceptrones Multicapa (MLPs) [RHW86], y como ya se mencion las RNNs[Tak95], las TDNNs [WaH89], [WHH89], as como tambin las Redes Neuronales de

Alto Orden(HONNs) [DaR95]. Estas pueden constituir una forma objetiva para medirel desempeo del anlisis de acuerdo a la velocidad de aprendizaje y los errorescometidos en la clasificacin. A pesar de ello es conveniente contar con algn mtodode evaluacin ms rpido y sencillo por lo que en este trabajo se explorarn tambinotras alternativas. Por otra parte las tcnicas de aprendizaje no supervisado pueden

brindar otra perspectiva acerca de la distribucin de los patrones en el espacio generadopor cada mtodo [Koh88], [Lip87].

El tipo de anlisis clsico para las seales de voz ha sido la Transformada de Fourier deTiempo Corto (STFT) [RaS87], [Ope70]. Tambin se pueden mencionar los mtodos

basados en Coeficientes de Prediccin Lineal (LPC) [Mak75]. Sin embargorecientemente se ha desarrollado la Transformada Wavelet(WT) que permite realizar elanlisis de seales no estacionarias en forma ms eficiente. Adems se ha descubiertoque el tipo de anlisis realizado de esta forma es anlogo al que realiza el odo a nivelde la cclea [RiV91], [Dau92]. Esto nos alentara a investigar esta herramienta debido a

que nuestro odo es un dispositivo especialmente adaptado para el anlisis de la voz. Enrealidad existe una adaptacin recproca entre el aparato fonador y el aparato auditivo y

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


13/109

I. Introduccin 7

otras estructuras del Sistema Nervioso Central para asegurar la transmisin del mensajecontenido en la seal con la menor distorsin [Fle53]. Por otra parte existen diferentes

bases o familias de Wavelets que pueden utilizarse para el anlisis [RiV91], [AHT93],[Dau92] y habr que resolver (de manera similar) cual es la base ptima para el caso

planteado.

El idioma castellano (a diferencia del Ingls o Chino) ha demostrado ser ms sencillopara su aprendizaje automtico debido a que se pueden encontrar reglas nicas para sutranscripcin [Koh92], [Roc87], [GuB75]. Sin embargo el trabajo se realizar sobre unaserie de fonemas del idioma ingls, en particular sobre las series ms fcilmenteconfundibles. Esto se debe a que existen gran cantidad de bases de datos standard eneste idioma, lo que permite conseguirlas fcilmente y poder comparar resultados conotras estrategias similares ya implementadas. Para los experimentos se elegir el casomulti-hablante por ser el de aplicacin prctica ms directa. La razn de usar fonemascomo unidad de clasificacin se debe a su pequea cantidad y a su gran difusin en elmbito del RAH. Por otra parte parecen ser buenas unidades para la construccin de

sistemas modulares para resolver el problema en forma ms general (los dfonospodran ser otra opcin) [WaH89].

Por ltimo se debe mencionar que se han encarado comparaciones similares en otrosmbitos con resultados favorables para el Anlisis Wavelets (por ejemplo [NaR95] para

prediccin del nivel de anestesia mediante Potenciales Evocados Auditivos). Ladiferencia entre los campos no permite extrapolar los resultados pero junto con otrosfactores ya mencionados alienta la experimentacin con esta tcnica. A pesar de que laseal de voz es una de las mejor estudiadas en el mbito del procesamiento digital lostrabajos basados en Wavelets se han orientado principalmente a cuestiones comocompresin y filtrado pero prcticamente no ha sido empleada en sistemas de RAH[Fav94].

sinc(

i)ResearchCenterf


H.

L.

Rufiner;"Compara



UniversidadAutnomaM

etropolitana,Mxico,

1996.


14/109

8

H. L. Rufiner Comparacin entre Anlisis Wavelets y Fourier...

II . Aspectos Fisiolgicos

IntroduccinA los efectos de abordar esta comparacin entre dos formas diferentes de anlisis del hablasera conveniente conocer la seal de voz (objeto de nuestro anlisis) y su forma deproduccin, de manera de comprender su naturaleza. As mismo, deberamos entender elprocesamiento llevado a cabo por el sistema auditivo para discernir cuales son losparmetros relevantes de la seal que se deben extraer para lograr su reconocimiento. Todoesto vuelve imprescindible el estudio de los fundamentos anatmicos y fisiolgicosinvolucrados en el proceso de emisin-percepcin del habla.

Este captulo se organizar de la siguiente forma. A continuacin se describir el

mecanismo de produccin del habla y los rganos involucrados. Esto incluye la descripcinde los principales tipos de fonemas. Luego se presentarn aspectos relacionados con laseal de voz propiamente dicha mostrando algunos ejemplos. Finalmente se esbozarn losprincipios y elementos que intervienen en la audicin.

Mecanismo de produccin del habla

Para comenzar esbozaremos brevemente los mecanismos de involucrados en la produccindel habla. Para un desarrollo detallado aplicado al idioma espaol remitirse a [Bor80],[RuZ92] o [Ruf94]. El aparato fonador se puede considerar como un sistema quetransforma energa muscular en energa acstica. La teora acstica de produccin del habla

describe este proceso como la respuesta de un sistema de filtros a una o ms fuentes desonidos. En la representacin simblica, si Hes la funcin de transferencia del filtro querepresenta el tracto vocal en un instante dado y F la fuente de excitacin, el producto P=H . F representa el sonido resultante. La fuente F indica la perturbacin acstica de lacorriente de aire proveniente de los pulmones. Se pueden identificar tres mecanismosgenerales en la excitacin del tracto vocal:

1. Las cuerdas vocales modulan un flujo de aire que proviene de los pulmones dando comoresultado la generacin de pulsos cuasiperidicos.

2. Al pasar el flujo de aire proveniente de los pulmones por una constriccin en el tracto

vocal se presenta la generacin de ruido de banda ancha.

3. El flujo de aire produce una presin en un punto de oclusin total en el tracto vocal; larpida liberacin de esta presin, por la apertura de la constriccin, causa una excitacinde tipo plosivo, intrnsecamente transitoria.

sinc


H.L



ticodelHabla"


199

6.


15/109

II. Aspectos Fisiolgicos 9


En la Figura 3 se observa un esquema simplificado del aparato fonador y en la Figura 4 seaprecia una seccin sagital del mismo. La zona comprendida entre la laringe (glotis) y loslabios constituye el tracto vocal propiamente dicho.

En sntesis, los sonidos del habla son el resultado de la excitacin acstica del tracto vocal

por la accin de una o ms fuentes. En este proceso los rganos fonatorios desarrollandistintos tipos de actividades, tales como movimiento de pistn que inician una corriente deaire, movimiento o posiciones de vlvula que regulan el flujo de aire, y al hacerlo generansonidos o en algunos casos simplemente modulan las ondas generadas por otrosmovimientos.

El sistema respiratorio constituye laprincipal fuente de energa paraproducir sonidos en el aparatofonador humano. La energa esproporcionada en forma de flujo ocorriente de aire y presiones que, apartir de las distintas perturbaciones,generan los diferentes sonidos. Elaparato respiratorio acta tambin enla regulacin de parmetros tanimportantes como la energa(intensidad), la frecuenciafundamental de la fuente peridica,el nfasis y la divisin del habla envarias unidades (slabas, palabras,frases).

La laringe juega un papelfundamental en el proceso deproduccin del habla. La funcinfonatoria de la laringe se realizamediante un complejo mecanismo enel que intervienen no slo los

pliegues vocales, los cartlagos en los que se insertan y los msculos larngeos intrnsecossino tambin de las caractersticas del flujo de aire proveniente de los pulmones. La formade onda de los pulsos generados puede representarse como una onda triangular.

El tracto vocal est formado por las cavidades supraglticas, farngeas, oral y nasal, comose ilustra en la Figura 5.

El tracto vocal puede mantener una configuracin relativamente abierta y actuar slo comomodulador del tono gltico o estrechar o cerrar el paso de la corriente de aire en una zonaespecfica. El tracto acta como filtro acstico, principalmente en los sonidos concomponente gltica, pudiendo modificar sus parmetros en forma continua. Si se observanlos espectros de los sonidos voclicos, stos proporcionan informacin sobre todos losaspectos relevantes de la configuracin del tracto en ese instante. Es decir, todas las

Figura 3: Esquema del aparato fonador

sinc


H.L



ticodelHabla"


199

6.


16/109



resonancias del tracto, resultantes de su configuracin, pueden observarse directamente enel espectro del sonido voclico.

Consideramos ahora las configuraciones del tracto que corresponden a cada sonido ya que -como se dijo antes- toda configuracin presenta caractersticas propias de resonancia que

junto con la fuente de excitacin actuante, dan al sonido su peculiar cualidad fontica. Porello se agrupan los sonidos en voclicos y consonnticos. Esta divisin se sustenta tanto enlas caractersticas acsticas como en los gestos articulatorios que dan lugar a cada tipo desonido.

En la articulacin de vocales y sonidos tipo voclicos, el tracto presenta una configuracinrelativamente abierta y la fuente de excitacin es siempre gltica. Las propiedades de estossonidos persisten por un tiempo apreciable o cambian muy lentamente mientras semantenga la configuracin del tracto.

Figura 4: Corte del Aparato Fonador

Figura 5: Cavidades Supraglticas

Los pulsos glticos estimulan el tracto vocal que acta como sistema resonador. Este puedevariar su configuracin y con ello sus frecuencias de resonancias. Esta posibilidad devariacin es la que permite al hablante producir muchos sonidos diferentes. La forma deltracto en la produccin de las vocales esta controlada principalmente por la posicin de lalengua, de la mandbula y de los labios. Se pueden clasificar los sonidos voclicos pordistintas caractersticas acsticas:

sinc


H.L



ticodelHabla"


199

6.


17/109



Zonas de estrechamiento: Por estudios sistemticos de radiografas de articulacionesvoclicas se han localizado cuatro zonas de localizacin de la constriccin, de estamanera los sonidos voclicos se agrupan en Palatales (/i/, /e/), Velares (/u/),Velofarngeos (/o/) y Farngeos (/a/) segn el lugar de la constriccin.

Grado de estrechamiento: De esta manera se describen los sonidos voclicos segn elgrado de estrechamiento en la regin de menor rea o constriccin mxima, Constric-cin estrecha (/i/, /u/, /o/), amplia (/e/, /a/).

Abertura de la boca: Esta abertura cuya configuracin y grado estn determinadas por laaccin de los labios y del maxilar inferior, da lugar a importantes diferenciacionesacsticas y fonticas. Abertura amplia (/a/), abertura ms reducida (/i/, /u/).

Longitud del tracto: La longitud del tracto se modifica redondeando los labios, subiendoy bajando la posicin de la laringe. Labializado (/o/, /u/), deliabializado (/a/).

Los sonidos consonnticos se producen con una configuracin relativamente cerrada deltracto vocal. El cierre o estrechamiento del canal se realiza en zonas especificas del tractovocal por accin de partes especificas de las estructuras articulatorias. Entre los factoresque determinan la cualidad del sonido resultante, debemos distinguir aquellos que hacen almodo de articulacin (cierre o estrechamiento) de los que sealan la zona o lugar dearticulacin (lugar donde se produce cierre o estrechamiento). La participacin de la fuentegltica, la naturaleza del cierre o estrechamiento y la transmisin a travs de la cavidad oraly/o nasal, constituyen los principales factores del modo de articulacin.

Las consonantes, por otro lado, pueden ser agrupadas en los siguientes tipos articulatorios:

Oclusivas : se producen por el cierre momentneo total o parcial del tracto vocal seguido

de una liberacin ms o menos abrupta del aire retenido. Por ejemplo las totales /p/, /t/,/k/ o las parciales /b/, /d/, /g/.

Laterales : estos se producen cuando se hace pasar la seal sonora gltica por loscostados de la lengua. Por ejemplo /l/ y /ll/.

Nasales : son producidas a partir de excitacin gltica combinada con la constriccin deltracto vocal en algn punto del mismo. Por ejemplo /m/, /n/.

Vibrantes : estos son producidos al pasar el aire por la punta de la lengua y producir suvibracin. Tienen componente gltica. Por ejemplo /r/ y /rr/.

Fricativas : se caracterizan por ser ruidos aleatorios generados por la turbulencia queproduce el flujo de aire al pasar por un estrechamiento del tracto. Pueden ser sonoroscomo /y/ si hay componente gltica o sordos como /f/, /s/ o /j/ si no la hay.

Africadas : Si los fonemas comienzan como oclusivos y la liberacin del aire es fricativase denominan africados. Por ejemplo la /ch/ del castellano.

sinc


H.L



ticodelHabla"


199

6.


18/109



Semivocales : estn formadas por la unin de dos de los anteriores hasta el punto deconvertirse en otro sonido. Algunos consideran en este grupo a las vibrantes y laslaterales, as como tambin la /w/ del ingls.

De lo dicho anteriormente, se podra inferir que el habla es, de alguna manera, un hecho

discreto, es decir una sucesin de sonidos voclicos y consonnticos. Pero si observamos laseal de la voz, la representacin acstica de una frase, veremos muy pocas pausas ointervalos entre los sonidos. El habla constituye un continuo acstico, producido por unmovimiento ininterrumpido de algunos rganos del aparato fonador. A pesar de lanaturaleza continua de la voz los oyentes pueden segmentarlas en sonidos.

Las caractersticas suprasegmentales de la voz estn determinadas por la entonacin, la cualdetermina la prosodia. Las variables que intervienen en la entonacin son las variaciones defrecuencia fundamental o pitch, la duracin y variaciones de energa sonoridad.

La prosodia en las uniones puede ser caracterizada por silencios, duracin en las vocales, opor formas como puede ser la presencia de sonoridad o aspiracin. Por ejemplo en la fraseperdonar, no matar existe una pausa despus de perdonar pero si la coma cambia delugar perdonar no, matar el silencio se produce despus de no cambiando totalmente elsignificado del mensaje.

Figura 6: Sonograma de /a/, /e/, /i/, /o/, /u/ (espaol)

sinc


H.L



ticodelHabla"


199

6.


19/109



La Seal de Voz

Hasta ahora hemos descripto los distintos tipos de fonemas y la forma en la que se originanen el aparato fonador. Sin embargo hemos hecho pocas referencias a los aspectos referentesa la seal o su espectro que son de alguna manera el substrato del que obtendremos

nuestros patrones para pasar al clasificador.Empezaremos por analizar las vocales, en la Figura 6 se observa el sonograma de lasvocales del espaol pronunciadas en forma sostenida y aislada por un hablante femenino.En este caso se observa un fuerte parecido entre /o/ y /u/, lo cual es de suponer porque sepuede decir que son vocales cercanas.

Figura 7: Sonograma y Espectro de una /eh/

sinc


H.L



ticodelHabla"


199

6.


20/109



Como ya se dijo en los espectros de los sonidos voclicos pueden observarse todas lasresonancias del tracto. Estas resonancias aparecen como picos en el espectro y sedenominan formantes. En la Figura 7 aparece el sonograma de una /eh/ en la palabrainglesa had y el espectro suavizado (estimado con un modelo AR) donde se aprecianclaramente los picos. Las formantes se numeran a partir del 0, correspondiendo f0 a la

frecuencia fundamental directamente relacionada con la entonacin de una frase o emisin.El resto de las formantes, principalmente f1 y f2, constituyen un medio para caracterizar alas vocales. En la Figura 18 (Captulo siguiente) se pude apreciar un grfico de distribucinde las vocales inglesas en funcin de f1 y f2. La presencia de formantes evidencia si se tratade un trozo sonoro o sordo (con o sin componente gltica).

Existen algunas caractersticas de la seal de voz que se pueden evidenciar medianteanlisis relativamente sencillos como ser la Energa de Corto Tiempo y la Cantidad deCruces por Cero. Estos anlisis tienen la ventaja de ser sencillos en su implementacindigital y muy rpidos. La Energa da una idea de la intensidad de la seal en funcin deltiempo y constituye una parmetro de suma importancia ya que permite diferenciar entre

varios tipos de fonemas y constituye una parte esencial de la entonacin (junto con f0). LosCruces por Cero constituyen una medida indirecta del contenido frecuencial de la seal.

En la Figura 8 se observan estas curvas para la palabra inglesa suit. La curva de Cruces

Figura 8: Sonograma, Cruces por Cero y Energa de 'suit'

sinc


H.L



ticodelHabla"


199

6.


21/109



por Cero se muestra en color violeta y la de Energa en color Azul. La primera porcin dela palabra corresponde al fonema fricativo /s/, lo que se refleja en el sonograma como untrozo ruidoso. As mismo la cantidad de Cruces por Cero es muy alta debido al altocontenido frecuencial de la seal. Por el contrario la energa es relativamente baja enrelacin al trozo correspondiente a la vocal. De esta manera ambos anlisis permiten

distinguir rpidamente entre fonemas sonoros y sordos.

En la Figura 9 se observa el espectrograma de la misma emisin donde se aprecia tambinel contenido de alta frecuencia de la /s/, la estructura formntica de /u/,/i/ y la cortaduracin de la oclusiva /t/.

Podran llenarse muchas pginas con grficos y anlisis de los distintos fonemas. Sinembargo nuestro inters aqu no es presentar este material de manera exhaustiva sino msbien, y como ya se mencion, mostrar unos pocos ejemplos que permitan comprendermejor la naturaleza de la seal de voz.

Fisiologa de la Audicin

En nuestro trabajo, el inters principal es comprender como se realiza el procesamiento dela seal de habla por la periferia auditiva, en particular el procesamiento del castellanohablado y otros lenguajes fonticamente similares.

Figura 9: Espectrograma de la palabra 'suit'

sinc


H.L



ticodelHabla"


199

6.


22/109



Nos podramos hacer la siguiente pregunta: Que propiedades de la periferia auditiva son

particularmente apropiadas para codificar la voz?. La respuesta en parte, se encuentra en lacapacidad magnfica del sistema auditivo para resolver simultneamente tanto lascaractersticas espectrales como temporales de estmulos de banda ancha.

En la Figura 10 puede apreciarse un corte transversal del odo. En el se observa parte delodo externo, el odo medio y el interno (la cclea se halla desplegada para mayor claridad).En la Figura 11 puede apreciarse un corte de la coclea y en la se aprecia una ampliacindel mismo donde se distinguen las clulas ciliadas encargadas de la transduccin mecnico-elctrica y la membranas Basilar y Tectoria. Para una descripcin anatmica y fisiolgicadetallada de la va auditiva remitirse a la extensa bibliografa al respecto, como por ejemplo[Som86].

El odo humano funciona en un medio areo y por ello es comprensible que represente unaparato bastante eficiente para la recepcin de sonidos transmitidos por el aire.

Cuando funciona normalmente, es estimulado por las ondas de presin que se transmiten atravs del aire siguiendo el conducto auditivo externo hasta el tmpano o membranatimpnica, cuya superficie es de aproximadamente 70 mm.

En el funcionamiento normal del sistema auditivo el sonido se transmite desde lamembrana del tmpano a travs de la cadena de huesecillos del odo medio, cuya funcinprincipal es adaptar impedancias [KhT72]. El ms interno de ellos -el estribo- establececontacto con la ventana oval que esta ubicada en la base de la cclea.

Una vez excitada la ventana oval el sonido se transmite a travs de la perilinfa de la rampavestibular en la cclea, atraviesa el helicotrema y sigue su recorrido en la rampa timpnicahasta la ventana redonda.

Figura 10 : Corte del Odo

sinc


H.L



ticodelHabla"


199

6.


23/109



La ventana oval y la redonda trabajan de forma tal que cuando una se comba hacia adentrola otra se comba hacia afuera y viceversa, el movimiento hacia adentro y afuera se repitecon la misma frecuencia del estmulo sonoro.

En la cclea es donde tiene lugar la transduccin. sta se produce como respuesta a una

curvatura de las cilias de las clulas ciliadas, esta curvatura produce una variacin en elpotencial de membrana de las clulas; si las cilias se curvan hacia el cuerpo basal seproduce una despolarizacin, mientras que si se curvan en el otro sentido se produce unahiperpolarizacin.

La excitacin de las clulas ciliadas est determinada, en gran medida, por las excursionesde la membrana Basilar; sobre la cual actan las ondas de presin oscilatorias resultantes dela transmisin del sonido en las rampas vestibular y timpnica.

Hasta el trabajo de Georg von Bkesy en los 1940s y 50s [Bk60], los conceptos devibracin de la membrana Basilar se basaron en anatoma [Hel54] o estudios psicofsicos

[Fle53]. Debido a los niveles altos de intensidad utilizados y a que la mayora de susexperimentos utilizaban huesos temporales de cadver, sus resultados nos dan solo unaimagen de primer orden de la mecnica coclear.

Figura 11 : Corte de la Cclea

sinc


H.L



ticodelHabla"


199

6.


24/109



Figura 12: Detalle de las Clulas Ciliadas.

El hecho de que la membrana Basilar sea ms rgida en un extremo que en el otro tiene unaconsecuencia muy importante; la membrana es ms rgida cerca de la ventana oval dondesu ancho es mnimo, por lo tanto tiene menor cantidad de masa por unidad de longitud;estas caractersticas hacen que la membrana en esta regin vibre con preferencia ante unestmulo de alta frecuencia. De esta forma, las vibraciones de alta frecuencia tendrn su

mxima amplitud cerca dellugar donde las ondascomienzan a desplazarse,

pronto disiparan la mayorparte de su energa y sedesvanecern en el camino noalcanzando nunca el vrtice.Las vibraciones de bajafrecuencia, por el contrario,comenzaran con una amplitudpequea cerca de la base y lairn aumentando a medida quese acerquen al vrtice; de estaforma tenemos representadas

las frecuencias audibles a lolargo de toda la cclea. De estamanera, la amplitud de lasvibraciones en distintos puntosde la cclea vara con la fre-cuencia del estmulo; el gradoen el cual es excitada unadeterminada clula ciliada es

Figura 13: Envolventes de Mxima Vibracin y Curvas deResonancia.

sinc


H.L



ticodelHabla"


199

6.


25/109



una funcin conjunta de suposicin en la membranaBasilar y de la amplituddel estmulo.

Las excursiones mximasde la membrana Basilarhan sido mapeadas comouna funcin de la distanciaal estribo, para tonos deigual intensidad perodistintas frecuencias. Estosmapas se denominanenvolventes de la onda dedesplazamiento (Figura 13-A). Empleando los datos

necesarios para laconstruccin de estasenvolventes, tambin sepueden graficar lasamplitudes relativas de lasexcursiones para losdistintos puntos sobre lamembrana Basilar comouna funcin de lafrecuencia del estmulo;estas son las curvas de

sintona mecnica o curvasde resonancia (Figura 13-B).

La curva de resonancia dela membrana Basilardescribira con precisin laexcitacin de las clulasciliadas en funcin de lafrecuencia, si ste fuera elnico factor que influyera

en la vibracin de lasclulas ciliadas. Sinembargo, las propiedadesmecnicas de las cilias yde la membrana Tectoriaque las cubre tambininfluyen en la vibracin delas clulas ciliadas; de

Figura 14 : Curvas de Sintona Nerviosa

Figura 15 : Resonancia Mecnica y Sintona Nerviosa

sinc


H.L



ticodelHabla"


199

6.


26/109



hecho, la rigidez de las cilias, la masa y la elasticidad de la membrana Tectoria varan de unextremo al otro de la cclea.

Estas caractersticas del complejo clula-membrana Tectoria tiene el efecto de limitar lasintona de las clulas ciliadas a un ancho de banda de frecuencias ms estrecho que el del

punto de la membrana Basilar donde se encuentra la clula.En los 1960s, los estudios fisiolgicos de trenes de impulsos en fibras de nervio auditivonicas de gatos [KWT65] proveyeron nueva informacin y se suscitaron ms preguntasacerca de la periferia auditiva. Al comienzo de estos estudios se hizo uso extensivo detonos puros (sinusoides).Una vez que se aisl una fibra se pudieron registrar impulsosde esa fibra nica. Era usual obtener una curva de sintona que trazaba las respuestasumbral versus la frecuencia (Figura 14). El mnimo de una curva de sintona indica el lugara lo largo del caracol que ocupa la clula ciliada que excita la fibra. Una caracterstica delas curvas de sintona es que cerca de su mnimo (frecuencia caracterstica o C.F.), su formaes mucho aguda que las curvas de sintona de los resultados de Bekesy.

En la Figura 15 vemos la curva de resonancia en un punto de la membrana Basilar (1) y lacurva de sintona de una fibra nerviosa que inerva a la clula ciliada en ese punto (2); lacurva de resonancia (1) muestra los niveles de presin sonora relativos requeridos parahacer vibrar la membrana en ese punto a una amplitud dada para varias frecuencias desonido, la curva de sintona (2) muestra el umbral de la fibra nerviosa a los estmulossonoros de frecuencia variable. Ntese que las curvas (1) y (2) tienen frecuencias de cortesimilares, pero del lado de las bajas frecuencias la curva (2) es mucho ms escarpada que lacurva (1). Varios mecanismos fueron propuestos para explicar esta aparente discrepanciaentre las curvas de sintona mecnicas y neurales. Estudios de la mecnica de la membranaBasilar utilizando mtodos refinados mostraron una agudeza de sintona mecnica bastanteparecida a la de la sintona neural [Rug92].

Se puede decir que la membrana Basilar esta mecnicamente sintonizada con la frecuenciadel sonido aplicado, por esta razn se puede pensar que las descargas nerviosasprovenientes de zonas determinadas de la membrana Basilar ya tienen la informacin de la

Figura 16 : Neurograma de /ba/

sinc


H.L



ticodelHabla"


199

6.


27/109



frecuencia del estimulo. El estudio detallado de la respuesta del nervio auditivo a estmuloscomplejos tales como el habla esta recin en sus comienzos. Aunque no hay un caminopara dar una descripcin definitiva en este momento, es razonable asumir que lacodificacin de la seal del habla por el nervio auditivo esta caracterizada por contener unnumero finito de elementos (aproximadamente 30.000 fibras del nervio auditivo en el

hombre) y las respuestas de cada elemento estn determinadas por una secuencia complejade estados distribuidos e iterativos que preceden la iniciacin de las espigas de descarga.Las fibras en la cclea estn tonotpicamente organizadas, de modo que las neuronas queinervan la base responden mejor a las altas frecuencias y aquellas que estn en el pice a lasbajas frecuencias. As el nervio auditivo puede considerarse una disposicin ordenada deelementos arreglados de acuerdo a la frecuencia caracterstica. Los elementos -fibras- enesta disposicin respondern incrementando su probabilidad de descarga cuando el niveldel estimulo supera el umbral.

Para sonidos voclicos intensos es posible que todas las fibras con frecuenciascaractersticas debajo de 4-5 KHz puedan estar en estado de saturacin. Bajo estas

circunstancias, la informacin acerca de la frecuencias formantes a niveles del hablaordinario pueden no aparecer en la distribucin espacial de informacin de frecuenciapromedio y deben ser codificadas en forma diferente, probablemente en patronestemporales de descarga. En particular, los patrones de respuesta de fibras con frecuenciacaracterstica cercana a la frecuencia formante pueden ser dominadas por componentessincronizadas de esa frecuencia formante.

El neurograma [SWS90] es una representacin directa de la informacin experimental o lasalida de un modelo del odo. Un neurograma basado en respuestas fisiolgicas al sonidoCV (consonante-vocal) sintetizado /ba/ se muestra en la Figura 16. Cada lnea delneurograma representa tasa de disparo instantnea promedio (IFR) de una fibra nerviosa.

La C.F. de la fibra est dada a la izquierda. A pesar del parecido con el clsicoespectrograma el neurograma presenta informacin de manera distinta, utilizando otraforma de codificar los patrones generados ms a la medida del sistema auditivo.

Otro dato neurobiolgicos importante es la arquitectura neuronal de la corteza auditiva. Lacorteza est formada por varias capas de clulas nerviosas, cada una de las cuales estconstituida por tipos especficos de neuronas. Las capas corticales superiores fuerondesarrolladas en las ltimas etapas evolutivas del cerebro de los mamferos y, en el caso delhombre, poseen una gran proporcin de la totalidad de las neuronas [Sej86], [Kel85],[Mar85], [LaZ87]. La actividad neuronal sigue, en general, un patrn vertical que da lugara la formacin de columnas que a su vez estn relacionadas lateralmente entre s. Dentro decada columna, una neurona perteneciente a una capa hace sinapsis directas sobre neuronasde la siguiente capa, o bien indirectamente, a travs de interneuronas [Mar85]. Esto dalugar -teniendo en cuenta los retardos sinpticos- a que una neurona cualquiera de las capasms altas reciba simultneamente informacin que fue generada en instantes distintos en laperiferia, lo que permite establecer relaciones temporales complejas.

sinc


H.L



ticodelHabla"


199

6.


28/109

22


III . Los Datos

IntroduccinGran parte del presente trabajo depende de los datos o muestras de voz etiquetadas (corpus)utilizados para generar los patrones para entrenamiento y prueba de los clasificadores. Lagran influencia sobre los resultados del corpus empleado tiene principalmente tres razones:

1. La cantidad de emisiones, cantidad de hablantes y diversidad fontica determinan lacomplejidad de la tarea de reconocimiento.

2. De la fiabilidad de los mismos depende en gran medida la validez de los resultadosobtenidos.

3. La disponibilidad y difusin de la base de datos empleada repercute sobre la posibilidadde comparacin con otras estrategias pasadas o futuras.

De acuerdo con estos puntos se decidi utilizar una base de datos standard del tipo citadoen la bibliografa especializada y los artculos ms recientes del rea. Este enfoque, comose mencion, tiene la ventaja de poder comparar los resultados con los reportadospreviamente. Sin embargo estas bases de datos estn disponibles generalmente en idiomaingls y los resultados no son directamente extrapolables al espaol (en general se esperaramejor desempeo que para el ingls). Estos corpora se pueden obtener en CD-ROM atravs de distintas instituciones (por ejemplo [LDC], [OGI]). Existen dos bases de datosmuy utilizadas, una de ellas es TIMIT [FWD86], [MoB95] para discurso continuo y la otraes NIST TI-46 [FaK94], [Fav94] para palabras aisladas. Esta ltima es una base multi-hablante y se han reportado gran cantidad de resultados para un subconjunto denominadoE-set, por tratarse de un conjunto de palabras altamente confundible entre s. Este conjuntoest compuesto por las palabras correspondientes al alfabeto ingls que tienen comosegundo fonema a /e/ (como /be/, /de/, /ge/, etc.). La baja energa y corta duracin de lasconsonantes en relacin a la vocal hacen que sea un conjunto difcil de clasificar. La baseTIMIT es tambin multi-hablante, pero bastante ms grande en tamao, y es una de las msempleadas en el mbito del discurso continuo por ser la ms grande, completa y mejordocumentada de su tipo. Ya que nuestro trabajo est orientado principalmente alreconocimiento de fonemas en discurso continuo se eligi TIMIT. Esta base o corpus poseeuna gran cantidad de fonemas en diversos ambientes y pronunciados por ms de 600hablantes diferentes. Esto constituye un total de unas 5 horas de material habladoetiquetado y casi 650 MBytes de informacin para procesar, lo que da una idea de lasdificultades involucradas en su manipulacin y utilizacin, as como tambin de lacomplejidad de la tarea de clasificacin de los fonemas contenidos en la seal. Lasdimensiones del problema del RAH se plantearon en el captulo de introduccin y se podradecir desde este punto de vista que se trata de un problema de identificacin de fonemas endiscurso continuo e independiente del hablante. Otro punto importante de mencionar es

sinc


H.L



ticodelHabla"


199

6.


29/109

III. Los Datos 23


que, debido a los procedimientos de grabacin, la seal registrada est prcticamente librede ruido, situacin que difcilmente se de en condiciones distintas a las de laboratorio.

A pesar de que se dispone de la infraestructura necesaria para el diseo e implementacinde una base similar a TIMIT en idioma castellano esto puede requerir de gran cantidad de

recursos humanos y tiempo, lo que hace imposible su uso en el presente proyecto. Parafuturos trabajos se pretende confeccionar esta base. Para ello se utilizar una cmaraanecoica diseada para este tipo de registros disponible en el Laboratorio de Audiologa dela UAMI. Las emisiones sern procesadas y etiquetadas por un software que se estdesarrollando al efecto [ARZ93], [ARZ94], [Aru94]. El diseo del corpus se realizar enforma conjunta con el departamento de Lingstica de la UAMI, con el que se hacomenzado ha colaborar en el marco de un proyecto interdisciplinario.

En lo que se sigue se describirn las caractersticas principales de TIMIT, as como suorganizacin y tipos de archivos, ilustrndose con algunos ejemplos. Luego se explicarcomo se escogieron los hablantes y se detallarn las condiciones utilizadas durante lagrabacin de los datos. Siguiendo se describir el tipo de texto empleado en las oraciones yla separacin de los datos en entrenamiento y prueba. A continuacin se presentarn losfonemas registrados y los smbolos utilizados para representarlos. Por ltimo se explicarnlos criterios empleados para elegir el conjunto de emisiones que emplearemos en el trabajo.

Descr ipcin de TIMIT

Aqu se describirn las caractersticas principales del corpus elegido de manera de definirperfectamente los alcances y complejidad de la tarea de clasificacin de fonemas extradosdel mismo, para ms detalles remitirse a la documentacin suministrada con la base dedatos [GLF93]. Esta base de datos ha sido confeccionada en forma conjunta por Texas

Instruments (TI) y el Massachusetts Institute of Technology (MIT). Consiste en una seriede emisiones de voz grabadas a travs de la lectura de diversos textos por un conjunto dehablantes. Esta base ha sido diseada para la adquisicin de conocimiento acstico-fonticoa partir de los datos de voz y para el desarrollo y evaluacin de sistemas de RAH. TIMITcontiene la voz de 630 hablantes representando las 8 mayores divisiones dialcticas delIngls Americano, cada uno pronunciando 10 oraciones fonticamente ricas. El corpusTIMIT incluye la seal de voz correspondiente a cada oracin hablada, as como tambintranscripciones ortogrficas, fonticas y de palabras alineadas temporalmente. Adems losdatos vienen ya divididos en subconjuntos de entrenamiento y prueba balanceados paracobertura dialctica y fontica lo que facilita tambin la comparacin de resultados. Laversin de la base de datos empleada en el trabajo es la 1-1.1 de Octubre de 1990.

TIMIT contiene un total de 6300 oraciones, 70 % de los hablantes son masculinos y 30 %son femeninos. El material de texto consiste de 2 oraciones de dialecto (SA), 450oraciones fonmicamente compactas (SX), y 1890 oraciones fonticamente diversas (SI).Cada hablante lee las 2 SA, 5 de las SX y 3 de las SI.

sinc


H.L



ticodelHabla"


199

6.


30/109

III. Los Datos 24


Organizacin de los datos

El CD-ROM contiene una estructura de rbol de directorios jerrquica que permite fcilacceso a los datos en forma automtica (por medio del programa de procesamiento). Laestructura de este rbol es la siguiente :/ / / / / . donde,CORPUS = t i mi tUSO = t r ai n| t est ( ent r enami ent o| pr ueba)DI ALECTO = dr 1| dr 2| dr 3| dr 4| dr 5| dr 6| dr 7| dr 8 ( r egi ones di al ct i cas)SEXO = f | mHABLANTE = donde,I NI CI ALES = I ni ci al es del Habl ant e ( 3 l et r as)D GI TO = nmer o 0- 9 par a di f erenci ar habl ant es i ni ci al es i gual esORACI N = donde,TI PO_TEXTO = sa| si | sxNMERO_ORACI N = 1 . . . 2342

TI PO_ARCHI VO = wav| t xt | wr d| phn ( dat os de voz| t ext o| pal abras| f onemas )

Por ejemplo : /timit/train/dr1/fcjf0/sa1.wav, corresponde al corpus TIMIT, conjunto deentrenamiento, regin dialctica 1, sexo femenino, hablante cjf0, texto oracin sa1,archivo seal de voz.

Tipos de Archivo

TIMIT incluye varios archivos asociados con cada emisin (Tabla 1). As mismo se incluyeun archivo diccionario con todas las palabras contenidas en el corpus y su transcripcinfontica (lxico), otro con todas las oraciones empleadas, y otro con informacin especfica

de los hablantes. Los archivos de voz poseen el formato con cabecera NIST SPHERE queha sido diseado para facilitar el intercambio de datos de seales de voz en CD-ROM. Lacabecera NIST es una estructura orientada a objetos de 1024 bytes que precede a los datospropiamente dichos. En ella se almacena informacin acerca de la emisin como serfrecuencia de muestreo, bits por muestra, identificacin del hablante y la oracin, etc.

TIPO ARCHIVO DESCRIPCIN

.wav Archivo de voz con cabecera tipo SPHERE.

.txt Transcripcin ortogrfica asociada de las palabras dichas por el hablante.

.wrd Transcripcin de palabras alineada temporalmente con el archivo de voz.

.phn Transcripcin fontica alineada temporalmente con el archivo de voz.

Tabla 1: Tipos de Archivos asociados a cada emisin.

Los archivos de transcripcin tienen la siguiente forma :

sinc


H.L



ticodelHabla"


199

6.


31/109

III. Los Datos 25


... donde,MUESTRA_COMI ENZO = Muest r a i ni ci al del segment o ( nmer o ent er o >=0)

MUESTRA_FI NAL = Muest r a f i nal del segmento ( nmero enter o


32/109

III. Los Datos 26


Figura 17: Seal de voz con etiquetas de palabras y fonemas

Seleccin de Hablantes

Las 10 oraciones ledas por cada uno de los 630 hablantes representan aproximadamente 30segundos de voz por hablante. En total el corpus contiene aproximadamente 5 horas de voz.Todos los participantes seleccionados fueron hablantes nativos de Ingls Americano.Adems todos fueron calificados como sin patologas clnicas del habla por un especialistadel rea. Se detectaron en algunos sujetos pequeas anormalidades en el habla o la audicinque fueron anotadas en los archivos de informacin de los hablantes que acompaan la basede datos. Los hablantes fueron seleccionados para ser representativos de diferentes regionesdialcticas geogrficas de los Estados Unidos de acuerdo con la regin donde vivieron ensu niez. En la Tabla 2 se presenta la distribucin de los hablantes en cada regin

dialctica.

Condiciones de Grabacin

Las grabaciones fueron hechas en una cabina de grabacin aislada de ruidos usando unsistema semiautomtico para la presentacin del texto al hablante y la grabacin. Los datosfueron digitalizados a una frecuencia de muestreo de 20 KHz (16 bits) con un filtro anti-alias en 10 KHz. La voz fue filtrada digitalmente, nivelada (debiased) y submuestreada a 16KHz [FWD86]. A los sujetos se los estimul con una seal de ruido de fondo de bajo nivela travs de auriculares para suprimir la inusual calidad de voz producida por el efecto deaislacin de la cabina. Tambin se les pidi que leyeran el texto con voz natural.

Texto del Corpus

Las oraciones SA fueron diseadas para exponer las diferencias dialcticas y fueron ledaspor todos los hablantes. Las oraciones SX fueron diseadas a mano para proveer una buenacobertura en cuanto a pares de fonemas, con ocurrencias extra de contextos fonticosdifciles o de inters particular. Cada hablante ley 5 de estas oraciones y cada una fueleda por 7 hablantes. Las oraciones SI fueron seleccionadas de fuentes de texto existentes

sinc


H.L



ticodelHabla"


199

6.


33/109

III. Los Datos 27


para agregar diversidad en los tipos de oraciones y los contextos fonticos. El criterio deseleccin maximiza la variedad de contextos alofnicos encontrados en los textos. Cadahablante ley 3 de estas oraciones y cada una fue leda solo una vez. En la Tabla 3 semuestra la distribucin del material de texto del corpus.

Regin Dialctica N Hablantes N Hablantes N Total deNombre Cdigo Masculinos Femeninos Hablantes

New England 1 31 (63%) 18 (27%) 49 (8%)

Northern 2 71 (70%) 31 (30%) 102 (16%)

North Midland 3 79 (67%) 23 (23%) 102 (16%)

South Midland 4 69 (69%) 31 (31%) 100 (16%)

Southern 5 62 (63%) 36 (37%) 98 (16%)New York City 6 30 (65%) 16 (35%) 46 (7%)

Western 7 74 (74%) 26 (26%) 100 (16%)

Army Brat 8 22 (67%) 11 (33%) 33 (5%)

N Total de Hablantes 438 (70%) 192 (30%) 630 (100%)

Tabla 2: Distribucin de los Hablantes

Subdivisin en Entrenamiento y Prueba

Existen diferentes mtodos para estimar la capacidad de generalizacin de un clasificador[MST94]. Es ampliamente conocido que las tasas de error tienden a sesgarse si se estiman apartir de los mismos datos que se utilizaron en el proceso de aprendizaje o entrenamientodel clasificador. Una forma muy sencilla (y difundida) de abordar el problema consiste enseparar los datos en un conjunto de entrenamiento y otro de prueba. En la seccin sobre elclasificador se ampliar ms este punto. Sin embargo, aqu es importante notar que lacantidad de datos involucrados en este problema hace imposible la utilizacin de mtodosms precisos como Validacin Cruzada o Bootstrap para estimar el error.

El material contenido en TIMIT fue dividido en conjuntos de entrenamiento y pruebasiguiendo los siguientes criterios :

1. Del 20 al 30 % del corpus sera usado para propsitos de prueba dejando el restando 70a 80 % para entrenamiento.

2.Ningn hablante debera aparecer en ambos conjuntos.

sinc


H.L



ticodelHabla"


199

6.


34/109

III. Los Datos 28


3. Todas las regiones dialcticas deberan estar representadas en ambos conjuntos, con almenos un hablante masculino y uno femenino de cada dialecto.

4. La cantidad de material de texto repetido en ambos conjuntos debera minimizarse o, enlo posible, eliminarse.

5. Todos los fonemas deberan estar cubiertos en el material de prueba, preferiblemente endiferentes contextos.

Estos criterios, junto con lo que se mencion en la introduccin, hacen que el problema dereconocimiento o clasificacin sea independiente del hablante y del texto, lo que implica ungrado de complejidad apreciable teniendo en cuenta la cantidad de material disponible.

Tipo Oracin N Oraciones N Hablantes/Oracin Total N Oraciones/Hablante

Dialecto (SA) 2 630 1260 2

Compactas (SX) 450 7 3150 5

Diversas (SI) 1890 1 1890 3

Total 2342 6300 10

Tabla 3: Material de texto TIMIT

Cdigos de Smbolos Fonmicos y Fonticos

Aqu presentaremos las tablas con los smbolos fonmicos y fonticos usados en el lxicode TIMIT y en las transcripciones fonticas.. Estos incluyen marcadores de intensidad(stress) {1,2} encontrados solo en el lxico y los siguientes smbolos que ocurren solo enlas transcripciones:

1. Los intervalos de cierre u oclusin de las oclusivas los cuales se distinguen de laliberacin o explosin de las mismas. Los smbolos de la oclusin para /b/, /d/, /g/, /p/,/t/, /k/ son /bcl/, /dcl/, /gcl/, /pcl/, /tck/, /kcl/, respectivamente. Las porciones deoclusin de /jh/ y /ch/, son /dcl/ y /tcl/.

2. Alfonos que no ocurren en el lxico. El uso de determinado alfono puede dependerdel hablante, del dialecto, la velocidad de emisin y el contexto fonmico entre otrosfactores. Dado que el uso de estos alfonos es difcil de predecir no han sido usados en

las transcripciones fonticas del lxico.

3. Otros smbolos incluyen dos tipos de silencio, pau indicando una pausa, y epi,denotando el silencio epenttico que es frecuentemente encontrado entre una fricativa yuna semivocal o nasal, adems de h#, usado para marcar el silencio y/o no aparicin deeventos de voz encontrado al principio o al final de la seal.

sinc


H.L



ticodelHabla"


199

6.


35/109

III. Los Datos 29


TI PO S MBOLO PALABRA EJ EMPLO TRANSCRI PCI N FONTI CAOcl usi vas b bee BCL B i y

d day DCL D eyg gay GCL G eyp pea PCL P i yt t ea TCL T i y

k key KCL K i ydx muddy, di r t y m ah DX i y, dcl d er DX i yq bat bcl b ae Q

Af r i cadas j h j oke DCL J H ow kcl kch choke TCL CH ow kcl k

Fri cat i vas s sea S i ysh she SH i yz zone Z ow nzh azur e ae ZH erf f i n F i h nt h t hi n TH i h nv van V ae ndh t hen DH e n

Nasal es m mom M aa M n noon N uw N

ng si ng s i h NGem bot t om b aa t cl t EM

en but t on b ah q ENeng washi ngt on w aa sh ENG t cl t ax nnx wi nner w i h NX axr

Semi vocal es y l l ay L eyGl i des r r ay R ey

w way W eyy yacht Y aa t cl thh hay HH eyhv ahead ax HV eh dcl del bot t l e bcl b aa t c l t EL

Vocal es i y beet bcl b I Y t cl ti h bi t bcl b I H tc l teh bet bcl b EH t cl tey bai t bcl b EY t cl tae bat bcl b AE t cl taa bot t bcl b AA t cl taw bout bcl b AW t cl tay bi t e bcl b AY t cl tah but bcl b AH t cl tao bought bcl b AO t cl tyo boy bcl b YOow boat bcl b OW t cl tuh book bcl b UH kcl k

uw boot bcl b UW t cl tux t oot t c l t UX t cl ter bi r d bcl b ER dcl dax about AX bcl b aw t cl ti x debi t dcl d eh bcl b I X t c l taxr but t er bcl b ah dx AXRax- h suspect s AX- H s pcl p eh kcl k t cl t

Tabla 4: Smbolos fonticos utilizados en la transcripcin

sinc


H.L



ticodelHabla"


199

6.


36/109

III. Los Datos 30


TI PO S MBOLO DESCRI PCI NOt r os pau pausa

epi si l enci o epent t i coh# mar cador de comi enzo / f i n1 marcador de st r ess pr i mar i o2 marcador de st r ess secundar i o

Tabla 5: Otros smbolos empleados

La cantidad total de smbolos que se pueden utilizar en la clasificacin es de 52. Estos sedistribuyen como 8 tipos de fonemas oclusivos, 2 africados, 15 fricativos, 7 semivocales yglides y 20 vocales.

Datos elegidos para los experimentos

Como se puede apreciar la cantidad de smbolos o fonemas a clasificar y la de emisiones y

hablantes es demasiado grande para intentar realizar los experimentos con toda la base dedatos (que adems totaliza unos 650 MBytes de informacin). Por esta razn se debieronestablecer algunos criterios para utilizar un subconjunto menor de los fonemas y hablantesde la base y sin embargo poder extrapolar los resultados a todo el conjunto. Estos criteriosfueron :

1. Utilizar un subconjunto de fonemas de relativa dificultad de diferenciacin.

2. Cubrir los tipos de fonemas ms importantes.

3. Disminuir la cantidad de hablantes y la diversidad de dialectos.

Se sabe por experimentos psico-acsticos que las consonantes /b/ y /d/ del tipo oclusivo sondifciles de distinguir en varios contextos. Por otra parte el fonema /jh/ es africado con loque se incluiran las caractersticas especiales de este grupo (que posee un componenteoclusivo seguido de uno fricativo). Adems, estas son algunas de las consonantes inicialesdel conocido E-Set de TI-46 que ha probado tambin ser un subconjunto de palabras difcilde clasificar por medios automticos. Para agregar a este grupo algunas vocales se eligieron/eh/ e /ih/ cuya distancia en el espacio de formantes es muy pequea. Esto las convierte enotro grupo altamente confundible. En la Figura 18 se puede observar la distribucin de lasvocales del Ingls en funcin de f1 y f2 (los datos usados para construir la grfica fuerontomados de [PeB52]). De esta manera nuestro subconjunto est formado por 5 fonemas (10% del total).

sinc


H.L



ticodelHabla"


199

6.


37/109

III. Los Datos 31


Figura 18: Distribucin de las vocales del Ingls

Siguiendo los criterios expuestos se eligi la regin dr1 que posee casi 50 hablantes (verTabla 2). Se respetaron las divisiones en conjuntos de entrenamiento y prueba propuesta enTIMIT de manera que la distribucin final de los fonemas elegidos en cada regin se puedeapreciar en la Tabla 6.

Fonema Entrenamiento Prueba Total

/b/ 183 (14.4 %) 59 (15.9 %) 242

/d/ 300 (23.6 %) 90 (24.2 %) 390

/jh/ 104 (8.2 %) 20 (5.3 %) 124

/eh/ 316 (24.8%) 93 (25.1 %) 409

/ih/ 370 (29.0 %) 109 (29.4 %) 479

Total 1273 371 1644

Tabla 6: Distribucin de los fonemas elegidos en entrenamiento y prueba.

sinc


H.L



ticodelHabla"


199

6.


38/109

III. Los Datos 32


Se debe aclarar que en primera instancia se incluy en los archivos la oclusin de /b/, /d/ y/jh/, pero debido a que para estas dos ltimas los smbolos asociados (y tambin elfenmeno acstico) resultan idnticos era imposible diferenciarlas. Por esta razn seexcluyeron de los experimentos definitivos.

Fonema /b/ /d/ /jh/ /eh/ /ih/

Muestras 300 378 916 1419 1218

Tiempo 19 ms 24 ms 57 ms 89 ms 76 ms

Frames 2 3 7 11 10

Tabla 7: Duracin promedio de los fonemas.

Figura 19: Histograma de duracin de los fonemas.

Como nos interesa seguir la evolucin temporal de distintas caractersticas de la seal seutiliza un esquema que aplica el procesamiento (Fourier o Wavelets) a una ventana de laseal. El ancho de la ventana es del orden de los 10 mseg y cada patrn generado sedenomina frame. Este tema se ampliar en la seccin sobre procesamiento. Tambin se

sinc


H.L


tsyFourierap

comparacion entre wavelets y fourier

Documents