Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
La incorporaciLa incorporaci óón del conocimienton del conocimientolinglingüíüístico a las tecnologstico a las tecnolog íías del hablaas del habla
Joaquim LlisterriJoaquim Llisterri
Departament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim
Departamento de Ciencias de la ComputaciónInstituto de Investigaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
La incorporaciLa incorporacióón deln delconocimiento lingconocimiento lingüíüístico a lasstico a las
tecnologtecnologíías del hablaas del hablahttp://liceu.uab.es/~joaquim/speech_technology/IIMAS
_03/ IIMAS_03.html
Departamento de Ciencias de la ComputaciónInstituto de Investigaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La incorporación del conocimientolingüístico a las tecnologías del habla
�Las tecnologías del habla
�La conversión de texto en habla
�El reconocimiento del habla
�Los sistemas de diálogo
�El papel de la lingüísticaJoaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
“The domain of speech technology is thedevelopment of automatic systems to allowhuman users and computers to interactdirectly through the medium of speech”
New Horizons in European Speech technology,Report of the ESPRIT Workshop on SpeechTechnology, Aarhus, Denmark, May 1987.
Tecnologías del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tecnologías del habla
• Salida vocal� Síntesis del habla
• Entrada vocal�Reconocimiento del habla
• Interacción vocal� Sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El tratamiento del habla
�El habla como señal�Parámetros acústicos�El análisis acústico del habla�El tratamiento digital del habla
�El habla como código�Las unidades del habla�La cadena de la comunicación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La señal de habla
• Desde el punto de vista acústico el habla es unaseñal sonora que varía en frecuenciafrecuencia y enamplitudamplitud a lo largo del tiempotiempo
Frecuencia Tono, timbreAmplitud Intensidad
Tiempo Duración
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La producción del habla
Fuerza y duración de la salida del aire de lospulmones� Amplitud/intensidad y tiempo/duración
Vibración de las cuerdas vocales� Frecuencia/tono
Configuración del tracto vocal
� Frecuencia/timbre
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La producción del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El análisis acústico del habla
• El habla puede analizarse acústicamentemediante diversos tipos de representaciones�Oscilograma
�Espectro�Espectrograma
�Curva melódica
�Curva de intensidad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Más vale pájaro en mano que ciento volando
• Evolución temporal de la amplitud� Acento, pausas, ritmo
Forma de onda - Oscilograma
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Vocal [a]
• Representación de la relación amplitud-frecuencia� Timbre
Espectro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Más vale pájaro en mano que ciento volando
• Representación de la evolución temporal dela frecuencia y la amplitud
Espectrograma
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Curva melódica
F0
Tiempo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El tratamiento digital del habla
Paso de una señal continuacontinua (analógica) auna señal discretadiscreta (digital)
• Muestreo: selección de puntos dediferente frecuencia a lo largo del tiempo• Cuantificación: escalonado de laamplitud
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El tratamiento digital del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las unidades del habla
Unidades para la descripción lingüística
• Fonema• Elementos abstracto significativosPaso/vaso /ppaso/ /bbaso/
• Alófono
• Realización de un fonemaVaso/cabe [baso] [kaBe]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El problema de la segmentación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El problema de la variación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El problema de la invarianza
[ti] [tu]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La codificación de la informaciónlingüística en la cadena sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La cadena de la comunicación
• Las unidades del habla se combinan enunidades superiores para formarmensajes, codificados en una onda sonora
Receptor Mensaje Emisor
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Objetivos de la síntesis del habla�Parámetros para la definición de los
sistemas de síntesis del habla�Aplicaciones de la síntesis del habla�La conversión de texo en habla�Sistemas comerciales de conversión de
texto en habla
La síntesis del hablaLa síntesis del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Objetivos de la síntesis del hablaObjetivos de la síntesis del habla
• El objetivo de la síntesis del habla esla producción (generación) artificialde mensajes orales
• La síntesis es una técnicacomplementaria del reconocimientoen la comunicación persona -máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La síntesis del hablaLa síntesis del habla
GeneraciGeneracióón de una sen de una seññal vocalal vocal
• Síntesis a partir de la decodificación deunidades sonoras previamente codificadas
• Síntesis a partir de un texto escrito (CTHconversión de texto en habla - TTS Text toSpeech Synthesis)
• Síntesis a partir de representacionesconceptuales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Del texto ... … al habla
La síntesis del habla
GTP-UPCGTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Parámetros para la caracterización de lossistemas de síntesis
• La voz• Inteligibilidad• Naturalidad
• Versatilidad• Mensajes limitados• Mensajes ilimitados
• Complejidad del procesamientoJoaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Parámetros para la caracterización de lossistemas de síntesis
Telecomunicaciones
Automóviles
Videojuegos
Alarmas industriales
Naturalidad
Inte
ligib
ilida
d
Bristow (1984)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Parámetros para la caracterización de lossistemas de síntesis
Unidadesparametrizadas
Síntesis por reglas
Grabación digital
Tamaño del vocabulario Bristow (1984)
Calidadrequerida(naturalidad ointeligibilidad)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Parámetros para la caracterización de lossistemas de síntesis
Complejidad
Calidad
Versatilidad
Señalcodificada
Síntesisparamétrica
Conversiónde texto ahabla
Rendimientoideal
Flanagan(1982, 1984)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de la síntesis del hablaAplicaciones de la síntesis del habla
� Síntesis de palabras aisladas� Síntesis a partir del texto
(Conversión de texto en habla)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones industriales• Generación de mensajes sobre el
estado de un sistema: alarmas• Aplicaciones a servicios públicos
• Generación de anuncios:transportes, lugares públicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones domésticas• Electrodomésticos• Juguetes• Juegos• Coches• Distribuidores de bebidas, tabaco
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones a invidentes• Reloj, calculadora,
termómetro, despertador...hablantes
• Indicadores de planta,semáforos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Sistemas de información telefónica• Páginas Amarillas• Información meteorológica, noticias• Información ciudadana: transportes,
farmacias, museos, cines
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Acceso telefónico a textos escritos• Consulta a distancia de bases de
datos• Mensajería vocal, correo
electrónico• Portales de voz
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Lectura del correo electrónico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Acceso al ordenador mediante el teléfono
• Portales de voz
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de voz
Grabación previa
Selección por voz
Informaciónsolicitada
RestaurantesRestaurantes
Restaurantes de Ávila
Restaurantes de Ávila
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de voz
Restaurantesde _________
ÁvilaMadrid
SalamancaCuenca…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de voz
Sistema automático
Selección por voz
Informaciónsolicitada
Farmacias de guardia
Farmacias de guardia
Existe unafarmacia…Existe unafarmacia…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de voz
ochoHe encontrado nueve
diez
Existe una farmacia de guardia
Mensajes pregrabadospara insertar palabras
procedentes de unalista
Conversión de texto escrito en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Aplicaciones a los invidentes• Lectura de textos en soporte electrónico• escáner + reconocimiento óptico de
caracteres + conversión de texto en habla• Aplicaciones a los disminuidos vocales
• Prótesis vocales• Síntesis a partir de conceptos para
simplificar la tarea de teclear• Síntesis a partir de ideogramas Bliss
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Kurzweil 1000, Kurzweil Educationsl Systemshttp://www.kurzweiledu.com/products_k1000.asp
200 palabras/segundo
400 palabras/segundo
600 palabras/segundo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Crespeaker, Crestwood Communication Aidshttp://www.communicationaids.com/crespeaker.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Esquema general de un conversor detexto en habla
�Etapas en la conversión de texto en habla
�Sistemas comerciales de conversión detexto en habla
�Esquema general de un conversor detexto en habla
�Etapas en la conversión de texto en habla
�Sistemas comerciales de conversión detexto en habla
La conversión de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La conversión de texto en habla
Del texto… …al habla GTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
text-to-speech, TTS• Un sistema de conversión de texto en habla
transformatransforma cualquier texto escrito en surealización sonora
• La estructura de un conversor suele sermodularmodular
• Cada módulo se ocupa de un aspecto de latransformación de la cadena de caracteresinicial hasta llegar a la señal sonora
Esquema general de unconversor de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Esquema general de unconversor de texto en habla
Pre-procesado y normalización
Análisis lingüístico Transcripción fonética
Asignación de prosodia Selección de unidades
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Un ejemplo en español
CASTEJÓN LAPEYRA, F.- ESCALADASARDINA, G.- MONZÓN SERRANO, L.-RODRÍGUEZ CRESPO, M.A.- SANZVELASCO, P. (1994) "Un conversor texto-vozpara el español", Comunicaciones de TelefónicaI+D, 5, 2: 114-131.http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic8/8.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• El módulo de procesamiento previodel texto realiza las mismasoperaciones que un hablante leyendoen voz alta
• El objetivo es preparar el texto parala transcripción fonética automática
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Elementos que se convierten en texto'deletreado'• Abreviaturas (Sr. D., Exmo., pts...)• Siglas (UE, ONU...)• Cifras y ordinales (3, 1º, 2ª...)• Fechas (13.06.1959)• Horas (15.30h...)• Medidas (m., cm., Km....)• Números romanos (Pedro IV...)• Letras aisladas• Símbolos especiales ($...)
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado deltexto• Siglas y acrónimos
OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe]
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado deltexto• Abreviaturas
VO *[bo] versión originalCV “caballos” - “curriculumvitae”
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Concordancia en expresiones numéricas
* trescientos sesenta y cinco líneas* quinientos pesetas
• Formas apocopadas100 casos: cien casos10%: diez por ciento
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Números de teléfono
93581686: * Noventa y tres millonesquinientos ochenta y uno mil seis cientosochenta y seis
• Horas4.15: *cuatro punto quince
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Códigos postales
28002 Madrid: *veintiocho mil dosMadrid
• Fechas13-11-98: *trece once noventa y ocho
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Lectura del correo electrónico
• Errores mecanográficos• Errores ortográficos• Falta de signos de puntuación
• Lectura de SMS• “Abreviaturas” nuevasstoy n ksa 2# y slgo xa MAD tq
Procesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de preprocesamiento del texto Telefónica I+D (Castejón et al., 1994)
Módulo de preprocesamiento del texto Telefónica I+D (Castejón et al., 1994)
• Módulo normalizador• Selecciona la frase como unidad de
trabajo• Normaliza la forma de escritura
sin perder información relevante
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo normalizador Telefónica I+D (Castejón et al., 1994)
Módulo normalizador Telefónica I+D (Castejón et al., 1994)
Texto: El Sr. JosTexto: El Sr. Joséé Luis L Luis Lóópez tiene 201 vipez tiene 201 viññas.as.
NORMALIZADORNORMALIZADOR
Frase normalizada: el Sr. josFrase normalizada: el Sr. joséé luis l luis lóópez tiene 201pez tiene 201viviññas.as.
Formato: mm abr Mm Mm Mm mm mm mm sig
Códigos: mm: palabra en minúscula, Mm: palabra coninicial mayúscula, abr: abreviatura, sig: signoortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de preprocesamiento del textoTelefónica I+D (Castejón et al., 1994)
Módulo de preprocesamiento del textoTelefónica I+D (Castejón et al., 1994)
• Módulo de preproceso• Expande abreviaturas,
números, etc.• Incluye la silabificación y la
acentuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de preproceso Telefónica I+D (Castejón et al., 1994)
Módulo de preproceso Telefónica I+D (Castejón et al., 1994)
Frase normalizada: el Sr. josé luis lópez tiene 201viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
PREPROCESOPREPROCESO
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Creación de una cadena de unidades fonéticas -fonemas o alófonos- a partir del texto escritopreprocesado
• “Un sistema de transcripción fonéticaautomática es un algoritmo que transforma untexto de entrada representado en caracteresgrafemáticos en una representación expresadamediante símbolos fonéticos”
Ríos (1993:381)
Transcripción fonética automáticaObjetivos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Transcripción fonética automática
• Implica una decisión sobre el inventariode alófonos que condiciona el inventariode unidades de síntesis
• Decisiones ortológicas• Decisión sobre el “estándar”• Decisión sobre variedad geográfica• Decisión sobre registro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Estrategias para la transcripción• Diccionario ayudado por un analizador
en lenguas con una correspondenciamuy irregular entre grafía y sonido
• Reglas complementadas por undiccionario de excepciones en lenguascon una correspondencia regular entresonido y grafía
La transcripción fonética automática
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tipos de reglas de transcripciónRíos (1993)
Tipos de reglas de transcripciónRíos (1993)
• Reglas de fonemización• Reglas de transcripción grafía-fonema• Reglas de silabificación• Reglas de ajuste silábico aplicadas a
extranjerismos para adaptar su estructurasilábica a la fonotaxis del español
• Reglas de acentuación• Reglas de fonetización
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Características de las reglas de transcripciónRíos (1993)
Características de las reglas de transcripciónRíos (1993)
• Reglas dependientes del contexto• Reglas de substitución de un signo en otro
• p.ej.: regla de transcripción del grafema <g>como [x] ante <e,i>
• Reglas de elisión de un elemento• p.ej.: elisión de <u> en el dígrafo <gu> ante las
vocales <e,i>• Reglas de inserción de un elemento
• p. ej.: regla de inserción de [k] después delgrafema <x>
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas de la transcripción fonéticaautomática
• Nombres propios y palabras extranjeras<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)
<#w> [w] [gw] (whisky)<ph> [f] (Humphrey)<sh> [S] [tS] (show, squash)
<sch> [S] (Schiller)
<tg> [dZ] (Sitges)
<#sC> [#esC] (stop, squash)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas de la transcripción fonéticaautomática
• Nombres propios de persona en españolEsther <th>: [t]Lourdes <ou>: [u]Feijoo <oo>: [o]Desacentuación del primer elemento de los
nombres compuestos (implica detectar elnombre compuesto)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
<c> --> [k] / #_ [a], [o], [u]casa, cosa, cuna
<c> --> [T] / # _ [e], [i]cena, cine
<c> --> [k] / V _ [a], [o], [u]oca, acoso, acuna
<c> --> [T] / V _ [e], [i]hace, fácil
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
<c> --> [k] / # (c) V_# Cacción, actor
<c> --> [k] / # _ [l], [r]Vtecla, crío
<c> --> [k] / _ #coñac, vivac
<c> --> [tS] / _htecho
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
• Transforma una secuencia degrafías en una secuencia dealófonos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.
CONVERSOR GRAFEMA-ALCONVERSOR GRAFEMA-ALÓÓFONOFONO
AlAlóófonos: el se. N~or xo. sfonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
División silábica o silabificaciónDivisión silábica o silabificación
• Divide la cadena de alófonos ensílabas
• Puede realizarse como parte delpreprocesado del texto,partiendo de la representaciónortográfica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de acentoAsignación de acento
• Determina las sílabas tónicas y las sílabasátonas de la cadena de alófonos
• Requiere información sobre palabras que sonsiempre átonas y reglas de acentuación para laspalabras que no llevan acento gráfico
• Puede realizarse como parte del preprocesadode texto una vez se ha llevado a cabo la divisiónsilábica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis lingüísticoAnálisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Transcripción fonética
• Predicción de la representación fonética apartir de reglas morfológicas /morfofonológicas que implican elreconocimiento de morfemas en lenguascon una correspondencia irregular entregrafías y alófonos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis lingüísticoAnálisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Asignación de elementos prosódicos
• La localización de las pausas no marcadasortográficamente, la asignación de acento yla determinación de las unidades melódicasrequieren un análisis sintáctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis morfológicoAnálisis morfológico
• Objetivos• Segmentación del texto en
morfemas• Asignación de etiquetas
correspondientes a las partes de laoración a las palabras (POStagging)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
• Asigna categorías gramaticales alas palabras
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.
CATEGORIZADORCATEGORIZADOR
CategorCategoríías: ART N NP NP NP V NUM NUM N SIGas: ART N NP NP NP V NUM NUM N SIGCódigos: ART: artículo, N: nombre, NP: nombre propio,V: verbo, NUM: número, SIG: signo ortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis sintácticoAnálisis sintáctico
• Para una asignación de elementos prosódicosque tenga como resultado una síntesis con unalto grado de naturalidad es necesario unanálisis sintáctico, semántico y pragmático deltexto
• Segmentación del texto en unidades sintácticas
• Asignación de una estructura de constituyentes(parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)
Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.
Categorías: ART N NP NP NP V NUMNUM N SIG
ESTRUCTURADORESTRUCTURADOR
ÁÁrbol sintrbol sintáácticoctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de elementos prosódicosObjetivos
Asignación de elementos prosódicosObjetivos
Conjunto de reglas que especifican
• Duración de los segmentos
• Intensidad de los segmentos / delenunciado
• Contorno melódico del enunciado• Colocación y duración de las pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de duración segmentalAsignación de duración segmental
• Requiere un modelo de duraciónsegmental que considere
• Duración intrínseca de cadasegmento
• Modificaciones contextuales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Factores que determinan la duraciónsegmental
Factores que determinan la duraciónsegmental
• Acento• Consonante que sigue al segmento• Vocal que sigue al segmento• Pausa después del segmento• Posición del segmento en el enunciado• Longitud de la palabra en la que se encuentra
el segmento• Velocidad de elocución
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR
• INDUR: duración intrínseca del segmento (enms.) calculada a partir de un corpus en el quelos segmentos se analizan en frases marco
• MINDUR: duración mínima del segmento siestá acentuado
• PRCNT: porcentaje de reducción de laduración del segmento, determinado por regla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Elementos que determinan el porcentaje de reducciónde los segmentos• Inserción de pausas• Alargamiento al final de una frase• Acortamiento de sílabas que no se encuentran al
final de una palabra• Alargamiento debido al énfasis• Modificación de la duración en función del contexto
postvocálico de las consonantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Acortamiento de sílabas pertenecientes apalabras polisilábicas
• Acortamiento de consonantes en posición noinicial de palabra
• Acortamiento de segmentos no acentuados• Acortamiento de los segmentos
pertenecientes a grupos consonánticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Alargamiento de vocales debido a lapresencia de una oclusiva sorda
• Acortamiento de sílabas que no seencuentran al final de una frase
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de intensidad segmentalAsignación de intensidad segmental
• Determina la intensidad de cadasegmento en función de las variablesque afectan a este parámetro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de intensidad vocálicapara el español y el catalán
Blecua & Acín (1995)
Modelo de intensidad vocálicapara el español y el catalán
Blecua & Acín (1995)
• Basado en el análisis de intensidad vocálica enun corpus de frases leídas
• Modelo en árbol que introduce una serie defactores que modifican la intensidad vocálica• Posición prepausal o no prepausal• Aparición de la vocal en sílaba tónica o átona• Posición inicial, medial o final de la vocal en el
enunciado• Aparición de la vocal en un enunciado corto o largo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Objetivos de la asignación de pausasObjetivos de la asignación de pausas
• Inserción de las pausas marcadasortográficamente en el texto
• Inserción las pausas no marcadasortográficamente en el texto
• Determinación de la duración de lapausa
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La contribución de las pausas
• Texto sintetizado con pausas
• Texto sintetizado sin pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Marcado ortográfico de pausas en uncorpus real
• 1629 pausas en total
• 1260 pausas marcadas ortográficamente
•• 578 con punto; 527 con coma578 con punto; 527 con coma; 17 con punto ycoma; 51 con dos puntos; 63 con signo deinterrogación; 22 con signo de admiración; 2con puntos suspensivos
•• 369 pausas no marcadas ortogr369 pausas no marcadas ortográáficamenteficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración y asignación de pausaspara el español
Puigví, Giménez & Fernández (1994)
Modelo de duración y asignación de pausaspara el español
Puigví, Giménez & Fernández (1994)
• Basado en al análisis de un corpus de lectura
• Determinación de la duración de las pausasmarcadas mediante signos de puntuación
• Factores fonéticos y sintácticos que determinanla aparición de pausas no marcadas por signosde puntuación
• Determinación de la duración de las pausas nomarcadas por signos de puntuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Módulo pausador Telefónica I+D (Castejón et al., 1994)
• Transforma en pausas laspalabras ortográficas
• Añade pausas no marcadasortográficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.
Categorías: ART N NP NP NP V NUM NUM N SIG
PAUSADORPAUSADOR
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Códigos: [pau_v]: pausa insertada ante el verbo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La contribución de la curva melódica
• Texto sintetizado con variaciones deF0
• Texto sintetizado sin variación de F0
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de curva melódicaAsignación de curva melódica
• En algunos sistemas laasignación de la curva melódicapuede utilizar un análisis previode la estructura entonativa de losenunciados (prosodic parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de generación de patronesmelódicos para el español
Garrido (1996)
Modelo de generación de patronesmelódicos para el español
Garrido (1996)
• Desarrollado a partir del análisis de un corpus detextos leídos
• Modelo fonético por nivelesο Nivel global I: asignación de un patrón melódico al párrafo,
situación de los puntos de reset y delimitación de gruposmelódicos
ο Nivel global II: asignación de patrones a cada grupo melódicoy superposición de los movimientos locales de F0 que marcanlímites sintácticos o modalidad oracional
ο Nivel local: superposición de los movimientos de F0 asociadoscon el acento léxico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La estilización(Garrido 2001)
Puntos de inflexión
Puntos de inflexión
RRRRaaaa MMMMOOOONNNN lllllllleeee GGGGOOOO eeeennnn aaaa VVVVIIIIOOOONNNN
Reducción de la curvamelódica delenunciado ‘Ramónllegó en avión’,pronunciado por unlocutor masculino, auna serie de puntos deinflexión relevantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La declinación(Garrido 2001)
Tiempo
60
80
100
120
140
160
180
200
Línea superior
Línea inferior
F0
(Hz)
Contorno melódico correspondiente a la oración ‘La reina delbaile bailaba la rumba de moda.’ (locutor masculino),
representado por medio de líneas de referencia. Ejemploextraído de Garrido et al. (1995)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Estructura jerárquica (Garrido 2001)
+
Descomposición enpatrones melódicossuperpuestos de lacurva melódica delenunciado ‘Ramónllegó en avión’,pronunciada por unlocutor masculino
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Árbol prosódico inicial(Garrido, 2001)
[sofocó el fuego con el extintor del vehículo.]
[La dotación policial,]
[después de forzar una de las ventanas de la planta baja de la casa,]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nivel global(Garrido, 2001)
100
120
140
160
180
200
220
240
260
280
300
0 1 2 3 4 5 6Tiempo (seg.)
Líneas dereferencia: líneascontinuas de trazogruesocorrespondientes alos tres gruposfónicos de laoración.Líneas desupradeclinación:líneas discontinuasde distinto grosorCurva estilizadareal: puntos unidosmediante líneasrectas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nivel local(Garrido, 2001)
100
120
140
160
180
200
220
240
260
280
300
0 1 2 3 4 5 6Tiempo (seg.)
P
M
V
Líneas de referencia:líneas continuasPuntos de inflexión dela curva estilizadareal: puntos de colorclaroPuntos de inflexión dela curva estilizadagenerada por elmodelo: puntos decolor oscuro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo entonativo del conversor de texto a habla Actor(Loquendo) en español
(Garrido et al. 2000)
• Las unidades de síntesis son fragmentos largosde señal extraída del contexto prosódicoapropiado
• La F0 de la señal original se mantieneinalterada
• Adecuado para “prosodia enunciativa neutra”representada en la base de datos acústica
• Necesidad de un módulo de cálculo de F0 paralos enunciados interrogativos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Estilización de la curva melódica(Garrido et al. 2000)
Curva melódicadel enunciado‘¿Conoces elcontenido delartículo de laConstitución?’ enel que aparecenlos puntos deinflexiónconsideradosdurante elanálisis
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de niveles tonales (Garrido et al. 2000)
M
P+
VP
Curva melódica delsegmento ‘Sabescuando pasan…’perteneciente alenunciado '¿Sabescuándo pasan arecoger los mueblesviejos este mes?' enla que aparecenrepresentados lospuntos M, P+, V y P
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Patrones locales (Garrido et al. 2000)
1 2 3 4
Curva melódica delenunciado‘¿Conoces elcontenido delartículo de laConstitución?’ en elque aparecenestilizados el patróninicial (1), dosintermedios (2,3) yel patrón final (4)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Patrones globales (Garrido et al. 2000)
Curva melódica delenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’, pronunciadapor un locutormasculino. Las líneasrectas representan las‘líneas de referencia’correspondientes a lospuntos P (superior) y V(inferior) de la curvamelódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Grupos entonativos (Garrido et al. 2000)
Curva melódicacorrespondiente alenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’ pronunciadopor un locutorfemenino. Sobre cadagrupo entonativo se handibujado las líneas dereferenciacorrespondientes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)
Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]
Categorías: ART N NP NP NP V NUM NUM N SIGAlófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.
Tj’en. tas
PROSOPROSO
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
EntonaciEntonacióón (Hz):n (Hz):
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversión de texto enhabla
Las etapas en la conversión de texto enhabla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Conversión en parámetros acústicosConversión en parámetros acústicos
• Conjunto de reglas que tiene como objetivo:• Asignar valores de parámetros acústicos a
cada segmento o a cada unidad de síntesis
• Especificar las transiciones entre segmentos
• Los valores de los parámetros acústicoscontrolan un sintetizador que produce laonda sonora correspondiente al mensaje
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Concatenación de unidades almacenadasmediante síntesis paramétrica
• Creación de un diccionario de unidades dediccionario de unidades dessííntesisntesis
•• ParametrizaciParametrizacióónn de las unidades
•• Modelo del tracto vocalModelo del tracto vocal para la síntesis a partirde los parámetros utilizados�Síntesis por LPC (Linear Predictive Coding)
�Síntesis por formantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)
Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)
• Módulo de síntesis
• Transforma la información dela secuencia de unidades desíntesis y de los parámetrosprosódicos en una onda sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de conversión en parámetros acústicos para laconversión de texto a habla
Telefónica I+D (Castejón et al., 1994)
Módulos de conversión en parámetros acústicos para laconversión de texto a habla
Telefónica I+D (Castejón et al., 1994)
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Entonación (Hz):
PARLAPARLA SelecciSeleccióón de unidades de sn de unidades de sííntesis en elntesis en elinventarioinventario
GeneraciGeneracióón de tramas de sn de tramas de sííntesisntesis
SSÍÍNTESISNTESIS ConversiConversióón en una onda sonora mediante eln en una onda sonora mediante elsintetizadorsintetizador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Sistemas actuales de conversión de texto en habla
�Sistemas comerciales de conversión detexto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Actor 5, Loquendohttp://actor.loquendo.com/actordemo/
default.asp?language=es
Es, m, f
EsCh, f
EsMx, f
EsAr, m
Cat, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AT&T Labs Researchhttp://www.research.att.com/projects/tts/
demo.html
Engl, m
Engl, f
Engl, ch
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AT&T Labs Natural Voiceshttp://www.naturalvoices.att.com/demos/
EspMx, f
EspMx, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=96
Eng US, f
Eng UK, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=95
Es, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Bell Labs - Lucent Technologies
Eng, m
Eng, f
EsMx, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Elan Speechhttp://www.elan.fr/demos/interactive.html
Eng, m
Es, f
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Elan Speechhttp://sayso.elan.fr/interactive_vf.asp
Es, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ETI Eloquence, ScanSoft
Eng
Es,m
EsMx, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Infovox, BaBel Technologieshttp://www.infovox.se/tdemo.htm
AmEng, m
BrEng, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
RealSpeak, ScanSofthttp://www.scansoft.com/realspeak/demo/
Eng, f
EsMx, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El reconocimiento del hablaEl reconocimiento del habla
�Presentación general�Puntos de vista en el reconocimiento del habla
�El tratamiento de la señal en el reconocimiento�Estrategias para el reconocimento del habla
�Ámbitos de aplicación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El reconocimiento del habla
Del habla … … al texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Representación simbólica de unaseñal vocal
�Tipo de enunciados�Número de locutores�Tamaño del vocabulario�Entorno
El reconocimiento del hablaEl reconocimiento del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tipo de enunciadosTipo de enunciados
• Reconocimiento depalabras aisladas
• Reconocimiento depalabras conectadas
• Reconocimiento de hablacontinua+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Número de locutoresNúmero de locutores
• Sistemas dependientesdel locutor
• Sistemasindependientes dellocutor
+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tamaño del vocabularioTamaño del vocabulario
•Vocabulariorestringido
•Vocabulario sinrestricciones
+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
EntornoEntorno
• Entorno silencioso• Entorno con ruido
predictible• Entorno con ruido
aleatorio+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Ámbitos relacionados conel reconocimiento del hablaÁmbitos relacionados con
el reconocimiento del habla
• Identificación y verificación dellocutor
• Reconocimiento en entornosadversos / ruidosos
• Reconocimiento automático de lalengua
• Comprensión del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Puntos de vista en elreconocimiento del habla
Puntos de vista en elreconocimiento del habla
�La producción del habla�La señal acústica
�La audición
�La percepción
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La producción del hablaLa producción del habla
• Aplicación de la teoría acústicade la producción del habla alreconocimiento para lainferencia de las característicasarticulatorias
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La señal acústicaLa señal acústica
• Aplicación del procesado deseñales y del análisis acústico delhabla al reconocimiento
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La audiciónLa audición
• Aplicación de modelos de lacóclea, modelos de codificaciónneuronal de los sonidos ydetectores auditivos de rasgos alreconocimiento
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La percepciónLa percepción
• Aplicación de modelos depercepción del habla yextracción de rasgos fonéticosperceptivos al reconocimiento
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El tratamiento de la señal en el reconocimientoEl tratamiento de la señal en el reconocimiento
�Comparación de señales continuas�Señales continuas
�Señales parametrizadas
�Comparación de señales discretas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Comparación de señales continuasComparación de señales continuas
• Comparación entre la seseññal al y unaplantilla de referencia (modelomodelo)establecida durante la fase delentrenamiento del sistema
• Determinación de la distancia(diferenciadiferencia) entre la señal y la referencia
• Decisión sobre la similaridadsimilaridad entre laseñal y la referencia
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Comparación de señalescontinuas parametrizadasComparación de señales
continuas parametrizadas
• La señal y el modelo de referencia se representanmediante un conjunto de parámetros• Parámetros temporales� Distancia entre períodos de F0, cruces por
cero, energía• Parámetros frecuenciales� Formantes, coeficientes LPC, distribución
de la energía por bandas frecuenciales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Comparación de señales discretasComparación de señales discretas
• Concatenación de segmentos
• La señal se analiza en parparáámetrosmetrosacacúústicossticos
• La segmentación de la señal se realizaa partir de la identificación de losparámetros acústicos que aparecen enlos segmentos sucesivos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Etapas en el reconocimiento
ADQUISICIÓN DE DATOS
EXTRACCIÓN DECARACTERÍSTICAS
CREACIÓN DE PLANTILLAS DEREFERENCIA
PROCEDIMIENTO DEDECISIÓN
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Estrategias para el reconocimientodel habla
Estrategias para el reconocimientodel habla
• Decodificación acústico-fonética• Reconocimiento de palabras aisladas
• Reconocimiento de grandes vocabularios
• Reconocimiento de habla continua
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Decodificación acústico-fonéticaDecodificación acústico-fonética
• Utilización del análisis acústicode la señal para la detección delas propiedades fonéticas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicación de técnicas decomparación de señalescontinuas
• Comparación entre la señal y elmodelo almacenado
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
DIGITALIZACION DE LA SEÑAL DETECCIÓN DE PRINCIPIO Y FINAL DE PALABRA
CODIFICACIÓN EN FORMA DE PLANTILLADICCIONARIO
DE PLANTILLASDE REFERENCIA
COMPARACICOMPARACIÓÓNN
MEDIDA DE LA DISTANCIA ENTELA PLANTILLA DE REFERENCIAY LA PLANTILLA DE ENTRADA
DECISIÓN SOBRE ELRECONOCIMIENTO
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de grandes vocabulariosReconocimiento de grandes vocabularios
• Requiere la definición deunidades subléxicas (menoresque la palabra)
• Requiere la clasificación previade los elementos léxicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de habla continuaReconocimiento de habla continua
• Utilización de técnicas dedecodificación acústico-fonética
• Requiere la definición de un“modelo de lenguaje”
• Utilización de unidades dereconocimiento: difonema,semisílaba
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de habla continuaReconocimiento de habla continua
habla secuencia de unidades más probablessegmentación de la señal
/do/ - /os/ /Tje/-/en/ /to/-/os/ /Dje/ - /eT/
dosTjentosDjeTconversión a transcripción fonética
(Mariño, 1993)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de reconocimiento de habla continuaModelo de reconocimiento de habla continua
voz texto
ENTRENAMIENTO algoritmo de entrenamiento
base de datos de modelos fonéticos
diccionariofonético
COMPILACIÓN DEMODELOS LÉXICOS
generador de modelos léxicos
base de datos de modelos léxicos
RECONOCIMIENTO
algoritmo de reconocimiento
gramática
procesadoracústico
hablasecuencia de
unidades
Mariño (1993)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
elocución significado
Hz
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
Fonema k-1 Fonema k Fonema k+1
Modelo de Markov
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
Pr{la puerta no estaba abierta} = Pr{la}Pr{puerta/la} Pr{no/la puerta}Pr{estaba/la puerta no} Pr{abierta/lapuerta no estaba} = Pr{la} Pr{puerta/la}Pr{no/la puerta} Pr{estaba/puerta no}Pr{abierta/no estaba}
Bigrama
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
elocución significado
textovozBASE DE DATOS
Modeladofonético
Procesadoracústico
Modeladode lenguajeENTRENA-
MIENTO
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones del reconocimiento del hablaAplicaciones del reconocimiento del habla
�Reconocimiento de palabras aisladas�Dictado automático�Identificación y verificación del locutor�Reconocimiento en entornos adversos�Corrección fonética en lenguas
extranjeras
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicacionesofimáticas• Control de un
procesador de textos
• Entrada de datos numéricos
• Encuestas automáticas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladas
• Aplicaciones industriales
• Procesos de control de calidad
• Inventario y mantenimiento deproductos
• Control de robots
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones domésticas• Control de electrodomésticos• Marcación de números de teléfono por voz
• Aplicaciones militares• Comandos vocales en la navegación aérea
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones telefónicas• Servicios de centralita
automática• Nombres y apellidos• Número de DNI
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATLAS http://www.atlas-cti.com/es/demos.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones a usuarios connecesidades especiales• Control del entorno doméstico
• Control de sillas de ruedas
• Control de accesorios de cochesJoaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automático“máquina de escribir vocal”
Dictado automático“máquina de escribir vocal”
• Usuarios específicos• Dictado de informes médicos: radiólogos,
dentistas• Dictado de informes legales• Dictado de cartas comerciales
• Usuarios generales• Periodistas• Dictado de traducciones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automático
ScanSoft Dragon Naturally Speaking
• 250.000 palabras• Vocabulario legal
• Vocabulario médico• Vocabulario de la seguridad
• Versión en español
http://www.lhsl.com/naturallyspeaking/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automático
IBM Via Voice
• 100.000 palabras de vocabulario básico• 475.000 palabras de vocabulario “de respaldo”
• Vocabulario legal• Vocabulario médico
• Versión en español
http://www-3.ibm.com/software/voice/viavoice/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automático
Philips FreeSpeech 2000• Vocabulario legal• Vocabulario médico• Vocabulario de seguros• Versión en español (Peninsular,
América Central y del Norte, Sudamérica) y encatalán
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Identificación y verificación del locutorIdentificación y verificación del locutor
• Entrada en locales
• Transacciones telefónicas�‘firma vocal’
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento en entornos adversosReconocimiento en entornos adversos
• Coches
• Oficinas
• Aviones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjera
• Comparación entre el modeloalmacenado en el sistema y elenunciado producido por elestudiante
• Puntuación• Detección de errores
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjerahttp://www.auralog.com/en/talktome.html
Talk to Me™Auralog
Puntuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjerahttp://www.auralog.com/en/talktome.html
Texto
Onda sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjerahttp://www-speech.sri.com/people/julia/webgrader.html
• Integración en la web�WebGrader™ (SRI International)
�Práctica interactiva con frases�Puntuación para cada palabra ypara toda la frase
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Objetivos de un sistema de diálogo
�Módulos de un sistema de diálogo�Diseño de un sistema de diálogo
�Técnicas de diseño de sistemas de diálogo�Tipología de los sistemas de diálogo
�Aplicaciones de los sistemas de diálogo
Los sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Objetivos de un sistema de diálogo
• Sistema de diálogo, Sistemaconversacional
• SLS, Spoken Language System
� Programa diseñado para facilitar lainteracción natural mediante el hablaentre una persona y un sistemainformático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El sistema de diálogo idealHal - Clarke (1950) y Kubrick (1968)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El sistema de diálogo ideal
�Reconoce el habla espontánea�Comprende enunciados sin restricciones de
contenido�Proporciona respuestas con sentido,
gramaticalmente bien formadas ypragmáticamente adecuadas
�Responde con voz completamente natural�Es multimodal
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogo actuales
• Sujetos a las limitaciones delreconocimiento
• Comprensión y respuesta restringidas adominios específicos
• Condicionados por la naturalidad delhabla sintetizada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BASURDE (1998-2001)Sistema de diálogo oral en dominios restringidos
http://gps-tsc.upc.es/veu/basurde/Home.htm
• Reconocimiento• “Para conseguir una tasa de reconocimiento
aceptable es deseable que la frase se pronuncieevitando ruidos y a una velocidad de locuciónnormal”
• Comprensión• Información telefónica de horarios y precios de
trenes regionales y de grandes líneas
• Salida vocal
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tareas de un sistema de diálogo
� Reconocimiento de los enunciados del usuario� Gestión del diálogo� Análisis lingüístico (morfológico, sintáctico,
semántico, pragmático) de los enunciados� Creación de una representación interna� Tratamiento de la representación interna en
función de la tarea� Generación de secuencias de respuesta� Síntesis del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
• Estructura modular
• Cada módulo está especializado en una tarea• Reconocimiento del habla
• Comprensión del lenguaje• Gestión del diálogo
• Generación del lenguaje• Conversión de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ROE, D.B. - WILPON, J.G. (Eds.) (1994) Voice Communication BetweenHumans and Machines. Washington: The National Academies Press. p. 374http://www.nap.edu/books/0309049881/html/374.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
MINKER, W.- BENNACEF, S. (2001) Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions. p. 11
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LÓPEZ-CÓZAR, R. (2003) “Análisis y gestión del diálogo”, Curso deIndustrias de la Lengua “Conversar con el ordenador: el procesamiento del
lenguaje y del habla en los sistemas de diálogo”, Fundación Duques de Soria,Soria, 21-15 de julio de 2003.
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Módulo de reconocimiento del habla
• Convierte la señal sonora de entrada -continua- en una representación escrita -discreta - de las palabras reconocidas
� Tecnologías del habla
• Reconocimiento automático del habla(ASR, Automatic Speech Recognition)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Módulo de interpretación semántica
• Determina el “significado” (contenido) dela secuencia de palabras reconocida
� Procesamiento del lenguaje natural
• Comprensión del lenguaje (NLU,Natural Language Understanding)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Comprensión del contenido� Comprensión del lenguaje natural (NLU)Eh, pues mire, quería saber a qué horasale la… el último tren, eh… haciaBarcelona, desde Madrid, el sábado
PETICIÓN, DESTINO=“Barcelona”, ORIGEN=“Madrid”, FECHA:DÍA=“28”, HORA=“Último”
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Módulo de gestión del diálogo
• Gestiona la interacción entre la persona yel sistema para la realización de la tareadeseada
• Módulo central de control en un sistemade diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Control del diálogo�coherencia entre la pregunta del
usuario y el sistema�resolución de anáforas y elipsis�predicción de las reacciones del
usuario�...
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Módulo de generación de lenguaje
• Crea un enunciado bien formado a partirde la representación internaproporcionada por el sistema
� Procesamiento del lenguaje natural
• Generación del lenguaje (NLG, NaturalLanguage Generation)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Creación de respuestas� Generación de lenguaje natural (NLG)
PETICIÓN, DESTINO=“Barcelona”,ORIGEN=“Madrid”, Fecha: DÍA=“28”,HORA=“Último”
El último tren sale a las 11 y 53minutos de la noche
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogo
Módulo de conversión de texto en habla
• Transforma en una señal sonoracontinua- el texto creado por el módulode generación de respuestas -discreto-
� Tecnologías del habla
• Conversión de texto en habla (TTS,Tex-to-Speech Synthesis)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogo
�Problemas de los sistemas de diálogo• Errores derivados del reconocimiento• Necesidad de estrategias de verificación• Problemas del diálogo espontáneo
• Elipsis• Anáfora• Deícticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogo
�Modelo del entorno�Modelo de la tarea�Modelo del usuario�Bases de conocimiento�Técnicas de diseño
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del entorno
• Modo de comunicación entre el usuario yel sistema� Modo de comunicación: vocal, visual,
auditiva, táctil� Características específicas de cada
modo: tiempo de procesamiento,disponibilidad, modalidad de entrada ysalida
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del entorno
• Sistemas multimodales�Integración del habla con otras
modalidades�Locutores virtuales
• Animación de movimientosfaciales
• Sincronizada con hablasintetizada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Locutor virtual en catalánhttp://www.salleurl.edu/~jmelen/rvsdemo.html
Secció de Teoria delSenyal, EnginyeriaLa Salle, UniversitatRamon Llull
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de la tarea
• Especificación del objetivo de la tarea yde sus características específicas� Obtención de información� Transacciones� Negociación
• Discriminación de sub-diálogos nopertenecienes a la tarea
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del usuario
• Tipología de usuarios� Características personales: edad,
sexo, estado físico, nivel cultural,estatus social� Experiencia del usuario con
sistemas de comunicación persona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Bases de conocimiento
• Bases de conocimiento asociadas a cada uno delos módulos de un sistema de diálogo:� Lexicón� Reglas� Modelos de lenguaje� Sistema� Tarea� Entorno� Historia del diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Bases de conocimiento
• Uso de la información prosódica� Desambiguación de oraciones� Identificación del cambio de tema� Detección de la intencionalidad o el
énfasis del hablante� Identificación de los cambios de turno
de palabra
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Técnicas de diseño
�Diseño a partir de la intuición
�Diseño a partir de la observación de diálogosnaturales entre hablantes humanos
�Diseño por simulación de la interacciónpersona-máquina
�Diseño mediante la interacción con un sistemade diálogo real
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la intuición
• Determinación por parte del investigador detodas las posibles respuestas a una pregunta
• Problemas� Variabilidad de las respuestas� Limitación de la clase de estructuras
lingüísticas utilizadas por el usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la intuición
• Utilizado en determinadas condiciones
� Estructuración clara de la tarea� Introducción de frases determinadas
previamente por parte del sistema
� Las preguntas del sistema presuponenuna determinada respuesta por partedel usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogo
• Estudio de la interacción naturalentre personas
• Perspectiva ling üística
• Pragmática
• Análisis de la conversación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogo
• Estudio de corpus con diálogoscorrespondientes a la tarea que deberealizar el sistema
• Corpus persona-persona
• Corpus persona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la observación de diálogosnaturales entre hablantes humanos
� Ayuda a la definición devocabularios y modelos lingüísticospropios de una tarea específica
� Diferencias entre la interacciónhumana natural y la interacciónpersona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño por simulaciónde la interacción persona-máquina
• Protocolo del Mago de Oz(Wizard of Oz)� Simulación de la interacción
en la que el papel de lamáquina lo realiza un humanosin que lo sepa el interlocutor
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño mediante la interaccióncon un sistema de diálogo real
Diseño mediante la interaccióncon un sistema de diálogo real
• System-in-the-loop
� El sistema mejora amedida que se utiliza conusuarios reales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tipología de los sistemas de diálogoTipología de los sistemas de diálogo
�Sistemas de diálogo guiados
�Sistemas de diálogo cooperativos
�Sistemas de diálogo constitutivos
�Sistemas de diálogo adaptativos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Sistemas de diálogo guiadosSistemas de diálogo guiados
• La interacción se realizamediante alternancias cerradasentre pregunta y respuesta
• Restricción de las iniciativas delusuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Sistemas de diálogo cooperativosSistemas de diálogo cooperativos
• Aceptan las interrupciones ynegociaciones por parte del usuario
• Reparto equilibrado del turno depalabra
• Incorporación de mecanismos dedetección de incoherenciasgramaticales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Sistemas de diálogo constitutivosSistemas de diálogo constitutivos
• El sistema es capaz deaprender nocionesnuevas en el curso deldiálogo con el usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Sistemas de diálogo adaptativosSistemas de diálogo adaptativos
• El sistema es capaz deaprender nuevas estrategiascomunicativas en función delcomportamiento del usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo
�Sistemas de información�Sistemas de transacciones
�Traducción automática del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogo
• Obtener información
• Horarios y precios de transportes públicos• Información ciudadana
• Información turística• Información meteorológica
• Información académica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Horarios y precios de transportes públicos http://gps-tsc.upc.es/veu/basurde/
Basurde 976.76.21.13
Universitat Politècnica de Catalunya
Universitat Politècnica de ValènciaUniversidad del País Vasco
Universitat Jaume IUniversidad de Zaragoza
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ARISE, Automatic Railway Information Systems for Europe
http://www.compuleer.nl/arise.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
•Información de tráficomarítimo en elarchipiélago de Estocolmo
•Entrada mediantereconocimiento del habla
•Informaciónproporcionada mediantesíntesis del hablacomplementada porsíntesis visual y un interfazgráfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html
MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html
MASK : Le systeme MASK vousécouteUSER : Euh... je voudrais allerdemain de Paris à Bordeaux...MASK : A quelle heure voulez-vous partir?USER : Vers 12:30MASK : Il y a un train a 12:43,voulez-vous réserver?USER : Oui en première classe
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATIS, SRI Internationalhttp://www.speech.sri.com/people/julia/atis.html
• Información sobre horarios y tarifas devuelos
• Incluye comprensión del lenguaje
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATIS, SRI International
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
• Información sobre laciudad de Estocolmo
• Agentesconversacionalespara ayudar en elproceso de obtenciónde información
• Síntesis visual
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Información meteorológica http://gps-tsc.upc.es/veu/attemps/
aTTempsUniversitat Politècnica de
CatalunyaUniversitat Autònoma de
Barcelona906.789.987
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Información académica http://ceres.ugr.es/sacc/
SACC/STACCUniversidad de Granada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogo
• Realizar transacciones• Reserva y adquisición de billetes para
viajar en transportes públicos• Pedidos telefónicos• Venta de entradas• Banca telefónica• Atención telefónica al cliente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Venta de entradas http://www.ydilo.com/esp/caseStudies.html
CineEntradasYdilo Advanced Voice Solutions
902.888.902
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Banca Telefónica http://www.natvox.es/demos_bpt.html
BpT, Banca por TeléfonoNatural Vox
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
TRAINS, Department of Computer Science, Rochester Universityhttp://www.cs.rochester.edu/research/trains/
• Gestión de itinerarios de trenes
� Síntesis y reconocimiento del habla� Diálogo
� Comprensión del lenguaje
� Interfaz visual� Integración en un sistema interactivo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
TRAINS, Department of Computer Science, Rochester University http://www.cs.rochester.edu/research/trains/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de un sistema de diálogo
• Gestionar información
• Gestión del correo electrónico
• Gestión de recursos
• Centralitas telefónicasautomatizadas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Gestión del correo electrónico http://www.gts.tsc.uvigo.es/telcorreo/
TelCorreoUniversidade de VigoUniversidade de Santiago
de Compostela
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Servicios de atención al cliente http://www.grupovoice.com/
GRU, Unidad de Respuesta GlobalGrupo Voice Consulting
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
• Generación dehabla sintetizadacon apoyo visual(lectura labial)para personas condificultades deaudición
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del habla
• Problemas del habla espontánea (disfluencies)
• Dudas• Pausas “llenas”
• Alargamientos vocálicos• Repeticiones
• Falsos principios• Velocidad de elocución
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del habla
• Problemas del diálogo
• Elementos anafóricos
• Elementos deícticos
• Elipsis
• Presuposiciones…Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablahttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb.htm
"... I'm available on Friday the 19th...”
"...sí sí venerdì diciannoveposso, sì perchè sai oggi
vado via per il viaggio D, laverità è che questo mese è
pieno di viaggi parto ilgiorno sei per un viaggio estarò via fino al dodici ed è
per questo che il giornodiciannove mi va proprio
bene francamente..."
“...yes yes on fridaynineteen can, yes
because know I go me oftrip today, the truth such is
that this month is verytraveller I go me the day six
of trip and I am until thetwelve as soon as the daynineteen comes me very
well outspokenly”
=
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablahttp://www.is.cs.cmu.edu/papers/speech/1996/COMPUTER-alex.ps.gz
“...sí sí el viernes diecinueve puedo sí porque sabes mevoy de viaje d hoy la verdad así esque este mes es muy viajero me voy el día seis de viajey estoy hasta el doce así que el díadiecinueve me viene muy bien francamente...”yes yes on friday nineteen can yes because know I gome of trip D today the truth such isthat this month is very traveler I go me the day six of tripand I am until the twelve as soonas the day nineteen comes me very well outspokenly
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento del habla
Gestión del diálogo
Traducción automática de textos
Conversión de texto en habla
Traducción automática del habla(Spoken Language Translation)
Traducción automática del habla(Spoken Language Translation)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Arquitectura del sistema de SRIftp://ftp.speech.sri.com/pub/brochures/translation.pdf
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Arquitectura de C-STARhttp://www-clips.imag.fr/projets/cstar/clips/Architecture.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
• Sistema móvil de traducción de diálogosespontáneos
• Dominios restringidos: citas, preparaciónde viajes, reservas de hotel
• Lenguas: alemán, inglés y japonés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
• Independiente del locutor• Bidireccional• Teléfono móvil GSM• Más de 10.000 palabras• 75% de reconocimiento de palabras• 80% de traducciones correctas• 90% de éxito en tareas• Generación de resúmenes de conversaciones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/verbmobil/2EN.MPG
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
JANUShttp://www.is.cs.cmu.edu/mie/janus.html
• Dominios limitados: citas, reserva dehoteles, itinerarios de viajes
• Lenguas de entrada: inglés y alemán
• Lenguas de salida: inglés, alemán yjaponés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Videoconferenciahttp://www.is.cs.cmu.edu/mie/janus2.html
• Reservas de viajes entre un cliente yuna agencia local
• Traducción oral y escrita de laconversación
• Interacción establecida porvideoconferencia
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html
• Información y ayuda para una personaque viaja por un país extranjero
• Traducción oral y escrita y acceso a basesde datos de información turística
• Independiente del locutor• Dominio restringido• Versiones portátil y móvil
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor de conversacioneshttp://www.is.cs.cmu.edu/mie/janus3.html
• Lenguas: inglés y castellano
• Seguimiento de la conversación• Traducción presentada en forma escrita
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
• Sistema móvil de traducción,información, ayuda y navegación
• Dominio: turismo en un país extranjero• Lenguas: inglés, alemán y japonés• Multimodal: habla, texto, escritura
manuscrita, imagen y gesto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
Integrado enel ordenadorportátilXybernautMobileAssistant IV
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/tourist2.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/movie.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
SRI Internationalhttp://www.speech.sri.com/
• Dominio restringido: información sobrevuelos
• Lenguas: del inglés al francés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
SRI Spoken Language Translationhttp://www.speech.sri.com/star-videos.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nespole!http://nespole.itc.it/
• Negotiating through Spoken Language inE-Commerce
• Traducción automática del habla paracentros de videoconferencia
• Lenguas: italiano con traducción alinglés, alemán y francés
• Dominio: turismo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nespole!http://nespole.itc.it/public/frames/f_video.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Eutranshttp://prhltdemos.iti.es/demo/spanish_demo.html
• Example Based Undestanding and TranslationSystems
• Lenguas: del castellano o del italiano al inglés
• Dominio: centralita y recepción de hoteles• Accesible por teléfonoPattern Recognition and Human Language Technology Group,
Universitat Politècnica de València
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Eutranshttp://www.iti.upv.es/~fcn/Talks/tah/EuTransI.avi
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del habla
• Dominios restringidos
• Interacción pregunta-respuesta• Accesible por teléfono
• Multimodalidad
• Complementariedad del conocimientolingüístico y del conocimiento técnico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogo
• Campo de trabajo interdisciplinar• Tecnologías del habla
• Reconocimiento del habla• Conversión de texto en habla
• Procesamiento del lenguaje natural• Comprensión del lenguaje natural• Generación de lenguaje natural
• Lingüística• Pragmática y análisis de la conversación• Fonética• Morfología, léxico, semántica y sintaxis
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
¿Quién desarrolla las tecnologías delhabla?
• Surgidas en un principio del ámbito de laingeniería de telecomunicaciones
• Desarrolladas siguiendo la evolución dela informática
Ingenieros de telecomunicaciónInformáticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista
• Conocimiento de la interacción oralhumana
• Conocimiento de los mecanismos dede producción y percepción delhabla
• Conocimiento del sistema lingüístico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La conversión de texto en habla
• Tratamiento previo del texto• Análisis lingüístico del texto• Transcripción fonética automática• Diccionarios de unidades de síntesis• Modelos prosódicos• Evaluación de sistemas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El reconocimiento del habla
• Selección de locutores para elentrenamiento del sistema
• Segmentación y transcripción delcorpus de entrenamiento
• Diccionarios de pronunciación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogo
• Estudio y anotación de corpus de interaccionesnaturales entre personas
• Estudio y anotación de corpus de interaccionesficticias entre personas y sistemas informáticos
• Diseño de escenarios para el desarrollo delsistema
• Diseño de estrategias de diálogo• Adecuación pragmática del diálogo• Corrección lingüística del sistema
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüistaGrup de Fonètica, DFE UAB
CNET- Centre National d’Études desTélécommunications, Lannion (1992-1996)
• Módulos lingüísticos del conversor de texto en habla en español• Selección de locutores para la grabación de la base de datos de
unidades de síntesis, supervisión de las grabaciones y evaluacióndel diccionario de unidades de síntesis
• Evaluación objetiva de los módulos lingüísticos del conversor:transcriptor, categorizador, pausador, asignación de duraciones,asignación de entonación
Voz masculina “Rafael” comercializada por Élanhttp://www.elanspeech.com/demos/interactive.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
CSELT - Centro Studi e Laboratori Telecomunicazioni,Torino (1998-2000)
• Módulos lingüísticos del conversor de texto en habla enespañol
• Selección de locutores para la grabación de la base dedatos de síntesis y supervisión de las grabaciones
• Evaluación objetiva de los módulos lingüísticos delconversor
• Modelos prosódicos para las oraciones interrogativasdel español peninsular
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
Loquendo, Torino (2000-)• Módulos lingüísticos, selección de locutores y superivisión de las
grabaciones para el conversor de texto en habla en catalán• Modelos prosódicos para las oraciones interrogativas en español
mexicano, portugués brasileño, inglés, alemán y griego moderno• Evaluación subjetiva de diferentes versiones del conversor y
evaluación objetiva de los módulos de procesamiento lingüístico encatalán
Voz masculina (Juan) y femenina (Carmen) en español y vozfemenina (Montserrat) en catalán del sistema Actor
http://actor.loquendo.com/actordemo/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
Telefónica I+D, Madrid (1995-1999)
• Creación de un protocolo de pruebasevaluación subjetiva y de diagnóstico para laevaluación de conversores de texto en habla enespañol y en catalán
• Módulos lingüísticos para el conversor de textoen habla en catalán
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
Grupo Voice Consulting, Vitoria (2002-)• Realización conjunta de proyectos de investigación• Actividades comunes relacionadas con la promoción y
el desarrollo de la investigación y desarrollo• Cooperación en programas de formación de personal
técnico e investigador de la empresa• Intercambio de personal por tiempo limitado para la
ejecución de proyectos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
Grup de Tractament de la Parla, Departament de Teoriadel Senyal i Comunicacions, Universitat Politènica deCatalunya
FreeSpeech, Philips (1999)• Corpus de unidades fonéticas para el
reconocimiento• Transcripción fonética del vocabulario
para el reconocedor
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüista Grup de Fonètica, DFE UAB
Grup de Tractament de la Parla, Departament de Teoriadel Senyal i Comunicacions, Universitat Politènica deCatalunya
aTTemps, Generalitat de Catalunya (2002)• Escenarios del sistema de diálogo• Obtención, transcripción y anotación del
corpus de entrenamiento• Adecuación lingüística del sistema de diálogohttp://gps-tsc.upc.es/veu/attemps/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Algunos obstáculos
• “Cultura” tecnológica vs. “cultura”humanística (“aplicación” vs. “teoría”)
• El vocabulario común
• La “formación” filológica
• El lingüista como “proveedor de datos”
• El lingüista como “revisor”
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
La incorporaciLa incorporacióón deln delconocimiento lingconocimiento lingüíüístico a lasstico a las
tecnologtecnologíías del hablaas del habla
http://liceu.uab.es/~joaquim/speech_technology/IIMAS_03/
IIMAS_03.html
Departamento de Ciencias de la ComputaciónInstituto de Investigaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
La incorporaciLa incorporacióón del conocimienton del conocimientolinglingüíüístico a las tecnologstico a las tecnologíías del hablaas del habla
Joaquim LlisterriJoaquim Llisterri
Grup de FonGrup de FonèèticaticaDepartament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim
Departamento de Ciencias de la ComputaciónInstituto de Investigaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003