sistema comunicacion oral_personas_sordas
Post on 09-Jul-2015
121 Views
Preview:
TRANSCRIPT
Sistema de Comunicación Oral para Personas SordasGrupo de Tecnología del Habla – Universidad Politécnica de Madrid
Fundación CNSE
2
ÍNDICE
INTRODUCCIÓN ESTADO DE LA CUESTIÓN BASE DE DATOS TRADUCCIÓN DE VOZ A LENGUA DE
SIGNOS ESPAÑOLA (LSE) GENERACIÓN DE VOZ A PARTIR DE LSE EVALUACIÓN CONCLUSIONES
3
INTRODUCCIÓN 1.064.000 personas sordas en España
92% tiene dificultad para entender y expresarse en castellano escrito
Problemas en tareas de la vida cotidiana (relaciones sociales, acceso a la información, servicios públicos, etc.)
Comunidad Sorda: personas sordas que utilizan la Lengua de Signos para comunicarse
Desde 2007, la LSE es una lengua oficial en España
Plan del Gobierno para invertir en recursos en LSE
Proyecto desarrollado por el GTH en colaboración con la Fundación CNSE
Objetivo: Diseño, desarrollo y evaluación de una sistema avanzado de comunicación bidireccional entre una persona oyente y una persona sorda.
Ámbito de aplicación: servicio de atención personal de la administración renovación del permiso de conducir
4
ESTADO DEL ARTE Corpus generados en lengua de signos:
300 horas de 100 signantes grabadas en lengua de signos australiana (T. Johnston, 2008) base de datos RWTH-BOSTON-400 en lengua de signos americana (Dreuw et al., 2008) British Sign Language Corpus (Schembri, 2008) corpus desarrollado en el Institute for Language and Speech Processing en lengua de
signos griega (Efthimiou E., y Fotinea, E., 2008) …
Traducción de habla natural
España: AVIVAVOZ (http://www.avivavoz.es) Europa: C-Star, ATR, Vermobil, Eutrans, LC-Star, PF-Star y TC_STAR EEUU: programa GALE …
Traducción a lengua de signos:
basada en ejemplos (Morrissey y Way, 2005) basada en reglas (San-Segundo, 2008) Basada en frases completas (Cox et al, 2002 ) métodos estadísticos (Bungeroth y Ney, 2004; Morrissey et al, 2007; sistema SiSi de IBM ) …
5
BASE DE DATOS
Renovación del permiso de conducir (entrevistas con funcionarios)
Traducción a LSE (glosas) por parte de personas sordas
Videos de las frases en LSE
Ampliación del número de frases iniciales en el GTH (más de 2000 frases finalmente)
Base datos signos en varias notaciones: Glosas Hamnosys SEA SIGML
133294Vocabulario
2,2833,130Palabras
93389Frases diferentes
483Pares de frases
LSECastellanoUsuarios
237527Vocabulario
12,74117,113Palabras
1991,413Frases diferentes
1,641Pares de frases
LSECastellanoFuncionario
6
TRADUCCIÓN DE VOZ A LSE 3 módulos:
Reconocedor de voz Basado en HMMs Habla continua Independiente del locutor Desarrollado en el GTH-UPM
Traducción: palabras a signos
Representación de los signos agente animado Virtual Guido: proyecto europeo eSIGN
Reconocimientode voz
Traducción de palabras a
signos
Voz del funcionario Secuencia
de palabras
Modelo de traducciónModelosacústicos
Modelo del Lenguaje
Animación de signos
Descripción de signos
Secuenciade signos
Reconocimientode voz
Traducción de palabras a
signos
Voz del funcionario Secuencia
de palabras
Modelo de traducciónModelosacústicos
Modelo del Lenguaje
Animación de signos
Descripción de signos
Secuenciade signos
7
TRADUCCIÓN DE VOZ A LSE Módulo de traducción: 3 estrategias (estructura jerárquica)
Basada en ejemplos: similitud con el corpus paralelo
Basada en reglas desarrolladas por expertos costosa
Estadística menos tiempo y esfuerzo
Frase en glosas
Trad. basada en reglas
Trad. basada en ejemplos
Traducción estadística
Frase reconocida
Segundo módulo
Distancia al ejemplo más cercano ≤ Umbral
Distancia al ejemplo más cercano > Umbral
(#Glosas/#palabras) < Umbral
(#Glosas/#palabras) ≥ Umbral
Frase en glosas
Trad. basada en reglas
Trad. basada en ejemplos
Traducción estadística
Frase reconocida
Segundo módulo
Distancia al ejemplo más cercano ≤ Umbral
Distancia al ejemplo más cercano > Umbral
(#Glosas/#palabras) < Umbral
(#Glosas/#palabras) ≥ Umbral
0.80198.4510.116.76
BLEUPERSERSR-WER
8
TRADUCCIÓN DE VOZ A LSE
9
GENERACIÓN DE VOZ A PARTIR DE LSE 3 módulos:
Interfaz de especificación de signos
Traducción (análogo al del sistema voz-LSE)
Conversor texto a voz: Conversor comercial Loquendo
Traducción entre lenguas
Voznatural
Secuenciade signos
Modelo de traducción
Secuenciade palabras
Interfazavanzado de
especificaciónde signos
Conversiónde texto a
voz
Unidadesacústicas
Informaciónde la lengua
Traducción entre lenguas
Voznatural
Secuenciade signos
Modelo de traducción
Secuenciade palabras
Interfazavanzado de
especificaciónde signos
Conversiónde texto a
voz
Unidadesacústicas
Informaciónde la lengua
0.91132.252.36
BLEUPERWER
10
GENERACIÓN DE VOZ A PARTIR DE LSE
11
EVALUACIÓN Jefatura Provincial de Tráfico de
Toledo: renovación del permiso de conducir 2 funcionarios 10 usuarios sordos 6 escenarios 2 días de evaluación
12
EVALUACIÓN Sistema voz-LSE: medidas objetivas
Buena tasa reconocimiento de voz Buena tasa de traducción Trad. Ejemplos en 95% casos: fiabilidad del
corpus generado
8.4Número de turnos del funcionario
0.8%% de uso de la traducción estadística
4.3%% de uso de la traducción basada en reglas
94.9%% de uso de la traducción basada en ejemplos
4.7 secTiempo de signado
0.0013 secTiempo de traducción
3.3 secTiempo de reconocimiento
8.9%Tasa de error después de la traducción
4.8%Tasa de error de reconocimiento de habla
ValorMedidas objetivas del sistema
13
EVALUACIÓN Sistema voz-LSE: medidas subjetivas
Buena valoración funcionario Peor valoración usuarios. Problemas:
Naturalidad del agente animado Bajo nivel de estandarización de la LSE
3.5
2.2Valoración global
2.0¿Utilizaría el sistema en ausencia de un intérprete?
0.8El signado es natural
2.2Comprendo los signos
2.1Los signos son correctos
Usuarios
Valoración global
3.5¿Utilizaría el sistema en ausencia de un intérprete?
3.5Facilidad de aprendizaje
3.5Facilidad de uso
3.5Tasa de reconocimiento
4.0Rapidez del sistema
Funcionario
Valor (0-5)Medidas subjetivasAgente
14
EVALUACIÓN Sistema LSE-voz: medidas objetivas
Buena tasa de traducción Trad. Ejemplos en 92% casos: fiabilidad
del corpus
4.0Número de turnos del usuario
2.6Número de glosas por turno del usuario
8.6 clicksNúmero de clicks para añ adir una glosa
18.5 secTiempo para definir una secuencia de glosas
0.0%% de uso de la traducció n estadística
8.1%% de uso de la traducció n basada en reglas
91.9%% de uso de la traducció n basada en ejemplos
1.7 secTiempo para conversió n texto a voz
0,001 sec
Tiempo de traducció n
2.0%Tasa de error de traducció n
ValorMedidas objetivas del sistema
15
EVALUACIÓN Sistema LSE-voz: medidas subjetivas
Buena valoración funcionario Usuarios:
Buena valoración interfaz, aunque compleja. Bajo nivel de estandarización de la LSE
3.0Valoración global
2.8¿Utilizaría el sistema en ausencia de un intérprete?
2.6¿Hay suficientes glosas?
2.4Facilidad de aprendizaje
3.2Rapidez del sistema
Usuarios
4.0Valoración global
4.0¿Utilizaría el sistema en ausencia de un intérprete?
3.0Naturalidad de la voz
4.0Inteligibilidad de las frases
Funcionario
Valor (0-5)Medidas subjetivasAgente
16
CONCLUSIONES Desarrollo de un sistema de comunicación bidireccional para
personas sordas voz-LSE LSE-voz Dominio de aplicación: renovación del permiso de conducir
Generación del primer corpus paralelo entre castellano y LSE para un dominio concreto
Evaluación en un entorno real Muy buenas tasas de traducción y reconocimiento Funcionario
Buena valoración en todos los aspectos Usuarios: hay que mejorar
Naturalidad del avatar Complejidad de la interfaz Problemas relacionados con la normalización de la LSE
17
¿PREGUNTAS?
top related