traitement de la parole : synthèse et reconnaissance
DESCRIPTION
Traitement de la parole : Synthèse et reconnaissance. Plan. La parole, c’est quoi ? Analyse de la parole Parole et IdL Synthèse vocale Reconnaissance vocale Evaluation. 1. La parole, c’est quoi ?. Production Perception. Production Signal acoustique « en 3 étapes » - PowerPoint PPT PresentationTRANSCRIPT
Traitement de la parole : Synthèse et reconnaissance
Plan
• La parole, c’est quoi ?
• Analyse de la parole
• Parole et IdL– Synthèse vocale– Reconnaissance vocale
• Evaluation
1. La parole, c’est quoi ?
Production Perception
• Production– Signal acoustique « en 3 étapes »– Appareil respiratoire & appareil phonatoire– Types de sons
• Voyelles : orale / nasales• Consonnes : fricatives, occlusives, liquides, nasales.
(voisées / non voisées)
• Perception– Vibrations mécanique -> impulsions nerveuses
Caractériser la parole
• Facteurs physiques– Fréquence et hauteur
– Prosodie• Intonation
• Rythme
• Intensité
– Timbre
• Autres facteurs– Les émotions dans la parole
2. Analyse de la parole
Analyse de la parole
• Discipline : au croisement du traitement du signal et des sciences du langage
• Traits acoustiques d’un signal de parole– Fréquence fondamentale– Spectre sonore– Energie
Modélisation du signal acoustique
• Signal de parole– Non stationnaire à long terme– Stationnaire à (très) court terme
• Production image acoustique significative– Synthèse : produire une telle image– Reco : extraire info de cette image
Modélisation du signal acoustique
• Trouver des traits acoustiques caractéristiques• Voyelles : les formants
– Maxima d’énergie dans un spectre de parole– Fréquence, Amplitude et bande passante– F1 et F2 pour triangle acoustique
• Consonnes– Occlusives : silence puis perturbation– Fricatives : bruit de friction– Sonnantes : formants et peu de bruit
Construction d’un modèle acoustique
3. Parole et IdL
3.1. Synthèse vocale
Objectifs
• Générer de la parole à partir d’un texte– De l’orthographe vers la phonétique– Du phonétique au son numérique
• Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques »
Historique
• 1ère génération : 1965 -1985– Synthèse par règles / par formants– Exc
• 2ème génération : depuis 1985– Synthèse vocale par diphones– Portions de parole naturelle « concaténée »
• Sélecton de diphones/d’unités
Aspect technique
• Transcription phonétique– Transformer une forme orthographique en une
séquence de phonèmes• Règles de réécriture en contexte
• Lexique d’exception
• Application de règles à cette séquence– Formants / diphones
– Gestion de la prosodie
– Gestion des émotions (?)
Applications
• Créer des interfaces vocales– Vocalisation d’écran– Serveurs téléphoniques
• Outils d’enseignement assisté par ordi– Dictée automatique, Apprentissage des langues
• Applications industrielles
• Télématique vocale
Retours d’expériences par l’usage
• Fiabilité et robustesse– Intelligibilité parfaite– Filtrage « intelligent »
• Attentes des usagers– Naturel de la parole : fluidité et expressivité– Voix aux timbres variés– Langues traitées– Prétraitement des documents
Evaluation
• Test de diagnostic– Tester modules individuellement
• Evaluation globale– Intelligibilité globale– Qualité globale
• Comparaison entre systèmes par utilisateurs
3.2. Reconnaissance vocale
Objectifs
• Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine– Reconnaissance vocale– Vérification du locuteur– Identification du locuteur
• 1er système : Bell Labs (1952)– Reconnaissance de chiffres isolés
Principe
• A partir d’un signal de parole– Extraire une image acoustique (par tranches)– Numériser le signal pour le donner en entrée
du système– Mise en relation des segments de parole et des
éléments lexicaux– Reconstitution du discours le plus probable
Principe (2)
• Modèles sous-jacents– Modèle acoustique :
• à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible
– Modèle de prononciation• Prononciation(s) possible(s) pour chaque mot du vocabulaire
(et proba associée(s))
– Modèle de langage• Proba de suite de mots
Application
• Interfaces Homme-machine– Aéronotique / automobile– Systèmes embarqués – Bureautique
• Enseignement assisté par ordinateur
Evaluation
• Utilisation du WER (Word Error Rate)– Taux de mots incorrectement reconnus par
rapport à un texte de référence
• Mots isolés ou parole continue ?
• Variabilité inter/intra locuteur ?
• Naturel du discours ?