1-traitement de la parole 2007-03-16
TRANSCRIPT
![Page 1: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/1.jpg)
TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses
Dr. Andrzej Drygajlo, ELE [email protected]
Speech Processing and Biometrics Group (GTPB)Laboratoire de IDIAP (LIDIAP)
Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)
National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”
IDIAP Research Institute, Martigny
![Page 2: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/2.jpg)
InterSpeech - Eurospeech 2003
• 8th European Conference on Speech Communication andTechnology
• Organizer: International Speech Communication Association (ISCA)
• 1110 registered participants from47 countries
![Page 3: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/3.jpg)
Knowledge Navigator
![Page 4: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/4.jpg)
Implications technologiques
• Integration du téléphone– Mains libres/micro HiFi– Majordome d’accueil vocal– Vidéoconférence
• Codage de la parole– Débit/coût/qualité– Standardisation
• Synthèse– Vocabulaire illimité– Intonation naturelle– Synthèse à partir de
concepts
• Reconnaissance, compréhension– Vocabulaire illimité– Système indépendant
du locuteur
![Page 5: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/5.jpg)
Speech/Music Discrimination and Recognition
entropy
dynamism
Music/ othersounds
Speech
![Page 6: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/6.jpg)
CRAZY JOE
![Page 7: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/7.jpg)
Interactive Tour-Guide Robot
Face
Loud speakers
Microphone array
Buttons
SICK laser scanner
Bumpers
Mobile robot
RoboX
EXPO.02 – Robotics Exhibition
![Page 8: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/8.jpg)
Pourquoi?
![Page 9: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/9.jpg)
Quelle est votre définition de la parole?
• Moyen de communication par excellence.• Information qui est véhiculée par les ondes
sonores.• C’est un bruit qui a un sens.• C’est le vecteur d’information qui différencie
l’homme de l’animal.• Signal permettant la communication entre
humains.• Je ne sais pas en français. J’espere que ça sera
plus clair après ce cours.
![Page 10: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/10.jpg)
L’homme est-il fait pour parler?
![Page 11: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/11.jpg)
La parole
• La parole – faculté de communiquer la pensée par un système de sons articulés émis par les organes de la phonation
• La parole – expression verbale de la pensée
Le Petit Robert 1993
![Page 12: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/12.jpg)
La voix et le langage
• La voix – ensemble de sons produits par le système phonatoire et articulatoire
• Le langage – fonction d’expression de la pensée et de communication entre les hommes, mise en œuvre au moyen d’un système de signes vocaux (parole) et éventuellement de signes graphiques (écriture) qui constitue une langue
![Page 13: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/13.jpg)
Le cerveau et le langage
• Le langage nous aide àstructurer le monde en concepts et à reduire la complexité des structures abstraites afin de les appréhender: c’est la propriété de « compression cognitive »
• La perception – fonction par laquelle l’esprit se représente les objets
![Page 14: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/14.jpg)
Act de communication parlée
LOCUTEUR AUDITEUR
Idée
Traitement cognitif
Comprehénsion
Traitement cognitif Traitement cognitif
Traitement linguistique et
phonétique
Production du son
Traitement linguistique et
phonétique
Traitement linguistique et
phonétique
Système auditifpériphérique
Système auditifpériphérique
![Page 15: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/15.jpg)
Phonétique et Phonologie
• La phonétique s’intéresse à la manière dont les sons du langage sont produits, transmis et perçus par les sujets parlants
• La phonétique – branche de la linguistique qui étudie les phonèmes
• La phonologie – science qui étudie les phonèmes non en eux-mêmes, mais quant à leur fonction dans la langue
![Page 16: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/16.jpg)
Phonème
• Phonème (notion phonologique) – unitéminimale du langage porteuse d’une signification linguistique
• Allophone – realisationd’un phonème (un phonème peut avoir plusieurs allophones)
![Page 17: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/17.jpg)
Phonèmes utilisés en français
![Page 18: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/18.jpg)
La parole
• La parole est un signal réel (4D), continu, d’énergie finie, non stationnaire.
• Sa structure est complexe et variable dans le temps:– Tantôt périodique (plus exactement pseudo-
périodique) pour les sons voisés,– Tantôt aléatoire pour les sons fricatifs,– Tantôt impulsionnelle dans les phases
explosives des sons occlusifs.
• Exemple: voix-parole
![Page 19: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/19.jpg)
Speech synthesis• Synthesis by rule• Text-to-speech
Speech synthesis• Synthesis by rule• Text-to-speech
Individuality• Speaker recognition• Speaker adaptation/normalization• Voice conversion
Individuality• Speaker recognition• Speaker adaptation/normalization• Voice conversion
Human-machine interface• Ergonomics• Subjective/objective evaluation
Human-machine interface• Ergonomics• Subjective/objective evaluation
Speech recognition/understanding
• Speaker-independent• Spontaneous speech
Speech recognition/understanding
• Speaker-independent• Spontaneous speech Speech coding
• Wide/narrow-band• Very-low-bit-rate
Speech coding• Wide/narrow-band• Very-low-bit-rateRobustness
• Noise/distortionRobustness
• Noise/distortion
Psychology
Physiology
ArticulationAcoustic
phonetics
Memory/learning
Artificial Intelligence
Acoustics
Signal processingSpeech perception
Nerve system
Speech production
Speech analysis
DatabaseDatabaseFeature extraction
(dynamics)
Speech information processing "tree" (Furui)
![Page 20: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/20.jpg)
SpeechRecognition
SpeakerRecognition
LanguageRecognition
SpeechSynthesis
SpeechInput
SpeechOutput
MultimodalInterface
LanguageUnderstanding
LanguageGeneration
Dialogue System Database
Communication parlée homme-machine
![Page 21: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/21.jpg)
Invention du téléphone
L’émetteur à liquide de Bell
L’émetteur à induction de Bell
![Page 22: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/22.jpg)
0110-05
InternetInternet
VoIPVoIP
PSTNPSTN
Voice
Traffic ContentContent servers
Voice portal environment
![Page 23: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/23.jpg)
UMTS
• UMTS – Universal Mobile TelecommunicationsSystem
• Le téléphone mobile de la 3e génération
![Page 24: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/24.jpg)
UMTS - Swisscom
• L’opérateur propose depuis 16 novembre 2004 l’UMTS
• Swisscom à investi ‘plusieurs centaines’ de millions de francs pour créer son réseau UMTS fort de 12’000 antennes, parallèle au GMS actuel
• L’UMTS permet un débit maximal de 384 kbit/s
• Swisscom se vante de couvrir 89,74% de la population en UMTS, soit 45% du territoire suisse
![Page 25: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/25.jpg)
MIT wearable computing people
![Page 26: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/26.jpg)
Traitement automatique de la parole
![Page 27: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/27.jpg)
Objectifs
A la fin du cours, les étudiants seront capablesd’appliquer les principales méthodes de traitement numérique du signal pour l’analyse, la compression, la synthèse et la reconnaissance de la parole.
![Page 28: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/28.jpg)
Bibliographie
• A. Drygajlo, “Traitement de la parole”, EPFL, Lausanne, 2005
• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, H. Leich, “Traitement de la parole”, PPUR, Lausanne 2000.
![Page 29: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/29.jpg)
Bibliographie
• B. Gold, N. Morgan, “Speech and Audio Signal Processing”, John Wiley and Sons, New York, 2000
• T. Quatieri, “Discrete-TimeSpeech Signal Processing: Principles and Practice”, PrenticeHall PTR, Upper Saddle River, 2002.
• X. Huang, A. Acero, H.-W. Hon, “Spoken Language Processing”, Prentice Hall PTR, Upper SaddleRiver, 2001.
![Page 30: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/30.jpg)
Contenu
• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine
![Page 31: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/31.jpg)
Production et perception de la parole
• Aperçu anatomique
• Mécanisme de la phonation• Phonétique articulatoire• Acoustique de la phonation
• Mécanisme de l’audition• Psychoacoustique
– Masquage– Bandes critiques
![Page 32: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/32.jpg)
Modélisation de la parole
![Page 33: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/33.jpg)
Analyse et modélisation de la parole
• Représentation numérique du signal vocal• Analyse temporelle• Analyse spectrale• Modélisation spectro-temporelle et
spectrogrammes• Analyse homomorphique• Modélisation basée sur la prédiction linéaire• Estimation des formants• Estimation de la période du fondamental
![Page 34: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/34.jpg)
Spectrogramme d’enveloppe
![Page 35: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/35.jpg)
Reconnaissance de la parole
• Difficultés• Méthodes déterministes
– Comparaison dynamique (DTW)– Quantification vectorielle (VQ)
• Méthodes statistiques– Modèles de Markov cachés (HMM)– Algorithmes de Baum-Welch et de Viterbi– Réseaux de neurones artificiels (ANN)
• Reconnaissance:– de mots isolés – de mots connectés – de la parole continue
![Page 36: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/36.jpg)
Comparaison dynamique (DTW)
R
T
w
![Page 37: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/37.jpg)
0103-19
Enveloppes spectrales Dictionnaire
Quantification vectorielle (VQ)
![Page 38: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/38.jpg)
Gaussian Mixture Model (GMM)
1 2
1 2
1 2
( ) ( )
(1) (1) (1)
(
(2) (2) (2)
)T
T
T
v D v D
vv v
vv
v
v
D
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥• • •• • •⎢ ⎥ ⎢ ⎥ ⎢ ⎥• • •⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Vecteurs acoustiquesd’entraînement
GMM
Paramètre 1 Paramètre 2 Paramètre D
Histogrammes
Distance = Score = vraisemblance (parole | modèle)
![Page 39: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/39.jpg)
0104-08
Phonememodels
Featurevectors
Phoneme k-1 Phoneme k Phoneme k+1time
11 3322
Outputprobabilities
b1(x) b2(x) b3(x)
x x x
0.2 0.4 0.7
0.5 0.6 0.3
0.3
Modèles de Markov cachés (HMM)
![Page 40: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/40.jpg)
Reconnaissance du locuteur
• Variabilité intra- et inter-locuteur• Vérification et identification du locuteur• Méthodes déterministes et statistiques• Méthodes dépendantes du texte
– Comparaison dynamique (DTW)– Modèles de Markov cachés (HMM)
• Méthodes indépendantes du texte– Quantification vectorielle (VQ)– Modèles à mélanges de gaussiens (GMM)
![Page 41: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/41.jpg)
Identification biométrique
Empreinte digitale
Voix
Visage
Rétine
Signature
Iris
![Page 42: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/42.jpg)
Bases de données
Trace
Population
Suspect
Population potentielle
RéférencesContrôles
Paramètres Paramètres
Affaire Données
Base des données de référence (R) du suspect
Base des données de contrôle (C) du suspect
Base des données de la population potentielle (P)
![Page 43: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/43.jpg)
Synthèse de la parole
• Prosodie• Techniques de synthèse
– Synthèse directe– Synthèse à travers un modèle– Simulation du conduit vocal
• Systèmes de synthèse– Synthèse de messages– Synthèse à partir du texte
- Traitements linguistico-prosodiques- Synthèse par règles- Synthèse par diphones
•The DAVO articulatory synthesizer developed by George Rosen at MIT, 1958. The English Alphabet Song!
![Page 44: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/44.jpg)
Compression et codage de la parole
• Enjeux actuels- Signal de parole dans la bande téléphonique- Signal de parole en bande élargie- Signal de parole en bande large
• Méthodes temporelles (codeurs d’onde)- MIC (PCM), MICD (DPCM), MICDA (ADPCM)- Codage en sous-bandes
• Méthodes paramétriques (vocodeurs)• Méthodes hybrides (CELP)• Normes internationales
![Page 45: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/45.jpg)
Représentation numérique du signal vocal
• Bande large20 Hz – 20 kHzFréquence d’échantillonage – 44.1 kHz
• Bande élargie50 Hz – 7 kHzFréquence d’échantillonage – 16 kHz
• Bande téléphonique300 Hz – 3.4 kHzFréquence d’échantillonage – 8 kHz
![Page 46: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/46.jpg)
Frequency Band of Telephone Speech
Telephone channel: 300 Hz – 3.4 kHz•Recognition of syllables 91%•Recognition of sentences 99%
20 Hz – 20 kHz
50 Hz – 7 kHz
![Page 47: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/47.jpg)
Quantification
Bits: 16 8 4 3 2 1
![Page 48: 1-Traitement de La Parole 2007-03-16](https://reader034.vdocuments.pub/reader034/viewer/2022052620/557212fe497959fc0b915e0d/html5/thumbnails/48.jpg)
Communication vocale homme-machine
• Intégration de sous-systèmes• Systèmes de dialogue• Serveurs vocaux interactifs• Systèmes de dictée• Communication vocale homme-robot