![Page 1: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/1.jpg)
DEA de Sciences Cognitives 1
Le traitement automatiquede la parole
Comment reproduire les processus physiologiques et cognitifs humains?
Ivan Magrin-Chagnolleau, CNRS
Laboratoire Dynamique Du Langage, Lyonhttp://www.ddl.ish-lyon.cnrs.fr/
![Page 2: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/2.jpg)
DEA de Sciences Cognitives 2
Plan
1. Introduction aux processus de la communication parlée
2. Analyse de la parole
3. Synthèse de la parole
4. Reconnaissance de la parole
5. Reconnaissance du locuteur
![Page 3: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/3.jpg)
DEA de Sciences Cognitives 3
1. Introduction aux processus de la communication parlée
![Page 4: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/4.jpg)
DEA de Sciences Cognitives 4
Quelques segments d’un signal
![Page 5: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/5.jpg)
DEA de Sciences Cognitives 5
Quelques propriétés du signal de parole
• La parole est quasi-stationnaire
• La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps)
• La parole est un signal large bande(il remplit toute la largeur de bande)
• La parole est un signal à bande limitée(0-8000 Hz essentiellement)
![Page 6: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/6.jpg)
DEA de Sciences Cognitives 6
Anatomie de l’appareil vocal (1)
![Page 7: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/7.jpg)
DEA de Sciences Cognitives 7
Anatomie de l’appareil vocal (2)
![Page 8: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/8.jpg)
DEA de Sciences Cognitives 8
Anatomie de l’appareil vocal (3)
![Page 9: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/9.jpg)
DEA de Sciences Cognitives 9
Fonctionnement acoustique de l’appareil vocal
• Système acoustique = excitateur + résonateur
• Trois modes de fonctionnement– Excitation glottique du conduit vocal– Excitation du conduit vocal en un point de
constriction par un bruit d’écoulement– Excitation du conduit vocal par une impulsion
acoustique
![Page 10: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/10.jpg)
DEA de Sciences Cognitives 10
Transcription phonétique du français
![Page 11: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/11.jpg)
DEA de Sciences Cognitives 11
Transcription phonétique du français
![Page 12: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/12.jpg)
DEA de Sciences Cognitives 12
Description acoustique de la parole
![Page 13: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/13.jpg)
DEA de Sciences Cognitives 13
Voyelles orales françaises
![Page 14: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/14.jpg)
DEA de Sciences Cognitives 14
Triangle vocalique
![Page 15: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/15.jpg)
DEA de Sciences Cognitives 15
Représentation acoustique (ex. 1)
![Page 16: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/16.jpg)
DEA de Sciences Cognitives 16
Représentation acoustique (ex. 2)
![Page 17: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/17.jpg)
DEA de Sciences Cognitives 17
Grille polaire de Maeda
![Page 18: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/18.jpg)
DEA de Sciences Cognitives 18
Coupes saggitales des voyelles
![Page 19: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/19.jpg)
DEA de Sciences Cognitives 19
Fonctions d’aires des voyelles
![Page 20: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/20.jpg)
DEA de Sciences Cognitives 20
Anatomie de l’oreille
![Page 21: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/21.jpg)
DEA de Sciences Cognitives 21
Les limites de l’oreille
• L’oreille est à bande limitée
• L’oreille est fausse sur des sons purs
• L’oreille n’est pas également sensible
• L’oreille a une résolution en temps limitée
• L’oreille a une résolution en fréquence limitée
![Page 22: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/22.jpg)
DEA de Sciences Cognitives 22
2. Analyse de la parole
![Page 23: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/23.jpg)
DEA de Sciences Cognitives 23
Objectifs de l’analyse de parole
Extraire des paramètres du signal de parole
afin de :• Retirer l’information non pertinente• Réduire la redondance• Obtenir une représentation plus compacte• Atteindre un niveau d’abstraction plus élevé• Définir des mesures de ressemblance simples
![Page 24: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/24.jpg)
DEA de Sciences Cognitives 24
Principes
• Prétraitement
• Découpage en trames– Taille des trames– Décalage entre trames
• Fenêtrage
• Extraction de paramètres acoustiques
![Page 25: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/25.jpg)
DEA de Sciences Cognitives 25
Principe d’une analyse acoustique
![Page 26: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/26.jpg)
DEA de Sciences Cognitives 26
Paramètres acoustiques non spectraux
• Energie
• Fréquence fondamentale
• Taux de passage par zéro du signal
• Taux de passage par zéro de la dérivée du signal
![Page 27: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/27.jpg)
DEA de Sciences Cognitives 27
L’enveloppe spectrale
Les approches conventionnelles
visent à extraire des caractéristiques
de l’enveloppe spectrale.
• Analyse par banc de filtres
• Analyse par prédiction linéaire
• Coefficients cepstraux
![Page 28: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/28.jpg)
DEA de Sciences Cognitives 28
Analyse par banc de filtres (1)
![Page 29: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/29.jpg)
DEA de Sciences Cognitives 29
Analyse par banc de filtres (2)
![Page 30: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/30.jpg)
DEA de Sciences Cognitives 30
Analyse par banc de filtres (3)
![Page 31: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/31.jpg)
DEA de Sciences Cognitives 31
Analyse par prédiction linéaire (1)
Modélisation de la parole sous forme
d’un filtre de prédiction linéaire
Filtre de
prédiction linéaire
e(t) s(t)
)()(0
teitsap
ii
![Page 32: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/32.jpg)
DEA de Sciences Cognitives 32
Analyse par prédiction linéaire (2)
![Page 33: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/33.jpg)
DEA de Sciences Cognitives 33
Coefficients cepstraux
• On applique une transformée de Fourier inverse sur le module du spectre logarithmique.
• Les premiers coefficients caractérisent l’enveloppe spectrale.
![Page 34: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/34.jpg)
DEA de Sciences Cognitives 34
L’information dynamique
• On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas
pk
pk
pk
pk
k
ktck
tc
)(
)(
pk
pk
pk
pk
k
ktck
tc2
2 )(
)(
![Page 35: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/35.jpg)
DEA de Sciences Cognitives 35
3. Synthèse de la parole
![Page 36: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/36.jpg)
DEA de Sciences Cognitives 36
La synthèse, pour quoi faire ?• Services de télécommunications
– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)
• Applications en bureautique– Terminaux parlants, lecture des emails par la voix, etc.
• Applications dans les transports– Information dans les automobiles, aide à l’exploitation des trains, lecture de
cadrans dans les avions, etc.
• Aide aux personnes handicapées– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre
astrophysicien Stephen Hawking)
• Apprentissage des langues étrangères– Dictionnaires électronique avec prononciation intégrée, logiciels
d’apprentissage des langues étrangères, traduction automatique, etc.
• Livres et jouets parlants– À l’usage des enfants en bas âge
• Communication naturelle avec la machine
![Page 37: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/37.jpg)
DEA de Sciences Cognitives 37
Structure d’un système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE
TRAITEMENT DULANGAGE NATUREL
Formalismes linguistiques
Moteurs d’inférenceInférences logiques
TRAITEMENT DUSIGNAL NUMERIQUE
Modèles mathématiques
AlgorithmesCalculs numériques
Texte ParolePhonèmes
Prosodie
![Page 38: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/38.jpg)
DEA de Sciences Cognitives 38
Traitement du langage naturel
Pré-processeurAnalyseur
morphologique
Analyseur contextuel
Analyseur syntaxique- prosodique
Phonétiseur
Générateur de prosodie
Texte
Structurede
données
Phonèmes
Prosodie
![Page 39: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/39.jpg)
DEA de Sciences Cognitives 39
Analyse morpho-syntaxique
![Page 40: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/40.jpg)
DEA de Sciences Cognitives 40
Phonétisation (1)
![Page 41: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/41.jpg)
DEA de Sciences Cognitives 41
Phonétisation (2)
![Page 42: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/42.jpg)
DEA de Sciences Cognitives 42
Synthétiseur par prédiction linéaire
![Page 43: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/43.jpg)
DEA de Sciences Cognitives 43
Synthétiseur à formants
![Page 44: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/44.jpg)
DEA de Sciences Cognitives 44
Synthèse par règles (1)
![Page 45: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/45.jpg)
DEA de Sciences Cognitives 45
Synthèse par règles (2)
![Page 46: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/46.jpg)
DEA de Sciences Cognitives 46
Synthèse par concaténation d’unités
![Page 47: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/47.jpg)
DEA de Sciences Cognitives 47
Qu’est-ce qu’un diphone ?
![Page 48: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/48.jpg)
DEA de Sciences Cognitives 48
Concaténation de diphones
![Page 49: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/49.jpg)
DEA de Sciences Cognitives 49
Prosodie : la « musique » de la parole
![Page 50: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/50.jpg)
DEA de Sciences Cognitives 50
Exemples• ICP-Grenoble (F), 1993
• CNET-Lannion (F), 1993 (TD-PSOLA)
• KTH-Stockholm (S), 1993
• LAIP-Lausanne (CH), 1996 (MBR PSO)
• University-Mons (B), 1993 (LPC)
• University-Mons (B), 1993 (MBE)
• University-Mons (B), 1993 (MBR PSO)
• University-Mons (B), 1993 (TD PSO)
![Page 51: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/51.jpg)
DEA de Sciences Cognitives 51
Liens Internet sur la synthèse
• http://tcts.fpms.ac.be/synthesis/mbrola.html• http://www.bell-labs.com/project/tts/#examples• http://www.cstr.ed.ac.uk/projects/festival/• http://www.research.att.com/projects/tts/
![Page 52: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/52.jpg)
DEA de Sciences Cognitives 52
4. Reconnaissance de la parole
![Page 53: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/53.jpg)
DEA de Sciences Cognitives 53
Objectifs
Transformer un signal de parole en :
• Texte (dictée vocale, transcription)
• Action (commande vocale, systèmes de dialogue)
• Information indexée (annotation, indexation)
![Page 54: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/54.jpg)
DEA de Sciences Cognitives 54
Les sources de variabilité• Les facteurs intra-locuteurs :
co-articulation, variation dans la prononciation, etc.
• Les facteurs inter-locuteurs :physiologie, age, sexe, psychologie, familiarité avec l’application, etc.
• L’environnement :bruit, micro, canal de transmission, présence d’autres locuteurs, etc.
![Page 55: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/55.jpg)
DEA de Sciences Cognitives 55
Variabilité intra- et inter-locuteur
![Page 56: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/56.jpg)
DEA de Sciences Cognitives 56
Variabilité intra-locuteur
![Page 57: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/57.jpg)
DEA de Sciences Cognitives 57
Typologie des systèmes
• Type de parole
• Taille du vocabulaire
• Niveau de dépendance par rapport aux locuteurs
• Environnement d’utilisation
• Profil des utilisateurs potentiels
![Page 58: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/58.jpg)
DEA de Sciences Cognitives 58
Type de parole
• Mots isolés
• Mots connectés
• Détection de mots clés
• Parole contrainte
• Parole continue
• Parole spontanée
![Page 59: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/59.jpg)
DEA de Sciences Cognitives 59
Taille du vocabulaire
• Quelques mots (5 – 50)
• Petit vocabulaire (50 – 500)
• Vocabulaire moyen (500 – 5000)
• Grand vocabulaire (5000 – 50000)
• Très grand vocabulaire (> 50000)
![Page 60: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/60.jpg)
DEA de Sciences Cognitives 60
Dépendance au locuteur
• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier
Adaptation au locuteur =utilise quelques données spécifiquesd’un locuteur pour adapter le système
à une nouvelle voix
• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur
![Page 61: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/61.jpg)
DEA de Sciences Cognitives 61
Environnement d’utilisation
• Parole large-bande(ordinateur, etc.)
• Parole bande-étroite avec distorsion (téléphone, etc.)
• Environnement calme (bureau + micro-casque)
• Bruit de fond
![Page 62: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/62.jpg)
DEA de Sciences Cognitives 62
Profil des utilisateurs potentiels
• Utilisation professionnelle par des spécialistes
• Grand public
• Entraîné / naïf
• Fréquent / occasionnel
• Utilité
• Coopération
![Page 63: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/63.jpg)
DEA de Sciences Cognitives 63
Deux exemples
Dictée vocale• Parole continue
• Grand vocabulaire• Adaptation au locuteur
• Bureau+micro-casque• Utilisateurs
d’ordinateurs
Service téléphonique• Détection de mots
clés• Quelques mots• Indépendant du
locuteur• Parole téléphonique• Grand public
![Page 64: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/64.jpg)
DEA de Sciences Cognitives 64
Système de reconnaissance de mots
![Page 65: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/65.jpg)
DEA de Sciences Cognitives 65
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
Mot inconnu Y
Mot
X
Mot 1
Mot 2
Mot n
![Page 66: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/66.jpg)
DEA de Sciences Cognitives 66
Contraintes locales
![Page 67: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/67.jpg)
DEA de Sciences Cognitives 67
Contraintes locales : exemple
![Page 68: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/68.jpg)
DEA de Sciences Cognitives 68
Modèle de Markov caché : principe
![Page 69: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/69.jpg)
DEA de Sciences Cognitives 69
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
Mot 2
Mot 1
Mot n
Mot inconnu Y
Mot
X
![Page 70: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/70.jpg)
DEA de Sciences Cognitives 70
Viterbi : exemple
![Page 71: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/71.jpg)
DEA de Sciences Cognitives 71
Algorithme de Viterbi : exercice
![Page 72: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/72.jpg)
DEA de Sciences Cognitives 72
Les trois composantes d’un système
• Les modèles acoustiques– Pour transformer des paramètres acoustiques
en phonèmes (ou parfois directement des mots)
• Le lexique– Pour transformer une suite de phonèmes en
mots
• Le modèle de langage– Pour transformer une suite de mots en
phrases
![Page 73: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/73.jpg)
DEA de Sciences Cognitives 73
Modèles acoustiques (1)
![Page 74: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/74.jpg)
DEA de Sciences Cognitives 74
Modèles acoustiques (2)
Le mot « américain »
![Page 75: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/75.jpg)
DEA de Sciences Cognitives 75
Modèles de langage• A un instant donné, tous les mots n’ont
pas la même probabilité de présence :– Le petit chat boit du …
• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes
• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »
![Page 76: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/76.jpg)
DEA de Sciences Cognitives 76
Modèle acoustique + Modèle de langage
![Page 77: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/77.jpg)
DEA de Sciences Cognitives 77
Performances
![Page 78: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/78.jpg)
DEA de Sciences Cognitives 78
Recherche actuelle
![Page 79: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/79.jpg)
DEA de Sciences Cognitives 79
5. Reconnaissance du locuteur
![Page 80: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/80.jpg)
DEA de Sciences Cognitives 80
Définition de la RAL
Reconnaissance automatique du locuteur (RAL)
=reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à
l’aide d’une technique entièrement automatique, et donc reproductible.
![Page 81: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/81.jpg)
DEA de Sciences Cognitives 81
Un domaine pluri-disciplinaire
RAL
traitement du signal
reconnaissance des formes
statistiques
probabilités
théorie de la décision phonétique
linguistique
ergonomie
théorie de l’informationS T
I C
S H
S
![Page 82: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/82.jpg)
DEA de Sciences Cognitives 82
Typologie des tâches
• Identification du locuteur en ensemble fermé• Vérification du locuteur• Identification du locuteur en ensemble ouvert
• Suivi de locuteurs• Détection de changement de locuteur• Segmentation par locuteurs
• Classes de locuteurs• Adaptation au locuteur
![Page 83: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/83.jpg)
DEA de Sciences Cognitives 83
Niveau de dépendance au texte
• Systèmes à mot de passe individuel, fixe• Systèmes à mot de passe commun, fixe• Systèmes à vocabulaire fixe (ordre des
mots variables)• Systèmes à texte imprédictible (imposé
par le système)• Systèmes dépendant d’un évènement
phonétique• Systèmes à texte totalement libre
![Page 84: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/84.jpg)
DEA de Sciences Cognitives 84
Typologie des erreurs
• Identification du locuteur en ensemble fermé :– Mauvaise classification
NOMBRE DE LOCUTEURS• Vérification du locuteur :
– Fausse acceptation (non détection)– Faux rejet (fausse alarme)– EER (taux d’égale erreur)
SEUIL DE DECISION
![Page 85: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/85.jpg)
DEA de Sciences Cognitives 85
Empreinte ou signature ?
• Motivations :– Caractéristiques physiologiques– Origine géographique– Contexte socioculturel
• Difficultés :– Non reproductibilité (état de santé, facteurs psychologiques,
état émotionnel, âge, etc.) dérive temporelle de la voix– Bruits ambiants, canal de transmission– Modifications intentionnelles (masquage, imitation)
→ pas d’empreinte vocalemais plutôt une signature vocale
![Page 86: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/86.jpg)
DEA de Sciences Cognitives 86
Et l’homme ?
• L’homme n’est pas particulièrement bon pour ce type de tâche.
• Il faut beaucoup d’entraînement pour y arriver.• Même sur des voix familières, on a parfois des
difficultés.• C’est encore plus dur à travers le téléphone.• Quand c’est possible, on utilise plutôt le visage.
![Page 87: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/87.jpg)
DEA de Sciences Cognitives 87
Les enjeux scientifiques de la RAL
• Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?
• Faut-il utiliser les mêmes dans un système automatique ?
• Quelles sont les informations extractibles d’un enregistrement d’une voix ?
• Comment faire un modèle de locuteur ?
![Page 88: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/88.jpg)
DEA de Sciences Cognitives 88
Comment reconnaître une personne ?
• Quelles informations ?– Spectrales (analyse acoustique)– Phonétiques (façon de prononcer les sons)– Idiolectales (façon d’utiliser les mots)– Prosodiques (intensité, hauteur, longueur)
• Comment les exploiter ?– Modèles statistiques– Réseaux de neurones– Réseaux bayésiens
![Page 89: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/89.jpg)
DEA de Sciences Cognitives 89
Les enjeux applicatifs de la RAL
• Surtout vérification• 3 grandes familles :
– Applications sur site– Applications télécoms– Applications policières / judiciaires
• Mais aussi :– Organisation de l’information– Jeux– Etc.
![Page 90: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/90.jpg)
DEA de Sciences Cognitives 90
Applications sur site La personne doit être physiquement présente en un lieu
précis- Serrure vocale (pour des locaux, un compte informatique, etc.)- Interactivité matérielle (retrait d’argent à un guichet automatique,
etc.)
Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques
vocales Possibilité de techniques additionnelles de vérification
de l’identité Possibilité d’intervention humaine
![Page 91: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/91.jpg)
DEA de Sciences Cognitives 91
Applications télécoms
La vérification s’opère à distance- Accès à des services pour des abonnés (serveurs, données,
etc.)- Transactions à distance (opérations bancaires, paiements par
carte bancaire, etc.)
Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification
de l’identité Pas d’intervention humaine possible
![Page 92: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/92.jpg)
DEA de Sciences Cognitives 92
Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de
preuves, etc.- Tests auditifs par des experts- Lecture de spectrogrammes par des experts- Méthodes (semi-)automatiques
Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable
→ Nécessité d’une précaution extrêmepas toujours garantie
![Page 93: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/93.jpg)
DEA de Sciences Cognitives 93
Mais aussi…
• Organisation de l’information– Structuration, archivage de documents sonores– Navigation dans ces documents
• Jeux– Augmenter l’interactivité– Utilisation de profils de joueurs
• Personnalisation des services– Stocker un profil d’utilisateur pour accéder plus
rapidement à des services
![Page 94: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/94.jpg)
DEA de Sciences Cognitives 94
Les enjeux applicatifs : conclusion
• La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.
• L’ergonomie peut pallier certaines faiblesses des algorithmes.
• La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).
• Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.
![Page 95: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/95.jpg)
DEA de Sciences Cognitives 95
Les enjeux stratégiques
• Ecoutes téléphoniques– Protection de la démocratie ?– Intrusion dans la vie privée ?
• Recherche de suspects / Authentification– Le corbeau de l’affaire Grégory– La cassette Ben Laden
![Page 96: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/96.jpg)
DEA de Sciences Cognitives 96
Historique
Trois étapes• Reconnaissance par l’écoute faite par des
« experts » (à partir de 1940)• Reconnaissance par la lecture de
spectrogrammes réalisée par des« experts » (de 1960 à 1970)
• Reconnaissance par des systèmes automatiques (ou pseudo-automatiques)(à partir de 1970)
![Page 97: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/97.jpg)
DEA de Sciences Cognitives 97
Reconnaissance par l’écoute
Tests par paires
![Page 98: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/98.jpg)
DEA de Sciences Cognitives 98
Reconnaissance par spectrogrammes
![Page 99: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/99.jpg)
DEA de Sciences Cognitives 99
Reconnaissance automatique
• Systèmes reposant sur des modélisations statistiques• Ordres de grandeur pour la vérification (EER)
– En laboratoire :
– Pour des applications commerciales :• Performances connues mais non publiques• Jugées suffisantes pour quelques produits pionniers
– Pour des applications policières / judiciaires :• Performances évaluées ?
conditions idéales parole téléphonique(lignes fixes)
dépendant du texte <0.1 % 0.5 à 2 %
indépendant du texte 0.5 à 1 % 5 à 10 %
![Page 100: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/100.jpg)
DEA de Sciences Cognitives 100
Composantes d’un système
• Une phase d’apprentissage– Construction d’un modèle de locuteur
• Une phase de test– Comparaison entre un énoncé et un modèle
de locuteur
![Page 101: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/101.jpg)
DEA de Sciences Cognitives 101
Phase d’apprentissage
analysesignal
identité
paramètres modélisation
Dictionnairede modèlesde référence
ENTREES
SORTIE
![Page 102: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/102.jpg)
DEA de Sciences Cognitives 102
Phase de test en identification
analysesignal paramètres modélisation
Dictionnairede modèlesde référence
ENTREE
comparaison
Scores
décision
SORTIE
![Page 103: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/103.jpg)
DEA de Sciences Cognitives 103
Phase de test en vérification
analyse paramètres modélisation
Dictionnairede modèlesde référence
comparaison
Score
décision
SORTIE
signal
identité
ENTREES
![Page 104: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/104.jpg)
DEA de Sciences Cognitives 104
La phase de paramétrisation
![Page 105: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/105.jpg)
DEA de Sciences Cognitives 105
Paramètres d’analyse
• Paramètres spectraux :– Analyse par banc de filtres ou analyse LPC– Transformation cepstrale– Paramètres delta (et delta-delta)
• Paramètres prosodiques :– (Log-énergie et) delta-Log-énergie– Fréquence fondamentale– Paramètres de durée
→ Existe-t-il des paramètres spécifiquesà la reconnaissance du locuteur?
![Page 106: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/106.jpg)
DEA de Sciences Cognitives 106
Modélisation
• Les précurseurs• Programmation dynamique (DTW)• Quantification vectorielle (VQ)• Modèles de Markov cachés (HMM)• Réseaux de neurones (NN)• Modèles auto-régressifs vectoriels (ARVM)• Modèles par mélange de Gaussiennes (GMM)
![Page 107: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/107.jpg)
DEA de Sciences Cognitives 107
Les précurseurs
PRUZANSKY 1963
Mesure de corrélation entre spectres à long terme
ATAL 1968
Utilisation de contours prosodiques normalisés
BRICKER 1971
Mesure de Mahalanobis sur spectres à long terme
![Page 108: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/108.jpg)
DEA de Sciences Cognitives 108
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
![Page 109: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/109.jpg)
DEA de Sciences Cognitives 109
Quantification vectorielle (VQ)
meilleurequant.
),()Y,X( X2
jiCd y
Dictionnaire locuteur 1
Dictionnaire locuteur 2
Dictionnaire locuteur n
“Bonjour” locuteur test Y
Dic
tionn
aire
locu
teur
X
SOONG, ROSENBERG 1987
![Page 110: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/110.jpg)
DEA de Sciences Cognitives 110
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
ROSENBERG 1990, TSENG 1992
![Page 111: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/111.jpg)
DEA de Sciences Cognitives 111
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
HMM locuteur 1
HMM locuteur 2
HMM locuteur n
“Bonjour” locuteur test Y
HM
M lo
cute
ur X
PORITZ 1982, SAVIC 1990
![Page 112: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/112.jpg)
DEA de Sciences Cognitives 112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
![Page 113: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/113.jpg)
DEA de Sciences Cognitives 113
La phase de décision
• Calcul d’un score– Avec le modèle de locuteur considéré
– Avec un « modèle du monde »
– Rapport entre les deux scores
• Comparaison à un seuil– Si supérieur au seuil, on « accepte »
– Si inférieur au seuil, on « rejette »
![Page 114: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/114.jpg)
DEA de Sciences Cognitives 114
L’évaluation
• EER : fausse acceptation = faux rejet
• Courbe DET :
• Les évaluations NIST
![Page 115: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/115.jpg)
DEA de Sciences Cognitives 115
La caractérisation du locuteur à DDL
• Recherche d’une technique d’analyse du signal plus adaptée
• Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre
• Intégration des informations prosodiques dans les systèmes
• Modélisation de la dérive temporelle de la voix• Utilisation de la reconnaissance du locuteur
dans des tâches d’indexation sonore
![Page 116: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/116.jpg)
DEA de Sciences Cognitives 116
Conclusion sur la RAL
• Domaine pluridisciplinaire nécessitant des connaissances multiples
• Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire
• On peut parler de signature vocale mais pas d’empreinte vocale
![Page 117: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/117.jpg)
DEA de Sciences Cognitives 117
Perspectives de la RAL
• Améliorer les systèmes– Nouvelles sources d’information (prosodie)– Analyse du signal plus adaptée– Meilleurs modèles statistiques– Robustesse (meilleure prise en compte de la
variabilité)– Etude de la dérive temporelle de la voix
• Autres tâches– Segmentation par locuteurs– Indexation par locuteurs
![Page 118: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/118.jpg)
DEA de Sciences Cognitives 118
Discussion sur une actualité récente
• La vérification d’identité dans les milieux judiciaires
• L’affaire Grégory – la cassette Ben Laden
• Des articles de journaux la semaine dernière
• La prise de position des scientifiques français
![Page 119: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d82497959293b8bb7d2/html5/thumbnails/119.jpg)
DEA de Sciences Cognitives 119
Bibliographie• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.
Traitement de la parole. Presses Polytechniques Romandes.
• Calliope. La parole et son traitement automatique. Masson, 1989.