chapitre 3 -------- les contenus du signal de parole et leur évaluation perceptive jean-sylvain...
Post on 04-Apr-2015
103 Views
Preview:
TRANSCRIPT
Chapitre 3Chapitre 3----------------
Les contenus du signal de Les contenus du signal de parole et leur évaluation parole et leur évaluation
perceptive perceptive
Jean-Sylvain Liénard
LIMSI-CNRSORSAY
M2 Recherche Informatique
Filière Sciences Cognitives
Module PNPA
Déc 04 – Fév 05
Contenus linguistiques:verbalprosodiquelangue
Contenus non-linguistiquesLocuteur, variété de langueÉmotion, expressionStyle de paroleCanal acoustique
Evaluation de l'intelligibilitétransmission, perception, productionMatériaux et tests
Contenus linguistiquesContenus linguistiques
Contenu linguistique Contenu linguistique 11
Contenu verbal (segmental)
Ce qui peut être noté par écrit ?
- phonèmes, syllabes, mots ?- est-ce que tout est prononcé ? Ça dépend…- peut-on comprendre un mot sans percevoir ses constituants ?- peut-on percevoir les constituants sans percevoir le mot ?
Le Sens ?
- sens intrinsèque (cf dictionnaire) ?- ou fonction du contexte et de la situation ?
Contenu linguistique Contenu linguistique 22
Contenu intonatif (suprasegmental)
La prosodie : l'ensemble des variations du signal (hauteur, durée, intensité, timbre) pour un même contenu segmental.
L'intonation : celles de ces variations qui sont pertinentes sur le plan linguistique: la phrase et ses composants, groupes prosodiques, limites des groupes, hiérarchisation, assertion, question… Prédominance de F0.
Problèmes :- comment noter l'intonation ?
ToBI: Tones and Break Indices IntSint: INternational Transcription System for
INTonation
- comment l'évaluer isolément ?
Information linguistique, para-linguistique, extra-linguistique
Contenu linguistique Contenu linguistique 33
La langue : un contenant plutôt qu'un contenu ?
Un problème nouveau : l'identification des langues
- par l'homme : limitation aux langues qu'il connaît, indices de différents niveaux
- par la machine : pas de limite en nombre de langues, indices à définir
Aspect acoustique : différents modèles de phonèmes
Aspect phonotactique : statistiques des phonèmes et des multigrammes phonétiques
Aspect prosodique : à l'étude ; mélange avec les indices manifestant d'autres types d'information
Contenus non-linguistiquesContenus non-linguistiques
Contenu non-linguistique 1 : identité du Contenu non-linguistique 1 : identité du locuteurlocuteur
Indices de multiples niveaux- acoustique : échelle formantique (sexe, genre, individu)- phonétique : manières de prononcer, défauts spécifiques- lexical : choix de certains mots ou expressions- prosodique : caractères spécifiques- timbre, mode de voix habituel
Problématique humaine- petit nombre de voix familières ou remarquables- rôle de la situation : locuteur souvent prévisible- le problème des imitateurs : caricature plus que ressemblance
Problématique machine- identification (ensemble fini) vs vérification (locuteur coopératif)- distinguer : dépendant / indépendant du texte- Vérification: Equal Error Rate ( %fausses alarmes = %fausses reconnaissances) de l'ordre de quelques %
Contenu non-linguistique 2 : variété de Contenu non-linguistique 2 : variété de languelangueIndices
- indices de divers niveaux adoptés et reconnus par tous les membres d'un même groupe linguistique
Problématique humaine- dialectes, sociolectes, idiolectes : marques d'appartenance à un groupe- perçus comme simple variantes par les auditeurs extérieurs au groupe
Problématique machine- peu avancée; comment poser le problème ?- complémentaire de l'identification de la langue
Contenu non-linguistique 3 : émotion et Contenu non-linguistique 3 : émotion et expressionexpressionL'émotion
- interaction état interne (physique, psychique), monde externe- problèmes :
- difficulté de définir un répertoire d'émotions : nombre ? émotions primaires ? composées ?- impossibilité éthique d'expérimenter sur les émotions (sauf 'rejouer' une émotion réellement vécue)- l'acteur 'interprète' des émotions – les ressent ?
- manifestation essentiellement prosodique- l'émotion tend à occulter les autres différences vocales. Universalité ?
L'expression- terme plus neutre : manifestation dirigée vers un auditeur- comment la caractériser ?
Locuteur assis, à 30 cm d'un micro omnidirectionnel (LEM DO21B), dans une pièce meublée. Niveau d'entrée figé
L'opérateur se situe successivement à 1.5 m (condition Normal), 0.4 m (condition Close), 6 m (condition Far)
En chaque position:– l'opérateur prononce une phrase, à un niveau qui lui
semble adapté à la distance– le locuteur répète la phrase, idem– l'opérateur prononce une voyelle isolée– le locuteur répète cette voyelle– on itère sur toutes les voyelles
Contenu non-linguistique 3 :Contenu non-linguistique 3 : ll’effort vocal ’effort vocal
Résultats sur l'effort vocalRésultats sur l'effort vocal
L'effort vocal, dans des conditions usuelles de conversation, se traduit par 4 effets sur la structure spectrale des voyelles:
– l'amplitude augmente de 3 à 6 dB quand on double la distance à l'allocutaire
– l'amplitude des formants augmente plus vite que le niveau total (spectral tilt): A+10 --> A1+11, A2+12.4, A3+13 dB
– F0 augmente avec l'EV: 5.1 Hz/dB --> effet le plus important
– F1 augmente avec l'EV: 3.5 Hz/dB
amplitude: indice peu fiable
F0 et Ai: indices propres au locuteur
F1: indice propre au système phonétique
Perception de l'effort vocalPerception de l'effort vocal
Dans les conditions usuelles de la conversation, l'auditeur n'est pas conscient de l'EV du locuteur, dès lors que celui-ci est adapté à la situation. On le remarque quand il est inadapté
L'EV n'est pas mesurable en l'absence des autres descripteurs. Il se traduit par un pattern de déformation du signal. Ce pattern est redondant (-->robuste)
l'EV est lui-même un trait utilisé pour élaborer d'autres informations, linguistiques ou non:
– accent prosodique (en conjonction ou non avec une action sur F0 et durée)
– caractéristique du locuteur (voix forte ou faible)
– distance marquée par le locuteur vis-à-vis de l'allocutaire
Contenu non-linguistique 4 : le style de Contenu non-linguistique 4 : le style de paroleparole
Hypothèses- il existe un "style de parole" adapté à chaque situation de communication.- le nombre de ces situations-types est limité. - le répertoire des styles fait l'objet d'une convention implicite entre tous les membres d'un groupe social donné.
Exemples- conversation en tête-à-tête- cours dans une classe primaire- commentaire sportif- dispute familiale- prêche- lecture à voix haute …
Travail à faire- répertorier situations-types- associer à chacune des règles verbales et prosodiques
Contenu non-linguistique 5 : Contenu non-linguistique 5 : les conditions acoustiquesles conditions acoustiques
Distance locuteur – auditeur (microphone)
Microphone : caractéristiques, position
Bruit de fond, scène acoustique
Echos et Réverbération
De la difficulté de l'évaluationDe la difficulté de l'évaluation(perceptive ou automatique)(perceptive ou automatique)
Trois problèmes majeurs
- tous les aspects sont mélangés dans le signal
- la notation n'est possible que pour certains aspects
- la communication parlée est une activité située
Dilemme: pour mesurer (évaluer) un aspect il faut l'isoler des autres. Est-ce possible sans changer la nature même du signal ?
Peut-on considérer ensemble tous les aspects du signal ?
multicatégorisation vs catégorisation
exemple d'étude:exemple d'étude:
Indices prosodiquesIndices prosodiques caractérisant un style caractérisant un style
d'élocutiond'élocutionet ses variantes individuelleset ses variantes individuelles
Caractériser un style d'élocution "lecture à voix haute"
- même texte- ensemble homogène de lecteurs- mêmes conditions d'élocution- même consigne
Et ses variations- existe-t-il une "réalisation
moyenne" ?- où se placent les variations
individuelles ?
Objectif et corpusObjectif et corpus
Corpus LeblancCorpus Leblanc- 48 locutrices, étudiantes psycho
Nanterre- 2 élocutions- texte présenté en un seul
paragraphe
Texte
Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux.
Extrait de: Pierre Daninos Les carnets du major Thompson
séquence référence (07)
Répartition des pausesRépartition des pauses
histogramme du nb de pauses (sf début et fin)
0
510
1520
2530
35
3 4 5 6 7 8 9 10 11
La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations
respect majoritaire de la norme imposée par le texte
Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où
sur ponctuations secondaires
sur ruptures de sens sur ruptures syntaxiques
Le choix des pauses effectives est une manière d'interpréter le texte
Pause: chûte du niveau sonore d'au moins Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ des Groupes Vocaliques, soit environ 300 ms.300 ms.
Valeurs non critiques, modulées en Valeurs non critiques, modulées en fonction du débit moyen de la fonction du débit moyen de la locutricelocutrice
Noyau vocalique NVNoyau vocalique NV- segment centré sur un maximum de la fonction d'énergie
BF (<1 kHz) évaluée sur fenêtre 50 ms.- limites à –3 dB- ce n'est pas une "voyelle phonétique"
Groupe vocalique GVGroupe vocalique GV- segment compris entre deux minima d'énergie BF, hors
pauses - approximation: mi-distance de deux centres NV successifs- ce n'est pas une "syllabe phonétique"
Indices prosodiques Indices prosodiques (définis pour chaque GV)- F0F0 au centre du NV sur fenêtre 100 ms, en
demi-tons/100 Hz- dF0 dF0 différence F0 (fin NV) – F0 (début NV)- intensité intensité au centre du NV, en dB- DuréeDurée durée du GV
Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques
Choix d'une séquence de référenceChoix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...)
AlignementAlignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc)
MoyennageMoyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite)
Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique
Etiquetage Etiquetage (pour interprétation visuelle)
Rétro-étiquetageRétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus
Calcul d'une prosodie moyenneCalcul d'une prosodie moyenne
Al
Q
9
10
11
12
13
14
15
16
17F0 (st)
-2
-10
1
2 dF0 (st)
70
75
80
85
90int (dB)
0,10
0,15
0,20
0,25
0,30
dur (s)
F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée
Trois grands types de groupes prosodiques pour ce corpus
Grands groupesGrands groupes (entre deux pauses: "groupes de souffle" ?)découpage visible sur tous les indicesdouble déclinaison (F0, intensité)marqueur de fin de groupe, sur les derniers GV
Petits groupes:Petits groupes: "mots prosodiques" ?concerne un petit nombre de GV: 1 à 4se manifeste surtout dans F0 et duréestructure unitaire propre à la langue ou au dialecte ?
Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ?soumis à considérations linguistiques: syntaxe, sémantique,
et à l'interprétation du texte par la locutriceces groupes intermédiaires peuvent évoluer selon
l'interprétation, allant du mot prosodique au groupe de souffle
Prosodie moyenneProsodie moyenne
Pour chaque indice, deux types de dissemblances entre séquences: deux types de dissemblances entre séquences:
DécalageDécalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence
Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences
Pour chacun des indices prosodiques on a défini deux mesuresdeux mesures: en décalage (DF0, DdF0, Dint, Ddur)en profil (PF0, PdF0, Pint, Ddur)
Même chose pour la forme d'ensemble du spectreforme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4
Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution
Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution
Variantes individuellesVariantes individuelles
Exemples de variationsExemples de variations
5
10
15
20
25
Evolution de F0 (demi-tons)
pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)
et 40 (la plus éloignée - en trait fin)
Les premiers disent: "Moi non plus". Et, de fil en aiguille…
(52) (40)
Exemples de variationsExemples de variations
5
10
15
20
25
Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)
et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin)
Les premiers disent: "Moi non plus". Et, de fil en aiguille…
(52) (79)
Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée
L'approche proposéeL'approche proposéeVise à permettre une étude comparative de séquences ayant
sensiblement le même contenu segmentalEt à mettre en correspondance des indices acoustiques avec
des contenus (rôle de la perception)
Style d'élocutionStyle d'élocutionImportance du placement des pauses (grands groupes)Intérêt d'étudier la transition grands groupes groupes
intermédiairesStructures multi-indicielles des 3 types de groupes
Langue, dialecteLangue, dialecteVoir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec
l'aspect segmental)
ConclusionsConclusions
Evaluation de l'intelligibilitéEvaluation de l'intelligibilité
Trois points de vue sur Trois points de vue sur l'intelligibilitél'intelligibilité
•Théorie de l'informationThéorie de l'information
Intelligibilité de transmission, de perception, de production
Compréhension, intelligibilité, netteté Compréhension, intelligibilité, netteté
•Compréhension: Compréhension: comprendre le sens, en situation
•Intelligibilité:Intelligibilité: reconnaître les mots, hors situation
•Netteté:Netteté: reconnaître les phonèmes, syllabes ou VCV, hors situation et hors lexique
•Canal simple: appareillage électro-Canal simple: appareillage électro-acoustiqueacoustique
- altérations usuelles: bruit de fond, distorsions fréquentielles
•Canal multiple: salleCanal multiple: salle- autant de canaux que de couples orateur-auditeur- altérations usuelles: échos, réverbération, bruits
•EvaluationEvaluation- entrée canal : listes d'éléments parlés de référence- sortie canal : comptage des réponses d'un ensemble d'auditeurs - mise en œuvre longue et difficile- recherche de critères physiques: indices fréquentiels, rapport S/B, premières réflexions, temps de réverbération, résolution spectro-temporelle…
Intelligibilité de transmissionIntelligibilité de transmission
L'intelligibilité dépend du rapport L'intelligibilité dépend du rapport signal/bruit et du contenu des motssignal/bruit et du contenu des mots
L'intelligibilité dépend aussi de la taille L'intelligibilité dépend aussi de la taille du vocabulairedu vocabulaire
L'intelligibilité dépend de la nature L'intelligibilité dépend de la nature des unités linguistiquesdes unités linguistiques
Indice d'articulation: fonction normalisée (statistique) du rapport signal/bruit
•Concerne un auditeur particulierConcerne un auditeur particulier- malentendant, ou normo-entendant placé dans des conditions difficiles
•Altérations de l'auditionAltérations de l'audition- atténuation: globale ou sélective en fréquence- bruits perturbateurs: acouphènes- diminution de la résolution spectro-temporelle du codage ?
•EvaluationEvaluation- l'audiogramme n'indique que les seuils d'audibilité- audiométrie vocale, dans le silence ou en présence de bruit- on cherche à établir un diagnostic, mais
- dans quels aspects du signal se trouve l'information de la parole ?- comment est-elle perçue "normalement" ?
Intelligibilité de perceptionIntelligibilité de perception
Courbe d'intelligibilité vocaleCourbe d'intelligibilité vocale
Paramètres :
• le seuil d'intelligibilité : niveau auquel la performance est de 50% ;
• la pente de la courbe ;
• le maximum d'intelligibilité ;
• le pourcentage de discrimination : performance à 35 dB au-dessus du seuil ;
• le seuil de distorsion : niveau auquel les performances commencent à décliner.
0102030405060708090
100
0 5 10 15 20 25 30 35 40 45
Niveau du stimulus
Per
form
ance
(%
)
-10 -5 0 5 10 15 20 25 30 35 dB HL
Facteurs influençant l'intelligibilité vocaleFacteurs influençant l'intelligibilité vocale
0102030405060708090
100
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Niveau du stimulus
Per
form
ance
(%
)
a
b
c
d
e
f
-10 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 dB HL
dB SPL
Différents types de courbes d’intelligibilitéa/ Courbe normale, mots dissyllabiquesb/ Courbe décalée et redresséec/ Courbe décalée, parallèled/ Courbe décalée et inclinéee/ Courbe décalée, inclinée ; maximum à plus faible niveauf/ Courbe de type e/ + diminution des performances pour des niveaux élevés
Les matériaux de testLes matériaux de test
Selon le niveau d'abstraction que l'on veut évaluer
Niveaux acoustico-phonétiques (1 à 4)• logatomes• Mots
Niveaux acoustico-phonétique + lexical (accès au lexique)
• Mots
Niveaux acoustico-phonétiques, lexical, sémantique (compréhension)
• Phrases, actions ?
On veut mesurer la netteté, sans influence du lexique ni du sens
Logatomes : syllabes sans signification, espéranto
- exemples : zos, trag, fim, vlek, jop, frad …
- Nécessite un auditoire entraîné (transmission : téléphonie)
Segments VCV Voyelle-Consonne-Voyelle
- exemples : /ata/ /ara/ /imi/ ….
- en français 15 voyelles, 17 consonnes 255 VCV
- on se limite souvent à 3 voyelles, soit 51 VCV
Perception acoustico-phonétiquePerception acoustico-phonétique
Diagnostic Rhyme Test (Voiers 70') ou test de diagnostic parpaires minimales
Pair Voicing CompactnessAcuteness Interrupted…PILL TILL XBEAR PAIR XTEAR DEAR XDULL BULL XKILL TILL XSIP TIP X… - Consonne initiale- différence minimale: 1 trait distinctif- test rapide, permet évaluation et diagnostic- sujets non-spécialistes---> limites: celles mêmes de la notion de trait distinctif
Perception acoustico-phonétiquePerception acoustico-phonétique
• Le problèmeLe problème - tous les locuteurs ne sont pas également intelligibles- mais on ne s'en rend pas compte dans les conditions usuelles
• Mise en évidenceMise en évidence - dans des conditions difficiles: bruit, réverbération- pour certains styles de voix: voix criée, articulation relâchée ou rapide- dans une langue étrangère mal maîtrisée - quand on est malentendant
• EvaluationEvaluation- on évalue un locuteur et un style de voix- sujet peu étudié- nécessite un groupe d'auditeurs de référence
Intelligibilité de productionIntelligibilité de production
• ReprésentativitéReprésentativité - pas de test universel: définir d'abord le problème, ensuite le test qui représente celui-ci au mieux- l'intelligibilité n'est qu'un aspect de la communication orale
• Validité statistiqueValidité statistique - fonction des conditions de passation, du nombre d'items, du nombre d'auditeurs…
• RapiditéRapidité- passation rapide- dépouillement automatisé
Qualités d'un test d'intelligibilitéQualités d'un test d'intelligibilité
top related