typologies linguistiques et identification automatique des langues : vers des typologies...
TRANSCRIPT
Typologies linguistiqueset
identification automatique des langues :
vers des typologies automatiques ?
François [email protected]
Laboratoire Dynamique Du LangageUMR 5596 CNRS –Université Lumière Lyon 2
Ecole thématique VPL - Cargèse juin 2006
2
Typologies automatiques ??
‘Typology(ies)’ = 8 millions de “hits” sous Google
‘Automatic’ = 470 M.
‘Automatic typology(ies)’… 21 “hits” Moitié télédétection spatiale Moitié DDL ou assimilés
=> une utopie !
Merci de votre attention...
3
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique
Partie I : l’état des lieux Des données typologiques à la reconnaissance des langues Des modèles automatiques à leur interprétation
linguistique Partie II : la prosodie, terrain d’investigation
Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
4
Analyselinguistique
Analyseautomatique
Indice 1
A B
Indice 2
Modèlesphonétiques, phonotactiques, prosodiques
Descriptionslinguistiques
Typologies linguistiques
Données lexicales Alignementou codage en cognats
Corpus textuels Analyse statistique
Données audioDonnées textuelles
Audio TextesPerspective historique
Identification
automatique
des langues
Interface :Typologie
automatique
5
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique
Partie I : l’état des lieux Des données typologiques à la reconnaissance des
langues Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
6
Les bases de donnees typologiques
Caveat Représentativité des langues Qualité des données primaires Consistance/cohérence inter-langues des données Biais d’analyse lié au cadre théorique choisi
De formidables outils… Plusieurs centaines de langues UPSID (UCLA Phonological Segment Inventory Database) ULSID (UCLA Lexical and Syllabic Inventory Database) WALS (World Atlas of Language Structures) AUTOTYP
… à exploiter automatiquement
7
Bases de donnees typologiques
UPSID/CaSSoPI
UCLA Phonological Segment Inventory DatabaseMaddieson, (1984) ; Maddieson and Precoda (1990)
V 102/451 - 23%V 51/451 - 11%Both 11/451 - 2.4%
Identification des langues Corrélations phonologiques
~
8
Bases de donnees typologiques
UPSID/CaSSoPI Utilisation pour rechercher des indices pertinents
Hombert & Maddieson, (1998)Indices discriminants et détectables automatiquement
Contraste dental vs. labio-dental // vs. // ; // vs. // : +discriminant –détectable
Clicks : + discriminant +détectable
LimitesComment modéliser ces indices ?Évaluer leur incidence dans la parole réelle (probabilité
d'apparition)Des inventaires phonologiques à la parole
Prises en compte de processus phonologiques ou phonétiques Anglais : pas de voyelles nasales phonologiquespourtant ‘sable’ : // (phonologique) est prononcé [] (phonétique) Incidence statistique moins grande ?
Conclusion Détection des traits rares potentiellement intéressante Non encore exploitée automatiquement Prise en compte de l'incidence des traits fondamentale
Ohala, & Marsico, 2001, "Differentiating phonetic from phonological events in speech"
9
2,600 langues 140 caractéristiques (670 types) phono-morpho-syntaxiques 60,000 données (sur 364 000 potentielles)
Bases de donnees typologiques
WALS Haspelmath et al. (2005)
10
Bases de donnees typologiques
WALS : distances typologiques
Extrait de Michael Cysouw, (2006), transparent 21.
11
Bases de donnees typologiques
Conclusions
BD fondamentales pour des recherches linguistiques Tendances universelles Caractéristiques aréales, historiques, universelles
Mais encore peu utiles pour l’identification automatique Niveaux morpho-syntaxiques hors d’atteinte des analyses
automatiques translinguistiques Difficulté à prendre en compte des phénomènes phonétiques
fins Problème de la distinction entre phénomène phonétique et
phonologique MAIS analyse typologique peut proposer des pistes
Incidence de traits (aspiration, friction, contrastes de durée)
12
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique Partie I : l’état des lieux
Des données typologiques à la reconnaissance des langues Des modèles automatiques à leur interprétation
linguistique Partie II : la prosodie, terrain d’investigation
Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
13
Classification des languesa partir de donnEes textuelles
Visée historique : le calcul d’arborescences de langues À partir de données lexicales (listes de Swadesh, etc.)
Lexique de base supposé peu sujet aux emprunts (chiffres, parentèle, etc.) 2 approches pour estimer les distances inter-langues
Taux de partage de cognats (codage manuel, attention aux emprunts !) Alignement phonétique des lexiques (distance d’édition : nb
insertions/déletions, remplacements) Méthodologies empruntées à la bioinformatique (génomique)
Construction d’arbres ou de réseaux
Gray, & Atkinson (2003) Bryant et al. (2005)
14
identification automatique des languesa partir de donnees textuelles
Identification automatique des langues À partir de corpus textuels (journaux, mails, etc.) Approches par comptage statistique (cooccurrences) Un problème... peu problématique
Grands corpus disponibles (pour langues à tradition écrite) Caractère discret des inputs
Une validité linguistique indéniable
Damashek, (1995)
15
Classification/identification des languesa partir de donnees textuelles
Conclusion
Des méthodes diverses Cooccurrences (identification à partir de corpus) Distances (reconstruction d'arbres de proximité)
Cognats Alignements
Une interprétation linguistique possible Prise en compte du lexique et de la morphosyntaxe
16
L’identification automatique des langues a partir de donnees parlees
Caveat Relativement peu de langues prises en compte (quelques
dizaines au mieux) Langues non représentatives en termes typologiques (choix
dicté par l’application ou par la disponibilité des données) Prise en compte de la variabilité intra-langue (parlers,
accents, dialectes) balbutiante
Une affaire d’échelle Comment définir une langue, un dialecte, etc. ?
Intercompréhension complète ? Intercompréhension immédiate ? Taux de lexique partagé ?
17
Id. auto. langues parlees
Les approches
Approche acoustico-phonétique Paramètres spectraux/cepstraux (MFCC, LPC, SDC) Modèle de Mélange de lois Gaussiennes (GMM) Modélisation acoustique globale de l’espace phonétique
Approche phonético-phonotactique Paramètres spectraux/cepstraux (MFCC, LPC, SDC) Modèles de Markov Cachés (MMC) + n-grammes Modélisation des contraintes phonologiques
d’enchaînements Utilisation des MMC comme opérateurs de projection
Espace acoustique (continu, multidimensionnel) -> Espace pseudo-phonémique (discret, unidimensionnel)
Prise en compte des vraisemblances MMC Utilisation de plusieurs MMC ou d'un MMC unique multilingue Utilisation d'unités de nature syllabique
Approches prosodiques
18
Id. auto. langues parlees
Utilisation linguistique ?
Interprétation des matrices de confusion Format des évaluations
NIST : tâche de vérification de la langue Equal Error Rate et Detection Error Trade-off (et non matrice de
confusion)
Hétérogénéité des ressources Choix des langues Dialectes et diglossie
Vietnamien Nord/Sud Hindi Arabe …
Accents env. 1/3 des locuteurs français de OGI MLTS sont québécois Locuteurs hispanophones d’Amérique centrale ou du nord
19
Id. auto. langues parlees
Utilisation linguistique : essayons !
Matrice de confusion (Id. correcte = 57%) Hegde & Murthy, 2005 (OGI MLTS) Modélisation acoustique : MFCC + phase (group delay) Représentation multidimensionnelle (MultiDimensional Scaling)
Origine commune
Trait acoustique partagé ? - consonnes rétroflexes
Mora-timed
Stress-timed
Syllable-timed
Tone languagePitch-accentStress-accent
KO JA
MA
FR SP
EN GE
FA
HI
TA
VI
KO JA MA FR SP EN GE FA HI TA VI
KOrean
JApanese
MAndarin
FRench SPanish
ENglish
GErman
FArsi
HIndi
TAmil
VIetnamese
0.2
0.4
0.6
0.8
1
1.2
1.4
Dis
tan
ce
Lexique partagé
20
Id. auto. langues parlees
Utilisation linguistique II
Matrice de confusion (Id. correcte 84%) Système MIT (NIST LRE 2003 – 12 langues – CallFriend) Modélisation acoustique + phonétique + phonotactique
KOreanJApanese
MAndarin
FRench
SPanish
ENglish
GErman
FArsi
HIndi
TAmilVIetnamese
ARabic
EN GE AR FA FR MA JA KO HI TA SP VI
1.88
1.9
1.92
1.94
1.96
1.98
Dis
tan
ce
D’après A. Martin & M. Przybocki, (2003)
21
Id. auto. langues parlees
Utilisation linguistique : le point
Conclusions Matrices de confusion potentiellement intéressantes
Émergence de facteurs historiques, aréaux ou typologiques Mais interprétation très spéculative
Distances très multidimensionnelles (=> réduction pour représentation) Modèles principalement acoustiques Interprétations plutôt lexicales ou morphosyntaxiques Lexique partagé => éléments phonético-phonologiques potentiellement proches
Perspectives Choix de langues linguistiquement pertinentes Conception de modèles modulaires
Modèles acoustiques => systèmes phonologiques Modèles phonotactiques => structures syllabiques, mais aussi lexique Modèles rythmiques Modèles intonatifs
Nécessité d’un travail en concertation entre linguistes et modélisateurs
22
Intermede & Changement d’echelle :les dialectes anglais britanniques
Problématique Dialectes anglais des îles britanniques Description sociolinguistique plus ou moins disponible Exploitation automatique de traits linguistiques ?
Travail en cours (thèse de Emmanuel Ferragne) Rythme et intonation Diphtongaison Systèmes vocaliques
Alignement automatique HTK (transcription orthographique connue) Corrélations entre matrices de distances des voyelles
Résultats 91 % id. correcte (13 dialectes) Etude des mergers cf. Poster (trop tard...)
Autres études "linguistico-modélisatrices" Dialectes arabes (M. Barkat-Defradas et collègues)
23
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique
Partie I : l’état des lieux Des données typologiques à la reconnaissance des langues Des modèles automatiques à leur interprétation
linguistique Partie II : la prosodie, terrain d’investigation
Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
24
La prosodie - introduction
La prosodie Mélodie du langage Vision structuraliste puis générativiste
Phénomènes suprasegmentaux = traits ayant une portée de plusieurs segments
“…prosodic features cannot simply be seen as features which are superimposed on segments.” (Fox, 2000, p. 2)
Portées ou domaines des traits prosodiques (d’après Fox, 2000) Length / Rhythm Accent Tone Intonation
cf. exposé Jacqueline Vaissière Portée de l’exposé
Rythme (régularité perceptive liée à l’occurrence d’unités ou d’événements)
Utilisation lexicale ou morphémique du Fo (des tons à Ø)
25
Les parametres acoustiques
Fo : pitch, fréquence fondamentale (Hz) Intensité (dB) Durée (s)
Durée des syllabes Durée des intervalles interaccentuels, des pieds accentuels… Durée des phonèmes
Contrastes de durée (gémination, voyelles longues) Réduction de quantité vocalique (jusqu’à l’élision)
Des paramètres… liés au locuteur Modulables au cours de la phonation Porteurs d’informations linguistiques ou paralinguistiques
(attitude et émotion, état physiologique) Difficilement comparables d’un enregistrement à l’autre
=> Paramètres surtout étudiés de manière relative (variations)
26
Typologie rythmique
Rythme = interface segmental/suprasegmental Importance du rythme
Implications cognitives Acquisition : rythme et segmentation du flux continu de parole
Phonological bootstrapping : Morgan & Demuth, (1996) Production/Compréhension : unités rythmiques comme unités d'accès lexical ?
Implications phonologiques Théorie de la syllabe et théorie de l'optimalité, etc.
la syllabe... Une structure intuitivement universelle MAIS certaines langues s’éloignent de ce schéma idyllique
Noyaux syllabiques consonantiques Consonnes syllabiques (e.g. anglais ‘bottle’ []) Mais aussi occlusives non voisées
berbère chleuh (AA, Maroc) ‘donne-le’ (cf. Ridouane (2003))
bella coola (Salishan, Canada)‘North-East wind’ sps] Bagemihl (1991)
Analyse syllabique peu pertinente Gokana (Niger-Congo, Nigéria)
kε̃� ε̃� ̀ - ε̃� ̀ - ε̃� ̀ - ε̃�
- ε̃� ́wake –CAUS –LOG – him
- FOCHyman (1983)
27
Typologie rythmique :de la di/TRI-chotomie...
La vision traditionnelle dichotomique Deux classes rythmiques (Pike, 1945) :
Rythme syllabique (syllable-timed) : français, espagnol, ... Rythme accentuel (stress-timed) : anglais, néerlandais, russe
Puis une troisième (par ex. Ladefoged, 1975) Rythme moraïque (moraic-timed) : unité infra-syllabique (japonais, tamoul)
A la recherche de l'isochronie (Abercrombie, 1967) Hypothèse : les langues cherchent toutes à régulariser les
durées syllabiques ou interaccentuelles Mise à l'épreuve (Roach, 1982, ...) : pas concluante
Un continuum ? Argumentation de Dauer (1983)
Rythme = "effet de bord" de phénomènes phonologiques Contraintes de complexité de la structure syllabique Existence du phénomène de réduction vocalique
Les langues se situent sur un continuum +- accentuel à -+ syllabique
28
Typologie rythmique :...au continuum
Existence de langues non prototypiques (Nespor, 1990) Catalan : langue syllabique à réduction vocalique Polonais : langue à structure syllabique riche sans réduction
vocalique Continuum ou espace multidimensionnel ?
Auer (1993) propose une typologie en 5 "classes" (1 dimension)
Syllabique prototypique (yoruba, navaho, ...) Syllabique non prototypique (japonais, hausa, ...) Intermédiaire (français, turc, ...) Accentuel non prototypique (ouzbèque, tamang, ...) Accentuel prototypique (russe, anglais, ...)
Basée sur une analyse multicritère Complexité syllabique (cf. aussi Levelt et Van de Vijver, 1998) Processus phonologiques (réduction, épenthèse, harmonie vocalique, ...) Utilisation du Fo (présence de tons +- contrainte, accentuation, etc.)
29
Premier Bilan surles typologies rythmiques linguistiques
Une typologie difficile à établir Multidimensionnelle Continue Basée sur relativement peu de langues (max. Auer : 34 langues)
MAIS Corrélations entre rythme et composantes morphosyntaxiques
Langues agglutinantes : plutôt syllabiques Autres rapprochements (ordre Tête-Complément, affixation, etc.) mais
contestés (cf. Auer, 1993 pour une discussion)
un réalité perceptuelle Discrimination par des nouveaux-nés humains et non humains (tamarins) de
stimuli identiques/différents en fonction de l'appartenance à des classes rythmiques (stress-timed vs. syllable-timed) (Nazzi et Ramus, 2003).
=> Existence de corrélats acoustiques du rythme
30
Correlats acoustiques :un travail fondateur
Travaux de thèse de Franck Ramus (e.g. Ramus et al., 1999) 8 langues – 5 énoncés (15 à 19 syllabes) / locutrice – 4
locutrices / langues Segmentation manuelle en intervalles consonantiques et
vocaliques Calcul de paramètres à l'échelle de l'énoncé
%V quantité vocalique (rapport de la durée vocalique totale/durée énoncé)
C écart-type de la durée des intervalles consonantiques
Limites de l'approche Corpus très contraint Non prise en compte de caractéristiques dynamiques du rythme
Variations Enchaînements trochaïques/iambiques??
typologies rythmiques
31
Correlats acoustiques :Extensions, generalisations ??
Autres travaux de même type Galves (2002) : paramètres issus d'une échelle de sonorité Grabe et Lowe, (2002)
Calcul d'indices locaux (Pairwise Variability Indices)
40.0
45.0
50.0
55.0
60.0
30.0 40.0 50.0 60.0 70.0 80.0
STDEV of intervocalic intervals ( ² C)
Mandarin
Tamil
Malay
Polish
Estonian
British English
Catalan
Rumanian
Greek
FrenchSpanish
Singapore English
Welsh
DutchLuxembourg
JapaneseGerman
Thai
%V
typologies rythmiques
32
Correlats acoustiques :Variations
Variations dialectales Arabe dialectal
Anglais britannique Ask to E. Ferragne
Influence du débit de parole
%V
C
FR
EN
CA
d'après Hamdi et al., (2004)
d'après Dellwo et Wagner, (2003)
Jo
*
*
Tu
Ma
Al
Eg+
Sy
typologies rythmiques
33
Typologie rythmique :Modelisation automatique
Dominey et Ramus, 2000
Modélisation neuromimétique du rythme Réseau récurrent dédié au traitement des séquences
temporelles Les entrées du réseau sont des étiquettes C ou V
échantillonnées toutes les 5 ms et alignées manuellement. Données
Corpus spécifique (dit RNM) Résultats
78 % de discrimination correcte pour (EN – JA) 52 % de discrimination correcte (Hasard) pour (EN – DU)
Commentaires Résultats cohérents avec une prise en compte du rythme Résultats cohérents avec sujets humains
34
Typologie rythmique :Modelisation automatique
Farinas et al., 2005 ; Rouas et al., 2005
Modélisation statistique de "pseudo-syllabes" Segmentation automatique du signal (infra-phonémique) Détection automatique de noyaux vocaliques Segmentation en intervalles vocaliques et consonantiques
Codage en pseudo-syllabes CCV.CCV.CV.CCCV.CV.CCC Paramétrage :
Dc : durée de l'intervalle consonantique Dv : durée de l'intervalle vocalique Nc : nombre de segments (complexité) de l'intervalle consonantique
Modélisation MMG dans cet espace tridimensionnel Ajout de paramètres dérivés de Fo et E : accentuation
0 0.2 0.4 0.6 0.8 1.0
Time (s)
Am
plit
ude
0 0.2 0.4 0.6 0.8 1.0
Time (s)
André-Obrecht, (1988)
35
Typologie rythmique :Modelisation automatique
Farinas et AL., 2005 ; Rouas et al., 2005
Evaluation Corpus de parole lue MULTEXT (7 langues)
Validation croisée (5 LANGUES) Modèle de rythme seul : 79 % d’identification correcte Modèle « d’accentuation » : 78 % d’identification correcte Fusion : 92 % d’identification correcte
Evaluation classique app/tst (très peu de données…) Fusion : 86 % d’identification correcte (5 langues) Modèle de rythme seul : 67 % d’identification correcte (7 langues) Comparaison modèle GMM acoustique : 99 %
Corpus de parole spontanée OGI MLTS (11 langues) Identification :
très mauvais résultats Discrimination par paire
du hasard à 80 % en fonction des langues Encore du travail…
36
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique
Partie I : l’état des lieux Des données typologiques à la reconnaissance des langues Des modèles automatiques à leur interprétation
linguistique Partie II : la prosodie, terrain d’investigation
Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
37
Typologie intonative lexicale
La vision traditionnelle Langues à tons (tone languages) – vietnamien, mandarin,
yoruba Exemple cantonais :
Exemple somali : "ínan" ‘garçon’ vs. "inán" ‘fille’ Langues à accent tonal (pitch-accent languages) – japonais
CVCVCV vs. CVCVCV – (dialecte de Tokyo) Langues à accent tonique (stress-accent languages) –
espagnol, anglais /'pervert/ (nom) vs. /per'vert/ (verb) Le Fo n'est pas forcément utilisé (réduction qualitative et/ou
quantitative)
Perspectives récentes (Remijsen, 2003 ; Hyman, 2005) Continuum d’utilisation lexicale de Fo
Tons à placement libre Tons à placement – à + contraints (tons sandhi, neutralisation de tons) Tons limités à 1 syllabe par mot (pitch-accent ?)
Interactions stress/tons Co-existence de système de tons et de stress : Ma'ya (Austronésien)
3 tons possibles sur dernière syllabe + accent
38
Modelisation de Fo et E (niveau global) Itahashi, 1995
Modélisation statistique de l’intonation Extraction automatique du Fo Approximation polygonale de la courbe de Fo Calculs de paramètres sur Fo et E
Pentes moyennes sur les segments Moments d’ordre supérieurs sur les segments (écart-type, coefficients
d'asymétrie et d'aplatissement) Analyse discriminante dans l’espace des paramètres
Expériences Données
Extraits d’OGI MLTS (6 langues, 20 secondes) Résultats
63.3 % d’identification correcte
Commentaires Approche basée sur des statistiques globales dérivées de la mélodie Travaux non continués
39
Modelisation de Fo et E (niveau global) ThymE–Gobbel & Hutchins, 1999
Modélisation statistique de la prosodie Basée sur des « syllabes » (i.e. des segments entre 2
minima d'énergie) Paramètres intra- et inter- syllabiques dérivés de Fo, des
durées, de l’énergie Comparaison statistique d’histogrammes
Données OGI MLTS (11 langues, 45 s., discrimination par paires)
Résultats 75 % d’identification correcte
Commentaires Beaucoup de paramètres analysés Évaluation de la corrélation avec des typologies
prosodiques
40
Modelisation de Fo et E (dynamique) Cummings et al., 1999
Modélisation neuromimétique de l’intonation Réseau récurrent Les entrées sont des paramètres dérivés de E et Fo
Données OGI MLTS (5 langues, 45 s., discrimination par paires)
Résultats Entre hasard et 69 % discrimination correcte
Commentaires Meilleurs résultats avec Fo qu’avec E
41
Modelisation de Fo et E (dynamique) ADAMI, 2003
Modélisation n-gramme de Fo et E Segmentation en segments monotones par rapport à E et Fo
montée de F0 et montée de l’énergie montée de F0 et descente de l’énergie, descente de F0 et montée de l’énergie, descente de F0 et descente de l’énergie, segment non voisé.
Données CALLFRIEND (3 langues, tâche de vérification de la langue)
Résultats EER :
Commentaires Approche totalement automatique prenant en compte les
enchaînements (et non des statistiques globales)
42
Modelisation de Fo et E (dynamique) Rouas, 2005
Modélisation n-gramme de Fo et E inspiré de Adami et Fujisaki Séparation en macro et micro-mélodie (ligne de base et
résidu) Étiquettes composites tenant compte des 2 niveaux de
variations (exemple : montée(M)-montée(), etc.) 2 niveaux temporels : infra-syllabique (segments) ou
pseudo-syllabiques Données
MULTEXT (7 langues, parole lue, env. 20s., peu de données)
Résultats
IT SP FR JA EN MA GE
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
43
Modelisation de Fo et E (dynamique) Rouas, 2005
Fusion des approches rythmiques (67 % d’id. correcte) et intonative (71 % d’id. correcte)
Extension à la parole spontanée (OGI MLTS)
44
Conclusion sur prosodie et identification automatique
Typologie prosodique Domaine multidimensionnel (espace continu, Fo, E,
durées...) Domaine en évolution
(r)évolution épistémologique (passage du catégoriel au continu) (r)évolution en termes de données (nombre de langues, réanalyse...)
Modélisation translinguistique de la prosodie Domaine récent et stimulant Approches diverses – pas d'état de l'art Performances significatives sur la parole lue (à mettre en
perspectives avec la typologie) GROS problèmes pour la parole spontanée
Prise en compte du débit... (conséquences cognitives et typologiques) => modèles pas assez performants pour être compétitifs
(quoique...) Performances / approches phonético-phonotactiques sur mauvais
SNR ?
45
Plan
Introduction: la rencontre espérée entre la typologie et la modélisation
automatique
Partie I : l’état des lieux Des données typologiques à la reconnaissance des langues Des modèles automatiques à leur interprétation linguistique
Partie II : la prosodie, terrain d’investigation Introduction La dimension rythmique
Typologie & modélisation automatique La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions
46
Intermede IIretour sur la seance de lundi PM
Test perceptif : facteurs de difficulté Test mixte
Identification (langue 1 puis langue 2)ET
Discrimination (évaluation de la distance)=> 2 tâches cognitives différentes et potentiellement interférentes
Absence de connaissance du nombre de langues Absence d'apprentissage
Protocole très difficile Application humaine de l'identification des langues ? Comparaison humain/machine
Performance NIST 2003 : <3% EER pour 10+ langues (extraits 30s) Notre expérience d'humain (cf. ci-dessus) : tâche difficile MAIS
Plusieurs dizaines d'heures d'apprentissage pour les machines !!=> amha performances quasi-parfaites pour humains dans les conditions de la
machine
47
Conclusions GENERALES
Typologie automatique : l'âge de pierre Modèles automatiques "fusionnels" plus que modulaires
Effet "Boîte noire" Dédiés à la vérification de la langue plus qu'à l'étude des distances
linguistiques Approches linguistiques doivent être confrontées à des corpus
représentatifs Étude de l'incidence des traits potentiellement saillants (aspiration...)
Convergence possible Données audio disponibles pour un nombre important de langues Possibilité de "modulariser" pour interpréter les performances en
termes linguistiques (phonétique, phonotactique, prosodique) Travail interdisciplinaire important à faire à l'interface phonético-
morphophonologique Variabilité phonétique en fonction de la position morphologique...
Prosodie Une interface linguistique segmental/suprasegmental Des modèles innovants, rudimentaires, mais pertinents
48
49
MERCI DE VOTRE ATTENTION
Abercrombie, D., (1967), Elements of General Phonetics, Edinburgh University Press, EdinburghAdami, A., R. Mihaescu, D. A. Reynolds et J. Godfrey : “Modeling Prosodic Dynamics for Speaker Recognition”, in proc. ICASSP, p. 788–791, Hong Kong, China, 2003 André-Obrecht, R., (1988), A New Statistical Approach for Automatic Speech Segmentation, IEEE Trans. on ASSP, vol. 36, n° 1 Auer, P. (1993). Is a rhythm-based typology possible? A study of the role of prosody in phonological typology. KontRI Working Paper 21, Hamburg: UniversitaÈt Hamburg.Bagemihl B. (1991). "Syllable structure in Bella Coola". Linguistic Inquiry 22: 589-646.Bryant, D., Filimon, F. and Gray, R. (2005) Untangling our past: Languages, Trees, Splits and Networks. In: The Evolution of Cultural Diversity: Phylogenetic Approaches. Editors: R. Mace, C. Holden, S. Shennan. Publisher: UCL Press, pp. 69-85Cummins, F., Gers, F., and Schmidhuber, J., (1999), Language identification from prosody without explicit features, in Proc. of EUROSPEECH ‘99 Cysouw, M. (2006). Identifying areas from typological surveys. Bielefeld, Germany (28th Jahrestagung DGfS) (pdf slides).Damashek M.1995, Gauging Similarity with n-Grams: Language Independent Categorization of Text, Science, 10 February 1995, Vol. 267, pp. 843-8 Dauer, R. M., (1983), Stress-timing and syllable-timing reanalyzed, Journal of Phonetics, 11Dellwo, V. and Wagner, P., 2003. Relations between Language Rhythm and Speech Rate. Proceedings of ICPhS 2003, Barcelona, Spain, 471-474.Dominey, P. F., & Ramus, F., (2000), Neural Network Processing of Natural Language: I. Sensitivity to Serial, Temporal and Abstract Structure in the Infant, Language and Cognitive Processes, 15(1) Farinas, J., Rouas, J.L., Pellegrino, F. & André-Obrecht, R., 2005, "Extraction automatique de paramètres prosodiques pour l’identification automatique des langues", Traitement du Signal, 22:2Fox A. 2000. Prosodic features and Prosodic Structure, Oxford University PressGalves, A., Garcia J., Duarte D. & Galves C., (2002), “ Sonority as a Basis for Rhythmic Class Discrimination ”, in proc. of the Speech Prosody 2002 conference, 11-13 April 2002 Grabe, E. & Low, E.L., (2002), Durational Variability in Speech and the Rhythm Class Hypothesis, Papers in Laboratory Phonology 7, Mouton.Gray, R.D. & Atkinson, Q.D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439Hamdi R., Barkat-Defradas M., Ferragne E. & Pellegrino F., (2004), “Speech Timing and Rhythmic structure in Arabic dialects: a comparison of two approaches”, in proc. of INTERSPEECH/ICSLP 2004, October 2004 Jeju, KoreaHaspelmath, M., Matthew S. Dryer, David Gil and Bernard Comrie (Eds). 2005. The World Atlas of Language Structures, Oxford University PressHegde R. M. & H. A.Murthy, 2005. ``Automatic Language Identification and Discrimination using The Modified Group Delay Feature'', in Proc. of International Conference on Intelligent Sensing and Information Processing,ChennaiHombert, J.M. & Maddieson, I., 1998, "A linguistic approach to automatic language recognition", UCLA Working Papers in Phonetics, 96, pp. 106-118Hyman L. 1983. "Are there syllables in Gokana?" In J. Kaye et al (eds), Current approaches to African linguistics, vol. 2. Dordrecht: Foris. 171–179.Hyman L. 2005. “Word-Prosodic Typology”, in UC Berkeley Phonology Lab Annual Report 2005Itahashi S., K. Kiuchi et M. Yamamoto : “Spoken Language Discrimination Using Speech Fundamental Frequency And Cepstra”, in proc. Eurospeech, Budapest, Hungary, 1999Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich pp.296Levelt, C., & van de Vijver, R. (1998). Syllable types in cross-linguistic and developmental grammars. Third Biannual Utrecht Phonology Workshop (11-12/06/1998),Maddieson, I. 1984. Patterns of sounds. Cambridge, MA: Cambridge University Press.Maddieson, I. and K. Precoda. 1990. Updating UPSID. UCLA Working Papers in Phonetics 74: 104-111.Martin, A. F. & M. A. Przybocki. (2003). NIST 2003 Language Recognition Evaluation, in proc. of Eurospeech, p.1341-1344, GenevaMorgan J. L., & K. Demuth, 1996. Signal to Syntax: Bootstrapping from Speech to Grammar in Early Acquisition. Mahwah, NJ: Lawrence Erlbaum Associates.Nazzi, T. & Ramus, F. (2003). Perception and acquisition of linguistic rhythm by infants. Speech Communication 41(1-2), 233-243.Nespor, M. (1990). On the rhythm parameter in phonology. In I. M. Roca, Logical issues in language acquisition, (pp. 157±175). Dordrecht: Foris.Ohala, J. & Marsico, E., 2001, "Differentiating phonetic from phonological events in speech", in De la caractérisation à l'identification des langues. Actes sélectionnés de la 1ère journée d'étude sur l'identification automatique des langues (19/01/1999, Lyon), Pellegrino, F. (ed), Lyon, Edition en ligne Pike, K. L. (1945). The intonation of American English, Ann Arbor, MI: University of Michigan Press.Ramus, F., Nespor, M., & Mehler, J., (1999), Correlates of linguistic rhythm in the speech signal, Cognition, 73(3)Remijsen B. 2003. “New Perspectives In Word-prosodic Typology”, IIAS Newsletter, #32, p. 29Ridouane R. 2003. Suites de Consonnes en Berbère Chleuh : Phonétique et Phonologie. Thèse de doctorat, Université Paris 3 / Sorbonne Nouvelle. Roach, P. (1982). On the distinction between `stress-timed' and `syllable-timed' languages. In D. Crystal, Linguistic controversies, London: Edward Arnold.Rouas J.-L.. 2005. Caractérisation et identification automatique des langues. Thèse de doctorat, Université Paul Sabatier, Toulouse, mars 2005.Rouas, J.L., Farinas, J., Pellegrino, F. & André-Obrecht, R., 2005, "Rhythmic Unit Extraction and Modelling for Automatic Language Identification", Speech Communication, 47:4, pp. 436-456Thymé-Gobbel, A., & Hutchins, S. E., (1999), Prosodic features in automatic language identification reflect language typology, in Proc. of ICPhS’99, San Francisco, CA, USA
50
Mis
s P
roba
bilit
y (%
)
False Alarm Probability (%)
Vietnamese
Hindi
English
D’après A. Martin & M. Przybocki, NIST 2003 LRE Workshop, April 28-29th, 2003
DET – NIST LRE 2003
51
Exemple : Dialecte East Yorkshire
35
40
45
50
55
60
65
70
Hood Hudd Who’d Heard Hared
35
40
45
50
55
60
65
70
Hood Hudd Who’d Heard Hared
Locutrice sit Locutrice edc