prosodie et anaphore dans le discours en anglais et en
TRANSCRIPT
UNIVERSITE AIX-MARSEILLE I – Université de Provence
U.F.R. LACS – Formation doctorale Langage et Parole
N° attribué par la bibliothèque : |__|__|__|__|__|__|__|__|__|__|
THESE pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE AIX-MARSEILLE I
présentée et soutenue publiquement le 4 décembre 2004 par
Cyril Auran
Prosodie et anaphore dans le discours en anglais et en français :
cohésion et attribution référentielle
en un volume accompagné de deux CD-ROM
sous la direction de
Monsieur Daniel HIRST
Directeur de Recherche, CNRS, UMR 6057
Laboratoire Parole et Langage - Université de Provence
JURY
Madame Anne Wichmann, Professeur à l’Université Central Lancashire (Rapporteur)
Monsieur Jacques Durand, Professeur à l’Université de Toulouse 2 – Le Mirail (Rapporteur)
Monsieur Albert Di Cristo, Professeur à l’Université de Provence
Monsieur Daniel Hirst, Directeur de Recherche CNRS, LPL, Université de Provence
Monsieur Renaud Méry, Professeur à l’Université de Provence
A ma grand-tante, qui aurait tant aimé « voir ça »
A mes parents
A Thi
REMERCIEMENTS
Je tiens, parmi toutes les personnes qui ont pu contribuer à l’aboutissement de ce travail de
thèse, à remercier tout particulièrement
Anne Wichmann et Jacques Durand, qui ont accepté d’être non seulement membres de mon
jury, mais aussi rapporteurs, en dépit du surplus de travail que cela implique ;
Mes maîtres,
Renaud Méry, avec qui j’ai fait parmi mes premières armes linguistiques, pour la
pertinence aigüe de ses remarques linguistiques, de ses goûts musicaux, et de son humour ;
Albert Di Cristo, dont la verve, le charisme et la gentillesse sont en grande partie
responsables de ma poursuite d’études prosodiques ;
et bien sûr Daniel Hirst, second membre des duettistes aixois de la prosodie, pour la
subtile adresse avec laquelle il a su écouter, diriger et motiver l’étudiant indiscipliné que je
sais être, parfois…
Mes collègues,
Membres du groupe EPGA (Sophie, Laetitia et Marion), que nos études d’anglistique
nous ont permis de rencontrer sous la houlette bienveillante de Daniel Hirst ;
Membres du noyau dur du groupe ProDiGE (Alain, Annie, Catherine, Cristel,
Monique et Roxane), pour le caractère si stimulant de notre travail collaboratif ;
Membres du LPL (et notamment Alain, Bernard, Carine, Christian, Isabelle, Joël,
Louis et Robert), pour les discussions que nous avons eues et leur aide de tous les
instants (surtout les plus cruciaux) ;
Mes sujets, pour l’abnégation avec laquelle ils ont prêté leur corps à la science ;
Mes amis,
Amis du LPL (et notamment Caroline, Cyril et Pit), pour m’avoir aidé et supporté non
seulement au labo, mais aussi en dehors ;
Amis d’ailleurs (Dorothée, Fabien, Lorie, Luc, Pascal, Pierre et Toni), pour nos
soirées philosophiques et celles qui le furent moins ;
Ami de toujours, Sébastien, pour avoir été toujours là quand il le fallait ;
Mes parents, qui ont fait bien plus que ce qui était possible pour que j’en sois ici aujourd’hui ;
Et ma compagne, Thi, qui m’a porté à bout de coeur, supporté même lorsque j’étais
insupportable, aimé même lorsque j’étais détestable.
CONVENTIONS
Nous ferons deux remarques concernant la citation des œuvres dans ce travail de thèse. La
première remarque est relative au fait que, pour des raisons de lisibilité, nous avons
arbitrairement (et conventionnellement) choisi de ne pas citer tous les co-auteurs d’un travail
dès lors que celui-ci impliquait plus de deux collaborateurs ; l’œuvre apparaît alors dans le
texte sous la forme « 1er auteur et al. DATE ».
La seconde remarque est relative à une convention particulière concernant le nombre
grammatical associé aux œuvres citées. Notre démarche a consisté à mentionner l’œuvre en
tant qu’entité propre, en quelque sorte « indépendante » du nombre de ses auteurs. Ainsi,
malgré le fait qu’un travail ait été co-écrit par deux collaborateurs ou plus, nous lui associons
le nombre grammatical singulier, ce qui conduit à des constructions telles que « Moeschler &
Reboul (1994 : p. 361-372) propose … ».
SOMMAIRE GENERAL Introduction .............................................................................................................................1
1 Anaphore, discours et prosodie ......................................................................................4 1.1 Délimitation du phénomène anaphorique................................................................4
1.1.1 Anaphore : conception traditionnelle et Théorie du Liage ...............................4 1.1.2 Anaphore : conception discursive.....................................................................6
1.2 Indéterminations multiples ......................................................................................7 2 Données et méthodes ......................................................................................................8
2.1 Différents types de données linguistiques ...............................................................8 2.1.1 Données construites et données authentiques...................................................8 2.1.2 La notion de spontanéité.................................................................................10
2.2 Méthodes d’analyse ...............................................................................................10 3 Objectifs et plan de la thèse..........................................................................................11
Partie 1 - Approches classiques de l’anaphore.............................................. 15 Chapitre 1 - Anaphore et référence .....................................................................................17
1 Langage et fonction référentielle..................................................................................19 2 Différentes conceptions de la référence........................................................................20
2.1 L’école Terministe et la référence .........................................................................21 2.2 Sens, dénotation et représentation chez Frege.......................................................24
2.2.1 Sens et dénotation...........................................................................................24 2.2.2 Représentation ................................................................................................25 2.2.3 Le sens : un concept discuté ...........................................................................25 2.2.4 Frege et l’héritage des Terministes.................................................................26
2.3 Le positivisme logique et le tournant pragmatique ...............................................26 2.3.1 Concepts fondamentaux du positivisme logique ............................................26 2.3.2 Le tournant pragmatique.................................................................................27 2.3.3 Synthèse..........................................................................................................35
2.4 L’approche cognitiviste .........................................................................................36 2.4.1 Le « premier » Wittgenstein et la théorie de l’image .....................................36 2.4.2 Le concept de « modèle mental » ...................................................................37 2.4.3 Entités cognitives et entités du « monde réel » ..............................................38 2.4.4 Synthèse..........................................................................................................39
3 Le cas de l’anaphore au sein de la thématique de la référence.....................................40 4 Synthèse générale .........................................................................................................42
Chapitre 2 - Eclairages sur l’anaphore en linguistique .....................................................45
1 Anaphore et incomplétude............................................................................................48 1.1 La théorie milnérienne de la référence ..................................................................48 1.2 L’anaphore dans le cadre de la théorie milnérienne ..............................................50
1.2.1 L’anaphore pronominale.................................................................................50 1.2.2 L’anaphore nominale......................................................................................52
1.3 Synthèse.................................................................................................................54 2 Deixis, indexicalité et anaphore ...................................................................................56
2.1 La deixis : définition liminaire ..............................................................................57 2.2 Deixis et indexicalité (Q1).....................................................................................60 2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2)...............................63
2.3.1 Approche chronologique ................................................................................64
Sommaire général
2.3.2 Approche abstractionniste.............................................................................. 71 2.4 Synthèse ................................................................................................................ 74
3 Principaux problèmes des descriptions classiques....................................................... 75 3.1 La théorie milnérienne .......................................................................................... 75
3.1.1 Saturation sémantique .................................................................................... 75 3.1.2 L’anaphore pronominale : coréférence et reprise .......................................... 76
3.2 Deixis et anaphore................................................................................................. 79 3.2.1 Typologie des formes indexicales.................................................................. 80 3.2.2 Typologie des usages indexicaux................................................................... 82
4 Synthèse générale......................................................................................................... 84 Partie 2 - Discours et anaphore....................................................................... 87 Chapitre 3 - Approches du discours.................................................................................... 89
1 De la phrase au discours............................................................................................... 92 1.1 Linguistique textuelle : la transition linguistique stricte....................................... 93 1.2 L’approche fonctionnaliste ................................................................................... 94
1.2.1 Aspects relationnels ....................................................................................... 94 1.2.2 Aspects informationnels................................................................................. 96
1.3 La charnière informationnelle............................................................................... 97 1.4 Cohérence, texte et discours ............................................................................... 101 1.5 Synthèse .............................................................................................................. 103
2 Le discours multidimensionnel .................................................................................. 103 2.1 Attention, intentions et structure du discours...................................................... 104
2.1.1 La structure linguistique............................................................................... 105 2.1.2 La structure intentionnelle ........................................................................... 105 2.1.3 L’état attentionnel ........................................................................................ 107
2.2 Un modèle hétérarchique du discours................................................................. 110 2.2.1 Influences ..................................................................................................... 111 2.2.2 Structure du modèle ..................................................................................... 113
2.3 Synthèse .............................................................................................................. 117 3 Un object « discours » ?............................................................................................. 118
3.1 Quel objet « discours » ?..................................................................................... 118 3.1.1 Discours vs. texte ......................................................................................... 118 3.1.2 Discours et cohérence .................................................................................. 121
3.2 A-t-on besoin d’un objet « discours » ? .............................................................. 127 3.2.1 RT et la cognition......................................................................................... 127 3.2.2 RT et la communication............................................................................... 128 3.2.3 RT et la compréhension ............................................................................... 129 3.2.4 Synthèse ....................................................................................................... 130
4 Synthèse générale....................................................................................................... 130 Chapitre 4 - Anaphore et discours : Solutions, nouveaux problèmes et changement de perspective ...................................................................................................................... 133
1 Anaphore et discours : solutions et nouveaux problèmes …..................................... 136 1.1 Anaphore et deixis : pour une approche discursive ............................................ 136
1.1.1 Anaphore et deixis : rappel de la distinction classique ................................ 136 1.1.2 Typologie des usages référentiels : une approche discursive ...................... 138 1.1.3 Solutions discursives.................................................................................... 141 1.1.4 Synthèse ....................................................................................................... 148
Sommaire général
1.2 Autonomie référentielle, coréférence et reprise ..................................................149 1.2.1 Le concept d’autonomie référentielle ...........................................................149 1.2.2 L’anaphore pronominale : coréférence et reprise .........................................153
1.3 Synthèse...............................................................................................................156 2 Anaphore pronominale et discours .............................................................................156
2.1 Fonctionnement référentiel des expressions indexicales : généralités ................157 2.1.1 Expressions définies .....................................................................................157 2.1.2 Expressions démonstratives..........................................................................158 2.1.3 Expressions pronominales ............................................................................159
2.2 Anaphore pronominale et discours ......................................................................161 2.2.1 Référence et responsabilité partagée ............................................................161 2.2.2 Typologies attentionnelles............................................................................163 2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive ....................167
2.3 Interdépendance de l’anaphore et du discours.....................................................177 2.4 Synthèse...............................................................................................................181
3 Synthèse générale .......................................................................................................181 Partie 3 - Approches de la prosodie.............................................................. 183 Chapitre 5 - Conceptions prosodiques fondamentales.....................................................187
1 Prosodie : première approche .....................................................................................189 1.1 Prosodie et pragmatique : destins parallèles........................................................190
1.1.1 Guerre … ......................................................................................................190 1.1.2 … et paix ......................................................................................................193 1.1.3 Développements récents et perspectives ......................................................195
1.2 Suprasegmental, intonation : point terminologique.............................................196 1.2.1 Suprasegmental.............................................................................................197 1.2.2 Intonation et prosodie ...................................................................................198
1.3 Synthèse...............................................................................................................200 2 Le macro-système prosodique ....................................................................................201
2.1 Niveaux de représentation ...................................................................................202 2.1.1 Niveaux de représentation et niveaux d’analyse ..........................................202 2.1.2 Modalité directe............................................................................................204 2.1.3 Modalité indirecte.........................................................................................207
2.2 Multiplicité des paramètres et des dimensions prosodiques................................210 2.2.1 Prosodie multi-paramétrique ........................................................................210 2.2.2 Prosodie multi-dimensionnelle .....................................................................214
2.3 Espace spectral ....................................................................................................220 2.3.1 Statut linguistique.........................................................................................220 2.3.2 Vers une intégration linguistique partielle ...................................................222
2.4 Ordre métrique et accent......................................................................................225 2.4.1 L’accent : « stress » et « accent » .................................................................225 2.4.2 L’ordre métrique comme interface cognitive de haut niveau.......................228
2.4 Synthèse...............................................................................................................229 3 Structure(s) et représentation(s) Prosodique(s) ..........................................................230
3.1 Représentations prosodiques : la cas de l’espace fréquentiel ..............................230 3.1.1 Cadre général................................................................................................231 3.1.2 Représentation phonétique : l’algorithme MOMEL.....................................231 3.1.3 Représentation phonologique de surface......................................................233
3.2 Extensions et applications : ProZed ....................................................................237
Sommaire général
3.2.1 Extension à d’autres espaces prosodiques ................................................... 237 3.2.2 L’environnement applicatif ProZed ............................................................. 238
3.3 Structure(s) prosodiques de l’anglais.................................................................. 239 3.3.1 Unités prosodiques....................................................................................... 239 3.3.2 Phonologie profonde et phonologie de surface............................................ 240 3.3.3 Statut phonologique de l’emphase ............................................................... 243
3.4 Synthèse .............................................................................................................. 245 4 Synthèse générale....................................................................................................... 246
Chapitre 6 - Prosodie et discours....................................................................................... 249
1 Fonctions et formes : la quête du sens prosodique .................................................... 252 1.1 Usages prosodiques............................................................................................. 252 1.2 Fonctions prosodiques et linguistique................................................................. 254
1.2.1 Catégorisation linguistique et discrétude ..................................................... 254 1.2.2 Pour une pragmatisation du sens prosodique............................................... 256
1.3 Organisation des fonctions prosodiques ............................................................. 257 1.3.1 Catégories prosodiques fonctionnelles......................................................... 257 1.3.2 Primitives prosodiques fonctionnelles ......................................................... 258
1.4 Synthèse .............................................................................................................. 260 2 Accentuation et anaphore discursive.......................................................................... 261
2.1 Anaphore pronominale discursive : quelques rappels......................................... 261 2.1.1 Anaphore pronominale discursive et faisceaux d’indices............................ 261 2.1.2 Anaphore pronominale discursive et statut attentionnel des référents......... 262
2.3 Anaphore pronominale discursive et accentuation ............................................. 263 2.3.1 Prosodie et information.................................................................................... 263 2.3.2 Interprétation des anaphores pronominales accentuées ................................... 265 2.3 Synthèse .............................................................................................................. 272
3 Prosodie et structure discursive.................................................................................. 273 3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe ....... 274
3.1.1 Prosodie et syntaxe : conceptions divergentes............................................. 275 3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe ........................ 277
3.2 Prosodie et segmentation discursive ................................................................... 282 3.2.1Niveau de l’unité intonative.......................................................................... 282 3.2.2 Structure prosodique au-delà de l’unité intonative ...................................... 283 3.2.3 Structure prosodique et approche conversationnelle ................................... 285
3.3 Marques prosodiques de l’organisation discursive ............................................. 286 3.3.1 Prosodie et marquage de l’organisation discursive...................................... 286 3.3.2 Marquage de la discontinuité discursive...................................................... 288 3.3.3 Marquage de la continuité discursive........................................................... 297
3.4 Synthèse .............................................................................................................. 304 4 Synthèse générale....................................................................................................... 305
Résumé des concepts clés et hypothèses............................................................................ 309
Sommaire général
Partie 4 - Approche expérimentale des relations prosodie-anaphore....... 315 Chapitre 7 - Constitution de la base de données Aix-MARSEC .....................................319
1 Aix-MARSEC : un corpus, une base de données, un projet.......................................322 1.1 Le corpus .............................................................................................................322 1.2 La base de données ..............................................................................................322 1.3 Le projet...............................................................................................................323 1.4 Synthèse...............................................................................................................324
2 Aix-MARSEC : les origines .......................................................................................325 2.1 De SEC à MARSEC............................................................................................325
2.1.1 Le Spoken English Corpus ...........................................................................325 2.1.2 Le corpus MARSEC.....................................................................................328
2.2 Traitements préliminaires ....................................................................................329 2.2.1 Homogénéisation : correspondance texte-audio...........................................329 2.2.2 Première approche de l’alignement ..............................................................329
3 Les traitements spécifiques.........................................................................................330 3.1 Phonétisation .......................................................................................................330
3.1.1 Différentes approches ...................................................................................330 3.1.2 Principes de phonétisation Aix-MARSEC ...................................................332 3.1.3 Traitements spécifiques ................................................................................333 3.1.4 Problèmes spécifiques ..................................................................................335
3.2 Optimisation par règles d’élision.........................................................................335 3.2.1 Condition d’application des règles ...............................................................336 3.2.3 Règles d’élision ............................................................................................338 3.2.4 Évaluation des règles d’élision.....................................................................342
3.3 Alignement du corpus Aix-MARSEC.................................................................344 3.3.1 Méthodes d’alignement ................................................................................344 3.3.2 Evaluation.....................................................................................................345
3.4 Autres niveaux d’analyse.....................................................................................349 3.4.1 Unités syllabiques.........................................................................................350 3.4.2 Unités rythmiques.........................................................................................350 3.4.3 Annotation fréquentielle ...............................................................................351
4 Synthèse générale .......................................................................................................351 Chapitre 8 - Aspects de production et analyse de corpus ................................................355
1 Hypothèses et cahier des charges expérimental .........................................................358 1.1 Approche interactive de l’onset et de l’anaphore ................................................358 1.2 Cahier des charges expérimental .........................................................................360 1.3 Synthèse...............................................................................................................360
2 Protocole expérimental ...............................................................................................361 2.1 Extraction des données ........................................................................................361
2.1.1 Avantages et limites des extractions manuelle et automatique ....................361 2.1.2 Protocole adopté ...........................................................................................363
2.2 Echantillonnage ...................................................................................................366 2.3 Normalisation ......................................................................................................373
2.3.1 Transformation logarithmique......................................................................373 2.3.2 Procédure de normalisation ..........................................................................375
3 Résultats et discussion................................................................................................379 3.1 Résultats ..............................................................................................................379
3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive ....................379
Sommaire général
3.1.2 Valeur fréquentielle d’onset et anaphore pronominale ................................ 383 3.2 Discussion ........................................................................................................... 386
3.2.1 Conceptions de l’onset ................................................................................. 386 3.2.2 Discussion de nos résultats .......................................................................... 388
4 Synthèse générale....................................................................................................... 392 Chapitre 9 - Aspects perceptifs des interactions anaphore-onset................................... 397
1 Formulation des hypothèses....................................................................................... 400 1.1 Hypothèses générales.......................................................................................... 400
1.1.1 Asymétrie des rôles de production et de perception .................................... 400 1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses................... 402
1.2 Revue des méthodes et de quelques résultats antérieurs..................................... 403 1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique................. 403 1.2.2 Quelques résultats ........................................................................................ 406
1.3 Hypothèses de travail .......................................................................................... 407 2 Protocole expérimental : éléments communs............................................................. 409
2.1 Phase préparatoire ............................................................................................... 409 2.1.1 Enregistrement et numérisation ................................................................... 409 2.1.2 Manipulations............................................................................................... 410 2.1.3 Préparation des scripts d’expérimentation ................................................... 410
2.2 Exécution des expérimentations.......................................................................... 411 2.2.1 Environnement ............................................................................................. 411 2.2.2 PERCEVAL................................................................................................. 411
2.3 Récupération et traitement des résultats.............................................................. 411 3 Expérimentations ....................................................................................................... 412
3.1 Première phase d’expérimentation...................................................................... 412 3.1.1 Hypothèses traitées ...................................................................................... 412 3.1.2 Protocole expérimental ................................................................................ 413
3.2 Seconde phase d’expérimentation....................................................................... 420 3.2.1 Hypothèse expérimentale............................................................................. 420 3.2.2 Protocole expérimental ................................................................................ 420
3.3 Discussion ........................................................................................................... 429 4 Synthèse générale....................................................................................................... 433
Conclusion ........................................................................................................................... 435 Index des figures ................................................................................................................. 441 Index des tableaux............................................................................................................... 445 Index des exemples.............................................................................................................. 447 Index des auteurs ................................................................................................................ 451 Bibliographie ....................................................................................................................... 455 Annexe 1 : Aix-MARSEC..................................................................................................CD1 Annexe 2 : Tables et stimuli ..............................................................................................CD2
Introduction
Introduction
2
Introduction : Sommaire
1 Anaphore, discours et prosodie...................................................................... 4 1.1 Délimitation du phénomène anaphorique ...................................................................... 4
1.1.1 Anaphore : conception traditionnelle et Théorie du Liage ...................................... 4 1.1.2 Anaphore : conception discursive ............................................................................ 6
1.2 Indéterminations multiples .............................................................................................. 7 2 Données et méthodes ....................................................................................... 8 2.1 Différents types de données linguistiques ....................................................................... 8
2.1.1 Données construites et données authentiques .......................................................... 8 2.1.2 La notion de spontanéité ........................................................................................ 10
2.2 Méthodes d’analyse......................................................................................................... 10 3 Plan de la thèse .............................................................................................. 11
Introduction
3
Mêler dans le titre de cette thèse les termes « anaphore » et « prosodie » constitue une
double prise de risque vis-à-vis de nos lecteurs libres (par opposition aux membres de notre
jury, plus… contraints). D’une part, en effet, parler d’anaphore revient en définitive à
évoquer, une fois de plus, l’un des thèmes peut être les plus étudiés de la linguistique ; en ce
sens, nul doute qu’une certaine lassitude par anticipation risque d’étreindre les lecteurs de ce
titre … D’autre part, la prosodie constitue sans doute l’un des objets d’étude les plus
populaires à l’heure actuelle, tant et si bien que des chercheurs tels que Janet Fodor
reconnaissent que leur discipline ne peut plus « y échapper » ; le risque est alors dans ce cadre
de donner l’impression que ce travail de thèse n’est qu’une soumission opportuniste à la
« prosodimania » décrite par Albert Di Cristo.
Nous espérons montrer dans le reste de ce travail que ces réticences sont injustifiées. En
effet, nous tenterons d’aborder la thématique de l’anaphore d’une manière (toutes proportions
gardées) relativement peu répandue, au sein d’un double renversement de point de vue par
rapport à la conception traditionnelle du phénomène ; nous proposerons ainsi de ne plus
concevoir l’anaphore comme une marque déficiente, un problème à « résoudre », mais plutôt
comme une marque robuste de cohésion (nous préférerons le terme « continuité ») unie à la
dynamique du discours par une relation de dépendance mutuelle. Notre approche de la
prosodie trouvera quant à elle sa source dans notre intention de fournir un cadre
terminologique et conceptuel élargi, destiné à accueillir des éléments et organiser de manière
plus systématique des paramètres souvent séparés ou regroupés selon nous à tort.
De manière plus précise, nous tenterons d’analyser les interactions complexes qui
unissent (comme nous allons le proposer) certains phénomènes prosodiques à l’anaphore, plus
particulièrement en relation avec le marquage de la continuité discursive ; nous ne traiterons
donc pas spécifiquement de la réalisation prosodique des formes anaphoriques (notamment
par l’accentuation), mais plutôt de la contribution de chaque domaine au discours ainsi que de
leurs influences mutuelles à plus grande échelle.
Face à l’apparente ambition de tant d’intentions, nous souhaitons insister sur le fait que
ce travail de thèse ne constitue qu’une contribution tout au mieux modeste et parcellaire aux
champs d’étude auxquels elle se rattache (prosodie et pragmatique discursive) ; la limitation
(malheureusement inévitable) de nos analyses expérimentales à quelques phénomènes
restreints et ponctuels sera sans doute la preuve la plus flagrante de la portée limitée de ce
travail.
Introduction
4
Après ces indispensables remarques, nous souhaitons à présent inviter le lecteur (qu’il
soit libre ou contraint) à nous suivre dans cette introduction au cours de laquelle nous
préciserons certains aspects conceptuels et méthodologiques fondamentaux et présenterons le
plan de cette thèse.
Plus précisément, nous organiserons cette introduction en trois sections principales.
Dans la première, nous aborderons certains des aspects plus théoriques concernant la
définition de notre objet d’étude et du cadre dans lequel nous souhaitons l’aborder : nous
opposerons ainsi notamment l’anaphore de discours à l’anaphore telle que peut la concevoir la
syntaxe générative tout en soulignant l’indétermination multiple qui touche les disciplines
dans lesquelles nous situerons notre démarche.
Dans la seconde section, nous nous attacherons plus particulièrement à la présentation et
à la justification de nos choix concernant la nature des données analysées et les méthodes
employées pour analyser ces dernières. Nous soulignerons cependant quelques aspects
théoriques relatifs au concept de spontanéité et tenterons d’en proposer une caractérisation
multidimensionnelle.
Nous terminerons cette introduction, finalement, par la présentation de nos objectifs et
du plan de cette thèse.
1 Anaphore, discours et prosodie
1.1 Délimitation du phénomène anaphorique
Comme nous aurons l’occasion de le préciser de manière bien plus détaillée dans le
reste de ce travail, l’anaphore peut être abordée de nombreux points de vue différents. Parmi
ces points de vue, celui de la syntaxe constitue sans doute l’un des plus influents, notamment
avec la Théorie du Liage proposée dans Chomsky 1981.
1.1.1 Anaphore : conception traditionnelle et Théorie du Liage
La Théorie du Liage repose majoritairement sur une conception de l’anaphore que nous
qualifierons de « traditionnelle » dans le chapitre 2 de cette thèse. Dans ce cadre, nous
retiendrons pour l’instant que l’anaphore implique une unité (l’expression anaphorique) dont
l’interprétation dépend d’une autre unité du cotexte, généralement appelée « antécédent » ;
plus particulièrement cette relation est présentée comme un phénomène de coréférence par
lequel l’antécédent et l’expression anaphorique « réfèrent » (nous reviendrons sur cette
Introduction
5
conception) toutes deux au même objet du monde ; ainsi, dans l’exemple 1 ci-dessous, on dira
typiquement que « Paul » est l’antécédent de « he » et que ces deux expressions coréfèrent à
l’individu Paul.
Ex (1) Pauli thinks hei shouldn’t have voted for Gerry Wallace Briar.
En syntaxe, cette coréférence est marquée par l’utilisation d’indices identiques pour les
unités qui coréfèrent (cf. l’indice i dans notre exemple 1) : on parlera alors de coindexation.
La Théorie du Liage a pour objectif principal de décrire la distribution
• des expressions réfléchies (« herself ») ou réciproques (« each other »), appelées
« anaphores » (« anaphors » en anglais), qui sont nécessairement dépendantes d’une
portion du cotexte ;
• des expressions potentiellement dépendantes d’une portion du cotexte, appelées
« pronoms » ou plutôt « pronominaux » (« pronominals » ; par exemple « he »), c'est-
à-dire en termes chomskyens les pronoms qui ne sont pas des « anaphores » ;
• des expressions qui peuvent référer seules, ou « expressions référentielles »
(« R(eferring)-expressions »), comme les syntagmes nominaux à texte lexicale.
Le concept de liage, plus particulièrement, correspond à ce que nous venons d’appeler
la coindexation entre deux éléments α et β tels que α « c-commande » β, c'est-à-dire que α ne
contient pas β et que le premier nœud branchant qui domine α domine aussi (directement ou
pas) β. On dira ainsi qu’une expression est « liée » lorsqu’elle est coindexée avec et c-
commandée par son antécédent.
La Théorie du Liage propose les trois principes suivants pour rendre compte des
configurations bien formées :
• Principe A : les anaphores (« anaphors ») doivent être liées dans leur catégorie
gouvernante ;
• Principe B : les pronominaux (« pronominals ») doivent être libres dans leur catégorie
gouvernante ;
• Principe C : les expressions référentielles doivent être libres.
Nous n’entrerons pas ici dans le détail de cette théorie (notamment concernant le
concept de « catégorie gouvernante » en relation avec la projection) mais proposons
d’observer les trois exemples suivants afin de mieux les comprendre :
Introduction
6
Ex (2) a. Pauli told Johnj that Billk couldn’t vote for himself*i/*j/k.
b. Pauli a dit à Jeanj que Bertrandk ne pouvait pas voter pour lui-même*i/*j/k.
Ex (3) a. Pauli told Johnj that Billk couldn’t vote for himi/j/*k.
b. Pauli a dit à Jeanj que Bertrandk ne pouvait pas voter pour luii/j/*k.
Ex (4) a. Pauli told Johnj that hei/j/*k couldn’t vote for Billk.
b. Pauli a dit à Jeanj qu’il i/j/*k ne pouvait pas voter pour Bertrandk.
L’exemple 2 est un exemple d’application du principe A : l’anaphore (au sens
chomskyen) « himself », étant c-commandé par « Bill », il ne peut coréférer, et donc être lié
qu’avec ce dernier. L’exemple 3 implique le pronominal « him » qui, en vertu du principe B,
ne peut pas être lié (et donc coréférer) avec « Bill » ; la coréférence avec « Paul » ou « John »
est en revanche possible. L’exemple 4 finalement, démontre notamment le principe C par le
fait que « Bill », c-commandé par « he », ne peut être lié à (et donc coréférer avec) ce dernier.
1.1.2 Anaphore : conception discursive
La conception que nous souhaitons adopter ici pourra être qualifiée de « discursive ».
Bien que les deux premières parties de cette thèse soit consacrées à l’explicitation de cette
approche, nous pouvons d’ores et déjà préciser que nous n’adopterons pas la terminologie
chomskyenne et que nous ne nous limiterons pas aux concepts et aux types de données de la
conception « traditionnelle » ou de la Théorie du Liage. Evoquons en quelques mots les
différences fondamentales de la conception discursive de l’anaphore avec chacun de ces deux
courants de pensée.
Nous avons vu que la conception traditionnelle implique que l’expression anaphorique
coréfère avec son « antécédent » ; l’approche discursive, a contrario, se positionnant dans un
cadre cognitif et pas simplement textuel, traitera des anaphores dites « sans antécédent », des
anaphores « associatives » et « évolutives » et nous permettra de remettre en cause les
concepts même d’antécédent et de coréférence comme définitoires de l’anaphore.
L’approche discursive, de plus est généralement perçue comme impliquant des relations
au-delà des frontières de la phrase ; bien que cela soit souvent vrai, ce fait n’est pas
indispensable à l’approche discursive (cf. par exemple Reboul & Moeschler 1998 ou Cornish
1999), qui peut aussi fort bien expliquer par des principes propres certains phénomènes
Introduction
7
phrastiques. Ainsi, dans notre exemple 2, si le principe B de la Théorie du Liage explique
l’impossibilité pour « him » de « référer » à Bill, il ne dit rien de ses relations avec Paul ou
John, qui sont deux antécédents syntaxiquement acceptables ; l’approche discursive, a
contrario, prenant en compte des éléments tels que les connaissances d’arrière plan ou la
saillance cognitive d’un référent pourra expliquer pourquoi, selon le contexte, « him » peut
désigner l’un ou l’autre de ces individus.
Nous retiendrons donc principalement de cette section que notre approche ne s’inscrit
pas dans le cadre syntaxique de la Théorie du Liage, dont elle n’adopte ni la terminologie ni
les concepts. Les relations de la conception discursive et de la conception traditionnelle seront
quant à elles l’objet des deux premières parties de cette thèse.
1.2 Indéterminations multiples
Un second aspect qu’il nous semble important de noter concerne l’indétermination
multiple qui caractérise notre thématique. En effet notre approche de l’anaphore implique à la
fois des aspects pragmatiques, discursifs et prosodiques, phénomènes aux frontières (et
parfois même au contenu) difficiles à délimiter. Nous reviendrons sur ces aspects plus loin
dans ce travail (cf. chapitres 1, 3 et 5 notamment), mais il paraît crucial de remarquer que la
pragmatique, l’analyse du discours et la prosodie, récemment (plus ou moins) intégrées dans
le cadre d’une linguistique élargie, restent délicates à définir de manière robuste. Ainsi, la
pragmatique occupe encore parfois, de nos jours, une position malaisée par rapport à un
sémantique croissante ; l’analyse du discours se trouve prise entre l’analyse de la conversation
et la pragmatique traditionnelle, sans qu’aucune ligne de démarcation puisse être tracée à
coup sûr ; la prosodie, finalement, oscille entre fonctionnement linguistique (au niveau du
mot, de la phrase, voire du discours) et expression paralinguistique des attitudes et des
émotions. On le voit, notre thèse, tentant de croiser ces différents champs du savoir
linguistique (au sens le plus large du terme), court le risque de se diluer dans cette
indétermination multiple de son cadre.
Notre travail, nous le regrettons, n’apportera pas de solution définitive à ces problèmes
définitoires ; nous tenterons cependant de poser de manière plus précise nos conceptions
notamment des concepts fondamentaux de discours (chapitre 3), d’anaphore (chapitre 4) et de
prosodie (chapitres 5 et 6) dans l’objectif particulier d’en délimiter l’extension.
A un niveau plus local, étant donnée l’inévitable absence de consensus concernant les
phénomènes traités au sein de ces disciplines, il est à parier que les concepts que nous
Introduction
8
évoquerons auraient pu être classés et analysés d’une manière fort différente de celle que nous
aurons privilégiée : tel concept informationnel aurait peut être trouvé une expression plus
précise dans le cadre d’une macro-syntaxe, tel autre, relatif au « downstep », aurait pu être
mieux modélisé dans le cadre d’une approche métrique-autosegmentale, etc. Néanmoins, nous
avons tenté, dans la mesure du possible, de détailler les concepts et les méthodes employées et
de justifier notre démarche tout en précisant, lorsque cela s’avérait nécessaire, la fragilité
(encore plus marquée qu’ailleurs) de nos propositions.
Notons finalement qu’en parallèle avec ces problèmes épistémologiques et de choix
d’école ou de courant de pensée, d’autres question fondamentales se posent concernant le
choix des données et des méthodes destinées à les traiter. C’est en conséquence vers
l’évocation de cette thématique parallèle que nous allons nous tourner à présent.
2 Données et méthodes
2.1 Différents types de données linguistiques
2.1.1 Données construites et données authentiques
Les études linguistiques ont généralement recours à des données que l’on peut classer
en deux catégories. La première catégorie recouvre les données dites « construites », c'est-à-
dire produites par le chercheur dans le cadre de la validation et / ou de l’invalidation de ses
hypothèses ou de celles d’un autre. Ce type de démarche, qui a longtemps caractérisé la
méthode linguistique repose en définitive sur le concept de « compétence », qui a trouvé l’une
de ses expressions les plus abouties dans le cadre de la théorie chomskyenne (par opposition à
la « performance ») : dans ce cadre, le linguiste, en tant que locuteur de la langue étudiée, est
supposé avoir intégré les critères formels sur lesquels repose le jugement d’acceptabilité qu’il
pourra formuler face à une phrase. L’un des problèmes majeurs de ce type de démarche est lié
au fait que le concept d’acceptabilité n’est pas binaire mais gradient (une phrase peut être
jugée plus acceptable qu’une autre), mais surtout au fait qu’un désaccord peut voir le jour
entre différents juges.
Introduction
9
Une manière de contourner cet écueil consiste à recourir à des données « authentiques »,
terme que nous utiliserons pour caractériser les productions langagières non construites par le
linguiste dans le cadre de son analyse et produites avec un objectif communicatif1.
On pourra dès lors considérer deux positions. La première s’apparente au courant
interactionniste de l’analyse de la conversation et propose l’analyse détaillée d’interactions
généralement enregistrées et retranscrites ; la question de la validité des données est alors
mise en relation avec d’éventuelles corrections du locuteur ainsi que les différentes formes de
validation effectuées par les interlocuteurs dans le déroulement de l’interaction : on parlera
alors de validité communicationnelle ou interactionnelle. La précision des observations
fournies par ce type de méthode se gagne cependant souvent au détriment du volume des
données traitées, ce qui pose le problème du localisme des observations, parfois plus
considérées comme des études de cas que comme de véritables analyses généralisables.
La seconde position consiste à recourir à des masses importantes de données regroupées
en un « corpus » dont la taille peut varier dans de grandes proportions selon le mode
d’expression (oral ou écrit). Dans ce cadre, une solution au problème de la représentativité des
données consiste alors à considérer que la fréquence élevée d’occurrence d’un type de
construction, détachée du comportement d’un nombre limité d’individus, constitue une
mesure objective de son acceptabilité : on parlera alors de validité statistique. La contrepartie
à cette ampleur des volumes traités est souvent liée à une granularité d’analyse moins fine,
négligeant potentiellement les disfluences (volontairement ou involontairement « omises » par
les transcripteurs) et les (in)validations interactives des interlocuteurs et posant le problème de
l’homogénéité des transcriptions lorsque de nombreux transcripteurs sont impliqués par
exemple dans le traitement d’un grand corpus oral.
Remarquons tout de même comme le suggère Culioli 1990 que les données
authentiques (ou pas) récupérées par le linguistique ne constituent que des données brutes que
celui-ci devra nécessairement travailler, voire « faire travailler sur elles-mêmes » (ibid. : p.
18) afin d’en tirer une formalisation satisfaisante. Notons aussi, finalement, qu’il est aussi
important d’avoir conscience du fait que même les données authentiques semblent présenter
des degrés divers de représentativité de ce qu’est supposé être l’expression la plus naturelle du
1 Le choix de ce terme et de son acception provient de nos travaux concernant le projet Aix-MARSEC (cf.
chapitres 7 et 8) au sein du groupe EPGA (« English Prosody Group of Aix ») et notamment des suggestions de
Daniel Hirst.
Introduction
10
langage ; on insiste alors généralement dans ce contexte sur un critère de spontanéité, notion
délicate vers laquelle nous nous tournons maintenant.
2.1.2 La notion de spontanéité
Le concept de spontanéité implique en fait plusieurs dimensions. En effet, la spontanéité
est souvent enfermée dans une opposition binaire entre modes de production primaires de la
parole (lecture oralisée d’un texte écrit / « scripted » vs. production sans support écrit /
« unscripted ») ; comme le souligne à juste titre Di Cristo 2000, des types de production telles
que la lecture non préparée ou la récitation d’un texte appris sans support écrit, constituent
autant de cas qui nous encouragent à abandonner ce type de vision au profit de considérations
plus graduelles relatives à une « échelle de spontanéité » (Di Cristo 2000 : p. 191).
Il s’avère cependant que ce passage de la binarité à la gradience, s’il constitue
certainement une proposition intéressante, reste néanmoins uniquement lié aux aspects de
production. A l’évidence, les aspects perceptifs de la parole (notamment prosodiques cf. Di
Cristo 2000 : p. 193) sont eux aussi fondamentaux dans sa catégorisation, de même que son
intelligibilité, la familiarité entre les interlocuteurs, ou encore le niveau social de ces derniers
(cf. Eskenazi 1993). Tous les facteurs influençant la parole, en définitive, semblent jouer un
rôle dans cette caractérisation multidimensionnelle de la spontanéité qui rejoint la thématique
de la stylistique. Il paraît dès lors difficile de pouvoir définir un degré donné de spontanéité
pour un échantillon de parole sans une connaissance exhaustive de tous ces paramètres,
situation rare dans la pratique…
Incapable d’éclairer ce débat qui dépasse amplement le cadre de cette thèse, nous nous
contenterons donc dans la suite de ce travail de la distinction plus consensuelle que nous
avons proposée entre données construites et données authentiques . Nous utiliserons en fait
ces deux types de données dans la partie expérimentale de nos travaux, réservant les données
authentiques d’Aix-MARSEC à notre analyse des aspects de production, et construisant les
exemples utilisés dans le cadre des tests de perception que nous avons mis en œuvre.
2.2 Méthodes d’analyse
Comme nous l’avons rapidement évoqué plus haut, deux démarches compatibles (voire
même complémentaires) semblent se dessiner dans le cadre de l’analyse de données
authentiques. La méthodologie d’inspiration interactionniste, typique de l’analyse de la
conversation, insiste sur le détail linguistique et en révèle généralement l’importance
Introduction
11
fondamentale. La linguistique de corpus, malgré le fait que cette catégorie regroupe nombre
d’approches différentes, pourra, dès lors qu’elle implique un grand nombre de données, être
considérée comme parfois moins soucieuse des détails contextuels et cotextuels qui
fournissent à chaque occurrence sa spécificité.
Les outils (semi-)automatiques utilisables dans le cadre de l’exploitation des grands
corpus semblent offrir à cette seconde méthodologie une souplesse d’utilisation fort
appréciable : les annotations formelles et les observations peuvent être systématisées et les
hypothèses testées relativement rapidement, ce qui favorise l’alternance entre théorie et
observation qui caractérise la démarche majoritairement hypothético-déductive de la
recherche contemporaine.
Comme nous aurons l’occasion de le souligner plus loin dans cette thèse,
l’automatisation de l’extraction des données linguistiques est cependant fort limitée
concernant les aspects fonctionnels du langage (tels que la reconnaissance des accents et des
frontières pour ne mentionner que des aspects prosodiques).
Etant donnés tous ces points, il semble donc indispensable, si l’objectif est de fournir
une description aussi précise que possible des données linguistiques, de conjuguer l’étude fine
d’inspiration interactionniste et l’analyse plus aisément généralisable de masses importantes
de données ; dans ce cadre, de plus, les aspects formels pourront être le domaine réservé de
l’extraction automatique, laissant au linguiste la charge de la reconnaissance et de l’annotation
des faits plus fonctionnels.
Si nous avons tâché d’appliquer cette méthodologie dans le cadre de nos analyses (cf.
notamment chapitres 7, 8 et 9), force est de constater que l’analyse de détail semble quelque
peu négligée pour l’heure. Nous espérons pouvoir pallier cette lacune dans un futur proche,
armé des résultats de nos premières analyses.
3 Objectifs et plan de la thèse
Ayant commencé à poser quelques unes des conceptions fondamentales qui serviront de
cadre à ce travail, il nous semble à présent opportun de détailler les objectifs et la structure de
cette thèse.
Notre objectif scientifique général consiste à proposer à la fois un travail théorique de
conceptualisation et un ensemble d’éléments expérimentaux en faveur d’une vision
massivement interactive de l’interaction langagière. Dans ce cadre, notamment pour des
Introduction
12
raisons de temps et de place, nous avons choisi de focaliser plus particulièrement notre
attention sur le marquage de la cohésion par l’anaphore et par la prosodie et sur l’interaction
de ces éléments. Malgré cette réduction de notre champ d’investigation, un travail important
de synthèse et d’analyse de concepts et de travaux antérieurs nous semble primordial. En
effet, les concepts fondamentaux d’anaphore, de discours et de prosodie, comme nous l’avons
évoqué plus haut, ne suscitent aucun consensus généralisé et ne vont pas de soi : en
conséquence, la partie plus théorique de cette thèse (chapitres 1 à 6) a pour objectif non
seulement de faire un « état de l’art » partiel de ces thématiques, mais aussi de nous permettre
d’expliciter nos conceptions personnelles. La partie plus expérimentale (chapitres 7 à 9), nous
permettra d’illustrer nos prises de position théoriques en focalisant notre attention sur les
relations unissant anaphore et valeur d’attaque (ou « onset ») des unités intonatives dans le
cadre de l’analyse d’un corpus d’anglais et d’un ensemble de tests de perception en français.
La partie théorique et la partie expérimentale entrent dans une relation d’interdépendance :
l’état de l’art critique que nous proposons permet la formulation plus personnelle de concepts
et d’hypothèses dont un sous-ensemble est testé dans la partie expérimentale, ouvrant ensuite
la voie à une réévaluation théorique. Nous nous situons ainsi totalement dans le cadre d’une
heuristique hypothético-déductive par laquelle nous souhaitons faire dialoguer les
considérations théoriques et les résultats de l’expérimentation qui en découle.
Nous avons souhaité donner avec cette thèse un compte-rendu détaillé et honnête de la
démarche scientifique que nous avons choisi de suivre durant ces années de doctorat. Ce
choix explique le style plutôt narratif employé lors de la partie expérimentale, inhabituel dans
la littérature contemporaine, plus prosaïque ; ce faisant, nous espérons fournir au lecteur un
aperçu de la constitution dynamique de notre recherche, avec non seulement ses réflexions
épistémologiques mais aussi ses moments de doute et d’hésitation. Il va de soi qu’une
publication de ces travaux adopterait un format plus conforme aux normes communément
acceptées.
Dans ce contexte, la structure d’ensemble de cette thèse implique quatre parties
principales. La première partie, « Approches classiques de l’anaphore », comportera deux
chapitres destinés à affiner le contexte historico-conceptuel et la vision classique de la
thématique de l’anaphore. Nous consacrerons ainsi le chapitre 1 à une évocation dynamique
de la thématique plus générale de la référence en linguistique, et soulignerons la place de
l’anaphore dans ce cadre. Ce contexte nous permettra de mieux situer l’approche
Introduction
13
antécédentiste de l’anaphore détaillée dans le chapitre 2, que nous clorons sur une évocation
des problèmes majeurs posés par cette approche.
La seconde partie, intitulée « Discours et anaphore », s’ouvrira (chapitre 3) sur une
présentation dynamique du concept de discours, résultat d’une évolution conceptuelle depuis
l’unité phrase et via le concept de texte. Nous soulignerons aussi la multidimensionnalité
inhérente au concept de discours avant de nous interroger sur la pertinence de sa conception
en tant qu’unité linguistique. Nous proposerons finalement notre propre définition de ce
concept, destinée à être reprise et affinée par la suite. Le second chapitre de cette partie
(chapitre 4), constituera la réponse discursive aux problèmes de la description traditionnelle
de l’anaphore présentée chapitre 2. Nous proposerons notamment un double changement de
perspective par lequel l’anaphore ne serait plus une unité problématique « en creux » et à
résoudre, mais plutôt un procédé de gestion du discours uni à ce dernier dans une relation de
dépendance mutuelle.
La troisième partie, « Approches de la prosodie », constituera la dernière partie
d’orientation majoritairement théorique de ce travail de thèse. Elle aussi organisée en deux
chapitres, elle s’attachera dans un premier temps (chapitre 5) à la description de l’intégration
relativement récente de la prosodie au sein de la linguistique, avant de traiter de manière plus
spécifique de son organisation en tant que macro-système multi-paramétrique et de la
thématique de sa représentation. Le chapitre 6 traitera quant à lui du rôle plus spécifique de la
prosodie dans le discours, notamment en relation avec le phénomène d’accentuation des
pronoms personnels anaphoriques et avec le marquage de la structure discursive par des
faisceaux complexes de paramètres.
La quatrième et dernière partie de cette thèse, « Approche expérimentale des relations
prosodie-anaphore », mettra en commun nombre d’observations effectuées dans les parties
précédentes et proposera une illustration empirique sous la forme d’une analyse des
interactions entre prosodie et anaphore dans le marquage de la (dis)continuité discursive. Plus
précisément, le chapitre 7 présentera les origines d’Aix-MARSEC ainsi que les traitements
effectués dans le cadre de la phonétisation et de l’alignement de ce corpus d’anglais
britannique. Le chapitre 8 détaillera ensuite les analyses que nous avons menées à partir de ce
corpus, notamment concernant les interactions entre onset et anaphore pronominale
inaccentuée. Le chapitre 9, finalement, terminera cette partie expérimentale par une analyse
perceptive des phénomènes mis en évidence dans le chapitre précédent et, tout en confirmant
certaines des hypothèses proposées, posera les jalons d’études futures.
15
Partie 1 :
Approches classiques de l’anaphore
Partie 1 – Approches classiques de l’anaphore
16
L’anaphore, nous l’avons mentionné en introduction, représente certainement l’un des
chantiers favoris de la linguistique au sens large. En effet, les études abondent non seulement
dans les domaines propres ou assimilables à la linguistique (morpho-syntaxe, sémantique,
pragmatique), mais aussi dans de nombreux domaines connexes (philosophie du langage,
logique, psycho-linguistique, traitement automatique des langues, …).
L’objectif de cette première partie sera de replacer le concept d’anaphore au sein de
quelques domaines et approches théoriques qui s’y sont intéressés. Notre démarche n’a
aucune ambition à l’exhaustivité (comment pourrait-il en être autrement en ce domaine
foisonnant) mais trouve sa motivation dans la volonté d’identifier le concept de manière à la
fois plus précise et progressive.
Nous recadrerons ainsi tout d’abord (chapitre 1) le concept d’anaphore au sein de la
thématique générale de la référence ; nous adopterons dans ce cadre une démarche historico-
conceptuelle qui, tout en faisant d’inévitables impasses, a pour objectif de donner un aperçu
de la dynamique de la thématique de la référence, et par là même, peut être de la linguistique
dans son ensemble.
Le second chapitre de cette partie sera ensuite pour nous l’occasion de recentrer notre
analyse sur les problématiques plus spécifiques qui englobent l’anaphore ou l’opposent à
d’autres concepts au sein d’approches dont l’orientation est plus strictement linguistique.
Nous aborderons dans ce cadre le phénomène anaphorique du point de vue de sa conception
antécédentiste traditionnelle et par rapport au concept de deixis au sein de la classe des
indexicaux.
17
Chapitre 1
Anaphore et référence
18
Chapitre 1 : Sommaire
1 Langage et fonction référentielle ................................................................. 19 2 Différentes conceptions de la référence....................................................... 20 2.1 L’école Terministe et la référence ................................................................................. 21 2.2 Sens, dénotation et représentation chez Frege ............................................................. 24
2.2.1 Sens et dénotation .................................................................................................. 24 2.2.2 Représentation........................................................................................................ 25 2.2.3 Le sens : un concept discuté................................................................................... 25 2.2.4 Frege et l’héritage des Terministes ........................................................................ 26
2.3 Le positivisme logique et le tournant pragmatique...................................................... 26 2.3.1 Concepts fondamentaux du positivisme logique ................................................... 26 2.3.2 Le tournant pragmatique ........................................................................................ 27 2.3.3 Synthèse ................................................................................................................. 35
2.4 L’approche cognitiviste .................................................................................................. 36 2.4.1 Le « premier » Wittgenstein et la théorie de l’image............................................. 36 2.4.2 Le concept de « modèle mental »........................................................................... 37 2.4.3 Entités cognitives et entités du « monde réel »...................................................... 38 2.4.4 Synthèse ................................................................................................................. 39
3 Le cas de l’anaphore au sein de la thématique de la référence................. 40 4 Synthèse générale .......................................................................................... 42
Chapitre 1 : Anaphore et référence
19
Dans le présent chapitre, il nous semble opportun, à la fois historiquement et
conceptuellement, de consacrer la première partie de la mise en perspective que nous
proposons à quelques éclairages concernant la place de l’anaphore au sein de la problématique
générale de la référence. Dans cette optique, nous aborderons quelques unes des principales
approches appartenant aux domaines de la logique et de la philosophie du langage et tenterons
de les mettre en relation avec certaines approches sémiologiques et linguistiques au sens
large.
Ce chapitre est organisé en trois principales sections suivies d’une synthèse. La
première section a pour objectif de situer de manière schématique la thématique de la
référence au sein de la réflexion linguistique au sens large ; montrant notamment l’importance
attribuée à la référence dans les théories générales du langage que nous évoquerons.
La seconde section constitue le cœur du chapitre : nous nous proposons de donner un
aperçu chronologique de quelques conceptions liées à la thématique de la référence dans
l’objectif de montrer l’évolution subtile du concept, par ajouts, modifications, rejets et
redécouvertes successifs, depuis les philosophes et grammairiens du Moyen Age jusqu’aux
approches cognitivistes récentes.
La troisième section, finalement, constitue en définitive la justification de l’existence
même de ce chapitre ; nous y expliciterons le lien, trivial selon certains, qui unit la thématique
de l’anaphore à celle de la référence, posant par là même les fondations sur lesquelles le reste
de ce travail reposera.
1 Langage et fonction référentielle
La thématique de la référence occupe une position privilégiée au sein de la réflexion
linguistique au sens large (cf. Charolles 2002 : p. 1). En effet, longtemps considérée comme la
fonction fondamentale (voire parfois l’unique fonction) du langage, la fonction référentielle,
semble représenter un élément consensuel inévitable. On la retrouve, pour ne citer que
quelques exemples :
• dans l’opposition entre les fonctions représentative et expressive chez Bühler 1934 ;
• parmi les fonctions référentielle, émotive, poétique, phatique, métalinguistique et
conative de Jakobson 1960 ;
Chapitre 1 : Anaphore et référence
20
• et dans les dichotomies idéationnel / interpersonnel chez Halliday 1970 et
transactionnel / interactionnel chez Brown & Yule 1983.
On pourrait considérer avec certains des auteurs cités ci-dessus que deux pôles
fonctionnels majeurs semblent coexister dans le cadre de la dimension communicative du
langage2. On aurait ainsi d’une part une fonction langagière centrée sur le transfert
d’informations sur le monde entre les individus impliqués dans la communication (fonctions
« représentative », « référentielle », « idéationnelle » ou encore « transactionnelle » pour les
auteurs cités ci-dessus), et d’autre part un pôle fonctionnel organisé autour de la relation
communicative elle-même et de l’expression des états psychiques des individus qui y
participent (fonctions « expressive », « émotive », « phatique », « conative »,
« interpersonnelle » ou « interactionnelle »)3.
La place accordée à l’étude de cette fonction référentielle du langage, cependant, varie
entre deux extrêmes bien représentés par le débat opposant, dès le milieu du XX siècle,
le positivisme logique et la pragmatique de John Austin4. Ainsi, même si la pragmatique
bénéficie aujourd’hui d’un statut de poids au sein des sciences du langage (cf. Verschueren
1999 pour une « revue des troupes »), nombreux sont ceux qui prônent une vision plus stricte
de la linguistique, organisée autour de la fonction référentielle du langage (cf. la « fonction
désignative » de Milner 1982, 1989).
2 Différentes conceptions de la référence
Il est bien évident que la problématique de la référence a toujours été (et reste) centrale
en philosophie en général et en philosophie du langage en particulier ; il n’est pas étonnant,
alors, qu’on la retrouve aussi abondamment traitée en linguistique (notamment en sémantique
et en pragmatique).
Nous accepterons comme point de départ de notre analyse la conception selon laquelle
la référence est cette propriété par laquelle certaines unités linguistiques désignent certains
2 On remarquera que des oppositions ternaires existent aussi (cf. Halliday 1973 ou Vion 1992), mais peuvent
parfois être hiérarchisées ou réduites ; c’est le cas pour la fonction « textuelle » de Halliday 1973, considérée
comme moins « fondamentale » (cf. Apothéloz 1995 : p. 136).
3 On se réfèrera utilement à Lyons 1977/1978b pour un aperçu de la terminologie relative à ces approches.
4 On pensera notamment aux William James Lectures (cf. Austin, 1962/1970).
Chapitre 1 : Anaphore et référence
21
objets du monde. C’est cette conception que l’on retrouve de manière sous-jacente par
exemple dans l’affirmation de John Searle :
« La question fondamentale de la philosophie du langage a toujours été de comprendre comment le
langage entre en relation avec le réel » (Searle 1985 : p. 236)
De manière plus explicite, on pourra s’appuyer sur la proposition de définition de
Lyons :
« The relationship which holds between words and things is the relationship of reference: words
refer to things. » (Lyons 1968 : p. 404)
Notre objectif n’est pas de retracer ici l’historique exhaustif du concept depuis les
travaux platoniciens jusqu’à la « théorie des mondes possibles » de Kripke 1982 en passant
par Aristote, Locke, Kant et tant d’autres qui s’y sont intéressés… Nous pensons cependant
qu’il peut être opportun de faire une analyse de certaines des approches qui permettent selon
nous de mieux comprendre l’importance et les difficultés de la thématique de la référence en
relation avec l’anaphore en linguistique contemporaine.
Une distinction opérée dans nombre d’études linguistiques de la référence consiste à
opposer le concept de référence à ceux de dénotation, de signification, de sens, etc. Dans
l’espoir d’éclaircir ces oppositions, nous proposons de faire référence aux travaux médiévaux
des Terministes avant d’analyser les propositions de Frege afin de préciser les conceptions sur
lesquelles se sont fondés les travaux ultérieurs en philosophie du langage, en logique et en
linguistique. Nous mentionnerons notamment les travaux de l’école du positivisme logique
(fondée sur certains des concepts de Frege et du premier Wittgenstein) avant de décrire le
tournant pragmatique de la « philosophie du langage ordinaire » (le second Wittgenstein,
Grice, Austin, Searle, …).
2.1 L’école Terministe et la référence
Les Terministes (Guillaume de Sherwood, Pierre d’Espagne, Albert de Saxe, Guillaume
d’Ockham, …) s’intéressent dès le XIIème siècle aux rapports qui unissent le langage au
monde. Plus particulièrement, et c’est ce qui leur a valu leur appellation, leur réflexion se
focalise sur l’inventaire des propriétés des termes (cf. Böhner 1952 pour une analyse
détaillée).
Dans les années 1240, Guillaume de Sherwood dénombre ainsi quatre propriétés (la
signification, la supposition, la copulation et l’appellation) dans ses « Introductiones in
Logicam » :
Chapitre 1 : Anaphore et référence
22
« Quattuor sunt proprietates termini quas ad presens intendimus diversificare ... Et sunt hes
proprietates significatio, suppositio, copulatio et appellatio » (Guillaume de Sherwood 1937 : pp.
74-75)
Comme le montre par exemple les travaux de Pierre d’Espagne et de Lambert d’Auxerre
(qui dénombrent eux cinq propriétés), l’opposition entre la signification et la supposition
devient rapidement fondamentale ; il est pour les auteurs de première importance d’analyser la
signification d’un terme en tant que propriété sur laquelle sont fondées les autres propriétés et
de montrer en quoi elle se différencie de la supposition :
« Multa autem sunt proprietates termini, scilicet: suppositio, appellatio, restrictio, distributio [ed.:
distinctio] et relatio ... sed quia significatio est sicut perfectio termini et proprietates termini supra
significationem fundantur, ideo in principio ad evidentiam sequentium videndum est quid sit
termini significatio et in quo differt a suppositione » (Lambert d’Auxerre 1971 : p. 205)
Avant de nous intéresser à une définition possible du concept de signification, il est
important de noter qu’elle est perçue comme première à deux titres :
• D’une part, « il y a signification dans chaque mot ou partie du discours alors qu’il n’y
a supposition que dans un nom, un pronom ou un mot substantif » (Guillaume de
Sherwood 1966 : chapitre V ; notre traduction de l’anglais). La signification est donc
une propriété commune à tous les termes, statut consensuel qu’elle est la seule à
posséder.
• D’autre part, elle ne dépend pas, contrairement aux autres propriétés, de sa production
effective. La signification est donc « antérieure » aux autres propriétés, et notamment
à la supposition : « Differt autem significatio a suppositione in hoc, quod prior est
significatio quam suppositio" (Lambert d’Auxerre, Logica Lamberti : p. 206).
De manière schématique, on pourra considérer que la signification est un rapport
unissant les mots aux représentations intellectuelles, aux concepts, qui leur correspondent : le
mot « chaud », par exemple, est ainsi relié par signification au concept de chaleur.
Les Terministes ont été les héritiers d’un débat déjà vif sous Aristote à propos de la
nature exacte du « significatum », objet de la signification. Deux conceptions se sont ainsi
opposées :
• Les partisans d’une approche aristotélicienne stricte considéraient que les termes
signifiaient uniquement des concepts mentaux (Boèce parlera de « passiones animae »
ou « affections de l’âme »).
Chapitre 1 : Anaphore et référence
23
• D’autres (comme Lambert d’Auxerre), a contrario, dans la lignée des enseignements
de Saint Augustin, proposent une signification indirecte ; ce sont en définitive, pour
les tenants de cette théorie, les choses en tant que classe qui sont signifiées, mais elles
le sont par l’intermédiaire de concepts qui sont des signes des choses.
La supposition, quant à elle, constitue un rapport entre le mot et l’objet particulier du
monde extérieur qu’il sert à désigner. C’est donc ce concept qui serait à rapprocher de la
définition de la référence proposée plus haut.
Plusieurs sous catégories de supposition sont distinguées par les Terministes :
• La « supposition matérielle », lorsque le terme suppose sa propre énonciation (comme
dans « homme est un monosyllabe ») ou bien lorsqu’il suppose sa matérialité en tant
que terme (comme dans « homme est un nom »).
• La « supposition formelle » qui peut être « simple » (le terme suppose la classe qu’il
signifie comme dans « l’homme est une espèce ») ou bien « personnelle » (le terme
suppose un individu subordonné à la classe qu’il signifie comme dans « l’homme
court dans le champs »).
On retiendra de ce rapide parcours de quelques unes des propositions terministes
l’opposition première entre signification (d’un concept ou d’une classe d’objets du monde) et
supposition (d’un objet particulier du monde5). La question de Searle concernant les rapports
entre le langage et le réel semble donc pouvoir s’envisager dans la double perspective d’une
approche mentaliste et matérialiste par laquelle les termes réfèrent aux objets du monde dans
un processus doublement emboîté : les termes réfèrent par leur supposition, fondée sur la
classe de choses signifiée par l’intermédiaire d’un concept.
Cette vision a fortement inspiré nombre de travaux en philosophie contemporaine, mais
aussi en linguistique (on pensera par exemple au schème d’individuation proposé par Culioli
et que nous détaillerons plus loin). Mais c’est sans doute de manière indirecte, par
l’intermédiaire de Peirce et surtout de Frege, que les Terministes ont eu le plus d’influence.
Nous allons donc à présent aborder les propositions de Frege qui ont constitué une véritable
charnière dans la réflexion sur la thématique de la référence.
5 On notera au passage la reprise de l’opposition classique entre usage et mention (cf. Récanati 1979 pour une
synthèse).
Chapitre 1 : Anaphore et référence
24
2.2 Sens, dénotation et représentation chez Frege
C’est à Gotlob Frege (1892a/1971a et 1892b/1971b) que l’on doit l’opposition, devenue
classique en philosophie du langage, entre sens, dénotation et représentation. Nous allons tout
d’abord nous intéresser à la dichotomie sens vs. dénotation avant de préciser le concept de
représentation avancé par l’auteur.
2.2.1 Sens et dénotation
Frege propose qu’à ce qu’il appelle les « noms propres »6 (expressions linguistiques
utilisées pour désigner un seul objet) soient associés un sens (« Sinn ») et une dénotation
(« Bedeutung ») :
• La dénotation7 d’une telle unité (par exemple « Paris » ou « la femme la plus grande
de la région ») correspond à l’objet du monde désigné (la ville de Paris et l’individu
dont il est question) ;
• Le sens d’une telle unité est « le mode selon lequel l’objet est donné » (Frege 1971a :
p. 105). Par ce concept Frege désigne le « contenu cognitif associé au nom, en vertu
duquel il a telle dénotation » (Marconi 1997 : p. 22) ou encore la manière selon
laquelle un objet peut être déterminé.
A titre d’exemple, on pourra ainsi considérer que, énoncées en janvier 2004, les
expressions « le président de la République Française » et « Jacques Chirac » ont toutes deux
même dénotation (l’individu nommé Jacques Chirac et qui occupe le palais de l’Elysée) mais
présentent des sens différents, le « parcours » menant à l’objet désigné n’étant pas identique.
L’opposition sens – dénotation a été rendue célèbre notamment par l’exemple que nous
adaptons ci-dessous :
Ex (5) a. L’étoile du matin est identique à l’étoile du soir.
b. L’étoile du matin est identique à l’étoile du matin.
L’argument de Frege consiste à dire que ces deux propositions impliquent des
expressions (« l’étoile du matin » et « l’étoile du soir ») qui ont une dénotation identique (la 6 On dira aujourd’hui plutôt « termes singuliers », cf. Marconi 1997 : p. 22.
7 Le terme, qui se traduit littéralement par « signification », a été proposé par Alonzo Church en 1956 afin
d’éviter une identification stricte avec le concept terministe évoqué plus haut.
Chapitre 1 : Anaphore et référence
25
planète Vénus) mais des sens différents. L’énoncé 1a est donc informatif alors que l’énoncé
1b est tautologique.
2.2.2 Représentation
Le concept de représentation est lié à la notion d’entité mentale évoquée par une
expression :
« une image interne qui s’est constituée sur la base des souvenirs des impressions sensibles que
j’ai éprouvées et d’activités, internes et externes, que j’ai effectuées » (Frege 1971b : p. 105)
A la différence du sens, la représentation est subjective, comme le montre la métaphore
de l’observation astronomique de la Lune proposée par Frege et reportée dans Marconi
1997 (p. 24) : lors d’une observation de la Lune à l’aide d’une lunette astronomique, la Lune
elle-même correspond à la dénotation, l’image rétinienne, qui est différente selon les
observateurs, correspond à la représentation et l’image sur la lentille de la lunette correspond
au sens (et est « objective » bien que « partiale » cf. Frege 1971a : p. 106).
2.2.3 Le sens : un concept discuté
La place du sens au sein de cet édifice, cependant, a toujours été fragile (cf. Marconi
1997 : chapitre 5) et Frege s’est fait fort de justifier ce concept et de maintenir son statut
objectif. C’est ce que montre la métaphore de l’observation astronomique de la Lune déjà
évoquée ci-dessus :
« [L’image sur la lentille] est nécessairement partiale parce qu’elle dépend du point de vue
d’observation, et pourtant elle est objective, parce qu’elle peut servir à plusieurs observateurs. »
(Frege 1971a : p. 106)
De manière similaire, c’est aussi cette affirmation du statut objectif du sens que l’on
retrouve, appliqué au niveau de la proposition sous le terme de « pensées », dans l’essai « Der
Gedanke. Eine logische Untersuchung » que propose Frege en 1918 :
« Un troisième règne sera reconnu, au-delà du règne des choses et de celui des représentations :
c’est le règne des pensées qui — comme les choses — ne sont pas de quelqu’un, et d’autre part ne
sont pas perceptibles par les sens […]. » (Frege 1971c : p. 184)
Malgré ces efforts, le concept de sens a été l’objet d’attaques notamment de la part de
Bertrand Russell. En effet, dans « On Denoting » (1905/1989), Russel postule que seule la
dénotation importe dans la détermination des valeurs de vérité d’une proposition et propose
une analyse qui n’inclurait pas le concept fregéen de sens.
Chapitre 1 : Anaphore et référence
26
2.2.4 Frege et l’héritage des Terministes
Tracer un parallèle entre les propositions de Frege et celles des Terministes concernant
la thématique de la référence n’est pas aisé. En effet, s’il est relativement simple de voir dans
le concept de dénotation une résurgence de celui de supposition (notamment dans le cas de la
« supposition personnelle »), l’affaire se complique sérieusement en ce qui concerne un
rapprochement des concepts de sens et de signification. Cependant, si l’on prend en
considération la primauté du sens sur la dénotation et son caractère conceptuel objectif, on
remarquera que le sens selon Frege semble être assimilable à la conception aristotélicienne de
la signification (soutenue par Boèce dans son second commentaire sur le Perihermeneias
d’Aristote par exemple).
Le concept de représentation, finalement, constitue un apport original de Frege en ce
qu’il donne une dimension subjective et cognitive à la thématique de la référence. La
thématique dépasse avec Frege le cadre de la logique et de la sémantique pour aborder (de
manière séminale certes) une dimension que l’on qualifierait aujourd’hui de pragmatique.
2.3 Le positivisme logique et le tournant pragmatique
Il pourrait sembler étonnant de regrouper dans un même chapitre les deux courants
philosophiques évoqués par les termes de « positivisme logique » et de « pragmatique ». En
effet, nous allons le détailler, ces deux approches des relations du langage avec le réel ont été
fortement antagonistes : le tournant pragmatique (notamment avec les travaux de Grice,
d’Austin et de Searle) est apparu en réaction aux dogmes vérificationnistes du positivisme
logique. Plus que d’un tournant, c’est sans doute une rupture qu’il faudrait évoquer tant le
positivisme logique a cristallisé les concepts dont la pragmatique austinienne a voulu se
départir.
Notre présentation du positivisme logique sera nécessairement partielle, mais néanmoins
importante dans la mesure où elle symbolisera en quelque sorte non seulement
l’aboutissement de l’approche aristotélicienne, Terministe puis fregéenne de la référence mais
aussi le terreau à partir duquel une conception pragmatique a pu se développer.
2.3.1 Concepts fondamentaux du positivisme logique
Héritier partiel de l’empirisme de Hume, des travaux de Leibniz, de Frege, de Russel, du
Tractatus logico-philosophicus de Wittgenstein (1922), le positivisme logique trouve ses
origines dans le travail collaboratif de chercheurs de différents horizons (philosophes certes,
Chapitre 1 : Anaphore et référence
27
mais aussi physiciens, mathématiciens, etc.) qui se réunirent principalement à Vienne et à
Berlin de 1923 à la fin des années 1930. Parmi les noms les plus marquants, on citera Motitz
Schlick, Otto Neurath, Philip Franck, Rudolph Carnap et tant d’autres.
Les motivations premières du groupe sont progressistes et opposées aux autorités des
institutions académiques de l’époque8, notamment dans le cadre du maintient de la distinction
traditionnelle entre « sciences de l'esprit » (« Geisteswissenschaften ») et « sciences de la
nature » (« Naturwissenschaften ») au bénéfice des premières. Les partisans du « Cercle de
Vienne » prônaient au contraire la construction, sur une base logique, d'un « idiome formel »
à vocation universelle et qui pourrait constituer le fondement de l'unité de la science.
L’un des objectifs, dans ce contexte était la scientifisation de la philosophie, et
notamment l’introduction du « principe de vérification » attribué de manière abusive à
Wittgenstein 1922 par Waismann et par Schlick 1936 et qui fonctionne comme critère de
signification :
« Établir la signification d’un énoncé équivaut à établir les règles selon lesquelles l’énoncé est
utilisé, ce qui, à son tour, revient à établir la manière dont il peut être vérifié (ou falsifié). La
signification d’un énoncé est la méthode de sa vérification » (Schlick 1936 : p. 358)
C’est cet ancrage empiriste que l’on retrouve aussi chez Carnap lorsqu’il affirme :
« Chaque énoncé de la science est, en dernière analyse, un énoncé sur les relations qui subsistent
entre les expériences élémentaires [Elementarerlebnisse], de sorte que toute connaissance qui a un
contenu (qui ne soit pas purement formel) se reconduit à l’expérience » (Carnap 1928 : § 183, cité
dans Marconi 1997 : p. 45).
La proposition 4.024 du Tractatus (« Comprendre une proposition, c’est savoir ce qu’il
advient si elle est vraie » cf. Wittgenstein 1922) est interprétée par les positivistes logiques
comme si l’on affirmait qu’un énoncé est compris si l’on est en mesure d’en déterminer la
vérité ou la fausseté par rapport à l’expérience, c’est-à-dire de le vérifier par l’expérience : «
vérification signifie : contrôle par rapport aux expériences » (Carnap 1928 : § 179, cité dans
Marconi 1997 : p. 45).
2.3.2 Le tournant pragmatique
C’est avec les travaux du « second » Wittgenstein et de John Austin que s’amorce le
tournant pragmatique qui révolutionnera la thématique de la référence. En effet, avec l’objectif
de rejeter tout discours métaphysique, les positivistes logiques affirment comme nous l’avons 8 Le « cercle » se réunissait le jeudi dans un café de Vienne.
Chapitre 1 : Anaphore et référence
28
vu qu’une proposition donnée n’a de sens que dans la mesure où elle est vérifiable
expérimentalement (cf. Ayer 1936).
Le « second » Wittgenstein
Wittgenstein, dans ses Philosophical Investigations (1958), attaque un à un les
fondements de ses propositions du Tractatus, source première du positivisme logique :
• Wittgenstein s’était appuyé sur la thèse fregéenne de la dénotation, proposant que les
noms dénotent des objets et que c’est grâce au rapport de dénotation entre noms et
objets, et à l’identité de structure entre proposition et état de choses du monde que les
propositions élémentaires peuvent représenter un état de chose. Dans les Investigations,
l’auteur propose que la signification des expressions d’un langage ne puisse pas être
assise, contrairement à ce qu’il avait avancé, sur les définitions ostensives (du type
« Ceci s’appelle ‘N’ » avec un geste pointant un objet) ; en effet, nous dit Wittgenstein,
la définition ostensive est « interprétée à partir de la fonction que l’on sait qu’elle doit
avoir » (Marconi 1997 : p. 67) :
« Ainsi la définition ostensive « Ceci s’appelle ‘sépia’ » aidera à comprendre le mot si je sais déjà
que l’on veut me définir le nom d’une couleur […]. Pour être en mesure de demander le nom
d’une chose, on doit déjà savoir (ou savoir faire) quelque chose. » (Wittgenstein 1958 : § 30, cité
dans Marconi 1997 : pp. 68-69)
• De manière corollaire (cf. Marconi 1997 : p. 67), la conception selon laquelle les unités
linguistiques « vraies », profondes (les véritables « mots »), sont toutes des noms
propres, c'est-à-dire des expressions qui désignent des objets particuliers, est elle aussi
remise en cause dans les Investigations. En effet, l’assimilation de tous les mots à des
noms et la réduction des fonctions sémantiques à la dénotation est pour Witttgenstein à
l’origine de nombre d’erreurs philosophiques, notamment dans le cadre des mots
« psychologiques » (comme « penser ») qui ne fonctionnent pas comme des noms de
procès ou d’états (Wittgenstein 1958 : §§ 138-184).
• Le concept de proposition élémentaire, lui aussi, hérité des travaux de Russell (cf.
Russell 1905) et fondement de la théorie des « propositions atomiques » et des
« propositions moléculaires » chère aux positivistes logiques, est attaqué par le second
Wittgenstein qui lui reproche de faire abstraction de la variété du langage :
« Combien de types de proposition y a-t-il ? Par exemple : assertion, question et ordre ? — Il en
existe d’innombrables […]. Il est intéressant de confronter la multiplicité des instruments du
Chapitre 1 : Anaphore et référence
29
langage et de leurs modes d’utilisation, la multiplicité des types de mots et de propositions , avec
ce qu’on dit les logiciens (y compris l’auteur du Tractatus logico-philosophicus) de la structure du
langage » (Wittgenstein 1958 : § 23, cité dans Marconi 1997 : pp. 68-69))
Comme le précise Marconi :
« La théorie des propositions élémentaires faisait partie d’une philosophie du langage qui
privilégiait de manière exclusive sa fonction descriptive. Dans les Recherches, elle devient une
fonction parmi d’autres : donner des ordres, faire des conjectures à propos d’un événement,
inventer une histoire, faire un mot d’esprit, traduire, remercier, saluer, etc. » (Marconi 1997 : p.
69)
Dans cette optique, le rôle de la philosophie doit être de définir la « grammaire », la
« table de règles » (Wittgenstein 1929-1932 : 164) concernant l’utilisation des expressions
linguistiques dans le cadre des « jeux de langage ». On retiendra notamment la formule restée
célèbre :
« Pour une grande classe de cas — même si ce n’est pas pour tous les cas — dans lesquels nous
nous en servons, le mot ‘signification’ se peut définir ainsi : la signification d’un mot, c’est son
utilisation dans le langage. » (Wittgenstein 1958 : § 43)
Austin : Théorie des performatifs et théorie originelle des actes de langage
L’apport d’Austin est principalement motivé par la volonté de réfuter ce qu’il appelle
l’« illusion descriptive », attaché selon lui à la vision vérificationniste du langage proposée
par le positivisme logique. De manière similaire au Wittgenstein des Investigations, Austin
entend dénoncer la restriction de la philosophie à la seule fonction descriptive (référentielle)
du langage.
Dans son essai « Other Minds » (1946), Austin s’interroge sur la possibilité de se
tromper lorsque l’on affirme des énoncés du type « J’ai faim » ou « Je vois quelque chose de
vert ». Cette thématique de l’autorité de la première personne entraîne ensuite l’auteur vers
l’analyse d’énoncés non descriptifs tels que « Je te promets X ». Les bases étaient posées pour
la théorie des performatifs.
Chapitre 1 : Anaphore et référence
30
Aux énoncés « constatifs » (descriptifs), Austin oppose les énoncés « performatifs ».
Les performatifs présentent la particularité d’effectuer des actions qui ont, lorsqu’elles sont
couronnées de succès, des conséquences notoires9 sur le monde extralinguistique.
Ainsi, lorsqu’un individu X prononce l’énoncé (1), il ou elle a bien présenté ses
excuses, et ce du fait même de l’énonciation de (6).
Ex (6) I apologise.
Les énoncés performatifs ne sont pas descriptibles de manière acceptable grâce à des
critères vériconditionnels : on préfère parler de « bonheur » (felicity) ou de « malheur »
(infelicity) des performatifs, selon qu’ils parviennent ou pas à réaliser les actions auxquelles
ils sont liés. Le bonheur d’un performatif dépend de « conditions de félicité » que l’on pourra
classer avec Levinson 1983 en trois catégories principales :
A. (i) There must be a conventional procedure having a conventional effect
(ii) The circumstances and persons must be appropriate, as specified in the procedure
B. The procedure must be executed (i) correctly and (ii) completely
C. Often, (i) the person must have the requisite thoughts, feelings and intentions, as specified in
the procedure, and (ii) if consequent conduct is specified, then the relevant parties must so do
(Levinson 1983 : p. 229)
Ainsi, l’énoncé (7) peut ne pas être effectif (on dira qu’il est « nul », et non pas faux),
par exemple s’il n’est pas prononcé par un juge investi du pouvoir de prononcer une sentence.
Ex (7) I hereby sentence you to ten years of hard labour.
Austin tentera de caractériser les performatifs en s’appuyant sur des critères formels
(forme syntaxique, lexèmes employés, …) mais sans jamais parvenir à fournir des critères
fiables et systématiques10.
9 Pour certaines théories, toute énonciation (pas nécessairement performative) modifie le contexte dans lequel
elle est intervenue (cf. Théorie de l’ensemble-contexte de Stalnaker et Jacques, ou Théorie de la Pertinence de
Sperber et Wilson).
10 On pourra citer l’utilisation de la première personne du singulier du présent de l’indicatif (« Je déclare la
séance ouverte »), mais on notera que l’on peut observer des performatifs à d’autres personnes (« Les spectateurs
sont priés de sortir par la porte du fond ») et à d’autres modes (« Interdit de fumer »). On remarquera aussi la
possibilité d’utilisation non performative de verbes habituellement performatifs (« Je promets souvent sans
Chapitre 1 : Anaphore et référence
31
Cette réflexion a suscité plusieurs tentatives de définition des actes accomplis par
l’usage du langage. Austin commence tout d’abord par donner un ensemble de trois actes que
l’on accomplit nécessairement lors d’une énonciation :
• l’acte « phonétique » (« phonetic act »), qui coïncide avec la prononciation de certains
sons,
• l’acte « phatique » (« phatic act »), par lequel on produit des éléments appartenant à
une langue donnée,
• l’acte « rhétique » (« rhetic act »), grâce auquel la phrase sur laquelle l’énoncé est
modelé a une signification plus ou moins précise, et l’attribution référentielle est
rendue possible.
Ces échecs, comme l’explique Récanati (1981 : pp. 81-87), vont pousser Austin à
abandonner la simple opposition performatif – constatif au profit d’une théorie plus générale
du langage selon laquelle tout acte d’énonciation présente un aspect performatif qualifié
d’acte « illocutionnaire ».
Austin opte ainsi pour une nouvelle distinction entre trois actes fondamentaux :
• l’acte « locutionnaire »11 (« locutionary act ») qui correspond au fait de dire quelque
chose,
• l’acte « illocutionnaire » (« illocutionary act »), qui est effectué en disant quelque
chose (promettre, par exemple),
• l’acte « perlocutionnaire » (« perlocutionary act »), accompli par le fait de dire
quelque chose et lié aux effets perlocutionnaires qu’il génère (convaincre, par
exemple).
Appliquons, à titre d’exemple, cette classification à l’énoncé (8) ci-dessous :
Ex (8) I promise to come tomorrow.
vraiment vouloir m’engager »), ainsi que la possibilité de réalisation d’un acte performatif sans verbe performatif
(« Arise, Sir Daniel ! », prononcé par le souverain).
11 On notera que les éléments de la classification précédente, les actes phonétique, phatique et rhétique, forment
un sous-ensemble de l’acte locutionnaire.
Chapitre 1 : Anaphore et référence
32
L’acte locutionnaire lié à cet énoncé est réalisé par sa prononciation, son énonciation ;
l’acte illocutionnaire effectué par l’individu X qui prononce (8) est une promesse ; finalement,
les actes perlocutionnaires que cet énoncé peut réaliser sont en nombre quasi-illimité :
rassurer l’interlocuteur Y qui avait peur de se retrouver seul pour la soutenance de sa thèse de
linguistique, persuader le même interlocuteur Y de ne pas venir (celui-ci détestant X) à une
fête prévue le lendemain, etc.
La théorie gricéenne de la signification
Lui aussi enseignant à Oxford, H.P. Grice, est principalement connu pour sa théorie des
« implicatures conversationnelles » (cf. Grice 1975 pour la première publication partielle).
Dans le cadre de notre analyse transversale du concept de référence, nous n’allons cependant
pas traiter de cette théorie, mais plutôt de la théorie de la signification proposée par le même
auteur, quelques années avant ses fameuses William James Lectures, dans une série d’articles.
En effet, dans ses articles sur la signification (1957, 1968 & 1969), Grice propose la
réduction du concept de signification à celui d’intention (ce qui constitue par là même une
réduction de la sémantique à la psychologie cognitive). Ainsi, le fait qu’un locuteur signifie
quelque chose à l’aide d’une expression linguistique est réinterprété comme le fait que ce
locuteur ait l’intention que son énonciation produise un certain effet sur l’interlocuteur sur la
base de la reconnaissance de cette intention.
Se fondant sur cette proposition, Grice distingue deux manières de signifier :
• Signifier « non naturellement » (ou « signifier-nn »), c'est-à-dire par le biais de la
reconnaissance d’intentions communicatives (notamment dans le cadre de la
communication par le langage) ;
• Signifier « naturellement », c'est-à-dire sans intention de communiquer (ce sera le cas
par exemple lorsque l’on dira « Ces nuages noirs signifient qu’il va pleuvoir
bientôt »).
On retrouve là la distinction classique entre signal (intentionnel) et indice (non
intentionnel) chère aux sémioticiens et que nous détaillerons plus loin.
Par le biais de cette proposition, c’est donc toute la thématique de la signification (et
donc celle de la référence) qui bascule hors du positivisme logique et de la sémantique. Ce
n’est, selon Grice, plus l’expression linguistique qui réfère, mais le locuteur par
l’intermédiaire de l’utilisation intentionnelle de cette expression.
Chapitre 1 : Anaphore et référence
33
Les conceptions gricéennes (théorie de la signification et théorie des « implicatures
conversationnelles »), en rupture radicale avec le positivisme logique, constitue, nous allons le
voir, non seulement le terreau de l’importance de l’intentionnalité dans la théorie searlienne
des actes de langage, mais aussi l’une des sources majeures de la linguistique cognitive
contemporaine12.
La théorie searlienne des actes de langage
L’apport de Searle dans le débat général sur la référence est contrasté : en effet, tout en
étant le continuateur des propositions d’Austin (dont il fut l’élève à Oxford), il se positionne
de manière marquée en « langue » et non pas en « parole » (au sens saussurien pour les deux
termes) : « I am arguing […] that an adequate study of speech acts is a study of langue »
(Searle 1969 : p. 17). On est bien loin des positions des promoteurs de la « philosophie du
langage ordinaire » (Wittgenstein et Austin) pour lesquels seules comptaient les réalisations
effectives du langage par l’usage. Searle ira même jusqu’à remettre en cause certains concepts
de Wittgenstein (comme la « ressemblance de famille », cf. Wittgenstein 1958 : §§ 65-67)
pour asseoir sa position transcendantaliste face aux positions immanentistes des deux
précurseurs du tournant pragmatique :
« But this insight into the looseness of our concepts, and its attendant jargon of "family
resemblance" should not lead us into a rejection of the very enterprise of philosophical analysis;
rather the conclusion to be drawn is that certain forms of analysis, especially into necessary and
sufficient conditions, are likely to involve (in varying degrees) idealization of the concept
analyzed. In the present case, our analysis will be directed at the center of the concept of
promising. I am ignoring marginal, fringe, and partially defective promises. » (55)
Ces divergences étant soulignées, il est néanmoins important de noter que l’œuvre de
John Searle concernant les actes de langage constitue avant tout un travail de formalisation et
de systématisation des propositions d’Austin. A ce titre, Searle propose lui aussi une
classification des actes qu’il juge accomplis lors d’une énonciation. Cette classification
comporte quatre éléments (Searle 1969) :
• l’acte d’« énonciation » (« utterance act »), que constitue le fait de produire une série
d’éléments d’une langue dans une situation donnée,
12 On pensera à titre d’exemple à la « théorie de la pertinence » de Sperber & Wilson (1986) et, de manière
générale, à l’ensemble des théories dites « post-gricéennes ».
Chapitre 1 : Anaphore et référence
34
• les actes « propositionnels » (« propositional acts »), dont la fonction est d’attribuer
les référents des éléments référentiels présents dans l’énoncé, ainsi que d’assurer la
prédication,
• les actes « illocutionnaires » (« illocutionary acts »), similaires à ceux définis par
Austin,
• les actes « perlocutionnaires » (« perlocutionary acts »), eux aussi similaires à ceux
d’Austin.
On remarquera que cette classification diffère de celle d’Austin en deux points :
La première divergence porte sur la possibilité, selon Searle, de voir plusieurs forces
illocutionnaires et plusieurs actes perlocutionnaires attribués à un seul énoncé. En effet, pour
Austin, même si une énonciation peut générer plusieurs effets perlocutionnaires (assertion
qu’il paraît difficile de nier), un énoncé réalise un seul acte illocutionnaire : en prononçant
l’énoncé « Z », l’individu « X » accomplit l’acte illocutionnaire « I ». Searle, a contrario,
comme le montre sa classification, ne rejette pas la possibilité de voir plusieurs actes
illocutionnaires réalisés par un seul et même énoncé13.
Plus important dans notre analyse est le second élément de divergence. Ce second
élément consiste en l’addition d’une catégorie d’actes : les actes propositionnels. Cette
catégorie est à mettre en relation avec l’acte rhétique d’Austin, qui correspond au passage de
la signification de la phrase (entité purement linguistique) au sens de l’énoncé dans une
situation donnée ; le produit de l’acte d’énonciation, en effet, lorsqu’il contient des
expressions référentielles ou des prédicats, implique l’accomplissement d’actes
propositionnels : les « actes de référence » et les « actes de prédication ». De cette manière,
un énoncé peut alors exprimer une proposition, ce que ne peut pas faire une phrase14. Un tel
éclatement de la catégorie austinienne d’acte locutionnaire reflète une volonté, de la part de
Searle, d’asseoir la notion d’acte (ou de « force ») illocutionnaire grâce à une distinction
marquée entre le « contenu propositionnel » d’un énoncé et l’acte que l’on accomplit en
produisant ce dernier. Observons, pour étudier cette notion, les exemples cités par Searle
dans son article « What is a speech act ? », et repris dans l’exemple (9) ci-après : 13 Cf. Searle 1979 : chap. II.
14 Cf. Searle 1965 : «Notice that I do not say that the sentence expresses the proposition ; I do not know how
sentences could perform acts of this kind. But I shall say that in the utterance of the sentence the speaker
expresses a proposition. » (p. 225).
Chapitre 1 : Anaphore et référence
35
Ex (9) a. Will John leave the room ?
b. John will leave the room.
c. John, leave the room !
d. Would that John left the room.
e. If John leaves the room, I will leave too.
Tous ces énoncés expriment bien la même proposition p du type LEAVE (John ; the
room) ; de plus, leurs éléments dénotent tous un individu du monde appelé John et une salle
donnée ; finalement, ils prédiquent la sortie de John de cette salle. Les forces illocutionnaires
présentes (question, prédiction, ordre, souhait, supposition) sont cependant différentes.
Il est intéressant de remarquer, finalement, que l’œuvre de Searle est caractérisée par
une volonté de mise au premier plan de l’aspect illocutionnaire du langage : l’analyse des
« actes de langage indirects » (Searle 1975), de même que le développement d’une « logique
illocutionnaire » (cf. Searle & Vanderveken 1985) en sont des preuves flagrantes. Mais même
si nombre des propositions faites dans ces travaux reposent principalement sur une analyse
fine des « conditions de félicité » des actes, force est de constater que les travaux de Grice sur
la signification (notamment la « signification-nn » décrite plus haut) et sur le « Principe de
coopération » et les « implicatures conversationnelles » (Grice 1975) ont eu une influence
majeure sur Searle.
2.3.3 Synthèse
Ce que nous retiendrons de cet aperçu des oppositions entre la tradition du positivisme
logique et la position pragmatique du « second » Wittgenstein, d’Austin et de Grice, c’est
principalement le changement de perspective qui s’est produit. Ce changement de perspective,
certes, ne constitue qu’un épisode du débat millénaire en philosophie occidentale entre
logique et rhétorique, entre transcendance et immanence, entre Platon et les Sophistes, etc. ;
mais il constitue aussi une charnière importante pour la linguistique contemporaine en général
et les études sur la référence en particulier.
En effet, l’opposition des théoriciens du « langage ordinaire » au positivisme logique
permet un changement de l’origine de la référence : ce n’est alors plus une expression
linguistique qui réfère (par dénotation fondée sur son sens) mais bien l’individu par
Chapitre 1 : Anaphore et référence
36
l’intermédiaire d’une expression linguistique et en fonction de ses intentions communicatives
propres (cf. Grice 1989). Avec ce débat conceptuel, la référence est sortie de son statut
premièrement transcendant et s’organise autour du sujet parlant, voire même, avec la mention
des actes perlocutionnaires, autour des sujets participants à l’interaction. L’orientation est
alors clairement pragmatique telle que définie en 1938 par Charles Morris :
« Within semiotics, Morris distinguished three distinct branches of inquiry : syntactics (or
syntax), being the study of « the formal relation of signs to one another », semantics, the study of
« the relations of signs to the objects to which the signs are applicable » (their designata), and
pragmatics, the study of « the relation of signs to interpreters » […]. » (cité dans LEVINSON
1983 : p. 1)
Le terrain était donc préparé pour une conception cognitive de la référence, loin de la
pudeur du positivisme logique vis-à-vis du psychologisme …
2.4 L’approche cognitiviste
De manière assez paradoxale, c’est dans le « premier » Wittgenstein (notamment le
Tractatus, Wittgenstein 1922) que certains partisans de l’approche cognitiviste ont trouvé la
source de leurs travaux. C’est ainsi dans le même ouvrage fondamental que le positivisme
logique et l’approche cognitive ont trouvé leur inspiration, bien que l’approche cognitive,
dans la lignée du tournant pragmatique, s’écarte manifestement d’un vérificationisme forcené.
2.4.1 Le « premier » Wittgenstein et la théorie de l’image
Avant même le Tractatus Wittgenstein fixe comme objectif à la logique d’atteindre
l’« essence de la proposition » (1961 : 22.1.1915). Dans le débat qui l’oppose à son maître
Russell, Wittgenstein soutient que la forme d’une proposition n’est pas obtenue par
connaissance directe du langage (Russel parle d’« acquaintance »), mais est plutôt exhibée par
la proposition en question :
« De même qu’une photographie exhibe la structure de la relation qu’elle représente (elle fait voir,
à travers la disposition de ses éléments, que les choses se présentent de telle ou telle manière dans
la réalité), une proposition montre la structure de ce qu’elle asserte. » (Marconi 1997 : p. 37)
Wittgenstein propose de penser la proposition comme une « image » (« Bild ») qui
nous permettrait de représenter le réel :
« La proposition est un modèle du réel tel que nous l’imaginons » (Wittgenstein 1922 : 4.01)
Chapitre 1 : Anaphore et référence
37
« La proposition nous communique une situation ; elle doit donc avoir une interdépendance
essentielle avec cette situation. Et cette interdépendance consiste en ce qu’elle est l’image logique
de la situation. » (Wittgenstein 1922 : 4.03)
Wittgenstein nous invite dans un processus d’abstraction depuis les images ordinaires
jusqu’à la conception de la proposition en tant qu’image logique : tout comme une
photographie en noir et blanc perd les nuances de couleurs et la tridimensionnalité de la
situation qu’elle représente, la proposition logique n’épuise pas la totalité des éléments d’une
situation ; elle conserve et exhibe en revanche (tout comme la photographie) les relations
essentielles qui unissent les objets élémentaires de la situation.
2.4.2 Le concept de « modèle mental »
Dans la lignée des propositions du « premier » Wittgenstein, nombre de travaux de
psychologie cognitive vont, à partir des années 1970, argumenter en faveur du concept de
« modèle mental » (cf. Johnson-Laird 1989 pour un premier bilan).
On peut donner du concept de modèle mental la définition suivante :
« A mental model can be defined as a representation of a body of knowledge — either long-term
or short term — that meets the following conditions:
1. Its structure corresponds to the structure of the situation that it represents.
2. It can consist of elements corresponding only to perceptible entities, in which case it may be
realized as an image, perceptual or imaginary. Alternatively it can contain elements corresponding
to abstract notions; their significance depends crucially on the procedures for manipulating
models.
3. Unlike other proposed forms of representations, it does not contain variables. Thus a linguistic
representation of, say, All artists are beekeepers might take the form
For any x, if x is an artist, then x is a beekeeper.
In place of a variable, such as “x” in this expression, a model employs tokens representing a set of
individuals. » (Johnson-Laird 1989 : p. 488)
La première de ces trois caractéristiques est directement liée à la « théorie de l’image »
de Wittgenstein : la structure de la représentation et celle du réel représenté se correspondent
l’un à l’autre.
La seconde caractéristique explicite le fait que la source d’un modèle mental peut se
trouver directement :
Chapitre 1 : Anaphore et référence
38
• dans la perception sensorielle (cf. Marr 1982) : les entités concernées sont alors
évidemment celles auxquelles les sens peuvent accéder ;
• ou dans le discours et/ou la manipulation des modèles eux-mêmes (cf. Johnson-Laird
1989 : sections 12.2 et 12.3) : les entités peuvent alors être abstraites.
La troisième et dernière caractéristique est liée à la représentation des propositions
contenant une marque de quantification (telle que « tous les », « aucun des », etc.). Un modèle
mental, contrairement à d’autres méthodes de représentation (comme par exemple les
propositions de la logique des prédicats), utilise une représentation spatialisée ensembliste
(cercles de Euler, diagrammes de Venn, etc.).
Le risque est alors de vouloir réduire les problèmes liés au raisonnement ou à la
référence des expressions linguistiques à des opérations sur les modèles mentaux et les entités
qui les composent, sans plus se préoccuper d’une quelconque adéquation avec le réel. C’est
cette tendance qui est représentée par exemple dans le radicalisme mental de Rips 1986 :
« Cognitive psychology has to do without semantic notions like truth and reference that depend on
the relationship between mental representations and the outside world. » (Rips 1986, cité dans
Johnson-Laird 1986 : p. 489)
Johnson-Laird 1983 (repris dans Johnson-Laird 1989) propose de ne pas écarter la
problématique de la vérité des propositions contenant des expressions linguistiques (et donc
nécessairement de la référence des ces dernières) de la théorie des modèles mentaux ; la
solution proposée a le double avantage de prendre en considération le réel en considération
tout en restant dans le cadre foncièrement cognitif proposé :
« [A] major problem for cognitive science is to explain how symbols refer to the world […]. [The]
solution is that models of the world can also be constructed as a result of perception, internal
experience, and social interaction. A discourse is deemed true if a model based on its linguistic
representation can be embedded within such a model.” (Johnson-Laird 1989 : p. 489)
La vérité d’une proposition (fondée sur la référence des expressions qui la composent)
est donc en définitive perçue comme un problème de raisonnement entre un modèle mental
donné et un modèle mental du monde qui l’englobe.
2.4.3 Entités cognitives et entités du « monde réel »
Une position moins extrême pourrait consister à reconnaître l’existence d’entités
appartenant à un modèle mental lié au discours, mais aussi la possibilité de référence à des
entités du « monde réel », distinctes des précédentes.
Chapitre 1 : Anaphore et référence
39
Dans cette optique, et comme le souligne Cornish 1999 (pp. 47-51 ; pp. 153-159),
certains auteurs proposent une typologie des entités auxquelles les expressions référentielles
peuvent accéder. L’objectif est de « clarifier » les types et la nature (objective et matérielle ou
purement psychologique) des éléments représentés par les expressions linguistiques. On
pourra par exemple retenir Lyons 1977 et sa typologie tripartite :
« Lyons (1977) postulates a three-part typology: first-order entities (discrete objects, individuals,
stable entities with a temporally or spatially bound existence), second-order entities (dynamic
entities: states of affair, events, processes, activities), and third-order entities (concepts,
propositions). In his typology , third-order entities are the intensional correlates of second-order
one. Each subsequent ‘level’ of entity is at one remove from the tangible world of concrete reality
represented by first-order entities, on a scale of increasing abstractness. » (Cornish 1999 : pp. 47-
48)
On pensera aussi à la « Grammaire Fonctionnelle » de Dik 1997 et à la typologie
proposée, qui reprend et étend celle de Lyons 1977. L’inventaire résultant comprend ainsi15 :
• des entités d’ordre zéro (correspondant à la dénotation de prédicats, à des propriétés
d’entités ou à des relations unissant deux entités ou plus),
• les entités des premier, deuxième et troisième ordres de Lyons,
• et des entités de quatrième ordre (correspondant aux actes illocutionnaires (voir même
perlocutionnaires) de la théorie des actes de langage).
2.4.4 Synthèse
Nous terminons ce rapide survol de l’évolution de la conception de la référence par
l’approche cognitive qui, comme nous l’avons vu, trouve ses racines dans deux « terreaux » à
première vue antagonistes. En effet, l’approche cognitiviste des modèles mentaux s’inspire
d’une part du « premier » Wittgenstein et notamment de sa théorie de la proposition logique
en tant qu’image de la situation, mais bénéficie aussi, d’autre part, du « second » Wittgenstein
et des conceptions du tournant pragmatique qui ont permis le recentrage de la thématique de
la référence sur les participants à l’interaction langagière.
Comme nous l’avons vu, une des conceptions cognitives de la référence s’appuie sur le
concept de modèles mentaux et traite conséquemment la référence en terme de raisonnement
et de manipulation de ces modèles (inclusion dans des modèles du réel). Une conception
moins tranchée, cependant, postule la possibilité de référence directe à des entités du monde 15 Cf. Cornish 1999 : p. 48 pour des exemples de chaque ordre d’entité.
Chapitre 1 : Anaphore et référence
40
réel, mais met par là même en péril une vision dynamique et interactionnelle de la constitution
du discours.
Ainsi, une fois encore, l’évolution de la thématique de la référence s’est faite par rejet et
par assimilation, par modulation et complexification de concepts présents de manière plus ou
moins explicite dans les travaux antérieurs.
3 Le cas de l’anaphore au sein de la thématique de la référence
Ayant passé en revue quelques unes des conceptions liées à la thématique de la
référence, il est à présent temps de tenter de définir de manière plus précise la place des
phénomènes traditionnellement liés au concept d’anaphore au sein de cette thématique plus
générale.
Dans cette optique, nous nous choisirons pour l’instant comme point de départ une
définition traditionnelle de l’anaphore telle que celle proposée par Ducrot et Todorov 1972 :
« Un segment de discours est dit anaphorique lorsqu’il est nécessaire, pour lui donner une
interprétation (même simplement littérale), de se reporter à un autre segment du même discours
[…]. » (Ducrot & Todorov 1972 : 358)
Nous remarquerons d’emblée (et c’est la raison de notre choix) que cette définition est
uniquement applicable à la notion linguistique de l’anaphore et non pas à son homonyme
rhétorique impliquant répétition d’un syntagme potentiellement indépendant (tel qu’un nom
propre par exemple ; cf. Introduction).
Nous devons la première définition du phénomène au grammairien grec Apollonios
Dyscole (IIème siècle) qui réserve l’anaphore aux pronoms :
« Il oppose ainsi les déictiques (pronoms qui renvoient à des objets) et les anaphoriques (pronoms
qui renvoient à des segments du discours), montrant ainsi que la référence d'un pronom peut n'être
pas une chose du monde, mais un dire. » (Seriot 1987 : p. 147)
Le grammairien byzantin Priscien traduira cette distinction sous la forme
« demonstratiuus » / « relatiuus » dont le second élément sera récupéré chez certains
Terministes16 et intégré aux propriétés des termes sous le nom « relatio » :
16 On se rappelle des divergences (déjà évoquée § 1.2.1) sur le nombre et la nature des propriétés des termes,
certains (comme Guillaume de Sherwood) proposant 4 propriétés (et excluant la « relatio ») alors que d’autres
(comme Pierre d’Espagne ou Lambert d’Auxerre) en proposaient cinq (dont la « relatio » qui nous intéresses ici).
Chapitre 1 : Anaphore et référence
41
« Multa autem sunt proprietates termini, scilicet: suppositio, appellatio, restrictio, distributio [ed.:
distinctio] et relatio [...] » (Lambert d’Auxerre 1971 : p. 205)
D’autres cependant considèrent que la relatio n’est pas une propriété intrinsèque des
termes, mais plutôt la suppositio des « termes relatifs » (cf. Guillaume de Sherwood 1966).
C’est sans doute dans ce débat déjà ancien que se trouve l’un des questionnements majeurs de
la linguistique contemporaine concernant la thématique de l’anaphore en relation avec la
référence : quelle est la fonction exacte de l’anaphore vis-à-vis de celle du segment du
discours qui est nécessaire à son interprétation ?
Nous proposerons avec Apothéloz 1995 (pp. 307-311) que les réponses proposées dans
le cadre de ce questionnement peuvent être catégorisées en trois types de conceptions : la
conception « substitutive », la conception « antécédentiste » et la conception « mentaliste ».
La conception substitutive, normative et rhétorique, propose de concevoir l’anaphore
comme la substitution d’une expression (l’anaphorique) à une autre expression linguistique ;
l’objectif est alors d’éviter une répétition jugée inélégante, comme le montre cette citation de
Port Royal :
« L’usage des Pronoms est de tenir la place des Noms & de donner moyen d’en éviter la répétition
qui est ennuyeuse. » (Arnauld & Nicole 1970 : p. 145)
Une substitution « infidèle » (lorsque le remplaçant ne tient pas exactement la place de
l’expression à laquelle il doit se substituer) est ainsi jugée « insupportable » :
« Les Pronoms sont d’un grand avantage dans les langues : ils épargnent des répétitions qui
seroient insupportables ; ils répandent sur tout le discours plus de clarté, de variété et de grâce ;
mais on feroit une faute si on les employoit pour réveiller une idée autre que celle du nom dont ils
prennent la place ; et c’est avec raison que l’on a critiqué ce vers de Racine :
Nulle paix pour l’impie ; il la cherche, elle fuit.
(Esther, act. II, sc. 9)
En effet, la et elle ne rappellent pas nulle paix, ils rappellent seulement la paix, c'est-à-dire une
idée toute contraire. » (Girault-Duvivier 1827 : p. 336, cité dans Apothéloz 1995 : p. 308).
La conception antécédentiste privilégie la dépendance de l’expression anaphorique vis-
à-vis de l’expression qui permet son interprétation (nommé « antécédent », « source », etc.).
L’anaphore est ainsi réduite à un lien interprétatif unissant « deux segments textuels
univoquement délimitables » (Apothéloz 1995 : p. 310). La tendance est là aussi normative,
avec une propension au rejet (ou au mieux à la marginalisation) de toute anaphore non fondée
sur la reprise d’un segment textuel explicite.
Chapitre 1 : Anaphore et référence
42
La conception mentaliste, qui correspond à l’approche cognitiviste que nous avons
décrite plus haut, abandonne toute nécessité concernant la présence en tant qu’«
antécédent » d’un segment textuel particulier et analyse la référence de l’expression
anaphorique comme liée à une représentation mentale :
Dans cette perspective, une anaphore au sens classique du terme est une expression qui pointe sur
une information dont la seule particularité est d’avoir été introduite par un segment de texte
repérable et univoquement délimitable. » (Apothéloz 1995 : 311)
Quelle que soit la conception adoptée, et que l’on considère les termes relatifs (avec
toutes leurs sous-catégories) ou simplement les pronoms anaphoriques d’Apollonios Dyscole,
l’existence de la propriété de suppositio (de dénotation, de référence selon les approches)
semble consensuelle. Dans cette approche volontairement historique, nous considèrerons donc
que l’anaphore constitue un sous-ensemble de la référence circonscrit à un ensemble fini
d’expressions linguistiques d’une langue (pronoms ou termes relatifs).
Nous préciserons bien entendu plus loin certaines des spécificités de l’anaphore, mais
nous retiendrons principalement ici que la thématique de l’anaphore est indissociable de celle
de la référence. La conséquence directe de ce constat est que l’évolution de la conception de
l’anaphore elle-même est mêlée à celle de la référence et en adopte les évolutions et les
oppositions. Il ne sera pas étonnant, dès lors, de trouver représentées dans les descriptions
contemporaines (y compris strictement linguistiques au sens large) de l’anaphore les
conceptions associées à la référence. Comme nous l’avons vu avec les conceptions évoquées
plus haut, nombre de positions sont représentées, influencées par les types d’approches dont
nous avons donné un aperçu (immanentistes, pragmatiques ou « psychologiques »).
4 Synthèse générale
Notre démarche, dans cette première section, peut se résumer à deux objectifs
principaux.
Dans un premier temps, nous avons cherché à montrer comment la thématique de la
référence, cette question du rapport des mots au monde pour utiliser une terminologie
searlienne, s’est développée au sein de la pensée occidentale depuis le Moyen Age (et par
l’intermédiaire des Terministes, depuis certains philosophes et grammairiens grecs) jusqu’aux
propositions contemporaines de la logique, de la linguistique et de la psychologie.
L’inventaire, évidemment, est loin d’être exhaustif, mais, à vrai dire, telle n’est pas sa
prétention … Il montre selon nous comment certains des concepts avancés dès les origines
Chapitre 1 : Anaphore et référence
43
ont, selon les époques, pris une place majeure dans le débat, et ont constitué autant
d’éclairages différents. L’évolution de la linguistique épouse, on l’aura remarqué, celle de la
thématique de la référence, notamment avec le tournant pragmatique du milieu du XXème
siècle et l’intégration de la cognition dans la réflexion linguistique …
Dans un second temps, nous avons essayé de rendre explicite le lien d’inclusion qui unit
la thématique de l’anaphore à celle de la référence. Ce choix, que d’aucuns contesteront en
s’appuyant sur l’argument de la trivialité ou du « cela va sans dire », nous semble malgré tout
justifié : en effet il y a nombre de choses qui « vont sans dire », mais on remarque à l’usage,
pour paraphraser Talleyrand, qu’elles « vont encore mieux » en les disant … Oui, l’anaphore
est liée de manière évidente à la référence et en constitue un cas particulier, mais en posant les
bases de ce constat « trivial », nous avons aussi voulu présenter les approches sur lesquelles
les conceptions contemporaines se sont fondées, ce qui nous permettra, nous l’espérons,
d’appréhender la thématique spécifique de l’anaphore depuis une perspective plus pertinente
…
C’est précisément vers l’analyse des conceptions linguistiques au sens large de ce
concept d’anaphore que nous proposons de nous tourner à présent.
45
Chapitre 2
Eclairages sur l’anaphore en linguistique
46
Chapitre 2 : Sommaire
1 Anaphore et incomplétude............................................................................ 48 1.1 La théorie milnérienne de la référence ......................................................................... 48 1.2 L’anaphore dans le cadre de la théorie milnérienne ................................................... 50
1.2.1 L’anaphore pronominale ........................................................................................ 50 1.2.2 L’anaphore nominale ............................................................................................. 52
1.3 Synthèse ........................................................................................................................... 54 2 Deixis, indexicalité et anaphore.................................................................... 56 2.1 La deixis : définition liminaire....................................................................................... 57 2.2 Deixis et indexicalité (Q1)............................................................................................... 60 2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2) .................................... 63
2.3.1 Approche chronologique........................................................................................ 64 2.3.2 Approche abstractionniste...................................................................................... 71
2.4 Synthèse ........................................................................................................................... 74 3 Principaux problèmes des descriptions classiques ..................................... 75 3.1 La théorie milnérienne.................................................................................................... 75
3.1.1 Saturation sémantique ............................................................................................ 75 3.1.2 L’anaphore pronominale : coréférence et reprise .................................................. 76
3.2 Deixis et anaphore........................................................................................................... 79 3.2.1 Typologie des formes indexicales.......................................................................... 80 3.2.2 Typologie des usages indexicaux........................................................................... 82
4 Synthèse générale .......................................................................................... 84
Chapitre 2 – Eclairages sur l’anaphore en linguistique
47
Après avoir donné un bref aperçu de l’évolution de la thématique de la référence, nous
proposons de nous tourner à présent vers des considérations plus spécifiques à la référence
anaphorique et au problème de sa caractérisation linguistique. Bien évidemment, nous
n’envisageons pas ici de faire un état de l’art exhaustif du traitement de la thématique de
l’anaphore au sein de la linguistique au sens large. Notre objectif est plutôt de fournir
quelques éclairages concernant la question et ainsi de mieux nous positionner vis-à-vis des
études déjà menées. Nous nous restreindrons de plus dans ce chapitre à des considérations
linguistiques non spécifiquement discursives, les rapports unissant l’anaphore et le discours
étant traités plus particulièrement dans le quatrième chapitre de ce travail.
Reprenons une définition classique de l’anaphore déjà donnée au chapitre précédent et à
partir de laquelle nous allons identifier un axe principal de réflexion :
« Un segment de discours est dit anaphorique lorsqu’il est nécessaire, pour lui donner une
interprétation (même simplement littérale), de se reporter à un autre segment du même discours
[…]. » (Ducrot & Todorov 1972 : p. 358)
On insistera notamment sur la nécessité du recours à un élément tiers : l’anaphoricité
pourrait ainsi être considérée avant tout comme une « incapacité » de l’unité considérée à
dénoter seule. L’élément anaphorique serait donc un élément « en creux », son sens n’étant
pas suffisant à la détermination de sa dénotation. L’anaphore n’est cependant pas le seul
phénomène lié à cette incomplétude, et il n’est pas étonnant, dès lors, de voir l’analyse des
phénomènes anaphoriques souvent mise en parallèle avec celle des phénomènes déictiques :
la rapprochement est en général contrastif, mais les points communs sont nombreux et
permettent même à certains de postuler un phénomène sous-jacent unique, malgré des
différences que nous mettrons en évidence.
En conséquence, ce chapitre sera composé de trois sections principales, suivies d’une
synthèse. La première section approfondira la conception selon laquelle l’anaphore
(notamment pronominale) concerne des éléments incomplets du point de vue de leur capacité
à dénoter seuls. Nous étudierons notamment dans cette perspective la théorie de Jean-Claude
Milner sur la distinction référence virtuelle vs. référence actuelle.
Dans la seconde section, nous tenterons de préciser les rapports de l’anaphore avec la
deixis : nous nous pencherons ainsi sur certaines des approches qui ont pu mettre ces deux
phénomènes en parallèle, les grouper au sein d’une catégorie commune, mais aussi les
opposer et les distinguer.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
48
Dans la troisième et dernière section, nous ferons un bref inventaire des problèmes liés
aux conceptions précédentes, ce qui nous permettra d’en montrer les limites et les faiblesses.
1 Anaphore et incomplétude
La conception selon laquelle le fonctionnement référentiel de l’anaphore est lié à une
incomplétude des expressions linguistiques impliquées a longtemps dominé les approches
linguistiques du phénomène. L’expression anaphorique doit alors être complétée (ou
« saturée ») par l’intermédiaire d’un segment de discours complet. On pourra parler dans ce
cas de conception « antécédentiste » (Apothéloz 1995 : p. 310) de l’anaphore, dont par
exemple l’approche de Jean-Claude Milner constitue une version linguistique explicite.
Les travaux de Jean-Claude Milner (1976, 1978, 1982 et 1989) constituent un excellent
exemple d’une tentative de modélisation strictement linguistique (excluant le recours à des
éléments situationnels) des phénomènes liés à la référence en général et à l’anaphore en
particulier. Le compte rendu que nous allons proposer ici se fonde principalement sur Milner
1982, Ordres et raisons de la langue, qui rassemble et développe les travaux antérieurs de
l’auteur. C’est la première partie de cet ouvrage qui va nous intéresser plus particulièrement :
Milner y évoque la thématique de la référence (chapitre I) avant de s’attacher plus
particulièrement au problème de l’anaphore (chapitres II et III de cette même première partie).
Nous allons donc suivre ce mode de présentation en abordant tout d’abord les propositions de
Milner concernant la référence (ce qui nous permettra de faire le lien avec les éléments
présentés dans notre premier chapitre) avant de porter notre attention sur le thème plus
spécifique de l’anaphore.
1.1 La théorie milnérienne de la référence
Milner 1982, dans le chapitre intitulé « Réflexions sur la référence et la coréférence »,
propose de s’attacher au problème de la référence des séquences nominales. La position de
l’auteur est à placer dans le cadre d’une vision à la fois sémantique et réaliste de la référence :
pour lui, en effet, les séquences nominales ont pour fonction de désigner des portions du
monde réel :
« On s’accorde à reconnaître que dans certaines conditions les séquences linguistiques peuvent être
associées à certains segments de réalité, qu’elles sont dites désigner et qui sont leur référence. […]
Une séquence nominale a […] une référence, qui est le segment de réalité qui lui est associé. »
(Milner 1982 : p. 9)
Chapitre 2 – Eclairages sur l’anaphore en linguistique
49
L’auteur insiste cependant sur le fait que le segment de réalité désigné par une séquence
nominale ne doit pas nécessairement être « spatio-temporel » (ibid. : p. 9), écartant par là
même toute possibilité d’interprétation matérialiste de ses propos : conséquemment, un nom
abstrait peut être associé à un segment du réel de la même manière qu’un nom concret.
Dire que Milner 1982 est un prototype de la position du « tout linguistique »
concernant la thématique de la référence serait un euphémisme. La prise de position est claire
et volontairement radicale : la référence est une affaire de correspondance entre éléments du
lexique et éléments du réel ; le tout est de savoir quelles relations entretiennent ces deux
protagonistes. Pour l’auteur, la réponse est simple : le réel est contraint par le linguistique.
« Cela posé, il suffit de réfléchir un instant pour observer que n’importe quelle séquence nominale
n’est pas associée à n’importe quel segment ; autrement dit, une langue naturelle comporte un
lexique, et l’une des propriétés de ce dernier, c’est de distinguer des unités d’après le type de
segment qu’elles peuvent désigner. Une unité lexicale étant choisie, certains segments sont
d’emblée éliminés en tant que références possibles ; en ce sens, à chaque unité lexicale
individuelle, est attaché un ensemble de conditions que doit satisfaire un segment de réalité pour
pouvoir être la référence d’une séquence où interviendrait crucialement l’unité lexicale en cause.
C’est ensemble de conditions décrit donc un type (ou si l’on veut une classe) de référence
possible ; il est distinct des segments de réalité, mais pèse sur eux. » (ibid. : p. 10 ; notre emphase)
Milner propose de représenter la dualité de sa vision de la référence (conditions d’une
part et segment du réel de l’autre) par l’intermédiaire de deux concepts fondamentaux :
• la référence virtuelle correspond à l’ensemble de conditions caractérisant la référence
d’une unité lexicale, son « sens lexical » ;
• la référence actuelle correspond au segment de réalité associé à une unité lexicale.
On reconnaît là, et Milner l’avoue lui-même (ibid., note de bas de page n°1, p. 10), les
concepts frégéens de sens (« Sinn », référence virtuelle) et de dénotation (« Bedeutung »,
référence actuelle). Afin de compléter son approche théorique de la référence, Milner 1989
introduit le concept de « saturation sémantique » pour qualifier le degré de référence
virtuelle d’une expression nominale : plus la référence virtuelle d’une unité comporte
d’éléments, plus cette unité aura une saturation sémantique élevée. Ainsi, plus la saturation
sémantique d’une expression est forte et plus cette expression est susceptible d’avoir une
référence actuelle qui en soit dérivée. Comme nous le verrons ci-dessous, les pronoms sont
caractérisés par une faible saturation sémantique, liée à leur référence virtuelle sous-
développée.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
50
Nous remarquerons finalement que le cadre choisi par l’auteur est volontairement
conceptuellement pré-pragmatique (d’après la chronologie évoquée lors de notre chapitre 1),
comme le montre d’autre part un positionnement néo-positiviste concernant la
compositionnalité du sens :
« […] si l’on considère les emplois en eux-mêmes, ce ne sont pas aux unités lexicales comme
telles que sont associés les segments de réalité, mais bien aux groupes nominaux pris dans leur
ensemble. Dans ces groupes, plusieurs unités lexicales peuvent intervenir, et les références
virtuelles de chacune se combinent pour contraindre une référence actuelle possible ; mais une
référence actuelle donnée n’est associée qu’à la combinaison d’ensemble et non pas à chacune des
unités combinées. » (ibid. pp. 10-11)
L’apport de Milner 1982 dans le cadre d’une approche logico-sémantique de la
référence, avec l’introduction de ces deux concepts de référence virtuelle et de référence
actuelle, est exploité dans l’étude du problème de l’anaphore, vers lequel nous nous tournons
à présent.
1.2 L’anaphore dans le cadre de la théorie milnérienne
Les deuxième et troisième chapitres de Milner 1982, « Anaphore nominale et
pronominale » et « Coréférences et anaphore », traitent tous deux de l’anaphore nominale et
de l’anaphore pronominale.
L’anaphore est définie par Milner de la manière suivante :
« Il y a relation d’anaphore entre deux unités A et B quand l’interprétation de B dépend
crucialement de l’existence de A, au point qu’on peut dire que l’unité B n’est interprétable que
dans la mesure où elle reprend – entièrement ou partiellement – A. » (Milner 1982 : p. 18)
Cette définition, aisément assimilable à l’anaphore pronominale (avec ses notions
classiques de coréférence et de reprise), est, comme nous allons le voir, utilisée par Milner
comme référentiel d’analyse à la fois pour l’anaphore nominale et pour l’anaphore
pronominale, vers laquelle nous nous orientons à présent.
1.2.1 L’anaphore pronominale
Milner présente les pronoms personnels comme dépourvus d’une référence virtuelle leur
permettant à elle seule d’avoir une référence actuelle :
« considérons le pronom je, on sait qu’il ne peut être véritablement défini hors emploi que comme
« est je celui qui peut dire je » ; autrement dit, la condition requise d’un segment de réalité pour
qu’il soit désigné par je n’est délimitée que par l’énoncé de je lui-même. Cela revient à dire que la
Chapitre 2 – Eclairages sur l’anaphore en linguistique
51
référence virtuelle de je ne peut être autonomisée par rapport à l’emploi de je dans un énoncé
singulier où il a une référence actuelle. Convenons de décrire cette caractéristique par le terme de
non-autonomie référentielle. » (ibid. : pp. 18-19)
Certes, le pronom personnel « je » n’est généralement pas cité comme représentatif de
l’anaphore pronominale (cf. plus loin pour quelques détails concernant la deixis) ; les
pronoms personnels de troisième personne, a contrario, sont des unités présentées par la
tradition comme typiquement anaphoriques. Qu’en est-il alors de leur statut référentiel selon
Milner ?
Selon l’auteur, les pronoms de troisième personne appartiennent eux aussi à cette classe
des unités référentiellement non-autonomes :
« Bien évidemment, le cas des pronoms de troisième personne entre dans cette catégorie : la
référence virtuelle d’un tel pronom ne peut être définie en elle-même hors emploi, aucune
condition n’étant requise d’un segment de réalité pour être désigné par il (elle, ils, etc.), sinon des
conditions tenant à l’énoncé singulier où il est employé. » (ibid., p. 19)
Malgré leur non-autonomie référentielle partagée, une distinction peut cependant être
tracée entre pronoms de première et de deuxième personne d’une part et pronoms de troisième
personne d’autre part ; ainsi, pour les premiers, les conditions (référence virtuelle) de
l’interprétation sont entièrement incluses dans l’énoncé alors que l’interprétation des seconds
dépend, selon Milner, de l’emploi d’une autre désignation, référentiellement autonome celle-
là. C’est par ce biais-là que la notion de reprise s’immisce dans la théorie milnérienne de
l’anaphore pronominale, comme l’explicite les citations suivantes :
« C’est là justement ce que l’on entend par anaphore pronominale : elle combine […] la relation
symétrique de coréférence et une relation asymétrique, qu’on peut dire de reprise, entre deux
termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid. : p. 19)
« Prise en elle-même, l’anaphore pronominale usuelle n’est rien d’autre que la combinaison de la
coréférence et de la reprise. » (ibid. : p. 20)
Etant donnée la distinction faite entre référence virtuelle et référence actuelle, la notion
même de coréférence se trouve dédoublée : on pourra ainsi parler de coréférence virtuelle
(lorsque les deux unités reliées le sont sur la base de leurs références virtuelles) ou de
coréférence actuelle (lorsque les deux unités désignent le même segment de réalité. On est en
droit, dès lors, de s’interroger sur la nature de la coréférence impliquée dans l’anaphore
pronominale. Examinons les exemples ci-dessous empruntés à Moeschler & Reboul 1994 (p.
352) :
Chapitre 2 – Eclairages sur l’anaphore en linguistique
52
Ex (10) a. On a coupé la chevelure de Samson et on l’a brûlée.
b. On a coupé la chevelure de Samson et elle a repoussé.
L’exemple (10a) nous montre le cas typique d’un pronom de troisième personne (« l’ »)
jouant le rôle d’anaphorisant de la description définie anaphorisée « la chevelure de
Samson ». Dans cette configuration, l’anaphorisé est autonome référentiellement (forte
saturation sémantique) et l’anaphorisant, pronominal, est non-autonome (faiblement saturé
sémantiquement). Selon Milner, l’obtention d’une référence actuelle pour l’anaphorisant n’est
qu’un effet de bord du phénomène plus fondamental qui consiste en un transfert de la
référence virtuelle de l’anaphorisé vers l’anaphorisant. Ce phénomène est à envisager comme
un processus de saturation sémantique qui conduit finalement à la coréférence virtuelle des
deux expressions ainsi qu’à leur coréférence actuelle (la chevelure coupée est bien celle que
l’on a brûlée). On se trouve alors en présence d’un cas de coréférence virtuelle (par saturation
sémantique) et de coréférence actuelle.
Comme dans l’exemple (10a), le pronom personnel « elle » de l’exemple (10b)
constitue un anaphorisant de l’anaphorisé « la chevelure de Samson ». On notera que le
processus de saturation sémantique se déroule selon Milner comme décrit précédemment
(récupération de la référence virtuelle de l’anaphorisé par l’anaphorisant), mais ne conduit pas
à une identité des références actuelles des deux expressions : la chevelure coupée et celle qui
a repoussé sont deux segments différents de la réalité. On est alors avec ce second exemple en
présence d’un cas de coréférence virtuelle sans coréférence actuelle. Ce type de
fonctionnement anaphorique pousse Milner à postuler que seule la coréférence virtuelle est
une condition nécessaire et suffisante de l’anaphore pronominale.
1.2.2 L’anaphore nominale
La définition prototypique de l’anaphore nominale donnée par Milner 1982 est la
suivante :
« Le type fondamental de la relation anaphorique nominale est […] la succession de deux unités
lexicales dont la première, indéfinie, désigne une référence actuelle non-identifiée, mais s’inclut
dans un énoncé qui l’identifie, et dont la seconde, définie, désigne une référence identifiée par la
seule relation de reprise. C’est la succession bien connue un… le. » (ibid. : p.22)
Chapitre 2 – Eclairages sur l’anaphore en linguistique
53
Au delà de cette définition quelque peu restrictive, Milner 1982 postule, insistons sur ce
fait, que l’anaphore nominale et l’anaphore pronominale fonctionnent selon le même schéma
fondamental que nous rappelons ci-dessous :
« Il y a relation d’anaphore entre deux unités A et B quand l’interprétation de B dépend
crucialement de l’existence de A, au point qu’on peut dire que l’unité B n’est interprétable que
dans la mesure où elle reprend – entièrement ou partiellement – A. » (Milner 1982 : p. 18)
Nous l’avons vu, ce principe de fonctionnement cadre avec les descriptions
traditionnelles de l’anaphore pronominale ; on est cependant en droit de se demander si une
telle position n’est pas trop forte concernant l’anaphore nominale. En effet, la notion de
reprise (fût-elle entière ou partielle), si elle semble (sans doute à tort d’ailleurs) triviale dans
des cas de répétition stricte (avec des progressions du type « un N … (ce N …) le N ») peut
paraître plus difficile à tenir dans des cas d’anaphore associative tels que (11) et (12) ci
dessous.
Ex (11) Les voyageurs arrivèrent dans un village. L’église …
Ex (12) She came in and saw a child sleeping on the couch. The parents were having
lunch in the kitchen.
Ainsi, s’il est vrai que l’interprétation des expressions « l’église » et « the parents »
dépend en quelque sorte de l’existence d’autres expressions (« un village » et « a child »
respectivement), la notion de reprise semble plutôt délicate dans ce contexte. On remarquera
finalement l’absence totale de coréférence (virtuelle et actuelle) dans ce cas de figure.
De manière similaire, les exemples suivants d’anaphore par recours à un hyperonyme,
empruntés à Milner 1982 (exemples 11a, 11b et 11c ; p. 23), semblent à première vue eux
aussi problématiques pour la notion de reprise :
Ex (13) des bœufs paissaient ; les quadrupèdes …
Ex (14) on vient d’envoyer des satellites dans l’espace ; les engins …
Ex (15) *ils ont engagé des secrétaires ; les jeunes filles …
(l’astérisque est de Milner 1982)
Chapitre 2 – Eclairages sur l’anaphore en linguistique
54
La réponse de Milner concernant ces deux types de problèmes est à trouver dans une
conception fondamentalement linguistique et lexicale de l’anaphore, rejetant la pertinence de
toute analyse pragmatique :
« […] la référence virtuelle d’une unité lui est attachée comme une propriété lexicale ;
contrairement à ce que l’on dit souvent, le fait que tel nom ait, hors emploi, tel sens, cela ne relève
pas de l’expérience, mais de la compétence linguistique. Que donc tels noms puissent anaphoriser
tels autres, cela ne dépend que de la connaissance de la langue et non pas d’une situation extra-
linguistique. » (ibid. : p. 27)
Dans ces cas, les références virtuelles de l’anaphorisant et de l’anaphorisé sont
supposées entretenir une relation causale (du type parents-child), métonymique (telle que
village-église) ou ensembliste d’intersection ou d’inclusion (pour les anaphores impliquant
des hypéronymes et des hyponymes).
On le voit, alors que d’autres proposent une conception plus cognitivo-pragmatique de
ces phénomènes (cf. par exemple Kleiber et al. 1994), Milner 1982 recourt à une solution
purement linguistique au sens strict : selon l’auteur, ces deux phénomènes sont ainsi régis par
des règles lexicales systémiques, en « langue », sans recours à des configurations cognitives
ou situationnelles.
On notera finalement que plusieurs différences opposent anaphore pronominale et
anaphore nominale. La différence la plus fondamentale réside dans le fait que les
anaphorisants nominaux sont présentés comme référentiellement autonomes : disposant d’une
référence virtuelle propre (ils sont caractérisés par une forte saturation sémantique), ils
n’impliquent pas la récupération de la référence virtuelle de leur anaphorisé. L’effet de
l’anaphore consiste donc en une attribution de référence actuelle pour l’anaphorisant, assistée
par l’anaphorisé.
1.3 Synthèse
On pourra résumer ce rapide survol de la théorie de Milner concernant la référence et
l’anaphore à l’aide du tableau 1 ci-après, reproduction du tableau donné dans Milner 1982 (p.
38). Ce tableau présente de manière schématique et contrastive les caractéristiques de
l’anaphore pronominale (colonne de gauche) et de l’anaphore nominale (colonne de droite).
Sont notamment détaillées de manière systématiques les contraintes pesant tant sur
l’anaphorisé que sur l’anaphorisant concernant :
• leur statut +/- autonome
Chapitre 2 – Eclairages sur l’anaphore en linguistique
55
• l’existence d’une référence virtuelle propre
• l’existence d’une référence actuelle et ses caractéristiques (+/- identifiée, +/-
identifiable ; expression définie ou indéfinie, spécifique ou générique)
• les conditions de coréférence (virtuelle / actuelle / les deux / aucune)
Anaphore pronominale Anaphore nominale
Anaphorisant non-autonome et dépourvu
de référence virtuelle propre
Anaphorisant autonome et pourvu d’une
référence virtuelle propre
Effet : fournir une référence virtuelle à
l’anaphorisant, pas d’identifier le référent
actuel
Effet : identifier le référent actuel de
l’anaphorisant, pas de fournir une
référence virtuelle
L’anaphorisant n’a pas nécessairement
une référence actuelle
L’anaphorisant a nécessairement une
référence actuelle
L’anaphorisé n’a pas nécessairement de
référence actuelle ; il suffit qu’il ait une
référence virtuelle
L’anaphorisé a nécessairement une
référence actuelle.
La référence actuelle de l’anaphorisé peut
être identifiée ou non, identifiable ou non.
L’anaphorisé peut donc être défini ou
indéfini, spécifié ou générique.
La référence actuelle de l’anaphorisé doit
être non identifiée : l’anaphorisé doit être
indéfini. La référence actuelle de
l’anaphorisé doit être identifiable ; elle
doit donc être particulière et ne peut être
ni générique ni quantifiée.
La relation d’anaphore a pour condition
nécessaire et suffisante la coréférence
virtuelle.
La coréférence – virtuelle ou actuelle –
n’est ni nécessaire ni suffisante.
Tableau 1: Récapitulatif des conditions concernant l’anaphore pronominale et l’anaphore
nominale (Milner 1982 : p. 38).
On insistera pour terminer sur le fait que la conception strictement linguistique (au sens
restreint du terme) proposée par Milner postule que le phénomène d’anaphore pronominale se
Chapitre 2 – Eclairages sur l’anaphore en linguistique
56
résume à la saturation sémantique17 d’une expression linguistique référentiellement non-
autonome (l’expression anaphorique) par l’intermédiaire d’une autre expression linguistique
présente dans le co-texte et qui, elle, bénéficie d’une telle autonomie (communément appelée
« antécédent »). L’expression anaphorique récupère ainsi la référence virtuelle de
l’antécédent, ce qui lui permet d’obtenir une référence actuelle.
Si cette approche ne permet évidemment pas d’épuiser le fonctionnement de l’anaphore
dans toute sa complexité dans des interactions réelles, son avantage premier est de fournir une
terminologie explicite et claire concernant une vision traditionnelle du fonctionnement
référentiel des expressions linguistiques en général et des expressions anaphoriques en
particulier.
L’une des caractéristiques du concept de non-autonomie référentielle consiste à
regrouper au sein d’une catégorie unique des termes tels que « ici », « je », « il », etc. que la
tradition a pourtant classés sous deux concepts différents que sont la deixis et l’anaphore. Il
est donc nécessaire, si la théorie de Milner devait constituer un point de départ, de pousser
plus avant l’analyse de ces deux phénomènes afin d’en délimiter plus précisément les
frontières et les recoupements.
2 Deixis, indexicalité et anaphore
Comme nous venons de le voir rapidement dans la section précédente, une approche de
l’anaphore en tant que saturation sémantique d’expressions linguistiques « déficientes »
pourrait mener à penser que les deux phénomènes de l’anaphore et de la deixis participent du
même principe sous-jacent : sont impliquées des unités « en creux » qui ne sont capables de
dénoter que par l’intermédiaire d’informations qui leur sont externes. On semble retrouver ici
un rapprochement entre anaphore et deixis parmi les plus classiques.
Il est intéressant de noter que le schéma typique adopté par nombre d’études
linguistiques de la deixis ou de l’anaphore consiste en une mise en relation contrastive de ces
deux phénomènes : à titre d’exemple, on pourra ainsi penser :
• à Lyons 1975 (et 1977) qui présente la deixis comme origine de la référence en
général et de l’anaphore en particulier ;
17 Le terme correspond ici à un phénomène dynamique, un processus (Moeschler & Reboul 1994 : p. 351) et
non à une caractéristique statique de la référence virtuelle d’une unité (Milner 1989).
Chapitre 2 – Eclairages sur l’anaphore en linguistique
57
• à Halliday & Hasan 1976, notamment chapitre II avec l’opposition entre endophore
(anaphore) et exophore (deixis) ;
• à Brown & Yule 1980 qui, chapitre VI, s’appuient sur Halliday & Hasan 1976 pour
éclairer la problématique de la référence dans le discours ;
• à Levinson 1983, chapitre II, avec la distinction des usages anaphoriques et non-
anaphoriques en relation avec la deixis textuelle (p. 67) ;
• ou plus récemment à par exemple Cornish 1990 qui définit la fonction de l’anaphore
par rapport à celle de la deixis dans le discours.
La stratégie adoptée consiste généralement à rapprocher les deux phénomènes avant de
les distancier sur des axes variés. Nous nous proposons, bien entendu sans épuiser le débat, de
présenter quelques uns des arguments (en plus de leur faible saturation sémantique) qui ont pu
être avancés tout d’abord pour rapprocher ces deux phénomènes (§2.2) et pour les distinguer
(§2.4). Au préalable, il nous semble important de rappeler quelques éléments de définition.
2.1 La deixis : définition liminaire
On pourra avec Lyons 1977 concevoir le concept de deixis comme
« the location and identification of persons, objects, events, processes and activities being talked
about, or referred to, in relation to the spatiotemporal context created and sustained by the act of
utterance and the participation in it, typically of a speaker and at least one addressee. » (Lyons
1977 : p. 637)
La deixis se décompose en trois catégories « classiques » qui comprennent (cf. par
exemple Levinson 1983 : p. 62) :
• la deixis personnelle, liée à l’expression des rôles des participants dans l’énoncé lui-
même (notamment par l’utilisation de pronoms personnels tels que ceux de première
et de deuxième personne du singulier) ;
• La deixis spatiale18, liée à l’expression de données spatiales relativement au lieu de
l’énonciation (par exemple avec les adverbes « ici » en français, ou « here » en
anglais) ;
18 Imai 2003 constitue une référence majeure concernant ce type de deixis, avec des données extraites de plus de
400 langues différentes.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
58
• La deixis temporelle, liée à l’expression de données temporelles relativement au
moment de l’énonciation ou « coding time » (Fillmore 1975) : par exemple avec les
adverbes « maintenant » en français, ou « now » en anglais ;
On notera cependant le caractère relativement consensuel de deux formes
supplémentaires de deixis19 (cf. Lyons 1968 et 1977 et Fillmore 1975) :
• La deixis « textuelle » ou « discursive », liée à l’expression de références à des
portions du texte/discours (cf. chapitre 3 ci-après pour une distinction de ces concepts)
tel qu’il est en train de se dérouler ; on placera par exemple sous cette rubrique des
expressions telles que « ci-dessus », « ci-joint » ou encore « therein » ou « in the
previous chapter » ;
• La deixis sociale, fréquente par exemple dans les langues asiatiques et liée à
l’expression de distinctions sociales relatives aux rôles des participants à l’interaction :
on pensera par exemple aux systèmes de formes honorifiques (cf. par exemple
Levinson 1983, Brown & Levinson 1987 ou Errington 1988).
Etant donnée la place centrale accordée au contexte dans le cadre de la deixis, il n’est
pas étonnant de remarquer que le concept de deixis a longtemps constitué un « domaine
réservé » de la philosophie et, par le truchement de la philosophie du langage, de la
pragmatique au sein de la linguistique au sens large. La place accordée au phénomène de
deixis dans nombre d’ouvrages de référence sur la pragmatique en est une preuve flagrante : à
titre d’exemple, on pensera notamment à l’existence de chapitres spécifiques et même au
positionnement typique de ces chapitres en début de volume (cf. chapitre II dans Levinson
1983 ou Green 1996).
L’argument majeur généralement avancé par les défenseurs de l’approche pragmatique
de la deixis repose sur une certaine difficulté (présentée comme une inaptitude) de la
linguistique au sens strict, et notamment de la sémantique et/ou de la syntaxe concernant
l’attribution référentielle pour les expressions déictiques ; dans ce contexte, on s’amusera à
lire la phrase introductive de Stephen Levinson 2004 : 19 On notera aussi la proposition de Levinson 1983 d’envisager le concept de visibilité comme un type de deixis :
« quite a number of languages of different stocks that encode a basic distinction between objects visible and non-
visible to participants. This distinction is often subsumed under place deixis, as it tends to show up in
demonstratives, but it is in fact an independent and parallel dimension of deictic organization that ought to be
added to the major five categories of deixis. » (Levinson 1983: p. 63)
Chapitre 2 – Eclairages sur l’anaphore en linguistique
59
« For those who want to treat language as a generative system for objectively describing the world,
deixis is one hell of a big black fly in the ointment. » (Levinson 2004 : p. 97)
L’attaque est pour le moins caricaturale, certes, mais elle est néanmoins révélatrice de
cette volonté d’appropriation de la thématique de la deixis par la pragmatique. Plus
sérieusement, l’argument le plus classiquement utilisé consiste à montrer qu’une approche
sémantique véri-conditionnelle est incapable de « résoudre » la référence des formes
déictiques sans recourir à un référentiel lié à la situation d’énonciation :
« What is clear is that any sentence with indexicals (and that means, given person, tense, and
spatial Deixis, nearly every natural language sentence) cannot directly express a proposition, for
on any doctrine a proposition is an abstract entity whose truth-value is independent of the times,
places and persons in the speech event. If we think of propositions as mappings from worlds to
truth-values in the normal way, then whereas we might be able to characterize the meanings of
non-indexical expressions in terms of the part they play in such a mapping, there seems to be no
such prospect for indexical expressions. » (Levinson 2004 : p. 110)
Georgia Green adopte une position encore plus extrême en affirmant que la deixis
constitue même une composante fondamentale de la pragmatique entendue au sens le plus
étroit :
« The narrowest interpretation of the term pragmatics is that it refers to the study of indexicals,
expressions whose reference is a function of the context of their utterance. » (Green 1996 : p. 17)
On notera que Green 1996, tout comme Levinson 1983 et 2004, présente les concepts
de deixis et d’indexicalité comme quasiment coextensifs (cf. aussi par exemple Moeschler &
Reboul 1994 : pp. 106-107) mais provenant de deux traditions distinctes (linguistique et
philosophique respectivement). Une telle prise de position mérite quelques éclaircissements,
plusieurs propositions alternatives pouvant être suggérées.
On est alors en droit de s’interroger sur la nature des relations qui unissent d’une part
deixis et indexicalité (questionnement Q1) et d’autre part deixis et anaphore au sein de
l’indexicalité considérée comme un concept les englobant (questionnement Q2). Nous allons
à présent nous tourner vers ces deux questionnements, chacun se trouvant traité dans une
section spécifique.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
60
2.2 Deixis et indexicalité (Q1)
Comme nous l’avons suggéré ci-dessus, nombre d’études (pragmatiques) présentent les
concepts de deixis et d’indexicalité comme quasiment coextensifs mais provenant de deux
traditions distinctes (linguistique et philosophique respectivement ; cf. Levinson 1983 et
2004).
Cependant, d’autres approches (plus sémantiques, ou logico-philosophiques) proposent
une distinction plus fine de ces deux concepts ; nous allons nous pencher sur deux de ces
approches (Charolles 2002 et Nunberg 1993) après avoir donné la définition originelle du
concept d’indexicalité.
Le terme « indexical » trouve son origine dans la sémiologie du philosophe américain
Charles Sanders Peirce (cf. notamment Peirce 1955). Habitué à une approche trichotomique,
Peirce propose une typologie des signes fondée sur un ensemble de trios orthogonaux de
propriétés ; les signes peuvent ainsi être :
• des « qualisignes » (désignant une qualité), des « sinsignes » (désignant des états ou
des événements) ou des « legisignes » (désignant des habitudes, des conventions ou
des lois) ;
• des « icones » (tirant leur signification d’une ressemblance avec leur référent), des
« indexicaux » (qui entretiennent une relation « réelle », souvent de causalité, avec
leur référent) ou des « symboles » (qui entretiennent une relation conventionnelle avec
leur référent) ;
• des « sumisignes » (ou « signes rhématiques », de nature
prédicationnelle/relationnelle), des « dicisignes » (de nature propositionnelle) ou des
« suadisignes » (de nature argumentale).
Les « indexicaux », qui nous intéressent ici, sont ainsi enfermés au sein d’une
trichotomie qui les oppose aux signes iconiques et aux signes symboliques. L’un des
exemples d’« indexicaux » donnés par Peirce est la fumée qui entretient une relation réelle
causale avec le feu. Sur un plan plus linguistique, Peirce propose de considérer l’adverbe
« here » comme un « indexical » entretenant une relation réelle de location avec le lieu
d’énonciation ; on retrouve ici l’idée fondamentale de dépendance des formes indexicales vis-
à-vis de leur contexte de production : pour que la relation unissant l’« indexical » à son
Chapitre 2 – Eclairages sur l’anaphore en linguistique
61
+ -
référent soit une relation réelle au sens de Peirce, il faut nécessairement que ce référent soit un
élément de la situation d’énonciation.
On le voit, si la distinction avec les signes iconiques est relativement aisée, dès que l’on
aborde le domaine des signes linguistiques, démêler l’importance de la convention (et donc du
statut de « symbole ») de celle de la relation réelle semble plus délicat. Comme le soulignent
par exemple David Kaplan (Kaplan 1989) ou John Perry (Perry 1993), les expressions
indexicales semblent mêler systématiquement une part de conventionalité à leur dépendance
au contexte. C’est cette position que nous allons adopter dans le reste de cette section. Se pose
alors naturellement, comme nous l’avons suggéré plus haut, le problème des relations entre
deixis et indexicalité.
Un exemple de proposition opposant deixis et indexicalité est à trouver dans Charolles
2002 (cf. particulièrement chapitre VII, §2) qui organise les « pronoms de dialogues » en tant
que formes déictiques en français sur un axe décroissant d’indexicalité, du pronom de
première personne du singulier aux pronoms de première et deuxième personne du pluriel en
passant par un degré intermédiaire occupé par le pronom de deuxième personne du singulier
(cf. figure 1 ci-après). L’indexicalité est alors une propriété graduelle des déictiques
correspondant à leur adhérence à la situation d’énonciation (pp. 213-214).
Indexicalité
je tu/vous nous/vous
Figure 1: Gradient d’indexicalité pour les « pronoms de dialogue » (Charolles
2002 : p. 213)
Pour sa part, Nunberg 1993 définit les formes indexicales de la manière suivante :
« Indexicals are generally defined as expressions whose interpretation requires the identification of
some element of the utterance context, as stipulated by their lexical meanings. » (Nunberg 1993 :
p. 2)
Définition inspirée de celle de Kaplan 1989 :
« What is common to [indexicals] is that the referent is dependent on the context of use and that
the meaning of the word provides a rule which determines the referent in terms of certain aspects
of the context. » (Kaplan 1989 : p. 490)
Nunberg 1993, présente ensuite la deixis comme l’un des trois composants de
l’indexicalité (la présentation reproduite ci-dessous se fait dans le cadre du pronom we) :
Chapitre 2 – Eclairages sur l’anaphore en linguistique
62
« […] the meaning of we has three components. The first is the "first-person" component, which
picks out the speaker or speakers of one of its occurrences. I will call this the deictic component of
the expression, a function from occurrences or utterances of an expression to elements of the
context of utterance. […] we would assign the same deictic component to the forms now,
nowadays, ago, and so forth, or to French tu and vous.
[…] The second component of the meaning of we consists of the features of plurality and animacy.
Features like these I will call the classificatory component of the expression. In general, the
classificatory component of an expression is associated with its interpretation, rather than with its
index. In addition to features like number and animacy, the classificatory component may include
inflectional features like grammatical and natural gender and the content of the descriptors in
phrases like that car, we linguists, and so forth.
Finally, there is what we can think of as the relational component of the indexical, which
constrains the correspondence that has to hold between the index and the interpretation. With we,
the relational component stipulates that the index must be included in, or more generally, must
instantiate the interpretation. […] Note that this restriction does not apply to the indexical uses of
third-person pronouns, which have no explicit relational component […]. » (Nunberg 1993 : pp. 3-
4)
A première vue, les propositions de Charolles 2002 et Nunberg 1993 pourraient sembler
antagonistes ; elles nous paraissent néanmoins compatibles. Un tel rapprochement requiert
non seulement une analyse de l’identité potentielle des concepts utilisés (Charolles 2002 et
Nunberg 1993 parlent-ils de la même chose lorsqu’ils parlent de deixis et d’indexicalité ?),
mais aussi une étude des relations que ces deux concepts semblent entretenir.
Qu’en est-il donc des concepts employés par ces deux auteurs ? Si l’on comprend le
concept d’adhérence à la situation comme une forme de lien indissociable, nous constatons
que cette conception véhicule fondamentalement une notion de dépendance des formes
indexicales vis-à-vis du contexte dans le cadre de l’attribution de leurs référents : la
dénotation des unités indexicales est alors obtenue par une action conjuguée du sens lacunaire
de ces dernières et de données situationnelles au sens large. C’est précisément cette vision que
l’on retrouve dans les définitions de Nunberg 1993 et Kaplan 1989 qui parlent respectivement
de « sens lexical » (« lexical meaning ») et de règle (« rule ») comme entrant en relation avec
des éléments situationnels (Nunberg 1993 parle de « some element of the utterance context »
et Kaplan 1989 de « certain aspects of the context »). L’indexicalité semble donc bien
impliquer pour Charolles 2002 et pour Nunberg 1993 une relation de dépendance à la
situation d’énonciation, dépendance dont l’intensité serait modulée par le contenu sémantico-
pragmatique propre aux unités indexicales.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
63
L’accommodation des vues des deux auteurs concernant la nature des relations précises
qu’entretiennent deixis et indexicalité pourrait sembler plus délicate. On notera cependant que
rien n’exclut explicitement une extension de l’échelle d’indexicalité proposée par Charolles
2002 au-delà de la deixis, catégorie qui ne l’épuiserait alors pas en totalité : la décroissance de
l’échelle indexicale n’atteignant pas de niveau 0 explicite dans la présentation donnée dans
Charolles 2002, on peut fort bien postuler qu’elle continue de décroître une fois franchies les
frontières du domaine des formes déictiques. Cette hypothèse va dans le sens de la
proposition de Bar-Hillel 1954 qui indique que 90% des énoncés déclaratifs produits en
Anglais sont indexicaux ; dans ce cas de figure (et même si la proportion suggérée semble
difficile à vérifier20), il va alors de soi que le phénomène de l’indexicalité dépasse en étendue
celui de la deixis qui n’en serait alors plus qu’un cas particulier. Cette proposition est
conforme à la position de Nunberg 1993 qui parle d’« indexicalité forte » pour le phénomène
de deixis.
Il semblerait donc au terme de ce parcours que l’on puisse considérer le concept
d’indexicalité comme englobant celui de deixis ou, réciproquement, la deixis comme une
sous-catégorie de l’indexicalité. Mais, plus intéressant encore, il est alors possible de
s’interroger sur la nature du complémentaire de la deixis au sein de l’ensemble indexical.
Récanati 2002, s’appuyant sur Nunberg 1993, propose l’unification des procédures déictique
et anaphorique impliquant des pronoms ; ces deux phénomènes, deixis et anaphore constituent
ainsi les deux sous-ensembles de l’indexicalité :
« In the version of the pragmatic theory I have outlined, anaphoric uses of pronouns turn out to be
very similar to deictic uses. Like deictic uses, anaphoric uses are ‘indexical’ in the rather strict
sense discussed by Nunberg: their content is contextually determined in terms of some feature of
the situation of utterance (the index). » (Récanati 2002 : p. 28)
Nous allons donc logiquement nous tourner à présent vers une étude des relations
qu’entretiennent la deixis et l’anaphore en tant qu’unités indexicales.
2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2)
Nous l’avons vu, deixis et anaphore sont unies par deux propriétés communes :
l’absence d’autonomie référentielle et l’indexicalité. Quelles sont alors les propriétés qui les
distinguent ? Quelles relations entretiennent ces deux phénomènes ?
20 Nous soulignerons plus loin dans ce chapitre les difficultés liées à l’inventaire des formes déictiques et/ou
indexicales.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
64
Nombreuses sont les approches qui considèrent l’anaphore comme un produit dérivé de
la deixis. On pourra à titre d’exemple s’appuyer sur Lyons 1975 :
« The anaphoric use of pronouns and adverbs is secondary to their basic function as deictics …
Anaphora involves the transference of what are basically deictic, and more specifically spatial,
notions to the temporal dimension of the context of utterance and the reinterpretation of deictic
existence in terms of what might be called textual existence. The referent of course does not exist
in the text. But it is located in the universe of discourse (which derives its temporal structure from
the text) by means of an antecedent expression which either introduces or identifies a referent.
Subsequent reference to this referent by means of an anaphoric expression identifies the referent in
terms of the textual location of the antecedent. » (Lyons 1975 : pp. 81-82, cité dans Cornish 1999 :
p. 25).
Ce postulat de la primauté de la deixis sur l’anaphore est fondé sur deux types
d’arguments principaux :
• la première catégorie d’arguments repose sur l’aspect évolutif de ces phénomènes, tant
en ontogenèse qu’en phylogenèse. Nous parlerons par la suite d’approche
« chronologique ».
• la seconde catégorie d’arguments s’appuie sur les propriétés propres à chaque
phénomène et postule que l’anaphore constitue une abstraction langagière du
phénomène fondamental que serait la deixis (c’est cette position que l’on trouve par
exemple dans la citation précédente de Lyons 1975). Nous parlerons ici d’approche
« abstractionniste ».
Ces deux types d’arguments sont évidemment compatibles et servent d’ailleurs souvent
de justification l’un à l’autre ; nous nous proposons de les passer tous deux en revue,
commençant notre étude par l’argumentation « chronologique » avant de nous tourner vers
l’argumentation « abstractionniste ».
2.3.1 Approche chronologique
Phylogenèse
Du point de vue de la phylogenèse, il est intéressant de constater que les évolutions des
formes couramment liées à l’anaphore en français et en anglais (déterminants (articles définis
et adjectifs démonstratifs) et pronoms) sont similaires. Nous expliciterons ce constat en
quelques lignes, présentant l’évolution du système de l’article, des démonstratifs et des
pronoms, dans un premier temps pour le français, puis pour l’anglais.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
65
Nous noterons tout d’abord que l’article défini en français (et dans les langues romanes
en général) constitue une nouveauté par rapport au latin classique. Ainsi, en français, les
articles le et la proviennent respectivement des pronoms / adjectifs démonstratifs ille et illa ;
de même en castillan pour el et la (plus un neutre lo < illud), en italien pour il et la (ainsi que
lo, neutre, < illud), etc.
Concernant les démonstratifs, l'ancien français connaît principalement deux formes,
issues des formes latines iste et ille renforcées : ecce ille (qui donne cil, cel, celle), et ecce iste
(qui donne cest, cette). Le français contemporain a conservé les formes en el pour le pronom
démonstratif (celui, celle), et les formes en et pour l’adjectif démonstratif (cet, cette).
Même s’ils n’étaient que rarement utilisés au nominatif (hors cas d’emphase), les
pronoms personnels latins sont à l’origine des pronoms personnels en français contemporain
pour les deux premières personnes. Concernant la troisième personne, l’origine est à trouver
dans le démonstratif ille (avec ses genres et sa déclinaison) : celui-ci a donné aussi bien les
formes sujets (il, elle) que les formes compléments (le, la, lui) : ille (sous la forme illi) perd sa
2ème syllabe en position sujet et perd la 1ère en position régime ; indirect, il est tonique (datif
barbare illui au lieu de illi > ellui > lui) ; concernant le féminin, on notera l’évolution
suivante : illa > ella > ele.
On peut donc dire en résumé que les principales formes anaphoriques du français
(article défini, démonstratifs et pronoms de troisième personne) sont issues des formes
démonstratives du latin. Cette évolution permet de postuler une genèse du fonctionnement
anaphorique de ces unités à partir de la fonction premièrement déictique associée au
démonstratif ; en d’autres termes, le fonctionnement anaphorique des unités du français serait
apparu suite à une évolution du fonctionnement déictique qui en est la source. C’est aussi
cette origine commune qui encourage par exemple A. Zribi-Hertz 2003 (p. 7) à affirmer à la
suite de G. Guillaume (1919/1975 : p. 16) que « les articles définis du français sont des
pronoms ».
Tournons-nous à présent vers l’anglais, et plus particulièrement vers l’évolution de
l’article défini. On notera que l’article défini anglais est, tout comme son homologue français,
le résultat de l’évolution du démonstratif (cf. Lyons 1977 : pp. 653-654). En effet, le vieil
anglais possédait, en plus d’un démonstratif spécifiquement déictique (þes/þis/þeos), un
« démonstratif-article » (se/seo/þzt) qui a donné naissance à l’article défini de l’anglais
contemporain. L’adoption de /S/ a eu lieu au XIIème siècle pour les trois genres et la forme
Chapitre 2 – Eclairages sur l’anaphore en linguistique
66
þd'dérivée du nominatif masculin et dominante vers la moitié du XIIIème siècle) a donné
/C?/, orthographié « the » au XIVème siècle. Ceci nous donne l’évolution représentée dans la
figure 2 ci-dessous21 :
IE *so/*to > GC *that > VA se/seo/þzt > MA þd > AM/AC the
Figure 2 : Evolution de l’article défini anglais depuis l’indo-européen.
On notera avec F. Toupin 1998 qu’il est important de souligner l’étymologie différente
des adjectifs/pronoms démonstratifs « that » et « this ». En effet, si, comme nous l’avons
mentionné pour l’article défini, le démonstratif « that » est issu du « démonstratif-article »
(se/seo/þzt), « this » provient quant à lui du démonstratif spécifiquement déictique
(þes/þis/þeos) :
IE *so/*to > GC *that > VA se/seo/þzt > AM/AC that
IE *so/*to > GC *thasi > VA þes/þis/þeos > AM/AC these/this/those
Figure 3 : Evolution des adjectifs démonstratifs anglais depuis l’indo-européen.
Les pronoms personnels de l’anglais, finalement, sont eux aussi dérivés de la racine
indoeuropéenne *so/*to (adjectif démonstratif) ou *ko/*ki (pronom démonstratif), comme le
montre la figure 4 ci-dessous :
IE *ko/*ki > VA he > MA hee > AM/AC he
IE *ko/*ki > VA/MA > his/him > AM/AC his/him
IE *so/*sya (nom. Fém.) > GC *sjo > VA seo > MA heo/scho/she > AM/AC she
IE *ko/*ki > VA hie/hire > MA hir > AM/AC her
IE *ko/*ki > VA hit > MA (h)it > AM/AC it
Figure 4 : Evolution des pronoms personnels de troisième personne en anglais depuis l’indo-
européen.
Ce rapide survol du développement phylogénétique des formes anaphoriques de
l’anglais montre donc, comme pour le français, une origine strictement déictique (par le biais
des formes démonstratives). Le vieil anglais semble même constituer une phase intermédiaire
21 Abbréviations utilisées dans les schémas 2 et 3 : IE : indo-européen / GC = germanique commun / VA = vieil
anglais / MA = moyen anglais / AM = anglais moderne / AC = anglais contemporain.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
67
avec son « démonstratif-article » (se/seo/þzt), dérivé d’un démonstratif unique du
germanique commun mais se scindant dès le stade de l’anglais moderne pour donner le
démonstratif « that » et l’article défini « the ».
En résumé, pour le français comme pour l’anglais, les formes anaphoriques typiques
sont issues de formes déictiques, laissant ainsi penser qu’à l’échelle des langues le phénomène
de deixis constitue une primitive à partir de laquelle l’anaphore a pu se développer.
Ontogenèse
Concernant le versant ontogénétique de l’approche développementale, nous allons nous
appuyer principalement sur la référence que constituent les travaux de Karmillof-Smith (1979,
1980 et 1985), repris dans de nombreux ouvrages dont Apothéloz 1995 ou encore Cornish
1999.
La démarche de Karmiloff-Smith se fonde sur une analyse fine non seulement des
formes produites par les sujets, mais aussi des fonctions associées à ces formes dans le
discours. C’est cette méthodologie qui fait tout l’intérêt des travaux de Karmiloff-Smith et les
différencie de travaux antérieurs (cf. Brown 1973 ou Maratsos 1976), fondés sur un inventaire
des formes.
Appuyant son analyse sur une série d’expériences (de type narration à partir d’images)
réalisée avec des enfants francophones (Karmiloff-Smith 1979), Annette Karmiloff-Smith
propose trois stades développementaux dans l’acquisition des fonctions liées aux
déterminants22 :
• Lors de la première phase, entre trois et cinq ans, l’enfant utilise :
o l’indéfini dans le cadre de dénominations (opérations d’étiquetage),
o et le défini de manière déictique, souvent accompagné d’un geste pointeur, et
destiné à attirer l’attention de l’interlocuteur sur un élément présent. Ce
comportement est notamment observé dans le cadre de la désignation d’un
référent au sein d’un ensemble. De manière alternative, l’enfant utilise aussi
dans ce cas une description d’attributs par post-détermination (structure du
type « le/la + Nom + Adj. »).
22 Nous fondons notre compte-rendu sur Apothéloz 1995 : pp. 80-85, Cornish 1990 : pp. 83-84 et Cornish 1999 :
pp. 23-25.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
68
• Certaines modifications se produisent lors de la deuxième phase, entre cinq et huit
ans :
o L’opposition fonction dénominative / fonction déictique se stabilise pour les
formes d’indéfini et de défini respectivement ;
o la systématisation de l’opposition des marques du singulier et du pluriel se met
en place, mais de manière conjointe avec l’opposition entre dénomination
(indéfini) et deixis (défini) : l’indéfini pluriel (« des ») est alors utilisé pour la
dénomination de plusieurs éléments ; le défini pluriel (« les ») sert à attirer
l’attention sur plusieurs éléments présents.
• Lors de la troisième phase, entre huit ans et douze ans, l’enfant va finaliser son
système :
o L’indéfini pluriel acquiert la fonction d’inclusion de classe et le défini pluriel,
celle de totalisation (et peut donc exprimer la pluralité ou la totalité) ;
o l’indéfini commence à être utilisé dans le cadre de la référence non
spécifique et le défini dans le cadre de la référence anaphorique ;
o les marques de surdétermination disparaissent (« le même + Nom » pour la
référence anaphorique et « tous les + Nom » pour la totalité).
Les études proposées par Maya Hickmann (notamment 1984 et 1987) sont dans la
lignée de celles de Karmiloff-Smith et en soulignent la pertinence notamment concernant
l’analyse détaillée des fonctions associées aux formes produites par l’enfant. L’un des
arguments avancés, en effet, consiste à dénoncer la similarité « de surface » entre les
expressions référentielles de l’enfant et celles de l’adulte sur laquelle nombre d’études se sont
fondées. Comme le montre les travaux de Hickmann, les fonctions associées à ces formes sont
souvent différentes pour l’enfant et pour l’adulte et il est donc indispensable de prendre en
considération la situation de production afin de pouvoir en donner un compte-rendu fiable.
C’est dans cette objectif que Hickmann a proposé une méthodologie permettant non
seulement de distinguer les fonctions associées aux expressions référentielles utilisées, mais
aussi de suivre l’évolution des expressions utilisées pour renvoyer à un référent au cours d’un
discours donné plutôt que de se contenter d’une liste d’éléments présentés comme
indépendants. Le protocole utilisé (cf. Hickmann 1987 et Hickmann 1991 pour une critique du
protocole utilisé dans Karmiloff-Smith 1980) consiste à demander à l’enfant de raconter une
Chapitre 2 – Eclairages sur l’anaphore en linguistique
69
série ordonnée d’images représentant une courte histoire à un interlocuteur adulte qui ne la
connaît pas et ne peut pas voir les images. L’adulte doit ensuite raconter cette histoire à son
tour avec l’aide de l’enfant.
Concernant le maintien de la référence, Hickmann 1987 remarque une évolution
significative entre les trois âges étudiés (quatre, sept et dix ans).
A quatre ans, l’enfant utilise déjà une proportion importante de pronoms et anaphores
zéro (51 % pour la série d’images A et 44 % pour la série B) pour le maintien de la référence.
Ce qui caractérise cependant ce stade est la tendance de l’enfant à s’appuyer fortement sur la
situation représentée par chaque image, notamment par l’emploi de dénominations et de
réitérations de syntagmes définis.
Les dénominations sont fréquentes (23 % ou 15 % selon la série d’images) et souvent
accompagnées de gestes et d’adverbes spatiaux du type « here » ou « there ». L’extrait
suivant montre ce type de stratégie :
« Horse. A horse is running. […] and a … horse and a cow. […] And a horse is … still running.
[…] Horse fell down… » (extrait de Hickmann 1987 cité dans Apothéloz 1995 : p.85)
Il est particulièrement intéressant de noter ici l’utilisation de l’adverbe « still » qui
conforte l’hypothèse du maintien de la référence : c’est bel et bien le même cheval qui est
désigné par l’enfant, malgré l’usage de l’indéfini dans cette stratégie clairement déictique,
fondée sur chaque image prise séparément comme situation.
Le stade correspondant à l’âge de sept ans est caractérisé par une augmentation
significative du nombre de formes pronominales et d’anaphore zéro (73 % contre 51 % à
quatre ans pour la série A). Le maintien de la référence est cependant encore souvent assuré
par l’utilisation de syntagmes définis, y compris lorsque l’utilisation d’un pronom serait
justifiée. C’est ce que nous pouvons voir dans l’extrait suivant :
« It’s a pony running and the pony sees a pal, the pony jumps over the… the fence and then […]
the pony falls and hurts his legs so the cow bandages the pony’s leg. » (extrait de Hickmann 1987,
cité dans Apothéloz 1995 : p. 87)
La stratégie employée ici ne consiste plus à décrire les images comme si elles avaient
été présentées isolément, mais on est sans doute encore proche des emplois déictiques du
défini proposés par Karmiloff-Smith.
A dix ans, l’enfant utilise une proportion encore plus importante de pronoms et
d’anaphore zéro (80 % pour la série A) pour le maintien de la référence et n’a absolument
Chapitre 2 – Eclairages sur l’anaphore en linguistique
70
plus recours aux dénominations dans ce contexte. Ces résultats peuvent être résumés à l’aide
du tableau 2 ci-dessous :
Dénominations Syntagmes définis Pronoms et anaphore zéro Âges
Série A Série B Série A Série B Série A Série B
4 ans 23 15 26 41 51 44
7 ans traces 24 53 76 47
10 ans 0 20 46 80 54
Tableau 2 : Proportions (en pourcentage) des expressions utilisées pour le maintien de la
référence d’après Hickmann 1987.
Si nous nous intéressons à la série d’images A, destinée à favoriser la référence
anaphorique par la saillance du protagoniste principal, nous remarquons deux phénomènes
principaux :
• La proportion de pronoms anaphoriques et d’anaphores zéro croit avec l’âge (et
présente une rupture significative entre quatre et sept ans, mais pas entre sept et dix
ans) ;
• La proportion de syntagmes définis décroît avec l’âge (ceci est conforme avec
l’observation précédente), mais ne présente pas la rupture observée entre quatre et sept
ans pour les pronoms anaphoriques et les anaphores zéro. Cette tendance ne
correspond pas à une utilisation progressivement anaphorique des ces syntagmes
nominaux, mais sans doute plutôt à l’absorption de la fonction déictique assumée à
quatre ans par les dénominations.
Dans le cadre qui nous intéresse ici, nous retiendrons que les travaux de Karmiloff-
Smith et de Hickmann montrent une maîtrise tardive de la fonction anaphorique, qu’elle soit
attachée à l’usage du défini (surtout au troisième stade chez Karmiloff-Smith) ou aux
pronoms et aux anaphores zéro (chez Hickmann). Les âges les plus jeunes correspondent ainsi
à l’emploi prédominant de fonctions déictiques avant une mise en place progressive des
fonctions anaphoriques attachées aux expressions. On peut donc considérer dans ce contexte
que la deixis est un procédé référentiel plus fondamental du point de vue de l’ontogenèse et
qu’elle constitue la base sur laquelle se développent les usages anaphoriques.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
71
Les hypothèses avancées pour expliquer ce phénomène s’appuient sur l’acquisition
d’une stratégie de « textualisation » (Karmiloff-Smith 1980 et 1985) qui consiste, comme l’a
proposé aussi Hickmann, à « se servir du langage pour contextualiser le langage » (Hickmann
1987 : p. 239). On retrouve là une vision cohérente avec l’approche abstractionniste que nous
allons à présent étudier.
2.3.2 Approche abstractionniste
L’argumentaire proposé par Hickman, à bien y regarder, s’appuie explicitement sur une
notion abstractionniste impliquant une complexité croissante lorsque l’on quitte la catégorie
de la deixis pour entrer dans celle de l’anaphore : le langage n’est alors plus un simple outil de
description du (ou d’action sur le) monde mais est intégré au contexte d’interprétation du
langage lui-même.
Une seconde approche abstractionniste est à trouver dans les travaux de Lyons
(notamment Lyons 1968 et 1977) qui présentent un argumentaire détaillé de la structuration
des catégories de la deixis. Nous allons dans un premier temps considérer ici les trois
catégories les plus consensuelles que sont la deixis personnelle, la deixis spatiale et la deixis
temporelle.
L’argument fondamental qui nous intéresse ici concerne le caractère premier de la
deixis personnelle vis-à-vis des autres catégories de deixis ; en effet, comme le souligne
Levinson à propos de la deixis temporelle :
« Like all aspects of deixis, time deixis makes ultimate reference to participant-role. Thus as a first
approximation […], now can be glossed as ‘the time at which the speaker is producing the
utterance containing now’. » (Levinson 1983 : p. 73)
Nous allons donc analyser la structuration de la deixis en commençant par la deixis
personnelle avant d’étendre notre étude à la deixis spatiale et à la deixis temporelle. Nous
terminerons ensuite par une réflexion sur la place de l’anaphore au sein de cette organisation
hiérarchique.
La deixis personnelle, comme le soulignait déjà Jespersen en 1922 par le biais du terme
« shifter », est caractérisée par une réversibilité des rôles de participants dénotés par les
pronoms de première et de deuxième personne (Benveniste 1946/1966 ; Lyons 1968 et 1977 ;
Levinson 1983 et 2004). Le second élément fondamental de la deixis personnelle réside dans
sa structuration interne. En effet, on pourra considérer avec Benveniste une relation
fondamentale opposant « je » central à « tu », construit par opposition à « je » :
Chapitre 2 – Eclairages sur l’anaphore en linguistique
72
« Il y a donc lieu de constater une opposition de « personne-je » à « personne non-je ». Sur quelle
base s’établit-elle ? Au couple je/tu appartient en propre une corrélation spéciale, que nous
appellerons, faute de mieux, corrélation de subjectivité. Ce qui différencie « je » de « tu », c’est le
fait d’être, dans le cas de « je », intérieur à l’énoncé […] ; en outre, « je » est toujours
transcendant par rapport à « tu ». Quand je sors de « moi » pour établir une relation vivante avec
un être, je rencontre ou je pose nécessairement un « tu », qui est, hors de moi, la seule « personne »
imaginable. Ces qualités d’intériorité et de transcendance appartiennent en propre au « je » et
s’inversent en « tu ». On pourra donc définir le « tu » comme la personne non-subjective, en face
de la personne subjective que « je » représente […]. » (Benveniste 1966 : p. 232)
Levinson 1983 (p. 69) et 2004 (p. 133), à la suite de Lyons 1968 (pp. 470-481), propose
quant à lui de décrire le système déictique personnel en utilisant deux traits distinctifs : le trait
S, qui note l’inclusion du locuteur (« speaker ») et le trait A (« addressee ») notant l’inclusion
de l’interlocuteur. Dans ce contexte, « je » est donc caractérisé (+S, -A) et « tu » (-S, +A). Il
est cependant intéressant de remarquer que le trait A est défini en fonction de l’acte primaire
réalisé par le locuteur et dont il n’est que le destinataire. La deixis personnelle semble donc
fondamentalement s’organiser autour d’un « je » référence absolue à partir duquel se définit
un « tu » par altérité.
Concernant la deixis spatiale, nous distinguerons deux types d’expressions selon que
ces dernières impliquent ou non un recours à des unités conventionnelles non-déictiques
d’organisation spatiale (voir par exemple Fillmore 1975 : pp. 16-28 ; Lyons 1977 : pp. 690ff).
On a ainsi d’une part des expressions déictiques spatiales pures (« ici », « here », etc.) et des
expressions déictiques spatiales complexes ou composites (telles que « à deux cents mètres
d’ici » ou « fifty yards away »). On déduira donc de cette dualité une structure
fondamentalement organisée autour de la deixis spatiale pure et comportant en sa périphérie la
deixis spatiale complexe.
Nous constaterons de plus (cf. Lyons 1977 : chapitre XV) que la structuration de la
deixis spatiale pure est avant tout anthropomorphique : l’asymétrie observée entre la partie
haute et la partie basse du corps serait ainsi à l’origine de la première dichotomie déictique
spatiale entre « en haut » (au dessus du locuteur) et « en bas » (en dessous du locuteur) ; pour
des raisons similaires, la dichotomie « devant » / « derrière » serait aussi l’une des plus
observées (par exemple par rapport à l’opposition « à gauche » / « à droite »). Les adverbes
« here » et « there » sont eux aussi définis par rapport à la position du locuteur, centre du
référentiel spatial.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
73
La deixis temporelle, finalement, adopte un comportement similaire à celui de la deixis
spatiale (Levinson 1983 : p. 73) : elle aussi comporte une composante pure (avec des
expressions telles que « maintenant » ou « now ») et une composante complexe mêlant deixis
temporelle pure et unités conventionnelles (avec des expressions telles que « aujourd’hui » ou
« today »).
Même la deixis temporelle pure présente une structure dérivée de la deixis spatiale,
comme on peut le voir (cf. Anderson & Keenan 1985 : p. 298 ; Levinson 2004 : p. 137) avec :
• l’utilisation de prépositions spatiales (« à midi », « in / on time », « on Monday »,
etc.) ;
• l’utilisation de démonstratifs spatiaux (« cette semaine », « this month », etc.) ;
• la dichotomie « now » / « then », parallèle à « here » / « there » ;
• la métaphore d’un temps mouvant (« la semaine passée », « the coming week », etc.) ;
• ou encore l’origine des adverbes tels que « after » dérivé du vieil anglais « æfter »,
« derrière » du germanique commun *aftar-.
Pour résumer, on pourra donc considérer que la deixis toute entière s’organise
fondamentalement autour de « je », élément premier de la deixis personnelle ; vient ensuite la
deixis spatiale, dérivée de cette dernière, puis la deixis temporelle, elle-même appréhendée
comme une abstraction de la deixis spatiale.
Concernant la relation deixis-anaphore dans le cadre de la personne grammaticale,
Benveniste 1966 (pp. 231-232) propose une double relation imbriquée opposant d’une part la
première personne à la deuxième (« corrélation de subjectivité » mentionnée plus haut) et
d’autre part le couple première-deuxième personne à la non-personne dont « il » représente
l’archétype (« corrélation de personnalité ») :
« On voit maintenant en quoi consiste l’opposition entre les deux premières personnes du verbe et
la troisième. Elles s’opposent comme membres d’une corrélation, qui est la corrélation de
personnalité : « je-tu » possède la marque de personne ; « il » en est privé. La « troisième
personne » a pour caractéristique et pour fonction constantes de représenter, sous le rapport de la
forme même, un invariant non-personnel, et rien que cela. » (Benveniste 1966 : p. 231)
De manière comparable, Lyons 1977, suivi par Levinson (1983 : p. 69) et 2004 : p.
133), propose de décrire le pronom de troisième personne à l’aide de la matrice de traits (-S, -
A), soit personne non-locuteur et non-interlocuteur. On peut donc considérer que d’un point
Chapitre 2 – Eclairages sur l’anaphore en linguistique
74
« I » « you »
Anaphore
« s/he »« it »
de vue conceptuel, l’anaphore, notamment représentée par le pronom de troisième personne,
constitue un phénomène construit par contraste vis-à-vis du phénomène plus fondamental de
la deixis personnelle. Cette proposition de structuration est représentée dans la figure 5 ci-
dessous :
Figure 5: Structure des systèmes déictiques personnel, spatial et temporel pour l’anglais
(la structure est identique pour le français).
2.4 Synthèse
En résumé, on pourra dire que les phénomènes de deixis et d’anaphore sont tous deux
fondés sur un principe de fonctionnement indexical (cf. Nunberg 1993 et Récanati 2002) qui
correspond à une procédure binaire consistant à se donner un index dans le contexte global de
communication (situation ou co-texte respectivement) avant de pouvoir accéder au référent
visé. La première distinction ainsi opérée consiste à considérer le site de l’index comme
élément déterminant : la deixis implique un index dans la situation personnelle, spatiale,
temporelle, textuelle ou discursive, alors que l’anaphore implique traditionnellement que son
index soit présent dans le texte et lui seul.
Nous allons à présent passer en revue quelques uns des problèmes classiques attachés à
cette vision de l’anaphore et de la deixis après avoir mis en évidence quelques uns des écueils
rencontrés par la théorie milnérienne de l’anaphore.
Deixis spatiale
Deixis personnelle
« here » « this »
« now »
« there »« that »
« then »
Deixis temporelle
Chapitre 2 – Eclairages sur l’anaphore en linguistique
75
3 Principaux problèmes des descriptions classiques
3.1 La théorie milnérienne
Dans cette section, nous allons tenter de montrer les problèmes posés par l’approche
milnérienne de l’anaphore, non pas en tant que telle, mais en tant que représentante explicite
d’une interprétation « localiste » (Charolles 1992) ou « antécédentiste » (Apothéloz 1995) du
phénomène.
3.1.1 Saturation sémantique
Le concept de saturation sémantique, rappelons-le, est selon Milner 1989 lié à la
capacité d’une expression nominale à obtenir une référence actuelle sur la base de sa
référence virtuelle : ainsi, plus la référence virtuelle d’une expression est complexe, plus cette
expression est saturée sémantiquement et plus elle sera à même d’avoir une référence actuelle
en contexte sur la base de cette référence virtuelle. On pourrait alors penser que la saturation
sémantique et la capacité à obtenir une référence actuelle en contexte sont deux aspects d’un
phénomène unique.
Il n’en est rien car, comme le montre l’exemple des pronoms de première et de
deuxième personne, des expressions peuvent avoir une garantie de référence actuelle sans
pour autant être dotées d’une forte saturation sémantique. De manière complémentaire, une
expression saturée sémantiquement, telle qu’une description définie du type « le chapeau mou
gris », n’a aucune chance de pouvoir obtenir une référence actuelle sans prendre en
considération des éléments situationnels au sens le plus large (coordonnées spatio-
temporelles, intentions du locuteurs, …)23.
Face à ce constat, Moeschler & Reboul (1994 : p. 361-372) propose de complémenter la
notion de saturation sémantique par celle de saturation référentielle :
« Une expression référentielle donnée est saturée référentiellement si, étant donné un contexte et la
référence virtuelle de l’expression en question, on peut lui attribuer un référent. » (Moeschler &
Reboul 1994 : p. 362)
Cette proposition constitue selon nous une tentative forcenée de sauvetage du concept
de référence virtuelle ; en effet, il nous semble plus approprié, comme le soulignent eux-
mêmes les auteurs dans le cade de la référence déictique (ibid. : pp. 364-365), de remplacer
23 On reconnaît ici le problème, classique en philosophie du langage, de l’incomplétude des descriptions définies.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
76
concept de référence virtuelle par le couple « signification conceptuelle » / « signification
procédurale » (Blakemore 1987 ; Sperber & Wilson 1990). Nous détaillerons cette position
plus loin dans ce travail de thèse (cf. chapitre 4, §1.1.1).
3.1.2 L’anaphore pronominale : coréférence et reprise
Rappelons-le, la définition milnérienne de l’anaphore pronominale est fondée sur les
deux concepts que sont la coréférence et la reprise :
« Prise en elle-même, l’anaphore pronominale usuelle n’est rien d’autre que la combinaison de la
coréférence et de la reprise. » (Milner 1982 : p. 20)
Nous l’avons vu (§ 1.2.1), c’est la coréférence virtuelle qui occupe en fait une place
centrale dans la théorie milnérienne de l’anaphore pronominale : en termes triviaux,
qu’importe la coréférence actuelle pourvu que l’on ait la coréférence virtuelle … Le problème
des référents dits évolutifs, cependant, pose un problème majeur à cette position. Examinons
l’un des exemples donnés par Kleiber à ce propos :
« Prenez quatre pommes. Pelez-les, coupez-les et évidez-les. Faites-les cuire pendant ½ heure.
Broyez-les jusqu’à ce qu’elles soient complètement réduites et, après les avoir laissées refroidir,
servez-les avec des petits gâteaux. » (Kleiber 1997 : p. 12)
Dans cet exemple, le pronom final « les » de « servez-les » n’entre évidemment pas
dans une relation de coréférence actuelle avec l’expression « quatre pommes » du début du
passage. Mais force est de constater qu’il n’y a pas non plus dans ce cas de coréférence
virtuelle entre ces deux unités : la référence virtuelle du pronom final « les » de « servez-les »
n’est pas récupérée par transfert de celle de l’expression nominale « quatre pommes » ; si
référence virtuelle il y a, cette référence serait plutôt celle d’une expression telle que « quatre
pommes pelées, coupées, évidées, cuites pendant ½ heure, complètement réduites et
refroidies », absente en tant que telle du texte. On est donc ici en présence d’un cas
d’anaphore sans coréférence actuelle et sans coréférence virtuelle.
Le concept de reprise24 semble pour le moins nébuleux dans la théorie de Milner (cf.
Moeschler & Reboul 1994 : p. 354-356). Rappelons-nous néanmoins de la définition
présentée par l’auteur :
« C’est là justement ce que l’on entend par anaphore pronominale : elle combine […] la relation
symétrique de coréférence et une relation asymétrique, qu’on peut dire de reprise, entre deux
termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid., p. 19)
24 Le lecteur désireux d’approfondir cette notion lira Trouilleux 2001 avec profit.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
77
La reprise est donc à comprendre comme une relation de dominance/dépendance entre
l’unité autonome anaphorisée et l’unité non-autonome (le pronom) qui l’anaphorise. Deux
cadres principaux peuvent être donnés à cette proposition : l’un syntaxique et l’autre
sémantique.
Dans un cadre syntaxique, cette relation n’est pas sans rappeler les principes
chomskiens de liage (Chomsky 1981) mentionnés en introduction ; nous répèterons alors que
ces contraintes, sont uniquement valides à l’intérieur du domaine de la phrase (unité
maximale de la syntaxe) ; or, comme le souligne justement Moeschler & Reboul 1994 :
« la coexistence dans une même phrase de deux termes référentiels, l’un pourvu d’autonomie
référentielle alors que l’autre en est dépourvu, n’implique en rien que ces deux termes soient liés
par une reprise, ni, à plus forte raison, par une anaphore. » (Moeschler & Reboul 1994 : p. 355)
L’exemple suivant montre une configuration de ce type :
Ex (16) Mathieui est très étonné. Jeanj a bu tout soni/j rosé.
Le possessif « son » est lié dans son domaine et peut donc fort bien référer à l’individu
désigné par le nom « Jean » (principe B). Mais on remarquera aussi que le référent de « son »
pourrait aussi fort bien être l’individu désigné par le nom « Mathieu » dans la phrase
précédente ; cette possibilité montre bien le caractère non nécessaire de la reprise au sein du
domaine phrastique.
Le second cadre interprétatif, sémantique celui-là, semble plus défendable : la relation
de reprise est alors liée au processus de saturation sémantique coextensif avec la récupération
de la référence virtuelle de l’unité autonome par l’unité non-autonome ; ce processus
n’implique pas de domaine d’application particulier et peut donc être considéré comme inter-
phrastique. Une telle conception, dans la droite file de la tradition « antécédentiste », se heurte
cependant à des cas d’anaphore sans antécédent linguistique explicite (anaphore situationnelle
par exemple, dont nous allons parler en § 3.2). La réponse classique (cf. Wiese 1983, cité dans
Cornish 1999) consiste à postuler l’existence d’un antécédent linguistique implicite dont le
genre (pour le français) et le nombre conditionnerait ceux de l’expression anaphorique.
Observons l’exemple (17) emprunté à Cornish 1999 :
Ex (17) [Dans une piscine découverte du Sud-Ouest de la France. Un client à l’accueil
s’adressant à F. Cornish qui partait :]
Elle est froide ?
Chapitre 2 – Eclairages sur l’anaphore en linguistique
78
Cet exemple confirme une tendance générale qui consiste à recourir par défaut à un nom
appartenant à la catégorie de base (« basic-level category » selon Rosch 1978) à laquelle le
référent désigné appartient ; dans ce cas précis, le terme féminin « eau » constitue la catégorie
de base pertinente et justifie donc le choix du pronom « elle » ; toutes choses étant égales par
ailleurs, un cabriolet sera ainsi par défaut désigné à l’aide du pronom « elle », justifié par le
recours à la catégorie de base « voiture ».
Il est cependant important de noter que ce mode de fonctionnement n’est qu’un mode
par défaut (Kleiber 1994) et que le locuteur peut fort bien choisir un nom super-ordonné (et
non pas le nom désignant la catégorie de base), comme le montre l’exemple suivant cité dans
Cornish 1999 (p. 136) :
Ex (18) [Chez un antiquaire : le vendeur rassure le client intéressé par un guéridon
endommagé]
Il est facile à réparer.
Cet exemple montre que les intentions du locuteur (flatteuses et commerciales en
l’espèce) peuvent l’amener à utiliser une forme anaphorique dont le genre ne correspond pas
avec celui du nom désignant la catégorie de base (« table »), mais plutôt, comme ici, avec le
genre du terme directement super-ordonné (correspondant à « guéridon » qui désigne la classe
dont l’élément présent est une occurrence)25.
Si l’on s’en tient à la vision strictement linguistique proposée par exemple par Wiese
1983 (ce qui n’est le cas ni dans Kleiber 1994 ni dans Cornish 1999), force est de constater
que la dépendance du pronom vis-à-vis de l’unité autonome qu’il est supposé anaphoriser
repose dans ces cas sur la convocation ex-nihilo (si l’on ne veut pas recourir à la situation
d’énonciation) de la référence virtuelle d’une unité autonome. En d’autres termes, cette vision
reviendrait à dire que le pronom obtient sa référence virtuelle de manière indirecte et
indépendamment du cotexte, ce qui est contraire au principe de reprise évoqué par Milner
1982.
On pourra résumer cette section en insistant sur le fait que la conception linguistique
stricte classique (« antécédentiste ») de l’anaphore dont Milner 1982 est un exemple n’arrive
pas à capturer l’ensemble des phénomènes correspondant aux différents types d’anaphores
25 L’objectif, comme l’explicite Cornish 1999 (p. 136), est ici sans doute de marquer l’appartenance commune
du locuteur et de l’interlocuteur à la communauté des amateurs d’antiquités.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
79
rencontrés dans les discours avérés. Cette vision du concept d’anaphore semble donc
présenter quelques problèmes « absolus » ou « internes », aggravés, comme nous allons le
voir à présent, par un ensemble de problèmes liés à la relation contrastive que ce concept
entretient avec la deixis (nous parlerons de problèmes « relatifs » ou « externes »).
3.2 Deixis et anaphore
Nous l’avons suggéré, nombre d’études classiques sur l’anaphore et la deixis proposent
une vision qui consiste à considérer que les phénomènes d’anaphore et de deixis sont
respectivement liés au texte et à la situation d’énonciation. C’est par exemple la position de
Récanati 2002 (qui cite ici les démonstratifs comme éléments de la catégorie des déictiques) :
« For demonstratives the index is a position in space ; for anaphoric pronouns, it is a position in
‘discourse space’, i.e. an argument position articulated in the surrounding discourse […]. »
(Récanati 2002 : p. 28)
De manière similaire, la distinction (devenue classique) de Halliday & Hasan 1976 entre
« endophore » et « exophore » postule que :
• les déictiques sont « exophoriques » : ils signalent la nécessité de récupérer leur
référent dans la situation d’énonciation (Halliday & Hasan 1976 : p. 33) ;
• les anaphoriques sont « endophoriques » : ils signalent la nécessité de récupérer leur
référent à partir du texte (Halliday & Hasan 1976 : p. 33).
« We shall find it useful in the discussion to have a special term for situational reference. This we
are referring to as EXOPHORA, or EXOPHORIC reference; and we would contrast it with
ENDOPHORIC as a general name for reference within the text. » (Halliday & Hasan 1976 : p. 33)
La figure 6 ci-après est une reproduction du schéma présenté par Halliday & Hasan
illustrant cette distinction :
Chapitre 2 – Eclairages sur l’anaphore en linguistique
80
Reference
[situational] [textual]
exophora endophora
[to preceding text] [to following text]
anaphora cataphora
Figure 6 : Types de référence selon Halliday & Hasan 1976.
Deux familles principales de problèmes semblent pouvoir être identifiées au sein de
cette opposition classique deixis/anaphore :
• d’une part, la frontière entre formes déictiques et formes anaphoriques semble
mouvante et difficile à tracer et l’on en vient à se demander si ce sont des formes ou
des usages que l’on devrait classer sous chaque catégorie ;
• d’autre part, de nombreux cas d’usages déictique ou anaphorique semblent ne pas
suivre ces archétypes : il y a ainsi des cas de deixis dépendante du texte, mais aussi
des cas d’anaphore sans support textuel …
Nous allons donc traiter ces deux familles de problèmes de manière séquentielle, en
commençant notre étude par la thématique de la typologie des formes indexicales.
3.2.1 Typologie des formes indexicales
Premier constat, si l’on considère souvent qu’il existe des formes déictiques dédiées
(« indexicaux purs » tels que « je » et « tu » ; cf. Nunberg 1993), on ne peut pas considérer de
manière similaire que l’anaphore peut piocher dans un réservoir de formes spécifiques ;
comme nous l’avons précisé en introduction :
• les descriptions définies peuvent avoir des usages génériques en première mention ;
• les descriptions démonstratives peuvent être déictiques (elles sont même premièrement
déictiques pour nombre d’auteurs), notamment lorsqu’ils sont accompagnés d’un geste
ou d’une configuration prosodique particulière ;
• les pronoms (démonstratifs et personnels), dans les mêmes conditions que les
descriptions démonstratives, peuvent eux aussi être déictiques.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
81
Il semble donc y avoir une dissymétrie marquée entre anaphore et deixis concernant la
possibilité d’une typologie privative. A bien y regarder cependant, on se rend compte du fait
que même les formes déictiques dites dédiées peuvent se voir soumises à des contraintes
textuelles, notamment dans le cas du discours rapporté au style direct (comme dans « Paul
m’a dit : " Je dois partir maintenant " » ou « je » ne renvoie pas au locuteur de l’énoncé
global)26.
On notera aussi inversement (cf. Mittchel 1986 ; Partee 1989 ou Nunberg 1993) que des
expressions insoupçonnées peuvent entrer dans la catégorie des déictiques : on pourrait ainsi
penser à des termes tels que « ennemi », « local », « nearby », etc. Considérons l’exemple
(19) ci-dessous emprunté à Nunberg 1993 :
Ex (19) The Times had every reporter cover a local athlete.
On peut donner à « local » trois interprétations selon qu’il est sous le contrôle :
• du sujet « The Times » : l’interprétation de « local » dépendrait donc de l’emplacement
de la rédaction du quotidien ;
• de l’expression quantifiée « every reporter » : l’interprétation de « local » serait alors
distribuée et dépendrait de l’emplacement de chaque journaliste ;
• de la situation d’énonciation : l’interprétation de « local » serait dans ce cas
équivalente à celle de l’expression « from around here ».
Ceci nous pousse à constater qu’un inventaire contrastif des formes déictiques et des
formes anaphoriques est inenvisageable si l’on prend en considération le vaste panel des
usages possibles. Une issue optimiste à ce problème consisterait à dire qu’il est en revanche
possible de présenter un ensemble fini des expressions indexicales : pronoms personnels et
démonstratifs, descriptions définies et descriptions démonstratives. Mais, comme nous venons
de le voir, des expressions comme « an enemy attack », qui n’appartient pas à cet inventaire,
comporte une dimension indexicale indéniable.
Il semble donc, même si les formes les plus communes constituent un ensemble fini et
relativement bien déterminé, que l’on doive raisonner en terme d’usage déictique ou
anaphorique d’expressions indexicales plutôt qu’en terme de formes spécifiques. Cependant, 26 Levinson 2004 rangerait sans doute cet usage dans la catégorie « transposé ». Notons que ce constat est à
l’origine de nombreux travaux énonciatifs dans le cadre de la polyphonie (on pensera par exemple à Ducrot
1984), thématique qui dépasse amplement le cadre de ce travail.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
82
comme nous allons à présent le voir, tout ne s’arrange pas soudain avec ce changement de
perspective.
3.2.2 Typologie des usages indexicaux
Levinson 2004 (à la suite de Levinson 1983 et de Diessel 1999), dans le cadre d’une
analyse des démonstratifs comme représentants des formes déictiques, propose l’organisation
suivante des usages indexicaux :
Figure 7 : Classification des usages indexicaux selon Levinson 2004 (corrigé27).
« The relations between these uses are probably more complex thant this taxonomy suggests, but it
is clearly not sufficient to distinguish simply between exophoric (deictic) and endophoric (non-
deictic) at the highest branch […] since discourse deixis is intra-text but deictic, and empathetic
and recognitional uses are extra-text but non-deictic. » (Levinson 2004 : pp. 118-119)
En effet, une telle typologie des usages indexicaux, bien qu’elle soit plus détaillée que
celle esquissée précédemment, n’est pas sans poser de nombreux problèmes. Sans entrer trop
en détail dans le cœur de ce problème28, nous noterons tout de même qu’il existe certaines
catégories « frontière » dont l’existence même semble être la conséquence d’une tentative
d’accommodation.
C’est le cas notamment de la catégorie de la deixis textuelle, seule catégorie déictique à
ne pas être exophorique. Trois types de phénomènes assimilés à cette catégorie sont
particulièrement problématiques : 27 La version d’origine de ce schéma duplique à tort la catégorie anaphore, à la fois en tant que point terminal
frère de cataphore (ce qui est correct), et en tant que nœud parent de ces deux points terminaux (ce qui est selon
nous maladroit ou erroné). 28 Nous nous livrerons à une analyse détaillée de ces problèmes chapitre 4, § 1.1.2 et proposerons un certains
nombre de solutions liées à l’adoption d’une approche discursive.
endophoric
Chapitre 2 – Eclairages sur l’anaphore en linguistique
83
Le premier phénomène majeur problématique pour une typologie stricte des usages
indexicaux concerne des énoncés tels que celui présenté en (20) ci-dessous :
Ex (20) I’ve been living in San Francisco for 5 years and I love it here.
Cet exemple emprunté à Levinson 2004 (p. 99) semble constituer un cas intéressant,
considéré par certains locuteurs comme à la fois déictique et anaphorique ; le fonctionnement
déictique de « here », dans ce cadre, est présenté comme sous le contrôle de l’expression
anaphorisée « San Francisco ». Ce type de fonctionnement est contraire à la vision classique
qui exclut la possibilité de cumuler les usages déictique et anaphorique pour une occurrence
donnée29.
Les « pronoms de paresse » (« pronouns of laziness »), deuxièmement, identifiés à
l’origine par Geach 1962 (pp. 125ff), sont eux aussi problématiques ; l’exemple (21) ci-
dessous, emprunté à Karttunen et cité par Lyons 1977 (p. 673) donne un exemple de ce
phénomène :
Ex (21) The man who gave his paycheque to his wife was wiser than the man who
gave it to his mistress.
Dans cet exemple, le pronom « it » n’est pas coréférentiel avec « his paycheque », mais
réfère à ce à quoi une répétition de ce groupe nominal aurait référé s’il avait occupé cette
position (en l’occurrence, la fiche de paie de l’homme qui l’a donnée à sa maîtresse).
Finalement, un échange tel que l’exemple (22) est lui aussi délicat :
Ex (22) A : I’ve never seen him.
B : That’s a lie.
Cet exemple est caractérisé par le fait que le démonstratif « that » semble ne référer ni à
une entité désignée (ou introduite) par un élément de l’énoncé de A, ni à cet énoncé envisagé
en tant que portion précédente du texte. Nous n’avons ainsi affaire ni à une anaphore ni à une
véritable deixis textuelle. Lyons 1977 (p. 670) parle dans ce cas de « deixis textuelle impure »
(« impure textual deixis »).
29 Cf. la tradition remontant à Apollonios Dyscole qui stipule qu’un pronom donné doit être soit déictique soit
anaphorique. On notera cependant que Halliday & Hasan 1976 (pp. 36-37) n’exclut pas ce d’usage combiné.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
84
En conclusion, ce rapide parcours montre que, même si l’intuition nous invite à
percevoir deux phénomènes distincts, une catégorisation binaire, tout comme une
catégorisation plus complexe des usages référentiels, fondée sur les concepts d’endo- et
d’exophoricité, semble incapable de décrire et d’expliquer nombre d’exemples fondamentaux.
4 Synthèse générale
Ce second chapitre nous a permis de passer en revue un ensemble de conceptions
linguistiques classiques de l’anaphore.
Ainsi, dans un premier temps, nous avons détaillé la position antécédentiste concernant
l’anaphore en montrant comment la théorie de Milner 1982 rendait compte de ce phénomène.
Nous avons ainsi introduit les concepts de référence et de coréférence virtuelles et actuelles et
d’autonomie sémantique afin de caractériser notamment l’anaphore pronominale comme
impliquant un processus de saturation sémantique d’une unité non-autonome (l’anaphorisant)
par transfert de la référence virtuelle d’une unité autonome (l’anaphorisé). Nous avons
finalement avec Milner 1982 insisté sur le caractère apparemment fondamental de la
coréférence virtuelle dans le cadre de l’anaphore pronominale. Cette analyse nous a permis de
clarifier le caractère commun de non-autonomie référentielle qui unit notamment les pronoms
déictiques et les pronoms anaphoriques.
La seconde partie de ce chapitre a consisté en un survol des notions de deixis et
d’anaphore en tant que phénomènes indexicaux. Plus particulièrement, nous avons profité de
cette étude pour introduire la notion classique de dépendance des indexicaux vis-à-vis de la
situation d’énonciation (pour les déictiques) ou du texte (pour les anaphoriques). Finalement,
nous avons passé en revue un ensemble d’arguments phylogénétiques et ontogénétiques
plaçant la deixis au cœur de l’indexicalité et présentant l’anaphore comme un phénomène
dérivé.
Dans la dernière partie, nous avons tenté de donner un aperçu des limites de ces
conceptions classiques (l’anaphore en tant qu’incomplétude ; anaphore et deixis comme
formes indexicales liées à la situation ou texte) en proposant des perspectives liées plus
particulièrement à la prise en compte des aspects descriptif et procédural de la signification de
ces unités et en suggérant que l’opposition classique entre anaphore et deixis en termes de
sites de résolution différents (texte vs. situation) posait de nombreux problèmes.
Chapitre 2 – Eclairages sur l’anaphore en linguistique
85
C’est donc sur un apparent constat d’échec descriptif des approches traditionnelles de
l’indexicalité en général et de l’anaphore en particulier que ce chapitre pourrait sembler se
terminer. Mais, s’il est vrai que nombreux sont les problèmes non résolus par ces approches, il
serait faux de les considérer insolubles pour autant. En effet, tout comme, pour l’évolution de
la thématique de la référence (chapitre 1), nous pensons que le traitement de l’anaphore a
suivi une évolution du logico-philosophique vers le pragmatico-cognitiviste. Ce changement
de perspective s’est d’autre part accompagné d’une changement d’échelle : la thématique de
l’anaphore semble en effet se départir de l’analyse de phrases isolées, pour se diriger vers la
prise en considération des phénomènes à une échelle différente que certains qualifieront de
discursive. Nous pensons ainsi que les développements récents de l’analyse du discours, bien
que posant de nouvelles questions, permettent de jeter un éclairage nouveau sur les problèmes
mentionnés ici. Le discours, perçu de manière plus holistique à la fois en tant que processus
interactif cognitif et situé et en tant que produit textuel de ce processus dessine donc un
nouvel horizon pour l’anaphore vers lequel nous allons à présent nous tourner avec la seconde
partie de cette thèse.
87
Partie 2 :
Discours et anaphore
Partie 2 – Discours et anaphore
88
Les deux précédents chapitres ont été pour nous l’occasion d’une part de poser un cadre
dynamique général à notre approche, et d’autre part de replacer le thème de l’anaphore dans
son contexte linguistique plus traditionnel et antécédentiste, que ce soit du point de vue d’une
linguistique stricte telle que celle prônée par Milner, ou bien dans le cadre d’une pragmatique
d’inspiration logico-philosophique, en opposition avec le concept de deixis. Nous avons de
plus montré certains des problèmes posés par ces descriptions du phénomène anaphorique et
avons suggéré quelques pistes en direction du discours.
C’est donc de manière tout à fait naturelle que nous allons nous tourner dans cette
seconde partie vers une présentation de ces potentielles solutions discursives aux
« problèmes » de l’anaphore. Cette démarche nécessite l’explicitation préalable de ce concept
de discours si populaire en linguistique contemporaine, et pourtant si insaisissable.
En conséquence, nous consacrerons le premier des deux chapitres de cette partie
(chapitre 3) à cette tâche d’explicitation. Plus particulièrement, nous tenterons de placer le
concept de discours dans une perspective dynamique comparable à celle adoptée dans notre
premier chapitre et nous attarderons sur l’émergence du phénomène, depuis la phrase et le
texte. Nous soulignerons aussi la multidimensionnalité inhérente à ce concept avant de
questionner la pertinence de sa catégorisation en tant qu’unité.
Le chapitre suivant (chapitre 4) sera plus particulièrement consacré à la présentation de
certaines solutions discursives aux problèmes posés par la description traditionnelle de
l’anaphore, mais aussi à l’évocation de nouveaux problèmes posés par ce changement de
cadre. Nous présenterons aussi dans ce contexte les concepts fondamentaux de la Théorie du
Centrage, développée à partir de la théorie de Grosz & Sidner 1986 qui aura été présentée au
chapitre 3 et qui constituera en quelque sorte un fil rouge théorique parcourant la plupart des
parties de cette thèse. Nous terminerons le second chapitre de cette seconde partie par une
proposition de renversement de la vision de l’anaphore discursive qui, souvent perçu comme
problème à « résoudre » (« résolution » de l’anaphore), pourra aussi être abordée comme un
élément fondamental de la dynamique du discours.
89
Chapitre 3
Approches du discours
90
Chapitre 3 : Sommaire
1 De la phrase au discours ............................................................................... 92 1.1 Linguistique textuelle : la transition linguistique stricte............................................. 93 1.2 L’approche fonctionnaliste ............................................................................................ 94
1.2.1 Aspects relationnels ............................................................................................... 94 1.2.2 Aspects informationnels......................................................................................... 96
1.3 La charnière informationnelle ....................................................................................... 97 1.4 Cohérence, texte et discours......................................................................................... 101 1.5 Synthèse ......................................................................................................................... 103 2 Le discours multidimensionnel .................................................................. 103 2.1 Attention, intentions et structure du discours ............................................................ 104
2.1.1 La structure linguistique....................................................................................... 105 2.1.2 La structure intentionnelle ................................................................................... 105 2.1.3 L’état attentionnel ................................................................................................ 107
2.2 Un modèle hétérarchique du discours......................................................................... 110 2.2.1 Influences ............................................................................................................. 111 2.2.2 Structure du modèle ............................................................................................. 113
2.3 Synthèse ......................................................................................................................... 117 3 Un object « discours » ? .............................................................................. 118 3.1 Quel objet « discours » ? .............................................................................................. 118
3.1.1 Discours vs. texte ................................................................................................. 118 3.1.2 Discours et cohérence .......................................................................................... 121
3.2 A-t-on besoin d’un objet « discours » ?....................................................................... 127 3.2.1 RT et la cognition................................................................................................. 127 3.2.2 RT et la communication....................................................................................... 128 3.2.3 RT et la compréhension ....................................................................................... 129 3.2.4 Synthèse ............................................................................................................... 130
4 Synthèse générale ........................................................................................ 130
Chapitre 3 – Approches du discours
91
Le chapitre 2 nous a permis d’expliciter quelques unes des conceptions dites classiques
de l’anaphore en linguistique ; on retiendra notamment le concept d’incomplétude sémantique
des expressions anaphoriques et l’opposition deixis / anaphore fondée notamment sur les sites
respectifs de résolution30 de ces expressions. Mais le chapitre 2 se terminait, rappelons-le, sur
un constat d’inadéquation de ces descriptions classiques avec les données : on pensera
notamment aux problèmes liés aux antécédents absents du co-texte, à l’anaphore pronominale
sans coréférence virtuelle, ou encore aux problèmes liés aux typologies classiques des formes
déictiques et anaphoriques.
Face à ces problèmes, une solution envisageable consiste à dépasser un modèle
linguistique fermé31 en direction d’une conception plus pragmatico-cognitive du langage.
Qu’on ne nous méprenne pas concernant ce point de vue : l’adoption d’un cadre différent ne
remet pas nécessairement en cause la pertinence des travaux appartenant à une approche
précédente ; en l’occurrence, tout comme l’évolution de la thématique de la référence vers le
pragmatico-cognitif n’a bien évidemment pas rendu caduques les approches sémantiques et
philosophiques de la question, l’adoption d’un cadre discursif, pragmatique et cognitif pour
l’anaphore ne remet pas en cause les apports fondamentaux d’une forme plus traditionnelle de
linguistique ; bien au contraire, ce changement de cadre est destiné à favoriser un dialogue
nouveau entre des points de vue certes différents mais, on peut raisonnablement l’espérer,
complémentaires …
Mais cette solution entraîne aussi un deuxième changement, plus méthodologique celui-
là, consistant pour le linguiste à quitter le confort rassurant de la phrase construite pour
s’aventurer dans l’univers sauvage des données discursives authentiques. Notre position
concernant ce point sera plus radicale : la seule utilisation de données uniquement validées
par le chercheur nous semble dangereuse et néfaste ; elle a nécessairement tendance à
conforter le linguiste dans ces conceptions et souvent à confirmer ses intuitions profondes. Pis
encore, ce type de fonctionnement, une fois un « modèle » arrêté, compromet toute évolution
conceptuelle non motivée par les affirmations d’un collègue contradicteur ou la rencontre
hasardeuse de données nouvelles …
Nous pensons donc pour résumer que ce double changement de cadre et de méthode,
vers le discursif et le cognitif et vers les données attestées constitue une politique de recherche 30 Bühler (1934) parle de « champs déictiques ». 31 cf. Reboul & Moeschler 1998 pour des détails sur l’opposition démarche scientifique fermée vs. démarche
scientifique ouverte.
Chapitre 3 – Approches du discours
92
au moins souhaitable dans le cadre de l’anaphore si l’on espère apporter une réponse unifiée
aux problèmes nombreux non résolus par les approches classiques évoquées dans le chapitre
2.
Il est cependant nécessaire, avant de nous livrer à l’étude des relations de l’anaphore et
du discours à proprement parler, de tenter de définir le concept de discours. C’est cette tâche
de définition qui va constituer l’objectif des trois sections de ce chapitre.
Dans la première section, nous nous livrerons tout d’abord à une analyse du passage
progressif de la linguistique de l’unité « phrase » à l’unité « discours » par l’intermédiaire de
l’unité « texte » et par le biais de la dimension informationnelle ; la notion de cohérence sera
finalement questionnée en relation avec les concepts de texte et de discours.
Seront ensuite abordées, dans la seconde section, des approches plus cognitives et
multidimensionnelles du discours, prenant en compte certains des nombreux aspects
(linguistiques, psychologiques, sociaux, etc.) qui président à la production et à la
compréhension discursives.
La troisième et dernière section sera le lieu d’un questionnement central sur la nature
même du discours ; nous nous interrogerons notamment sur la pertinence d’une conception,
dominante, du discours en tant qu’objet linguistique, avant d’évoquer quelques alternatives
que nous jugeons intéressantes.
Nous terminerons ce chapitre par une synthèse générale qui reprendra les principaux
points développés dans ce chapitre et nous permettra de proposer une définition opératoire du
discours que nous emploierons dans le chapitre suivant pour apporter des réponses aux
problèmes anaphoriques que nous avons pu soulever.
1 De la phrase au discours
Comme nous l’avons suggéré en introduction, nous pensons que l’adoption d’un cadre
d’analyse discursif concernant l’anaphore offre des perspectives intéressantes pour les
problèmes liés à l’anaphore. Reste cependant à définir de manière précise notre conception de
ce cadre avant d’en aborder les apports.
En conséquence, cette section sera dédiée à une réflexion « historique » et conceptuelle
au cours de laquelle nous tenterons dans un premier temps de retracer les grandes lignes de
l’évolution du concept de discours, depuis les notions de phrase et de texte.
Chapitre 3 – Approches du discours
93
Dans un deuxième temps, nous étudierons l’adoption d’une conception plus
fonctionnaliste du discours qui proposera la distinction d’un niveau informationnel comme
support de la cohérence textuelle.
La troisième partie de cette section traitera de manière plus détaillée de cette charnière
informationnelle qui a ouvert la voie à une conception plus pragmatique et cognitive du
discours ; nous aborderons notamment dans ce contexte plusieurs approches proposant,
contrairement à la proposition originelle des fonctionnalistes, une classification non plus
binaire mais graduelle du statut de l’information.
1.1 Linguistique textuelle : la transition linguistique stricte
L’un des premiers stades de l’évolution d’une partie de la linguistique vers le discours
correspond sans doute au courrant appelé « linguistique textuelle ». En effet, si, depuis
l’antiquité, certains se sont préoccupés de l’organisation de phénomènes de langue dépassant
le cadre de la phrase, l’objectif et les méthodes étaient alors plutôt littéraires ou rhétoriques.
Comme l’indique Charolles 1988, la linguistique textuelle, ou « grammaire de texte »
s’intéresse à « la capacité des locuteurs natifs à distinguer une suite de phrases acceptables
formant un texte d’une suite ne formant pas un texte » (Charolles 1988 : p. 46). On retrouve
ainsi en linguistique textuelle une double filiation, structurale et générativiste, dont la
méthodologie, calquée sur le paradigme de la syntaxe, consiste à essayer de trouver un
ensemble de règles expliquant la bonne formation (validée par un jugement d’acceptabilité)
d’une séquence de phrases (elles-mêmes bien formées)32.
Le jugement d’acceptabilité est ainsi justifié par les caractéristiques de bonne formation
de deux niveaux hiérarchisés : la grammaticalité pour la phrase et la cohérence pour le texte33.
Cette démarche conduira par exemple Michel Charolles (1978) à proposer un ensemble de
« méta-règles de cohérence » gouvernant la bonne formation d’un texte34. Les contre-
exemples répétés (voir par exemple Van Dijk 1972 ou Reinhart 1980) ont mené à l’abandon
de ce type d’approche structuraliste plutôt stricte et conservatrice ; Charolles reconnaît lui-
même, dix ans plus tard, l’échec de cette tentative :
32 La conception structurale qui propose de considérer le texte/discours comme une unité supérieure à la phrase
remonte à Harris 1951, premier auteur à parler d’analyse du discours d’après Schiffrin 1994. 33 cf. par exemple Brinker (1973 : p. 13), Werlich (1976 : p. 23), Maingueneau (1976 : p. 158). 34 cf. Reboul & Moeschler 1998 : pp. 15-16 pour une description.
Chapitre 3 – Approches du discours
94
« Il n’existe pas au plan du texte de règles de bonne formation qui s’appliqueraient en toutes
circonstances et dont les violations, comme c’est le cas pour la syntaxe de phrases, ‘feraient
l’unanimité’. » (Charolles 1988 : p. 52)
La prise de conscience de cet échec de l’approche générativiste du texte aurait pu
conduire à un changement fondamental de conception consistant à abandonner par la même
occasion l’héritage structuraliste et ainsi rejeter le statut d’unité pour le texte ; mais une autre
voie, empruntée à la même époque, semblait viable : c’est vers ce second type d’approche,
que nous qualifierons de « fonctionnaliste », que nous nous tournons à présent.
1.2 L’approche fonctionnaliste
Fondée, tout comme l’approche structuraliste stricte, sur le principe du statut du texte en
tant qu’unité linguistique, l’approche fonctionnaliste aborde la cohérence du texte non plus
par l’intermédiaire de règles formelles, mais sous l’angle de l’organisation thématique. Cette
approche, nommée « Functional Sentence Perspective » (FSP), adopte elle aussi un schéma
consistant à postuler un niveau d’organisation fondé sur l’organisation phrastique ; les unités
fondamentales, cependant, sont les concepts de thème et de rhème35 que Mathesius, dans les
années 1920, définit de la manière suivante36 :
• Le thème est défini de deux manières complémentaires : premièrement en tant que point
de départ de l’énoncé (« the starting-point of the utterance, that which is known or at
least obvious in the given situation, and from which the speaker proceeds ») et
deuxièmement comme ce dont on dit quelque chose dans l’énoncé (« the foundation of
the utterance, as 'something that is being spoken about in the sentence. »).
• Le rhème est ce que le locuteur dit du thème (« what the speaker says about, or in regard
to the starting point of the utterance » ; « [the rheme] expresses something new,
something unknown from the previous context »).
1.2.1 Aspects relationnels
Penchons-nous tout d’abord sur la nature relationnelle de ces définitions : le rhème est
défini relativement au thème, élément prépondérant. Cette conception est à l’origine de
35 On notera cependant que les linguistes allemands von der Gabelentz (1868) et Paul (1880) (cités dans Gundel
& Fretheim 1996) parlaient déjà de sujet et de prédicat psychologiques pour définir des concepts très similaires à
ceux de thème et de rhème respectivement. 36 Les traductions en anglais sont tirées de Firbas 1976 : p. 11 ; voir aussi Firbas 1964.
Chapitre 3 – Approches du discours
95
nombreux travaux centrés sur le concept de thème, repoussant celui de rhème en arrière
plan de l’analyse des textes ; on pensera par exemple à Halliday 1967 (p. 212) qui présente le
thème comme « the point of departure of the clause as message » et, plus tard, comme « the
peg on which the message is hung ». Plus récemment, les travaux de Francis (1994) ou Fries
(par exemple 1981, 1994 et 1995) poursuivent cette démarche fortement hiérarchisée. Dans ce
cadre, la continuité avec l’analyse textuelle se matérialise par l’utilisation de caractéristiques
phrastiques (thème et rhème) comme éléments structurant le niveau supérieur que constitue le
texte. Les travaux de Daneš sont représentatifs de ce type d’approche37 :
« The choice and ordering of utterance themes, their mutual concatenation and hierarchy, as well
as their relation to the hyperthemes of the superior text unit (such as paragraph, chapter, etc.), to
the whole text, and to the situation. Thematic progression might be viewed as the skeleton of the
plot. » (Daneš 1974 : p. 114)
La structure du texte, son « squelette », est ainsi vue avant tout comme constituée de
l’enchaînement (« concatenation ») hiérarchisé des thèmes des phrases. La cohérence d’un
texte dépend donc en définitive de la nature de ces enchaînements, la « progression
thématique »38 dont Daneš 1974 donne une typologie en trois catégories39 :
• la progression à thème constant, lorsque le thème d’une phrase Pn est conservé dans la
phrase Pn+1 ;
• la progression simple linéaire qui consiste à utiliser le rhème d’une phrase Pn comme
thème de la phrase Pn+1 ;
• la progression à thème dérivé pour laquelle les thèmes sont dérivés d’un thème
commun hiérarchiquement plus élevé.
La construction du texte se fait donc à partir du thème et se développe au sein de la
structure thématique. Dans cette perspective, la cohérence d’un texte résulte en définitive d’un
certain équilibre entre ces schémas de progression ; la quantification des fréquences relatives
37 On notera cependant que Daneš 1974 (p. 109) critique la position « pro-thématique » extrême de Halliday
1967 selon laquelle « thematization is independent of what has gone before » (p. 17) au profit d’une prise en compte
du thème mais aussi du couple thème-rhème comme éléments de la structuration du texte. 38 On retrouve le même concept dans Werlich 1976 (avec le concept « thematic expansion ») ou les travaux plus
récents de Halliday 1985 qui parle de « thematic structure », Fries 1981 et Martin 1992 qui parlent de « method
of developement ». 39 Diverses évolutions de cette approche sont disponibles par exemple dans Dubois 1987, Nwogu & Bloor 1991
ou Martin 1992.
Chapitre 3 – Approches du discours
96
de ces types de progression dans un texte permet alors une qualification plus stylistique de ce
dernier.
1.2.2 Aspects informationnels
Le second aspect majeur des définitions des concepts de thème et de rhème par
Mathesius, concerne l’orientation informationnelle qui leur semble inhérente. En effet, la FSP
postule l’existence de trois niveaux distincts de structure phrastique : un niveau
« grammatical », un niveau « sémantique » et un niveau « informationnel ». La distinction
thème / rhème appartient à ce troisième niveau, dédié à l’organisation de l’information dans
les phrases et, par extension, les textes. Dans ce contexte, le thème correspond à de
l’information déjà connue (« known or at least obvious in the given situation ») et le rhème à de
l’information nouvelle (« something new, something unknown from the previous context »).
Daneš 1966 exprime ainsi cette opposition :
« An utterance may usually be divided into two portions: the theme (or topic), conveying the
known elements, and the rheme (or comment), conveying the unknown (not given) elements of the
utterance. » (Daneš 1964 : p. 228)
Ces caractéristiques informationnelles des concepts de thème et de rhème ont à
l’évidence une dimension que nous caractériserions aujourd’hui de pragmatique et
psychologique. Risquons une remarque triviale : pour que des éléments soient « connus » (ou
« donnés ») et « inconnus » (ou « nouveaux »40), encore faut-il qu’ils soient « connus » ou
« inconnus » des participants à la communication ; les propriétés informationnelles du thème
et du rhème sont donc dans cette seconde perspective des propriétés cognitives des référents
et non des propriétés textuelles.
Ils est important de remarquer que, si tous les partisans de ce type d’approches
admettent l’existence de cette dimension cognitive (donné / nouveau) à côté de la dimension
thématique (thème / rhème), tous, en revanche, ne s’accordent pas sur les relations les
unissant et sur l’intérêt même de les conserver sur deux plans distincts. Fries 1983 parle dans
ce contexte d’une opposition entre « separating approach » (nous parlerons d’approche
« séparatrice ») et « combining approach » (que nous traduirons par « approche
syncrétique »). Notre objectif n’est pas d’entrer dans ce débat, mais nous noterons avec
Halliday 1970 et 1976 (partisan de l’approche séparatrice) que les niveaux thématique et
40 Les termes « donné » et « nouveau » appartiennent à l’approche présentée dans Chafe 1976.
Chapitre 3 – Approches du discours
97
informationnel, même s’ils se confondent souvent, constituent néanmoins deux plans distincts
de l’organisation textuelle :
« The two are independently variable and derive from different sources; given-new is a discourse
feature, while theme-rheme is not. » (Halliday 1976 : pp. 179)
1.3 La charnière informationnelle
Comme nous l’avons vu, la dimension informationnelle introduite par la FSP comporte
deux pôles organisateurs : le « donné » et le « nouveau ». Cette conception binaire a été très
rapidement remise en cause, non seulement au sein de la FSP, mais aussi par des travaux
externes, comme nous allons le voir.
Firbas 1964 oppose à cette vision dichotomique du statut de l’information une vision
plus graduelle dans laquelle chaque élément apporte sa contribution au développement du
discours en fonction de sa place au sein de la phrase : on parle dès lors de « dynamisme
communicatif » :
« By the degree of communicative dynamism carried by the sentence element we understand the
extent to which the sentence element contributes to the development of the communication, to
which it pushes the communication forward, as it were. » (Firbas 1964 : p. 270)
Dans son article-référence « Toward a taxonomy of given-new information », Prince
1981 propose elle aussi une vision moins manichéenne de l’information et notamment de la
caractéristique « givenness », le fait pour de l’information d’être « donnée ». L’auteur reprend
et classe les travaux antérieurs sous trois catégories distinctes que nous allons détailler à
présent41.
La première catégorie, comprenant les travaux de Kuno (1972 et 1978) ainsi que ceux
de Halliday (1967) et Halliday & Hasan (1976), assimile le « donné » à du prédictible ou du
récupérable :
« GIVENNESSp : the speaker assumes that the hearer CAN PREDICT OR COULD HAVE
PREDICTED that a PARTICULAR LINGUISTIC ITEM will or would occur in a particular
position WITHIN A SENTENCE. » (ibid. : p. 226)
41 Dahl 1976 fait un constat similaire sur les nombreuses acceptions des termes « donné » et « nouveau ».
Chapitre 3 – Approches du discours
98
La seconde catégorie est liée au concept de saillance ; elle correspond principalement à
l’approche développée dans Chafe 197642.
« GIVENNESSs : The speaker assumes that the hearer has or could appropriately have some
particular thing/entity/ . . . in his/her CONSCIOUSNESS at the time of hearing the utterance. »
(ibid. : p. 228)
La troisième catégorie, finalement, associe les concepts de « donné » et de « savoir
partagé »43.
« GIVENNESSk : The speaker assumes that the hearer "knows," assumes, or can infer a particular
thing (but is not necessarily thinking about it). » (ibid. : p. 228)
Prince insiste (pp. 231-232) sur le fait que ces trois conceptions de la distinction
« donné » / « nouveau » ne sont pas indépendantes : elles autorisent toutes trois un recours à
des phénomènes extralinguistiques pour justifier le statut « donné » d’un élément, et
notamment à des hypothèses sur l’état cognitif de l’interlocuteur. Dans ce cadre, Prince 1981
argumente en faveur de la primauté de l’aspect « savoir partagé » sur les deux autres.
Cependant, rejetant les implications omniscientes et réciproques du concept de savoir partagé,
l’auteur préfère forger l’expression « familiarité supposée » (« assume familiarity » ; ibid. :
p.233), attachée aux référents désignés dans le texte. Le statut informationnel de ces référents
consiste en un gradient organisé de la manière suivante (nous ne donnons que les catégories
principales par ordre croissant de familiarité supposée) :
• Un référent est nouveau (« new ») la première fois que le locuteur y réfère ; deux
possibilités existent cependant : le référent sera dit « tout nouveau » (« brand new ») si
l’interlocuteur doit créer sa représentation mentale ; le référent sera dit « non utilisé »
(« unused ») si l’interlocuteur n’a qu’à l’introduire dans sa représentation mentale,
mais pas à le créer (c’est par exemple le cas avec les référents évoqués à l’aide de
noms propres).
42 Ainsi, le « donné » correspond à « that knowledge which the speaker assumes to be in the consciousness of the
addressee at the time of the utterance » (Chafe 1976 : p. 30) et le « nouveau » est « what the speaker assumes he
is introducing into the addressee's consciousness by what he says » (Chafe 1976 : p. 30). 43 Clark & Haviland 1977, classé par Prince dans cette catégorie, présente ainsi le « donné » comme
« information [the speaker] believes the listener already knows and accepts as true » (Clark & Haviland 1977 : p.
4) et le « nouveau » comme « information [the speaker] believes the listener does not yet know » (Clark &
Haviland 1977 : p. 4).
Chapitre 3 – Approches du discours
99
• Un référent est récupérable par inférence (« inferrable ») lorsque le locuteur estime
que l’interlocuteur peut le récupérer à l’aide d’inférences soit à partir de référents déjà
désignés explicitement dans le discours (« évoqués », comme nous allons le voir ci-
dessous), soit à partir de référents eux-mêmes récupérables par inférence44 :
« A discourse entity is Inferrable if the speaker assumes the hearer can infer it, via logical-or, more
commonly, plausible-reasoning, from discourse entities already Evoked or from other Inferrables.
» (ibid. : p. 236)
• Un référent, finalement, est évoqué (« evoked ») lorsque le locuteur y a déjà référé
(« textually evoked ») ou bien lorsque la situation le rend perceptivement saillant
(« situationally evoked »)45.
Cette typologie peut être représentée à l’aide de la figure 8 ci-dessous, reproduction du
schéma de Prince 1981 (p. 237) :
Figure 8 : Catégories de familiarité supposée (reproduction de Prince 1981).
La présentation que nous venons de donner de la typologie proposée par Prince 1981 est
une simplification de la proposition originale de l’auteur ; en fait, Prince ne parle pas dans
cette typologie du statut des référents (terme plus général et lié à une approche plutôt logico-
philosophique), mais en fait du statut d’entités discursives de nature cognitive. En réalité, le
44 Nous noterons que Prince 1981 propose (p. 236) deux sous-catégories pour ce degré de familiarité supposée
(« noncontaining inferrables » et « containing inferrables »). Cette distinction n’étant pas centrale pour notre
propos, nous ne la détaillerons pas ici. 45 « Situationally Evoked entities represent discourse participants and salient features of the extratextual context,
which includes the text itself. » (Prince 1981 : p.236).
Chapitre 3 – Approches du discours
100
concept de familiarité supposée est indissociable de la conception cognitive du discours
proposée par l’auteur46 :
« Let us say that a TEXT is a set of instructions from a speaker to a hearer on how to construct a
particular DISCOURSE MODEL. The model will contain DISCOURSE ENTITIES,
ATTRIBUTES, and LINKS between entities. A discourse entity is a discourse-model object, akin
to Karttunen's (1971) DISCOURSE REFERENT; it may represent an individual (existent in the
real world or not), a class of individuals, an exemplar, a substance, a concept, etc. Following
Webber (1978), entities may be thought of as hooks on which to hang attributes. All discourse
entities in a discourse-model are represented by NPs in a text, though not all NPs in a text
represent discourse entities. » (ibid. : p. 235)
Ce sont donc les entités discursives, éléments du modèle mental, qui sont dotées d’un
degré de familiarité supposée. Le problème de la linguistique (ibid. : p. 233) consiste alors à
définir les relations qu’entretiennent les entités discursives, caractérisées par leur degré de
familiarité supposée, avec les expressions linguistiques référentielles utilisées comme
instructions dans le texte :
« The solution to the problem then may be seen as requiring three parts: (a) a taxonomy of
linguistic forms, both morphological and syntactic; (b) a taxonomy of the values of Assumed
Familiarity; and (c) an account of the correlation between the two. Structural linguistics and
transformational grammar has provided us with the first part, at least for forms that are identifiable
on the level of the sentence or less, and this chapter is an attempt to provide the second. Hopefully,
once the two taxonomies have been arrived at, further research can determine the correlation. (ibid.
: p. 233)
Par le biais informationnel, et notamment par ce que Gundel 1988 appellerait une
transition d’une approche relationnelle à une approche référentielle de la distinction « donné »
/ « nouveau », Prince 1981 constitue ainsi un excellent exemple de transition du texte vers le
discours en tant que concept cognitif47. Le programme tripartite de recherche formulé semble
avoir constitué le cadre de nombres de recherches sur le discours, notamment dans le cadre de
l’anaphore, avec, comme nous le verrons plus loin (cf. chapitre 4, § 2.2.2), de nombreuses
études concernant les corrélations entre expressions linguistiques et statut cognitif des entités
discursives.
Une question se pose alors dans ce contexte nouveau : si le discours implique des
aspects cognitifs fondés sur des éléments textuels, qu’en est-il du concept de cohérence ? La 46 Nous remarquerons que Prince ne fournit en fait pas ici de définition concernant le concept de discours lui-
même : il est ici question de « modèle discursif » construit à partir du texte. 47 Il est cependant important de ne pas oublier l’intuition précoce de Halliday 1967.
Chapitre 3 – Approches du discours
101
cohérence est-elle en définitive une propriété du texte ou d’une nouvelle unité « discours » ?
Ce sont ces thèmes de réflexion que nous allons aborder maintenant.
1.4 Cohérence, texte et discours
La cohérence, comme nous l’avons vu, a tout d’abord été considérée comme
l’équivalent textuel de la grammaticalité des phrases : on pourrait, dans cette perspective,
considérer une phrase comme grammaticale et un texte comme cohérent à la condition
expresse que chacune de ces unités respecte un ensemble de règles de bonne formation. Nous
avons vu que cette démarche avait par exemple conduit Charolles 1978 à proposer un
ensemble de 4 « méta-règles de cohérence » qui seront abandonnées quelques dix ans plus
tard.
On pourrait de plus s’inquiéter du caractère subjectif du jugement de cohérence qui
vient sanctionner les textes : la cohérence serait-elle alors une propriété psychologique
idiosyncrasique sans intérêt pour la linguistique ?
Ces deux constats (non-respect de règles de bonne formation et aspect subjectif)
pourraient conduire à rejeter le texte hors de la linguistique structurale traditionnelle ; c’est
par exemple la position de Benveniste pour qui, avec le texte,
« on quitte le domaine de la langue comme système de signes et l’on entre dans un autre univers,
celui de la langue comme instrument de communication. » (Benveniste 1966 : p. 130)
Cependant, s’il est vrai que le texte (et a fortiori le discours) échappe à la linguistique
générative stricte, échappe-t-il pour autant à la linguistique dans sa totalité ? La réponse est
bien évidemment négative, et Chomsky lui-même argumentait en 1962 en faveur d’une
« théorie pragmatique » dans le cadre de la compétence linguistique du locuteur :
« an implicit theory of the language that [the speaker] has mastered, a theory that predicts the
grammatical structure of each of an infinite class of potential physical events, and the conditions
for the appropriate use of each of these items. » (Chomsky 1962 : p. 528)
En 1978, Chomsky ira même jusqu’à proposer le concept de « compétence
pragmatique », complémentaire de celui plus connu de « compétence grammaticale », et
qui implique la connaissance des conditions et des modalités d’un usage approprié à certains
objectifs :
« knowledge of conditions and manner of appropriate use, in conformity with various purposes. »
(Chomsky 1978, p. 224)
Chapitre 3 – Approches du discours
102
Concernant l’aspect subjectif du jugement de cohérence, nous remarquerons que, même
s’il semble plus délicat à exprimer que le jugement de grammaticalité des phrases, il reste
néanmoins relativement consensuel et doit donc trouver cette stabilité dans une systémique
des textes :
« Nous ne voulons pas induire que la cohérence est une caractéristique purement subjective. Dans
un environnement socioculturel donné, à l’intérieur d’une communauté linguistique donnée, la
convergence des attentes des différents interprétants peut être si grande que l’on est autorisé à
parler de linguistique. » (Hatekeyama, Petöfi & Sözer 1984 : p. 29 ; cité dans Carter Thomas 2000
: pp. 34-35)
Cette possibilité de jugement consensuel de cohérence semble être liée au fait que le
texte puisse être caractérisé par de nombreuses propriétés formelles. Il semble cependant
crucial de distinguer d’une part ces spécificités formelles des textes et d’autre part le jugement
d’acceptabilité lui-même. Ce jugement, en effet, n’est pas fondé uniquement sur
l’enchaînement et la nature des unités du texte, mais revêt une dimension interprétative liée à
la fois aux informations fournies par le texte et aux connaissances (situationnelles,
encyclopédiques, etc.) des sujets. Ce fait encourage nombre d’auteurs à postuler une
distinction entre les concepts de « cohésion » et de « cohérence » :
« La notion de cohésion est généralement mise en rapport avec la linéarité du texte, les
enchaînements entre les propositions et les moyens formels dont dispose l’émetteur pour assurer
ces enchaînements. La notion de cohérence, en revanche, est généralement caractérisée par une
approche plus large qui souligne l’importance du rôle du récepteur dans l’interprétation du texte. »
(Carter-Thomas 2000 : pp. 30-31)
Charolles présente cette opposition de manière similaire en distinguant :
« d’un côté la cohérence qui a à voir avec l’interprétabilité des textes et, de l’autre, les marques de
relation entre énoncés ou constituants d’énoncés. Concernant ces marques, depuis M.A.K.
Halliday et R. Hasan (1976), on tend à les regrouper sous le nom de cohésion. » (Charolles 1988 :
p. 53)
Etant donnée la conception cognitive que nous adoptons concernant le discours (nous
avons pour l’instant parlé de « modèle discursif ») par opposition au texte qui est utilisé en
relation avec d’autres sources pour le construire, la cohérence semble bien correspondre à une
propriété discursive, et non à une propriété textuelle ; Charolles 1988 explicite cette
proposition :
« La cohérence n’est pas une propriété des textes […]. Le besoin de cohérence est, par contre, une
sorte de forme a priori de la réception discursive. » (Charolles 1988 : p. 55)
Chapitre 3 – Approches du discours
103
La cohésion peut donc être définie comme une propriété du texte et la cohérence comme
une propriété du discours, sans pour autant que ces deux propriétés entretiennent de
correspondance biunivoque (cf. Reboul & Moeschler 1998 : pp. 65-66).
De manière plus précise, le jugement de cohérence d’un discours est lié à l’utilisation de
la compétence pragmatique de ses interprétants, compétence qui leur permet de concevoir une
situation dans laquelle le discours serait approprié. La facilité relative avec laquelle une telle
situation peut être identifiée détermine le degré de cohérence du discours, perçu comme une
propriété graduelle.
1.5 Synthèse
L’objectif de cette première section a été de montrer comment la conception du texte a
évolué, depuis une vision structuraliste jusqu’à une vision cognitive justifiant le recours au
concept de discours. Ainsi, le texte a tout d’abord été perçu comme unité linguistique de rang
supérieur à la phrase et régie par le même type de règles de bonne formation. La dimension
informationnelle inhérente au texte et mise en avant par les fonctionnalistes a ensuite conduit
à la prise en compte de la situation et des interactants en tant qu’agents cognitifs. Dès lors, le
texte devenait un réservoir d’indications destinées à la constitution d’un modèle discursif ; le
discours dépasse le cadre de la « linguistique de la langue » (en termes saussuriens) pour
s’inscrire dans une « linguistique de la parole ». Le texte, caractérisé par une propriété de
cohésion, n’est alors plus que l’une des dimensions constitutives du discours, perçu comme
phénomène multidimensionnel plus ou moins cohérent.
2 Le discours multidimensionnel
Le discours, nous l’avons vu, comporte a minima une dimension textuelle (plutôt
formelle) et une dimension informationnelle (plutôt cognitive) : en ce sens, il constitue donc
déjà un phénomène multidimensionnel. Ce caractère multidimensionnel, cependant, ne trouve
sa pleine justification descriptive et explicative que dans le cadre d’une prise en compte
étendue des dimensions de la communication. Sans épuiser la thématique, nous nous
attacherons à l’étude de deux propositions allant dans ce sens : nous donnerons tout d’abord
un aperçu de l’approche influente développée par Barbara Grosz et Candace Sidner (Grosz &
Sidner 1986) avant de nous pencher sur l’un des modèles multidimensionnels du discours les
plus aboutis, le Modèle Genevois, développé par Eddy Roulet et son équipe (Roulet et al.
1985 ; Roulet et al. 2001).
Chapitre 3 – Approches du discours
104
2.1 Attention, intentions et structure du discours
Grosz & Sidner 1986 constitue un article majeur dans le cadre de l’analyse
multidimensionnelle du discours : l’approche est orientée vers le traitement automatique des
langues, certes, mais les propositions faites ont eu des répercutions importantes dans les
études purement linguistiques sur la thématique. L’objectif de l’article est la justification de la
cohérence du discours, notamment par la prise en compte de l’intentionnalité dans le cadre de
la représentation de la structure discursive. La question de la signification discursive est aussi
abordée (ibid. : p.176), mais constitue selon les auteurs un objectif à plus long terme pouvant
être atteint notamment par une représentation adéquate de la structure du discours.
Bien qu’explicitement temporaire, la définition du discours donnée par les auteurs est la
suivante :
« […] we take a discourse to be a piece of language behavior that typically involves multiple
utterances and multiple participants. A discourse may be produced by one or more of these
participants as speakers or writers; the audience may comprise one or more of the participants as
hearers or readers. » (ibid. : p. 176)
Cette activité de langage qu’est le discours est ensuite présentée, et c’est là la
proposition centrale de l’article, comme un système structuré composé de trois
composants distincts mais interactifs (p. 177) :
• Une structure linguistique, dont les unités fondamentales sont les énoncés ;
• une structure intentionnelle, impliquant un nombre limité de relations entre les
intentions des interactants ;
• un état attentionnel, contenant des informations sur les objets, les propriétés, les
relations et les intentions discursifs les plus saillants à un moment donnée de
l’interaction.
L’objectif de cette tripartition est d’expliquer des phénomènes liés à des interruptions,
l’utilisation de certaines expressions référentielles, et certains aspects de la segmentation et de
la structuration du discours. Plus précisément, ces trois composants servent à fournir
l’information nécessaire à l’intégration d’un segment donné dans un discours :
« Together the three constituents of discourse structure supply the information needed by the CPs
to determine how an individual utterance fits with the rest of the discourse - in essence, enabling
them to figure out why it was said and what it means. » (ibid. : p. 177)
Chapitre 3 – Approches du discours
105
2.1.1 La structure linguistique
La structure linguistique est conçue, comme dans le cadre de la linguistique textuelle,
dans le prolongement de la linguistique structurale traditionnelle : les énoncés s’agencent en
« segments discursifs » au sein du discours, à l’instar des mots, qui se groupent en syntagmes
au sein de la phrase :
« Just as the words in a single sentence form constituent phrases, the utterances in a discourse are
naturally aggregated into discourse segments. » (ibid. : p. 177)
Les segments discursifs peuvent être constitués d’énoncés contigus ou pas ;
réciproquement, deux énoncés contigus peuvent ne pas appartenir au même segment discursif.
Se pose alors la question de la démarche adoptée par les interactants pour identifier les
segments discursifs. Dans ce cadre, les auteurs s’appuient sur les travaux de Bill Mann (Mann
et al. 1975) pour affirmer la tendance relativement consensuelle des sujets lors de la
segmentation du discours ; cette tendance est présentée comme corrélée au marquage
linguistique de la structure du discours à l’aide de certains éléments « explicites » (marqueurs
lexicaux tels que « in the first place » ; cf. ibid. : p. 177) et de certains paramètres
prosodiques : durée des pauses, débit de parole, configurations intonatives, etc.48
L’un des aspects les plus importants de la structure linguistique réside dans le fait
qu’elle reflète la structure intentionnelle et l’état attentionnel attachés au discours afférent ; les
indices (« cue phrases ») de structuration linguistique du discours sont ainsi présentés comme
indiquant des modifications soit de la structure intentionnelle soit de l’état attentionnel : leur
signification est à considérer au niveau du discours et non pas au niveau phrastique49 (ibid., p.
178).
2.1.2 La structure intentionnelle
La structure intentionnelle est présentée comme fondamentale non seulement dans le
cadre de l’identification des discours mais aussi dans la mesure de leur cohérence : ce serait
ainsi notamment la reconnaissance de la structure intentionnelle qui permettrait d’une part de
reconnaître la présence de deux discours différents au sein d’une unique suite d’énoncés, et
48 Nous reviendrons en détail sur ces paramètres dans notre chapitre 6. 49 L’exemple donné par Grosz & Sidner 1986 (p. 178), « Incidentally, Jane swims every day. », met en evidence
le fait que l’adverbe « incidentally » ne participe pas aux conditions de vérité de la phrase, mais joue un rôle
dans l’organisation du discours en signalant une interruption dans son déroulement.
Chapitre 3 – Approches du discours
106
d’autre part de porter un jugement de cohérence sur un discours donné (p. 178). Les auteurs
distinguent deux niveaux distincts dans cette structure :
• parmi les intentions liées à l’existence même d’un discours (et dont on nous dit
qu’elles sont en général multiples), une intention peut être considérée comme
fondatrice (« foundational ») ; cette intention sera appelée « intention du discours »
(« discourse purpose » ou « DP ») ;
• pour chaque segment discursif, une intention plus locale peut être identifiée de
manière similaire : cette intention sera appelée « intention du segment de discours »
(« discourse segment purpose » ou « DSP »).
L’un des critères de reconnaissance d’une DSP est qu’elle est destinée à être reconnue
comme telle, ce qui n’est pas nécessairement le cas d’une DP (ibid., pp. 178-179). Dans ce cas
de figure, la reconnaissance est une condition nécessaire (mais pas suffisante) au succès d’une
intention destinée à être reconnue ; a contrario, une intention non destinée à être reconnue
peut être couronnée de succès sans reconnaissance (c’est le cas par exemple d’un « boo !!! »
destiné à faire peur).
La liste des intentions de segments discursifs et/ou de discours est explicitement
ouverte, interdisant par là même une description exhaustive. Ceci constitue un argument en
faveur de la distinction faite par les auteurs entre les deux concepts de « détermination » et de
« reconnaissance » de ces intentions. La « détermination » est une tâche exhaustive de
spécification qui s’apparente à une tâche sémantique ; la « reconnaissance » consiste en un
processus par lequel les interactants identifient les intentions. La « reconnaissance » est
implicitement présentée comme suffisante concernant la démarche adoptée :
« We use the term determination to refer to a semantic-like notion, namely the complete
specification of what is intended by whom we use the term recognition to refer to a processing
notion, namely, the processing that leads a discourse participant to identify what the intention is.
These are obviously related concepts; the same information that determines a DSP may be used by
an OCP to recognize it. However, some questions are relevant to only one of them. For example,
the question of when the information becomes available is not relevant to determination but is
crucial to recognition. » (Grosz & Sidner 1986 : p. 179)
Un argument parallèle consiste à présenter les relations unissant les intentions, et non
les intentions elles-mêmes, comme essentielles à la structure discursive. C’est précisément ce
que propose Grosz & Sidner 1986 avec une typologie fondée sur deux relations :
Chapitre 3 – Approches du discours
107
• la relation de « domination » est liée au fait qu’une action satisfaisant l’intention DSP1
puisse partiellement procurer la satisfaction de DSP2 ; on dira alors que DSP1
« contribue » à DSP2, ou bien que DSP2 « domine » DSP1 ; cette relation constitue le
fondement d’une structure ordonnée des DSP nommée « hiérarchie de domination ».
• la relation de « satisfaction-précédence » prend compte le fait que la satisfaction de
DSP2 puisse dépendre de la satisfaction préalable de DSP1 ; on dira alors que DSP1
« satisfaction-précède » DSP2.
2.1.3 L’état attentionnel
L’état attentionnel, finalement, correspond à une sous partie de l’état cognitif des
interactants. Il est conçu comme une abstraction de leur centre d’attention à un moment donné
du déroulement du discours ; il n’est cependant pas à considérer comme une de leur
propriétés , mais plutôt comme une caractéristique dynamique du discours :
« The third component of discourse structure, the attentional state, is an abstraction of the
participants' focus of attention as their discourse unfolds. The attentional state is a property of the
discourse itself, not of the discourse participants. It is inherently dynamic, recording the objects,
properties, and relations that are salient at each point in the discourse. » (Grosz & Sidner 1986 : p.
179)
Cet état est modelé à l’aide d’un ensemble d’« espaces focaux » (« focus spaces ») dont
les changements sont représentés à l’aide de règles de transition. La « structure focale »
correspond à l’ensemble des espaces focaux disponibles à un moment donné du discours.
La « focalisation », présentée comme le processus consistant à manipuler les espaces
focaux, associe un espace focal à chaque segment discursif ; cet espace focal comprend non
seulement toutes les entités discursives saillantes (introduites explicitement ou par inférence)
mais aussi la DSP du segment : ceci modélise le fait que les interactants prennent en
considération non seulement ce qu’ils disent/écrivent, mais aussi les raisons et objectifs pour
lesquels ils le disent/écrivent (ibid., pp. 179-180).
Lors du processus de focalisation, les espaces focaux s’organisent en une pile (au sens
informatique du terme) dans laquelle les espaces supérieurs sont plus facilement accessibles
que les espaces inférieurs. L’ajout ou la suppression d’espaces focaux dans la pile
attentionnelle est lié :
• à la structure linguistique, et notamment le choix des procédés syntactiques liés aux
entités (détermination) et aux propriétés (prédication) ;
Chapitre 3 – Approches du discours
108
• à la structure intentionnelle, avec les relations de domination et de satisfaction-
précédence.
La figure 9 ci-après va nous permettre de mieux comprendre le fonctionnement interactif
et dynamique de ce système de systèmes que semble donc être le discours. On peut
découper la figure 9 en trois parties verticales :
• la partie de gauche représente la structure linguistique, notamment avec son
découpage en segments discursifs : le discours étudié dans notre exemple consiste
donc en 3 segments discursifs DS1, DS2 et DS3 ;
• la partie centrale du schéma 2 représente l’état attentionnel, et notamment la pile
formée par les espaces focaux liés aux segments discursifs : on pourra ainsi voir la
représentation des espaces FS1, FS2 et FS3 correspondant respectivement aux
segments discursifs DS1, DS2 et DS3 ;
• la partie de droite, finalement, représente la structure intentionnelle du discours
analysé, et plus particulièrement les relations unissant les DSP 1, 2 et 3 au sein de
la hiérarchie de domination ; on voit ainsi que DSP1 domine à la fois DSP2 et
DSP3.
La partie supérieure (sous-titrée « a ») du schéma montre l’état du système au moment
du traitement de DS2. On remarque que FS2 se trouve au sommet de la pile attentionnelle,
juste au dessus de FS1 ; cet état s’explique d’une part par le fait que DS1 précède DS2 (FS1
doit en conséquence se trouver sous FS2) et d’autre part par le fait que DSP1 domine DSP2 (il
doit donc rester dans la pile).
La partie inférieure (sous-titrée « b ») du schéma montre l’état du système au moment
du traitement de DS3. On remarque que FS3 se trouve au sommet de la pile attentionnelle,
juste au dessus de FS1, et que FS2 en a été supprimé ; cet état s’explique d’une part par le fait
que DS1 précède DS3 (FS1 doit en conséquence se trouver sous FS3) et d’autre part par le fait
que DSP1 domine DSP3 (il doit donc rester dans la pile) ; FS2 disparaît en revanche car
DSP3 n’entre pas dans notre exemple dans une relation de domination avec DSP2.
Chapitre 3 – Approches du discours
109
Figure 9 : Représentation de l’état attentionnel en fonction de la structure linguistique (à
gauche) et de la hiérarchie de domination de la structure intentionnelle
(schéma 1 de Grosz & Sidner 1986, p. 181).
L’article fondateur de Grosz & Sidner présente bien plus que ces principes
fondamentaux de l’organisation de la structure discursive50, mais le cadre de notre travail 50 On notera d’une part deux exemples de textes attestés sont analysés en détail, et d’autre part une réflexion
approfondie non seulement sur les problèmes internes de détermination des segments discursifs, de la
reconnaissance des intentions, du fonctionnement de la pile attentionnelle, mais aussi sur les problèmes
Chapitre 3 – Approches du discours
110
nous fera retenir plus particulièrement l’aspect novateur de la démarche d’ensemble : la
structure du discours est ainsi abordée comme un système complexe impliquant la synergie de
faits linguistiques (structure linguistique) et cognitifs (structure intentionnelle et état
attentionnel). Comme nous le verrons plus tard, ce modèle et ces développements constituent
une approche d’importance dans le cadre plus spécifique de l’anaphore discursive.
Nous venons de donner un aperçu d’une approche multidimensionnelle du discours ;
cette approche, où trois dimensions s’interpénètrent pour rendre compte de la structure
discursive, constitue ainsi une première étape dans l’analyse du discours (et pas seulement du
texte) : les phénomènes linguistiques et informationnels, déjà étudiés par la linguistique
textuelle, sont ici traités par l’intermédiaire des concepts de structure linguistique et d’état
attentionnel ; on remarquera de plus l’introduction de la dimension intentionnelle dans
l’analyse du discours, conformément au « tournant pragmatique » que nous mentionnions au
chapitre 1 de cette thèse (notamment avec le concept de signification non-naturelle introduit
par Grice). Mais ne constitue qu’une première étape dans cette analyse multidimensionnelle
du discours en tant que phénomène lié à la réalisation d’actions dans un contexte linguistique,
cognitif, social, émotionnel, etc. On peut en effet considérer que le discours se déploie
simultanément dans toutes ces dimensions de la communication humaine, et que l’analyse du
discours se doit dès lors de rendre compte de ce phénomène. On pourra alors comprendre le
Modèle Genevois d’analyse du discours, vers lequel nous nous tournons à présent, comme
une tentative dans cette direction plus holistique.
2.2 Un modèle hétérarchique du discours
Le Modèle Genevois (ci-après MG) d’analyse du discours a reçu sa première
formulation en 1985 dans L’articulation du discours en français contemporain (Roulet et al.
1985) ; le dernier développement du MG, Roulet et al. 2001, constitue une systématisation
des analyses proposées dans la version originelle, mais propose une vision foncièrement
multidimensionnelle et modulaire du discours. C’est cette version que nous allons présenter
dans la suite de cette section.
L’objectif général présenté dans Roulet et al. 2001 est d’« élaborer progressivement un
modèle global permettant d’intégrer et d’articuler les dimensions linguistiques, textuelles et
« externes » de positionnement par rapport à la théorie de la signification non-naturelle de Grice ou encore par
rapport aux approches rhétorique du discours que l’on trouve dans les travaux de Grimes, Hobbs ou Mann &
Thompson.
Chapitre 3 – Approches du discours
111
situationnelles de l’organisation du discours. » (p. 6). La démarche implique la perception du
modèle comme un « instrument de représentation, un instrument de description et un
instrument de développement » (ibid. : p. 7) ; le MG propose ainsi non seulement de
représenter et de décrire les différentes dimensions et formes d’organisation de discours
authentiques particuliers et les interrelations entre celles-ci » (ibid. : p. 7), mais aussi de
fournir un cadre de développement destiné à permettre la formulation de questions spécifiques
aux discours analysés et la réévaluation et l’éventuelle révision des axiomes de départ.
2.2.1 Influences
Les travaux genevois revendiquent des racines francophones et anglo-saxonnes.
L’héritage francophone concerne principalement l’approche énonciativiste du langage : l’on
s’intéresse alors principalement à la subjectivité de l’énonciateur et au caractère dialogique et
interactionniste de la communication. Les racines sont à trouver dans les travaux du linguiste
suisse Charles Bally qui propose notamment, entre les linguistiques de la langue et de la
parole, une linguistique de l’énonciation ou « stylistique », fondatrice, selon les auteurs, de
l’analyse du discours telle qu’ils l’envisagent : prenant en compte les marques de subjectivité
dans le discours, Bally est a l’origine de la relativisation du rôle des informations purement
linguistiques dans la constitution du discours par rapport aux données situationnelles et mimo-
gestuelles :
« Le contexte évoque des mots, et la situation des représentations ; mais, encore une fois, les uns et
les autres jouent le même rôle dans le discours. » (Bally 1944 : p. 44 ; cité dans Roulet et al. : p.
12)
On pensera aussi à la distinction informationnelle effectuée par Bally 1944 entre
« thème » et « propos », plus particulièrement dans la description de la « phrase segmentée »
(par exemple dans les extractions du type « Moi, je n’arrive pas à résoudre ce problème » cité
dans Roulet et al. 2001 : p. 13). On terminera le listage de l’héritage francophone par la
distinction proposée entre « pensée personnelle » et « pensée exprimée », à l’origine selon les
auteurs du dialogisme de Bakhtine 1977 et de la polyphonie de Ducrot et al. 1980.
Mais cette tradition francophone se concrétise aussi par une démarche descendante, de
l’interaction aux unités de la langue, comme le préconisait Bakhtine 1977 :
« L’ordre méthodologique pour l’étude de la langue doit être le suivant :
1. Les formes et les types d’interaction verbale en liaison avec les conditions concrètes où celle-ci
se réalise.
Chapitre 3 – Approches du discours
112
2. Les formes des énonciations distinctes, des actes de parole isolés, en liaison étroite avec
l’interaction dont ils constituent les éléments […].
3. A partir de là, examen des formes de la langue dans leur interprétation linguistique habituelle. »
(Bakhtine 1977 : p. 137 ; cité dans Roulet et al. 2001 : p. 16)
L’héritage anglo-saxon du MG est à chercher d’une part du côté des philosophes du
langage, avec Austin et Searle et d’autre part du côté des sociologues et des analystes de la
conversation tels que Goffman, Sacks ou Schegloff. Les philosophes du langage, et
notamment Austin 1970 et Searle 1972, sont à l’origine de deux concepts importants du MG :
l’acte de parole, tout d’abord, a inspiré la délimitation de l’unité fondamentale du MG, et la
notion d’illocutoire apporte une dimension fonctionnelle utilisée dans différentes approches
de « logique illocutoire » telles que celles proposées par Searle & Vanderveken 1985,
Ghiglione & Trognon 1993 ou Trognon & Brassac 1989, 1992 et 1993 et que l’on retrouve
également dans le modèle.
L’apport de Goffman 1974 se retrouve particulièrement dans le concept d’échange
(« confirmatif » ou « réparateur »), deuxième unité discursive d’importance pour le MG. Les
travaux conversationnalistes tels que Sacks 1992 ou Schegloff 1980 et 1996, même s’ils sont
considérés comme méthodologiquement inadéquats (Roulet et al. 2001 : p. 22), constituent
cependant un modèle de détail d’analyse de données authentiques.
On notera finalement que la dimension cognitive du discours, elle aussi prise en compte
dans le MG, s’inspire de la notion de « mémoire discursive » empruntée à Berrendonner 1983
et 1990.
On peut ainsi, d’après ces influences avouées, définir l’approche du MG selon les axes
suivants (p. 25) :
• un objet d’étude : « Le discours comme interaction verbale située, dans ses dimensions
linguistiques et situationnelles » ;
• une méthodologie descendante, « de l’interaction verbale aux formes qui la
constituent, échanges, interventions et actes » ;
• une insistance particulière sur l’organisation hiérarchique du discours ;
• la formulation d’hypothèses concernant les relations des constituants avec la mémoire
discursive ;
• les notions de dialogisme et de polyphonie ;
Chapitre 3 – Approches du discours
113
• le repérage de séquences narratives, délibératives, etc. ;
• l’interprétation inférentielle de l’interaction ;
• la gestion des faces des interactants.
2.2.2 Structure du modèle
Les paramètres pris en compte sont, on le voit, fort nombreux et hétérogènes ; il est
alors important de se questionner sur la nature d’un modèle capable de les intégrer au sein
d’une démarche cohérente et systématique. La réponse apportée à cette question par les
auteurs consiste à choisir une structure modulaire hétérarchique. Le MG s’organise donc de la
manière suivante :
• trois composantes fondamentales sont identifiées :
o la composante situationnelle, liée à la situation d’interaction ;
o la composante textuelle, liée à la structure hiérarchique du texte ;
o la composante linguistique, liée au lexique et à la syntaxe de la variété de
langue utilisée par les interactants.
• Cinq modules correspondant à cinq types d’information fondamentale pouvant être
décrite de manière indépendante :
o le module interactionnel (composante situationnelle), qui « définit les
propriétés matérielles de la situation d’interaction du discours et des situations
d’interaction qu’il représente à différents niveaux : canal écrit ou oral,
alternance des tours de parole ou d’écriture, nombre d’interactants, co-présence
ou distance spatio-temporelle entre ceux-ci, réciprocité ou non de la
communication » (ibid. : p. 46) ;
o le module référentiel (composante situationnelle), dont l’objectif est de décrire
« les représentations mentales, conceptuelles et praxéologiques, des activités,
ainsi que des êtres et des objets qui constituent les univers dans lesquels le
discours s’inscrit et dont il parle. » (ibid. : pp. 45-46) ;
o le module hiérarchique (composante textuelle), qui « définit les catégories et
les règles permettant d’engendrer les structures hiérarchiques de tous les textes
possibles ; il distingue trois catégories de constituants : l’échange,
Chapitre 3 – Approches du discours
114
l’intervention et l’acte, et trois types de rapports entre ceux-ci : la dépendance,
l’interdépendance et l’indépendance » (ibid. : p. 45) ;
o le module lexical (composante linguistique), conçu comme un « dictionnaire
définissant la prononciation, l’orthographe, les propriétés grammaticales et le
sens des mots des différents variétés de la langue » (ibid. : p. 44);
o le module syntaxique (composante linguistique) : « ensemble de règles
déterminant les catégories et les constructions des clauses en usage dans une
langue ou variété de langue ; il indique aussi les instructions qui sont fournies
par certains morphèmes […] et qui visent à faciliter l’interprétation du
discours » (ibid. : p. 45).
• Sept formes d’organisation élémentaires, résultat du couplage d’informations
provenant uniquement de différents modules :
o la forme d’organisation sémantique (informations lexicales et syntaxiques), qui
décrit « les représentations sémantiques (ou formes logiques) des clauses, qui
constituent une des entrées des processus inférentiels » (ibid. : p. 47) ;
o la forme d’organisation phono-prosodique (informations lexicales et
syntaxiques), dont la fonction est de traiter « des représentations qui résultent
du couplage entre les structures syntaxiques et les informations sur les
propriétés phono-prosodiques des lexèmes » (ibid. : p. 47) ;
o la forme d’organisation relationnelle (informations hiérarchiques, lexicales
et/ou référentielles), dont l’objectif est de décrire les « relations illocutoires et
interactives entre les constituants du discours » (ibid. : p. 48) ;
o la forme d’organisation opérationnelle (informations hiérarchiques et
référentielles), qui, s’appuyant sur la structure de l’échange et la structure des
actions, « permet d’intégrer les descriptions des dimensions verbales et
actionnelle du discours » (ibid. : p. 47) ;
o la forme d’organisation séquentielle (informations hiérarchiques et
référentielles), qui « vise à définir et à repérer dans le discours des séquences
typiques : narrative, descriptive et délibérative » (ibid. : p. 48) ;
Chapitre 3 – Approches du discours
115
o la forme d’organisation informationnelle (informations hiérarchiques,
linguistiques et/ou référentielles), qui « repère le topique et le propos de
chaque acte » (ibid. : p. 48) ;
o la forme d’organisation énonciative (informations linguistiques et
interactionnelles), dont le but est de définir et de distinguer « les segments de
discours produits et représentés dans le discours par les locuteurs-scripteurs, à
différents niveaux d’emboîtement » (ibid. : p. 48).
• Finalement, cinq formes d’organisation complexes, issues du couplage d’informations
provenant des modules ou des formes d’organisation élémentaires :
o la forme d’organisation compositionnelle (modules hiérarchique, référentiel et
linguistique ; organisations séquentielle et relationnelle), traitant « des formes
et des fonctions des séquences typiques décrites dans l’organisation
séquentielle » (ibid. : p. 49) ;
o la forme d’organisation périodique (module hiérarchique ; organisation phono-
prosodique), qui s’intéresse à « la ponctuation du discours, tant à l’oral qu’à
l’écrit » (ibid. : p. 49) ;
o la forme d’organisation topicale (modules hiérarchique, référentiel et
linguistique ; organisation informationnelle)51, qui décrit « l’enchaînement des
informations dans le discours » (ibid. : p. 49) ;
o la forme d’organisation polyphonique (modules hiérarchique, référentiel,
linguistique et interactionnel ; organisations relationnelle et topicale)52, qui
s’attache à l’analyse « des formes et des fonctions, dans le discours analysé,
des discours représentés décrits dans l’organisation énonciative » (ibid. : p.
49) ;
o la forme d’organisation stratégique (modules référentiel, interactionnel et
hiérarchique ; organisation relationnelle et topicale), centrée sur « les relations
de faces et de places entre les interactants » (ibid. : pp. 49-50) ;
51 Roulet et al. (p. 49) mentionne ici l’influence d’une organisation « inférentielle », qui n’apparaît pourtant nulle
part dans la présentation d’ensemble des éléments du MG. 52 Idem note 17.
Chapitre 3 – Approches du discours
116
La figure 10 ci-dessous présente ces modules et ces formes d’organisation de manière
plus synthétique :
Figure 10 : Modules et formes d’organisation du MG
(d’après la figure 1 de Roulet et al. 2001 : p. 51).
Le choix d’une approche modulaire inspirée de Simon 1962 consiste à décomposer ce
système complexe qu’est le discours en systèmes plus simples décrits indépendamment les
uns des autres. Les modules sont insérés dans une démarche non fodorienne qui consiste à les
considérer non pas comme des systèmes encapsulés, mais plutôt des systèmes spécifiques
quant au type d’information qu’ils traitent. Les auteurs s’appuient sur Nølke 1994 pour
affirmer que
« chaque module doit fournir une description du dispositif dont il traite qui soit exhaustive,
cohérente, maximalement économique et notionnellement indépendante des autres modules. »
(Nølke 1994 : p. 77 ; cité dans Roulet et al. 2001 : pp. 31-32)
Chapitre 3 – Approches du discours
117
Les modules, finalement, sont organisés au sein d’une structure hétérarchique au sens de
Sabah 1989 qui implique une hiérarchie mais n’interdit pas les interactions multiples entre les
modules.
Notre objectif n’est pas de fournir une description exhaustive du MG, mais nous
pensons qu’il est intéressant d’avoir un aperçu d’une version que l’on pourrait qualifier de
maximaliste de l’approche multidimensionnelle du discours. Le MG constitue ainsi, avec ces
dimensions, ces modules et ces formes d’organisation, une reconnaissance explicite de la
nature fondamentalement complexe du concept de discours en tant que lieu de rencontre
d’informations linguistiques, textuelles et situationnelles impliquant les aspects cognitifs,
sociaux et affectifs des participants à l’interaction.
2.3 Synthèse
Il est important de noter que les différentes approches que nous avons mentionnées dans
les sections précédentes abordent le concept de discours de manières fort différentes : la
première conception que nous avons abordée ne concerne pas directement le discours lui-
même, mais mentionne un modèle discursif (cf. Prince 1981) construit à partir d’une unité
« texte » conçue comme un ensemble d’instructions ; le modèle de Grosz & Sidner 1986
aborde plus directement le concept et propose une conception selon laquelle le discours est un
exemplaire de comportement humain impliquant un ensemble d’énoncés et un ensemble de
participants ; le MG, finalement, considère le discours comme une « interaction verbale
située, dans ses dimensions linguistiques et situationnelles ». Ces deux approches explicites
de la notion de discours semblent ainsi avoir en commun le fait d’impliquer une unité
« discours » (comportementale ou interactionnelle) dont l’architecture repose sur des éléments
linguistiques (au sens large, incluant les aspects mimo-gestuels), psychologiques et
situationnels. Comme nous allons le voir, ce type de conception, bien que commun à nombre
d’auteurs, ne fait pas l’unanimité. C’est donc vers ce questionnement du statut du discours en
tant qu’unité que nous nous tournons à présent.
Chapitre 3 – Approches du discours
118
3 Un object « discours » ?
Les sections précédentes ont rapidement montré comment le concept de discours a pu se
développer à partir (voire même en réaction vis-à-vis) de celui de texte ; comme nous l’avons
vu, les conceptions actuelles les plus répandues considèrent le discours comme un objet
multidimensionnel comprenant une dimension textuelle parmi un nombre variable d’autres
dimensions. On est cependant en droit de s’interroger sur la nature véritable du concept de
discours : en effet, abordé indirectement par Prince 1981, défini de manière provisoire par
Grosz & Sidner 1986 comme une activité de langage, ou encore saisi par Roulet et al. 2001
comme interaction située, le concept de discours semble encore quelque peu nébuleux. En
conséquence, l’objectif de cette dernière section sera de proposer une réflexion plus
approfondie sur la nature même de ce concept et sur sa pertinence.
3.1 Quel objet « discours » ?
Nous avons vu que le discours était à l’origine (et est encore dans nombre de travaux,
comme le remarque Cornish 2003a) un concept coextensif avec celui de texte à partir duquel
il s’est pourtant constitué d’un point de vue historico-conceptuel. Nous allons aborder deux
des stratégies communément utilisées pour la définition du concept. La première, étant donné
le contexte que nous venons de rappeler, consiste à adopter une appréhension contrastive du
discours : le discours est alors défini de manière indirecte, en relation oppositive avec le texte.
La seconde approche consiste à définir le discours de manière plus positive, non plus en
relation avec le texte, mais de manière plus interne, par le biais de sa cohérence.
3.1.1 Discours vs. texte
Comme le souligne à juste titre Carter Thomas 2000 (p. 27), la langue courante réserve
le terme « texte » à un document écrit et le terme « discours » à une communication orale. Cet
usage oppose les conceptions ordinaires de texte et de discours dans les deux dimensions
orthogonales que sont leur mode d’expression et leur nature. Ainsi, le mode d’expression
utilisé pour le texte est celui de l’écrit alors que le discours utilise l’oral ; cette opposition
n’est pas pertinente en linguistique où l’on parle par exemple de « texte oral » ou de « texte
écrit ». La seconde opposition concerne la nature même des phénomènes : le texte est ainsi
avant tout perçu comme un objet, un « document », alors que le discours comporte une
dimension processuelle, comme le laisse entendre la nature déverbale du nom
« communication ».
Chapitre 3 – Approches du discours
119
Il est intéressant de noter que cette seconde opposition semble assez souvent retenue en
linguistique53 : on prendra pour exemple la réflexion présentée dans Brown & Yule 1983 (pp.
23-25) et qui oppose le texte en tant que produit (« text-as-product view ») au discours en tant
que processus (« discourse-as-process view ») qui le fabrique.
Intéressons-nous tout d’abord au texte : ce dernier peut, dans le cadre que nous venons
d’évoquer, être défini comme « the verbal record of a communicative act » (Brown & Yule
1983 : p. 6) ou encore « the phonologically transcribable product of everyday language
behaviour » (Lyons 1977 : p. 631 ; cité dans Cornish 1999 : p. 33). Cette conception est
exprimée de manière absolument explicite par Cornish 1990 :
« le texte est la trace enregistrée d’un acte de communication (d’une énonciation) donné, qu’il ait
eu lieu au moyen de la forme parlée ou écrite ; au niveau de celle-là, il comprend non seulement le
contenu verbal des énoncés produits, mais également le contour intonatif, les emphases, et tout
l’ensemble des signes paralinguistiques mis en jeu au cours de l’acte en question. Au niveau de
celle-ci, il se compose, en plus du contenu verbal, de l’ensemble des signes de ponctuation et des
phénomènes typographiques tels que la mise en page, l’emploi d’italiques, et la présence de
graphiques, d’images ou de photos. » (Cornish 1990 : p. 82)
A en croire ces définitions, si le concept de discours est historiquement second par
rapport à celui de texte, un texte donné constitue néanmoins la trace d’un discours. Cette
vision semble cependant contradictoire avec celle qui présente le texte comme élément
impliqué dans la construction du discours ; c’est par exemple la position adoptée par Prince
1981 pour qui le texte est un « set of instructions from a speaker to a hearer on how to
construct a particular discourse model » (Prince 1981 : p. 235), par Gumperz 1992, qui parle
de « contextualization cues », et même par Cornish 1990 qui poursuit :
« En tant que tel, le texte représente un vivier d’indices qui va permettre à l’interlocuteur ou au
lecteur de reconstruire le discours que le locuteur ou le scripteur, selon toute probabilité, aura
construit (dans le cas de l’interlocuteur, il s’agirait alors d’une conversation ou d’une forme de
dialogue, et donc d’une construction mutuelle du discours en question). » (Cornish 1990 : p. 82)
Deux conceptions possibles du concept de texte semblent ainsi s’opposer : le « texte-
trace » et le « texte-indice ». Cette dualité est possible à maintenir à condition de prendre en
considération l’aspect dynamique du discours : considérant que le phénomène « discours »
évolue dans le temps, le texte peut très bien être la trace d’un discours à l’instant t et servir
d’indice pour l’évolution de ce même discours à l’instant t+1. Ce type de justification 53 A titre d’exemple, on pensera à Widdowson 1979, Grize 1981, Adam 1990, Cornish 1990 ou encore
Apothéloz 1995.
Chapitre 3 – Approches du discours
120
implique cependant que nous ayons une définition unifiée du concept de discours en fonction
de ce concept temporalisé de « texte ».
Nous allons à présent nous intéresser au concept de discours dans un cadre comparable
à celui utilisé pour le texte. Ainsi, si l’on reprend les définitions données plus haut, le discours
peut être appréhendé, par opposition au texte, comme « a communicative act » (Brown &
Yule 1983 : p. 6), « everyday language behaviour » (Lyons 1977 : p. 631 ; cité dans Cornish
1999 : p. 33) ou encore « un acte de communication » (Cornish 1990 : p. 82). Ces définitions
oppositives, ainsi que la position d’Apothéloz 1995 (« la relation entre discours et texte est
une relation entre une activité (elle-même décomposable en une suite d’actes énonciatifs) et la
trace laissée par cette activité » ; pp. 157-158), semblent compatibles avec la conception du
discours en tant que processus.
On pourrait en rester là, mais les choses se compliquent si l’on reprend la définition
donnée par Cornish 1990 ; en effet il est question dans cette définition de « construire », de
« reconstruire » et même de construire « mutuellement » le discours. Ce discours que l’on
construit ne peut pas être le « discours-acte de communication » que nous venons de postuler ;
s’il est question de (re)contruction, c’est en fait un autre aspect du concept de discours que
l’on évoque, un aspect plus cognitif. Cornish 1990 et (particulièrement) 2003a montrent bien
cette dualité du discours perçu à la fois comme acte de communication et comme activité
d’interprétation. Cornish 2003a propose tout d’abord la définition suivante du concept de
discours :
« Discourse : the hierarchically structured, situated sequence of indexical, utterance and
illocutionary acts carried out in pursuance of some communicative goal, as integrated within a
given context. » (Cornish 2003a : p. 3)
Une page plus loin, après avoir explicité le concept de texte, l’auteur défini le discours
de la manière suivante :
« Discourse, on the other hand, designates the outcome of the hierarchically structured, mentally
represented sequences of utterance, illocutionary and indexical acts which the participants are
engaging in as the communication unfolds. » (ibid. : p. 4)
Page suivante, on trouve cette troisième définition :
« the situated construction and interpretation of a message via a given text relative to some
context, in terms of the speaker’s or writer’s intentions » (ibid. : p. 5)
Ces trois définitions constituent autant d’éclairages sur les aspects multiples du
discours. Ainsi, la première conforte la vision classique du « discours-acte de
Chapitre 3 – Approches du discours
121
communication » : l’approche s’inscrit dans une conception pragmatique de la
communication, fondée sur la théorie des actes de parole mentionnée au chapitre 1 de cette
thèse54 et centrée, comme cette théorie, sur le locuteur. Les deuxième et troisième définitions
adoptent quant à elles une position plus explicitement cognitive : il y est question de
représentation mentale (deuxième définition) et d’« interprétation » (troisième définition) des
actes de communication : le discours est donc ici présenté comme un processus de
construction et d’interprétation d’un message, et pas simplement comme une activité de
production de la part du locuteur55.
Ce rapide survol de quelques définitions relationnelles et contrastives des concepts de
texte et de discours nous pousse ainsi en définitive à concevoir deux concepts de texte et deux
concepts de discours. Parti d’une distinction consensuelle entre « texte-produit » et
« discours-processus », nous aboutissons finalement à d’une part un « texte-trace » ou un
« texte-indice », et d’autre part un « discours-acte de communication » ou un « discours-
processus d’interprétation ». Une telle situation est envisageable, mais pose en tout état de
cause un problème certain pour qui voudrait donner une vision unifiée d’un objet « discours »
homogène. On peut comprendre dès lors un deuxième type de stratégie qui aborderait le
concept de discours non plus de manière contrastive, mais de manière plus interne et positive ;
c’est en conséquence vers ce type d’approche que nous nous tournons à présent.
3.1.2 Discours et cohérence
Adopter une stratégie interne de définition du discours peut conduire à proposer le
concept de cohérence comme caractéristique définitoire du discours. Comme nous l’avons vu
plus haut, cette démarche se heurte à de nombreux problèmes : les premières tentatives,
centrées à vrai dire sur le texte plus que sur le discours, et qui tentaient de formaliser la notion 54 Searle 1969, qui est à l’origine de la terminologie utilisée dans Cornish 2003a, aurait sans doute parlé d’actes
« référentiels » plutôt qu’« indexicaux ». Nous noterons de plus que parler d’actes « propositionnels », qui
regroupent les actes « référentiels » et les actes « prédicatifs », aurait permis de ne pas omettre ces derniers, dont
Francis Cornish a lui-même montré la pertinence dans le cadre de l’anaphore (notamment avec le concept de
« segment indexical »). 55 Nous laisserons de côté une analyse détaillée de la seconde définition, mais nous soulignerons sa particularité
qui consiste à présenter en fait le discours comme la résultante (« the outcome ») d’une suite d’actes représentés
mentalement, et pas simplement la représentation de cette suite d’actes ; une telle conception, non explicitée par
Cornish 2003a, semble impliquer une hiérarchie à trois niveaux avec un « discours-acte de communication »
(niveau 0) interprété lors du « discours-processus d‘interprétation » (niveau 1) et dont le résultat serait cette
troisième conception.
Chapitre 3 – Approches du discours
122
de cohérence par une ensemble de (méta-)règles, ont abouti à un échec. On a alors proposé de
dissocier les concepts de texte et de discours, le premier étant caractérisé par la cohésion,
linguistiquement codée dans le texte, alors que le second s’appuie sur la cohérence, propriété
cognitive. Or, contrairement à la propriété de grammaticalité des phrases, la cohérence du
discours est, nous l’avons dit, une propriété graduelle : un discours peut être plus ou moins
cohérent, tel discours peut être plus cohérent que tel autre, pis encore, un discours peut être
incohérent.
Se pose alors un problème existentiel au sens fort du terme : si la cohérence est la
propriété définitoire d’un discours et qu’un discours peut être sans cohérence, un tel discours
est-il toujours un discours dans ce cas-là ? En d’autres termes, un discours cesse-t-il d’être un
discours s’il n’est pas cohérent ? Il est important de remarquer que cette question a aussi été
posée concernant la phrase et sa propriété de grammaticalité. Le cœur du problème réside
dans la notion même de règle. On pourra alors par exemple penser à la distinction opérée par
Searle 1965 entre règles « constitutives » et règles « régulatives » : dans ce cadre la cohérence
pourrait ainsi être associée à un ensemble de règles régulatives et non pas constitutives du
discours ; elle en expliquerait le fonctionnement, sans pour autant le définir. Une autre option
consiste à abandonner purement et simplement le principe de règle au profit de celui de
contrainte : la cohérence serait alors liée à la satisfaction potentiellement partielle d’un
ensemble ordonné de contraintes ; on peut penser dans cette perspective aux travaux d’Adam
Buchwald au sein d’une version bidirectionnelle de la Théorie de l’Optimalité (Buchwald et
al. 2002), ou encore à la notion de « caractérisation » proposée dans le cadre des Grammaires
de Propriétés (cf. Blache 2001).
Reste cependant le problème majeur lié à la nature fondamentalement cognitive et
interprétative de la cohérence : quelle que soit l’approche de la cohérence imputée au
discours, que ce soit en termes de (méta-)règles, de contraintes, à un niveau global ou local
(avec la notion de « relations de cohérence », cf. les travaux de Hobbs ou la RST de Mann &
Thompson), le phénomène consiste toujours en un processus cognitif d’interprétation, et ne
semble donc pas être une propriété inhérente à l’objet sur lequel porte cette interprétation.
Cette réflexion nous pousse à abandonner le concept de cohérence comme définissant le
discours : la cohérence n’en est en effet ni une propriété nécessaire ni une propriété suffisante,
ni même, en définitive, une propriété spécifique tout court.
Chapitre 3 – Approches du discours
123
Si l’on veut sauvegarder le principe d’un concept linguistique « discours » en dépit de
cet échec de l’héritage générativiste de l’analyse du discours, la seule solution semble être de
s’accrocher à l’héritage structuraliste qui pose le discours comme unité supérieure à la phrase
ou, a minima, comme unité compositionnelle régie par des règles spécifiques56 ; dans cette
seconde perspective, la définition d’une unité minimale entrant dans la constitution du
discours constitue une condition indispensable. Etudions ces options tour à tour.
Comme l’a indiqué Benveniste 1966 le passage de la phrase au discours constitue un
saut phénoménal qui nous pousse hors de la sphère de la linguistique structurale. Le concept
de phrase pose en fait deux problèmes majeurs, l’un interne et l’autre plus externe. Le
problème interne du concept de phrase réside dans l’absence de pertinence linguistique de ce
concept. En effet, comme le souligne Roulet et al. 2001 (p. 60), le concept de phrase « n’est
pas pertinent au niveau de la syntaxe de la langue ; à titre d’exemple, on notera que la
tagmémique (cf. par exemple Pike & Pike 1983) a ainsi montré qu’au sein d’une phrase
regroupant une proposition principale et au moins une proposition subordonnée, la
proposition subordonnée occupe en réalité une position de constituant au sein de la
proposition principale ou de l’un de ses constituants. Milner 1989 a de plus montré que la
coordination de deux propositions ne justifiait pas le recours à la phrase en tant qu’unité de
rang supérieur : en effet, la coordination de deux syntagmes nominaux occupent la même
position et a la même fonction qu’un syntagme nominal simple ; il n’y a dès lors pas de raison
de postuler que la coordination de deux propositions donne naissance à une unité supérieure
« phrase » (Milner 1989 : p. 482). La phrase, d’un point de vue interne, ne constitue pas une
unité différente de la proposition, et n’a donc, en ce sens, aucune raison d’être :
« il n’y a pas de différence de propriétés entre phrase et proposition. La phrase est une proposition.
La proposition est une phrase. » (Milner 1989 : p. 508 ; cité dans Roulet et al. 2001 : p. 61)
D’un point de vue plus externe, on notera que, dans la perspective de l’analyse de
données orales authentiques, la phrase se révèle être là aussi une unité non pertinente
(Blanche-Benveniste et al. 1990 ; Di Cristo 2000). Ceci, malgré les propositions récentes de
Charolles & Combettes 199957, nous pousse à écarter la phrase en tant que candidat au statut
d’unité entrant dans la composition de l’unité « discours ».
56 Correspondant alors à une unité formelle émergente 1 telle que définie par Reboul et Moeschler 1998 : pp. 23-
24. 57 Ces auteurs postulent en effet (pp. 107ff) que les principes qui unissent les syntagmes au sein de phrases ne
sont pas fondamentalement différents de ceux qui unissent les phrases entre elles au sein du discours, rejetant par
Chapitre 3 – Approches du discours
124
Dès lors, plusieurs candidats au statut d’unité discursive minimale sont disponibles :
• une première proposition consiste à recourir à la conception de « phrase en usage »
(cf. Reboul & Moeschler 1998) ou « énoncé » ;
• une seconde solution, proposée notamment par les tenants de la théorie des actes de
langage, et reprise dans Grosz & Sidner 1986 ou dans Cornish 2003a, consiste à
adopter l’acte ;
• une troisième solution consiste à postuler l’unité « clause » (cf. par exemple
Berrendonner 1990 et 1993), définie comme unité minimale à fonction
communicative, articulant les niveaux de la micro- et de la macro-syntaxe ;
Si nous nous en tenons à cette liste bien évidemment non exhaustive des unités
minimales potentielles du discours, il semble que nous puissions regrouper les deux premiers
candidats (l’énoncé et l’acte de langage) et les séparer du troisième (la clause).
Définir l’énoncé comme « phrase en usage », comme le propose Reboul & Moeschler
1998, implique la pertinence linguistique de l’unité « phrase » ; or, comme nous venons de le
voir, cette unité ne semble pas pouvoir être retenue.
L’acte de langage tel que le définit Searle 1965 et 1969, s’il semble a priori se
distinguer du concept de phrase ou de proposition, repose en fait directement sur ce dernier :
les travaux de Searle, en effet, on principalement porté sur l’acte illocutionnaire réalisé lors
d’une production verbale, l’objectif étant d’en fournir une typologie et d’en expliquer les
règles de fonctionnement et de reconnaissance-compréhension. Or, comme l’indique, Searle
1965, un acte illocutionnaire implique généralement un contenu propositionnel indiqué par la
structure de la phrase :
« From a semantical point of view, we can distinguish between the propositional indicator in the
sentence and the indicator of illocutionary force. […] we can say for the purpose of our analysis
that the sentence has two (not necessarily separate) parts, the proposition-indicating element and
the function-indicating device. » (Searle 1965 : p. 226)
Le concept d’acte de langage se retrouve alors intimement lié au concept de phrase, ce
qui pose les problèmes que nous savons. Cette vision même de l’acte de langage a de plus été
remise en cause, notamment dans Rubattel 1987 et Auchlin 1993, qui montrent que des là même une dichotomie opposant linguistique de la lange et linguistique de la parole ; comme le souligne à juste
titre Roulet et al. 2001 (pp. 69-70), cette position, élude l’importance de la description de la relative stabilité
spécifique aux structures textuelles.
Chapitre 3 – Approches du discours
125
segments textuels non dotés d’une forme propositionnelle peuvent fonctionner comme des
actes58 ; comme l’indique Roulet et al. 2001 (p. 64), c’est le cas notamment pour des
syntagmes prépositionnels tels que « malgré la pluie » fonctionnant dans le discours de
manière identique à « bien qu’il pleuve », bien qu’il ne soit pas, contrairement à ce dernier,
pourvu d’une forme propositionnelle. C’est principalement pour cette raison que ce concept
d’acte a été abandonné par Roulet et al. 2001 alors qu’il constituait l’unité fondamentale de la
version originale du modèle présentée dans Roulet et al. 1985.
Dans ces conditions, Roulet et al. 2001 s’appuie sur le concept de clause proposé par
Berrendonner (Berrendonner & Reichler-Béguelin 1989 ; Berrendonner 1990 et 1993). La
clause peut être définie fonctionnellement comme « l’unité minimale de l’action langagière »
(Berrendonner 1993 : p. 22) ; c’est la plus petite unité délimitée par un passage en mémoire
discursive59. On voit que ce concept de clause, l’une des propositions récentes dans le
domaine de la délimitation de l’unité minimale du discours, est en fait intimement dépendant
d’une conception cognitive. Roulet et al. 2001 remarque que cet état de fait est plutôt logique
et s’étonne du fait que l’on ait envisagé la recherche d’une unité minimale simplement
linguistique pour le discours :
« Relevons en passant qu’il est pour le moins surprenant qu’on ait pu songer à définir une unité
pragmatique ou discursive à partir d’une forme linguistique. On a de bonnes raisons de penser que
la définition de l’unité textuelle minimale dépend davantage de l’organisation de l’activité
discursive que de la structure de la langue […]. » (Roulet et al. 2001 : p. 63)
En effet il semble logique que le concept de clause comporte une dimension cognitive :
la quête des unités semble avoir suivi le cheminement général de la thématique de la référence
et de l’anaphore (cf. chapitres 1 et 2), voire même de la linguistique en général, depuis des
conceptions logico-sémantiques (unité « phrase » ou « proposition ») jusqu’à des conceptions
cognitivistes (unité « clause ») en passant par des conceptions pragmatiques (unité « acte de
langage »).
Si nous acceptons, en plus de la dimension textuelle, la dimension cognitive du
discours, il est cohérent de proposer une unité qui les prenne toutes deux en compte. La clause
semble réaliser cette bidimensionnalité : en plus de l’aspect cognitif que nous venons de
mentionner, la clause, tout comme son unité supérieure, la « période », est définie par des
58 Ce constat a conduit à l’introduction du concept de semi-acte. 59 La mémoire discursive peut être définie comme « toutes et rien que les connaissances valides pour les
interlocuteurs et publiques entre eux » (Berrendonner 1993 : p. 48).
Chapitre 3 – Approches du discours
126
propriétés formelles textuelles ; le passage en mémoire discursive, qui sépare deux clauses, est
ainsi notamment indiqué par la possibilité d’utiliser indifféremment un pronom ou un
syntagme nominal pour marquer une relation de coréférence. Les exemples suivants, extraits
de Roulet et al. 2001 (p. 65), illustrent ce principe :
Ex (23) a. Mon voisin croit qu’il / *le brave homme est malade.
b. Mon voisin est venu me voir. Il / le brave homme croit qu’il est malade.
c. Mon voisin, il / le brave homme est malade.
L’exemple (23a), bien que composé de deux propositions est ainsi présenté comme
n’impliquant qu’une seule clause, du fait de l’impossibilité de substituer un syntagme au
pronom si l’on veut conserver une lecture coréférente avec l’expression « mon voisin » (cf.
principe C de la Théorie du Liage). Les exemples (23b) et (23c), en revanche, semblent
permettre une telle substitution60 : on considèrera donc que ces deux exemples sont composés
de deux clauses, chacune effectuant une opération en mémoire discursive.
Rappelons que le « sauvetage structural » que nous tentons d’opérer implique non
seulement l’identification des unités minimales du discours (et nous reconnaissons que la
clause est un bon candidat), mais aussi un ensemble de règles ou de principes spécifiques au
discours. Nous avons vu plus haut que les tentatives d’identification de règles de discours,
fondées sur le concept de cohérence, ont abouti à un échec ; ceci nous avait d’ailleurs conduit
à rejeter le concept interprétatif de cohérence. On se retrouve alors non seulement dans
l’impossibilité de fournir un principe spécifique de composition du discours à partir des
clauses, mais à bien y regarder, on est aussi dans l’incapacité de recourir au critère de
permutation-coréférence évoqué ci-dessus sans recourir par là même à un processus
interprétatif inférentiel.
On est donc apparemment confronté à un cercle vicieux : on ne peut pas conserver la
cohérence comme caractéristique interprétative du discours, ce qui nous pousse à essayer de
définir la structure discursive en termes d’unités minimales et de relations spécifiques ; les
unités minimales les plus plausibles, les clauses, impliquent pour leur identification un
principe interprétatif spécifique dont nous nous retrouvons dépourvu. Cette situation explique
la position de différents chercheurs qui rejettent purement et simplement la notion même de
60 L’exemple (23c) nous semble cependant plus délicat que l’exemple (23b).
Chapitre 3 – Approches du discours
127
discours en tant qu’objet d’étude. C’est ce point de vue que nous allons expliciter pour
terminer ce chapitre.
3.2 A-t-on besoin d’un objet « discours » ?
Plusieurs approches proposent d’analyser la communication langagière dans un contexte
interactionnel et cognitif sans pour autant avoir recours au concept de discours. Parmi ces
approches, la Théorie de la Pertinence (ci-après « RT » pour « Relevance Theory ») constitue
sans doute la plus explicite et la plus répandue : on pensera bien sûr aux travaux fondateurs de
Deirdre Wilson et de Dan Sperber (cf. Sperber & Wilson 1986, 1995, 2002, Wilson &
Sperber 2002), mais aussi aux travaux de Diane Blakemore (cf. Blakemore 2002) ou encore à
la critique du discours formulée dans Reboul & Moeschler 1998. Nous nous contenterons
dans cette dernière section de mentionner les grands principes de RT et de montrer comment
l’interprétation multidimensionnelle d’une production langagière située peut être représentée
sans recourir au concept de discours ; pour ce faire, nous suivrons les grandes lignes de
Wilson & Sperber 2002.
3.2.1 RT et la cognition
Selon les auteurs, la pertinence est une propriété fondamentale de la cognition ; ainsi,
tout stimulus externe ou toute représentation interne qui fournit une entrée aux processus
cognitifs peut être pertinente pour un individu donné à un moment donné (Wilson & Sperber
2002 : p. 250). Les interactants utilisent cette propriété de la cognition humaine dans le cadre
de la communication sans avoir recours au Principe de Coopération ou aux Maximes
Conversationnelles proposés par Grice 1989.
Dans le cadre de RT, un stimulus est pertinent pour un individu lorsque son traitement
dans un contexte donné fournit un « effet cognitif positif » (« positive cognitive effect »,
ibid. : p. 251), lié à une modification non triviale dans la représentation mentale de l’individu.
L’effet cognitif le plus important est l’« implication contextuelle », une conclusion obtenue à
partir de l’ensemble formé par un stimulus et un contexte. Parmi les effets cognitifs pouvant
être obtenus, on inclura aussi le renforcement, la révision ou l’abandon d’assomptions.
Mais la pertinence est une propriété graduelle et relative : un stimulus donné peut être
plus ou moins pertinent que tel autre pour un individu dans un contexte : on parlera alors de
pertinence en terme de pondération entre effet et effort cognitif. Dans le cadre de RT, on dira
que, toutes choses étant égales par ailleurs, plus l’effet cognitif fourni par le traitement d’un
Chapitre 3 – Approches du discours
128
stimulus est important, plus ce stimulus est pertinent. De manière symétrique, étant donnés les
degrés variables de travail que peut engendrer le traitement cognitif d’un stimulus (en
fonction de sa saillance notamment, ou de la difficulté d’accès ou de traitement de ses
implications contextuelles), on considèrera que, toutes choses étant égales par ailleurs, plus
l’effort cognitif requis pour le traitement d’un stimulus est important, moins ce stimulus sera
pertinent.
Ce fonctionnement inhérent à la cognition humaine est résumé dans le Principe Cognitif
de Pertinence qui stipule que la cognition humaine tend à s’orienter vers la maximisation de
la pertinence (ibid. : p. 254 ; notre traduction).
3.2.2 RT et la communication
La tendance générale de la cognition à maximiser la pertinence rend possible la
prédiction et la manipulation partielle des états mentaux d’autrui. De manière plus spécifique,
RT s’attache à la « communication ostensive-inférentielle », qui met en jeu des processus
linguistiques de codage-décodage ainsi que des processus cognitifs d’inférence, et qui
implique deux niveaux d’intentionnalité :
• l’intention informative : l’intention d’informer quelqu’un de quelque chose.
• L’intention communicative : l’intention d’informer quelqu’un de son intention
informative.
On dira donc que la compréhension est atteinte quand l’intention communicative est
satisfaite. Afin de satisfaire cette intention, le locuteur aura recours à un « stimulus ostensif »
dont la fonction est d’attirer l’attention des interlocuteurs. RT pose que l’utilisation d’un
stimulus ostensif génère des attentes de pertinence précises et prévisibles qui permettent aux
interlocuteurs d’identifier le sens du message voulu par le locuteur.
Ainsi, la tendance générale décrite par le Principe Cognitif de Pertinence encourage les
interlocuteurs à penser qu’un stimulus ostensif produit par le locuteur est pertinent. Ce
phénomène est capturé par le concept de Principe Communicationnel de Pertinence qui
indique que chaque stimulus ostensif implique la présomption de sa propre pertinence
optimale (ibid. : p. 256). Le concept de Pertinence Optimale implique d’une part qu’un
stimulus est suffisamment pertinent pour compenser l’effort de traitement consenti par les
interlocuteurs, et d’autre part que ce stimulus est le plus pertinent qui soit compatible avec les
préférences et les capacités du locuteur (ibid. : p. 256 ; notre traduction).
Chapitre 3 – Approches du discours
129
3.2.3 RT et la compréhension
Dans le cadre de RT, le processus de compréhension implique la satisfaction de
l’intention communicative et la reconnaissance de l’intention informative du locuteur. Dans la
communication verbale, cette reconnaissance est fondée sur le fait que « l’énoncé encode des
formes logiques (des représentations conceptuelles, aussi fragmentaires et incomplètes soient-
elles) manifestement choisies par le locuteur comme entrée du processus inférentiel de
compréhension de l’interlocuteur » (ibid. : p. 260 ; notre traduction). Ces formes logiques,
moins que propositionnelles, servent donc d’entrée au processus inférentiel de compréhension
qui comporte trois volets (ibid. : pp. 260-261) :
• Explicatures : construction d’une hypothèse appropriée concernant le contenu explicite
de l’énoncé par le biais de décodage, désambiguïsation, résolution référentielle, et
autres processus pragmatiques ;
• Prémisses implicitées : construction d’une hypothèse appropriée concernant les
assomptions contextuelles recherchées par le locuteur ;
• Conclusions implicitées : construction d’une hypothèse appropriée concernant les
conclusions contextuelles recherchées par le locuteur ;
Les auteurs insistent sur le fait que ces trois sous-tâches du processus de compréhension
ne sont pas séquentielles, mais simultanées et interactives :
« These sub-tasks should not be thought of as sequentially ordered. The hearer does not FIRST
decode the logical form of the sentence uttered, THEN construct an explicature and select an
appropriate context, and THEN derive a range of implicated conclusions. Comprehension is an on-
line process, and hypotheses about explicatures, implicated premises and implicated conclusions
are developed in parallel against a background of expectations (or anticipatory hypotheses) which
may be revised or elaborated as the utterance unfolds. In particular, the hearer may bring to the
comprehension process not only a general presumption of relevance, but more specific
expectations about how the utterance will be relevant to him (what cognitive effects it is likely to
achieve), and these may contribute, via backwards inference, to the identification of explicatures
and implicated premises. » (ibid. : pp. 261-262)
Le processus de compréhension lui-même est guidé par la procédure suivante, qui
s’appuie sur les différents concepts fondamentaux de RT :
« Follow a path of least effort in computing cognitive effects: test interpretive hypotheses in order
of accessibility; stop when your expectations of relevance are satisfied » (ibid. : p. 261)
Chapitre 3 – Approches du discours
130
3.2.4 Synthèse
Cette rapide présentation des grands concepts de la Théorie de la Pertinence a laissé de
côté des notions importantes telles que celle de « contexte », liée à celle de « savoir
mutuellement manifeste », ou encore la distinction proposée par Blakemore entre « sens
propositionnel » et « sens procédural » ; elle nous a néanmoins permis d’esquisser une
approche de la communication humaine organisée autour d’un principe fondamental (décliné
sous les deux aspects complémentaires que sont le Principe Cognitif et le Principe
Communicatif de Pertinence), sans pour autant faire appel à un quelconque objet « discours ».
Il convient de noter que plusieurs des différentes dimensions proposées dans les
approches du discours que nous avons évoquées plus haut peuvent être prises en compte dans
RT61 : on pensera notamment à la structure intentionnelle et à l’état attentionnel de Grosz &
Sidner 1986, ou encore aux formes d’organisation sémantique, informationnelle,
opérationnelle, énonciative, polyphonique, etc. du Modèle Genevois. Certains aspects,
cependant, plus liés à une approche socio-interactionnelle de la communication, semblent ne
pas faire l’objet d’études systématiques dans le cadre de RT, faute sans doute de chercheurs
intéressés …
Nous ne trancherons pas ici le débat qui oppose depuis de nombreuses années les
partisans du discours aux adeptes de la pertinence, mais nous pensons qu’il est intéressant de
mettre en évidence le fait que le discours ne va pas de soi, ne constitue pas une donnée
immanente inévitable, mais plutôt une proposition d’objet construit par et parfois pour
certaines approches théoriques.
4 Synthèse générale
Après avoir, dans le chapitre précédent, montré les apories liées aux descriptions
traditionnelles de l’anaphore, nous avons suggéré que le concept alors encore nébuleux de
discours pouvait nous permettre de proposer des solutions intéressantes. Que le lecteur se
rassure, telle est toujours notre opinion malgré la situation complexe qui semble se dessiner
concernant le concept même de discours. Le présent chapitre a ainsi été le lieu d’un rapide
survol « historico-conceptuel » de ce concept : nous avons ainsi montré comment,
conformément à l’évolution que nous avons soulignée pour la thématique de la référence en
61 Une visite de la bibliographie RT en ligne (www.ua.es/dfing/rt.htm) permet d’avoir un aperçu des domaines
nombreux abordés par les chercheurs travaillant dans le cadre de RT.
Chapitre 3 – Approches du discours
131
général et de l’anaphore en particulier, le concept de discours semble pouvoir être abordé dans
un contexte cognitif après être passé par des étapes plus strictement linguistique (approches
structurale et générative des textes) et pragmatique (le discours-action des philosophes du
langage).
On peut donc considérer, et cela a été l’objectif de notre seconde section, que le
discours est un phénomène complexe et multidimensionnel se développant de manière
simultanée dans de nombreuses dimensions. On retiendra que le discours implique une
activité langagière multidimensionnelle, structurée linguistiquement, située et appréhendée
dans un cadre cognitif.
Nous avons cependant montré dans la dernière partie de ce chapitre que concevoir le
discours en tant qu’objet d’étude posait des problèmes nombreux ; nous avons notamment
souligné deux difficultés majeures : d’une part, une définition unique du discours est difficile
à concevoir, que ce soit en termes relationnels (vis-à-vis du texte) ou en termes internes (par
le biais du concept de cohérence ou par l’identification d’unités minimales et de règles
spécifiques) ; d’autre part, une grande partie des phénomènes impliqués par le concept de
discours sont explicables dans le cadre de la théorie de la pertinence, qui ne fait pas appel à ce
concept.
Etant donnés ces éléments, nous remarquerons que, si nous n’avons pas d’arguments
majeurs pour soutenir le concept de discours, nous ne proposons pas pour autant de le rejeter
en bloc. En effet, il est selon nous important de souligner que les travaux se réclamant de
l’analyse du discours trouvent une certaine forme d’homogénéité dans la démarche
d’ensemble et les concepts fondamentaux qu’ils proposent : la réflexion est menée sur des
données textuelles attestées dans un cadre multidimensionnel mêlant les dimensions
strictement linguistique, pragmatique et cognitive pour l’étude de la communication humaine.
En conséquence, la voie que nous proposons constitue en quelque sorte une solution
intermédiaire (et donc, fatalement, inadéquate pour les partisans des deux camps) au problème
du statut du discours ; cette solution consiste à penser le discours (et l’« analyse du discours »
à vrai dire, cf. chapitre 4), comme une heuristique complexe de l’activité de
communication humaine par l’intermédiaire d’un texte verbal, para-verbal et non
verbal, à la fois trace de et indice pour les processus cognitifs (au sens large) qui
président à sa production et à son interprétation situées.
Chapitre 3 – Approches du discours
132
C’est à partir de cette définition du discours que nous allons à présent tenter de montrer
comment fournir des réponses satisfaisantes aux problèmes posés par les descriptions
traditionnelles de l’anaphore.
133
Chapitre 4
Anaphore et discours : Solutions, nouveaux problèmes et changement de perspective
134
Chapitre 4 : Sommaire
1 Anaphore et discours : solutions et nouveaux problèmes … .................. 136 1.1 Anaphore et deixis : pour une approche discursive................................................... 136
1.1.1 Anaphore et deixis : rappel de la distinction classique ........................................ 136 1.1.2 Typologie des usages référentiels : une approche discursive .............................. 138
Limites d’une typologie traditionnelle étendue ........................................................ 138 Une approche discursive « cognitive-attentionnelle » .............................................. 139
1.1.3 Solutions discursives............................................................................................ 141 Déclencheur d’antécédent et antécédent ................................................................... 141 Cas problématiques de deixis textuelle / discursive.................................................. 142 Une approche discursive praxéologique ................................................................... 144
1.1.4 Synthèse ............................................................................................................... 148 1.2 Autonomie référentielle, coréférence et reprise ......................................................... 149
1.2.1 Le concept d’autonomie référentielle .................................................................. 149 1.2.2 L’anaphore pronominale : coréférence et reprise ................................................ 153
L’anaphore évolutive ................................................................................................ 153 L’anaphore situationnelle.......................................................................................... 155
1.3 Synthèse ......................................................................................................................... 156 2 Anaphore pronominale et discours............................................................ 156 2.1 Fonctionnement référentiel des expressions indexicales : généralités...................... 157
2.1.1 Expressions définies............................................................................................. 157 2.1.2 Expressions démonstratives ................................................................................. 158 2.1.3 Expressions pronominales.................................................................................... 159
2.2 Anaphore pronominale et discours ............................................................................. 161 2.2.1 Référence et responsabilité partagée.................................................................... 161 2.2.2 Typologies attentionnelles ................................................................................... 163 2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive............................ 167
Principes généraux .................................................................................................... 167 Centres prospectifs et rétrospectifs ........................................................................... 168 Types de transition .................................................................................................... 169 Quelques exemples ................................................................................................... 171 Limites et évolutions................................................................................................. 173
2.3 Interdépendance de l’anaphore et du discours .......................................................... 177 Discours et relations discursives ............................................................................... 178 Relations discursives et anaphore ............................................................................. 180
2.4 Synthèse ......................................................................................................................... 181 3 Synthèse générale ........................................................................................ 181
Chapitre 4 – Anaphore et discours
135
Le chapitre 2 nous a permis de souligner les problèmes liés aux descriptions classiques
de l’anaphore en linguistique et en pragmatique (avec notamment les concepts
d’incomplétude, de saturation, ou de champs de résolution pour l’anaphore et/ou la deixis) ;
nous avons postulé que le passage au niveau d’analyse du discours pouvait apporter des
solutions intéressantes. Après avoir, dans le chapitre précédent, donné un aperçu de quelques
aspects fondamentaux du discours, et proposé une définition opératoire de ce concept, nous
montrerons, dans la première partie du présent chapitre, en quoi le discours répond de
manière concrète aux problèmes que nous avons soulevés. Nous nous attacherons tout d’abord
à l’étude de la distinction deixis / anaphore avant de nous pencher sur les cas spécifiques
d’anaphore qui posaient problèmes dans le cadre traditionnel (les concepts d’autonomie
référentielle, de coréférence et de reprise seront évoqués à ce moment-là).
La seconde partie constituera une évocation des problèmes nouveaux posés par
l’adoption de ce cadre discursif et cognitif concernant la thématique de l’anaphore. En effet,
s’il est vrai que le recours au concept de discours permet de résoudre nombre de problèmes
posés par les descriptions traditionnelles de l’anaphore, nous montrerons que ce concept
introduit néanmoins plusieurs problèmes nouveaux. Nous évoquerons notamment le
fonctionnement discursif des expressions indexicales définie, démonstrative et pronominale
avant de focaliser notre attention sur ces dernières. Nous montrerons finalement que l’on peut
considérer l’anaphore et le discours comme unis dans une relation d’interdépendance
dynamique.
Nous terminerons ce chapitre par une synthèse générale qui reprendra les principaux
points développés aussi bien dans ce chapitre que dans les chapitres précédents.
Chapitre 4 – Anaphore et discours
136
1 Anaphore et discours : solutions et nouveaux problèmes …
Comme nous l’indiquions en fin de chapitre 2, les descriptions traditionnelles de
l’anaphore posent des problèmes difficiles à surmonter sans adopter un point de vue discursif.
Parmi ces problèmes, nous retiendrons d’une part les problèmes de différentiation des unités
et des concepts de deixis et d’anaphore, et d’autre part les problèmes de description et
d’explication de certains cas d’anaphore à l’aide des concepts d’autonomie référentielle, de
coréférence et de reprise. Nous allons donc aborder ces problèmes, et faire état de quelques
solutions discursives.
1.1 Anaphore et deixis : pour une approche discursive
La distinction classique des concepts d’anaphore et de deixis, que nous rappellerons
dans une première partie de cette section, pose deux problèmes majeurs liés (cf. chapitre 2, §
3.2) : le premier problème concerne l’impossibilité d’une typologie exhaustive des formes
linguistiques impliquées ; c’est précisément cette impossibilité qui a poussé certains auteurs à
proposer une distinction des usages déictiques et anaphoriques des expressions indexicales ;
cette typologie des usages référentiels est, comme nous l’avons mentionné, elle aussi
problématique étant donnés les chevauchements d’usages et les frontières floues qui les
séparent parfois. En conséquence, nous consacrerons la deuxième partie de cette section aux
solutions proposées par une approche discursive de ce problème.
1.1.1 Anaphore et deixis : rappel de la distinction classique
Cette distinction entre anaphore et deixis trouve une expression devenue classique dans
Halliday & Hasan 1976 qui propose d’opposer « endophore » et « exophore » :
« We shall find it useful in the discussion to have a special term for situational reference. This we
are referring to as EXOPHORA, or EXOPHORIC reference; and we would contrast it with
ENDOPHORIC as a general name for reference within the text. » (Halliday & Hasan 1976 : p. 33)
Les déictiques sont ainsi « exophoriques » (ils signalent la nécessité de récupérer leur
référent dans la situation d’énonciation) alors que les anaphoriques sont
« endophoriques » (ils signalent la nécessité de récupérer leur référent à partir du texte).
Chapitre 4 – Anaphore et discours
137
La figure 11 ci-dessous (cf. figure 6, chapitre 2, § 3.2) est une reproduction du schéma
présenté par Halliday & Hasan 1976 illustrant cette distinction :
Reference
[situational] [textual]
exophora endophora
[to preceding text] [to following text]
anaphora cataphora
Figure 11 : Types de référence selon Halliday & Hasan 1976.
Il est tentant, dès lors que l’on remarque une relation intime entre un type de référence
et certaines unités linguistiques, d’assimiler ces formes avec la deixis (référence exophorique,
liée à la situation) ou l’anaphore (référence endophorique, liée au texte). Une telle approche
conduit à poser une typologie des formes déictiques et des formes anaphoriques, typologie
dont nous avons déjà montré les difficultés (possibilité d’usages anaphoriques de « déictiques
purs », fonctionnement déictique de certaines unités lexicales, etc.). Halliday & Hasan 1976
souligne d’ailleurs explicitement cette impossibilité :
« A reference item is not of itself exophoric or endophoric; it is just ‘phoric’ – it simply has the
property of reference. Any given INSTANCE of reference may be either one or the other, or it
may be both at once. We shall see in this chapter that there are tendencies for particular items or
classes of items to be used exophorically or endophorically; but the reference relation is itself
neutral: it merely means ‘see elsewhere’. » (Halliday & Hasan 1976 : pp. 36-37)
La solution abordée par nombre de sémioticiens et de pragmaticiens consiste alors à
postuler que, si une typologie des formes référentielles n’est effectivement pas envisageable,
une typologie des usages représente une voie plus prometteuse. Nous allons à présent rappeler
les difficultés de ce type d’approche et montrer en quoi l’adoption d’une perspective
discursive permet d’apporter des solutions intéressantes.
Chapitre 4 – Anaphore et discours
138
1.1.2 Typologie des usages référentiels : une approche discursive
Limites d’une typologie traditionnelle étendue
La typologie binaire proposée dans Halliday & Hasan 1976 a rapidement montré ses
limites descriptives : comme le montre la citation précédente certains usages peuvent être
simultanément endo- et exophoriques, ce qui constitue un élément délicat dans l’optique de la
conservation de catégories distinctes d’usages ; nombre d’auteurs proposeront en réponse à
ces problèmes une typologie plus complexe, telle que celle présentée par Levinson 2004 et
représentée dans la figure 12 ci-dessous62 :
Figure 12 : Classification des usages indexicaux selon Levinson 2004 (corrigée).
On remarquera que cette typologie intègre les usages endo- et exophorique proposés par
Halliday et Hasan 1976, mais les subordonne à la nature déictique ou non de l’usage : dans
cette perspective, un usage déictique peut s’appuyer sur la situation d’énonciation (il est alors
exophorique), mais peut aussi s’appuyer sur le texte (on parlera alors de « deixis
textuelle/dicursive »). Parallèlement, un usage non déictique pourra s’appuyer sur le texte (il
sera alors endophorique) ou sur des informations non textuelles dans le cas des usages non
déictiques empathique ou mémoriel (« recognitional »).
Dans ce contexte, étant donné le rejet des équations déictique = situationnel et
anaphorique = textuel, il semble difficile de définir de manière robuste ce qui fait l’unité de la
catégorie « déictique » par rapport à la catégorie « non déictique ». Une telle typologie semble
en fait d’une part s’appuyer sur Halliday & Hasan 1976 et d’autre part isoler trois
62 Nous reproduisons ici la figure 7 de notre chapitre 2, § 3.2.2 (corrigée conformément à la note 12).
endophoric
Chapitre 4 – Anaphore et discours
139
excroissances ad hoc dont le seul objectif serait de rendre compte de certains exemples
problématiques :
• une excroissance déictique non exophorique : la deixis texuelle/discursive ;
• et deux excroissances non déictiques non endophoriques : la deixis empathique et la
deixis mémorielle ;
Cette démarche, à bien y regarder, ne constitue ainsi pas une réelle évolution de la
conception proposée par Halliday & Hasan 1976 : elle récupère tout au plus les concepts
d’endo- et d’exophore sans les intégrer réellement au sein d’une structure homogène et créée
des catégories ad hoc destinées à classer certains cas difficiles, comme par exemple les cas de
« pronoms de paresse » (cf. Geach 1962, Lyons 1977), ou de « deixis textuelle impure » (cf.
Lyons 1977) mentionnés au chapitre 2. En conséquence, nous argumenterons dans la suite de
cette section en faveur d’une approche discursive de la distinction deixis / anaphore : nous
introduirons notamment deux aspects de l’approche discursive, cognitif-attentionnel et
praxéologique, et nous livrerons à l’étude des cas problématiques que nous venons de
mentionner dans ce cadre discursif explicité.
Une approche discursive « cognitive-attentionnelle »
Rappelons que nous avons défini (chapitre 3) le discours comme une heuristique
complexe de l’activité de communication humaine par l’intermédiaire d’un texte verbal, para-
verbal et non verbal, à la fois trace de et indice pour les processus cognitifs (au sens large) qui
président à sa production et à son interprétation situées. Dans ce cadre, nous proposons
d’adopter une approche cognitive qui, comme l’indique Cornish 1999 à la suite de Ehlich
1982 et Bosch 1983, consiste à penser la deixis et l’anaphore comme autant de procédures
destinées à coordonner les modèles mentaux construits par les interactants dans le
déroulement de l’activité de communication.
La deixis est ainsi une procédure employée par le locuteur, impliquant un élément
verbal, para-verbal ou non verbal, et destinée à permettre la (re-)focalisation de l’attention de
l’interlocuteur sur un objet de son modèle mental supposé ; l’anaphore, quant à elle, est une
procédure strictement verbale employée par le locuteur et destinée à maintenir la focalisation
de l’attention de l’interlocuteur sur un objet de son modèle mental supposé :
Chapitre 4 – Anaphore et discours
140
« Deixis on this view is the use of a member or members of a set of devices, whether linguistic or
paralinguistic63 in character, whose object is to ensure the refocusing of the interlocutor’s attention
on a particular discourse entity […] while anaphora, is the use of a member (or members) of a
complementary set of purely linguistic devices […] whose role is to ensure that the interlocutor
maintains the focus of attention already established at the point where the anaphor occurs. »
(Cornish 1999 : pp. 25-26)
Nous noterons que, dans cet extrait, Cornish 1999 postule que les formes déictiques et
les formes anaphoriques constituent deux ensembles distincts et complémentaires. Comme
nous l’avons montré précédemment, cette position, dont le rejet justifie notre démarche
actuelle, nous semble impossible à tenir ; Cornish 1999 pose d’ailleurs lui-même un cadre
plus compatible avec notre approche lorsque, quelques pages plus tôt, il affirme que, malgré
l’existence de formes apparemment spécialisées dans un type d’usage, la distinction deixis /
anaphore n’est fondamentalement pas assimilable à une typologie des formes linguistiques :
« It is important to bear in mind, however, that although the various types of indexical expression
at issue here may be said to be specialized, in terms of their formal properties, in the manifestation
of either deixis or anaphora, it is in fact the use of a given type of expression in a particular context
which constitutes deixis or anaphora. » (Cornish 1999 : p. 23).
En résumé, la procédure déictique est destinée à induire la focalisation de l’attention de
l’interlocuteur sur un objet qui ne disposait pas de ce statut focal alors que l’anaphore est une
procédure destinée à préserver le statut focal privilégié d’un objet du modèle mental supposé
de l’interlocuteur.
Nous avons montré dans le chapitre précédent que le statut informationnel d’une entité
de discours ne peut se résumer à une distinction binaire de type donné / nouveau ; Prince
1981, notamment, a montré la pertinence d’une analyse plus fine, assimilable à un gradient de
familiarité supposée. De manière similaire, la distinction deixis / anaphore, fondée sur le
statut des objets de discours au moment de leur focalisation ou de leur maintient en position
focale par l’expression indexicale, ne doit plus être considérée en termes catégoriels, mais
plutôt en termes graduels : les usages déictiques consistent dès lors en des procédures agissant
sur les objets de discours les moins « familiers » (les plus « nouveaux ») alors que les usages
anaphoriques seront à mettre en relation avec les objets les plus « familiers » (« évoqués »),
quelle que soit la raison de cette familiarité élevée (saillance co-textuelle ou situationnelle).
63 Nous remarquerons que Cornish 1999 (note 3, p. 25) classe les phénomènes prosodiques et notamment
intonatifs (« accent and pitch level ») au sein des éléments paralinguistiques ; nous sommes en désaccord avec
cette classification (par ailleurs réfutée par Cornish 2003a) et détaillerons notre position chapitres 5 et 6.
Chapitre 4 – Anaphore et discours
141
Cette transposition cognitive de la thématique deixis / anaphore implique
nécessairement un questionnement sur les correspondances unissant certaines configurations
linguistiques à certains objets mentaux en fonction de l’état attentionnel des interactants. C’est
notamment à ce thème, qui constitue l’un des nouveaux problèmes posés par notre
changement d’approche, que nous consacrerons une part importante de la seconde section de
ce chapitre.
1.1.3 Solutions discursives
Le chapitre précédent nous a permis de poser les bases d’une approche discursive ; nous
venons de proposer la transposition de l’opposition traditionnelle entre deixis et anaphore en
termes discursifs et cognitifs, et plus simplement situationnels ou « géographiques » ; il
semble tout de même important de s’interroger sur le gain descriptif et explicatif qu’une telle
approche représente par rapport à la conception traditionnelle. Une solution de facilité
consisterait à abandonner les exemples problématiques en même temps que l’opposition
traditionnelle, mais il nous semble important de nous rappeler que ce sont ces problèmes qui
nous ont en quelque sorte poussé à adopter un cadre différent : il sera alors logique, loin de les
éviter, de centrer sur eux les nouvelles analyses. Nous allons auparavant, afin de clarifier nos
analyses, introduire les concepts de « déclencheurs d’antécédent » et d’« antécédent » tels
qu’ils sont définis par Francis Cornish.
Déclencheur d’antécédent et antécédent
Nous venons de voir que l’« origine » co-textuelle ou situationnelle d’un objet au sein
d’un modèle mental, tout en restant un paramètre important dans le fonctionnement des
expressions indexicales, peut être considérée comme une dimension orthogonale par rapport
au statut attentionnel des objets mentaux. Cette dissociation des deux dimensions correspond
approximativement à la distinction opérée par nombre d’auteurs entre entités du monde réel et
objets mentaux.
Une distinction comparable est matérialisée par le couple conceptuel « déclencheur
d’antécédent – antécédent » proposé par Francis Cornish (cf. Cornish 1986 pour une première
formulation ; Cornish 1999 : pp. 41ff)64. Selon l’auteur, la notion traditionnelle d’antécédent
utilisée en relation avec le concept d’anaphore remplit en réalité deux fonctions distinctes :
64 Comme le précise l’auteur (Cornish 1999 : p. 43), cette dissociation conceptuelle, notamment par le choix du
terme « trigger / antécédent », n’est pas sans rappeler le concept de déclencheur proposé par Hawkins 1977 ;
Chapitre 4 – Anaphore et discours
142
• d’une part, l’antécédent traditionnel est une expression linguistique cotextuelle dotée
de traits formels contribuant à déterminer la forme de l’expression anaphorique,
notamment pronominale (ibid. : pp. 41-42). Le concept de « déclencheur
d’antécédent » (ou « antecedent trigger ») est destiné à désigner cet aspect formel ;
• d’autre part, l’antécédent est aussi une unité signifiante dotée d’une dénotation qui,
toujours selon l’analyse traditionnelle, permet de définir le sens et la référence de
l’expression anaphorique (ibid. : p. 42). Ce sens et cette référence de l’expression
anaphorique, ou, en termes plus cognitifs, son interprétation, sont capturés par le
concept d’« antécédent » par contraste avec celui de « déclencheur d’antécédent »
mentionné ci-dessus.
Cette distinction doit impérativement être interprétée dans le cadre discursif que nous
avons commencé à exploiter plus haut et que nous préciserons, concernant tout
particulièrement l’anaphore pronominale, dans la seconde section de ce chapitre. Nous
retiendrons pour l’instant la distinction entre « déclencheur d’antécédent » en tant qu’entité
formelle (situationnelle ou textuelle) du monde réel et « antécédent » en tant qu’entité
cognitive associée à l’expression anaphorique65. Nous exploiterons cette distinction
lorsqu’elle permettra de mieux éclairer nos analyses.
Cas problématiques de deixis textuelle / discursive
Parmi les problèmes liés à l’approche traditionnelle de la distinction deixis / anaphore,
nous avions isolé une catégorie particulière, la catégorie ad hoc « deixis textuelle », et, plus
particulièrement, trois cas assimilables à celle-ci. Un premier cas concernait la possibilité
pour une expression donnée d’être simultanément utilisée de manière déictique et de manière
anaphorique ; étudions l’exemple 24, emprunté à Levinson 2004 (p. 99) et déjà cité chapitre
2 :
Ex (24) I’ve been living in San Francisco for 5 years and I love it here.
sans entrer dans les détails, nous noterons avec F. Cornish que ces concepts ont cependant été développés de
manière indépendante et ne sont pas équivalents. 65 Il est important de souligner l’indépendance interprétative de l’expression anaphorique : c’est par elle-même
(insérée dans un « segment indexical » et une relation prédicative) qu’elle obtient sa désignation (définit son
« antécédent »). Nous reviendrons plus en détail sur ce point plus loin dans ce chapitre.
Chapitre 4 – Anaphore et discours
143
Selon la description traditionnelle (position d’ailleurs adoptée par Levinson 2004),
l’endroit désigné par l’adverbe locatif « here » dépend du lieu de l’énonciation : il est donc en
ce sens déictique ; cependant, cet adverbe constitue une reprise de et coréfère avec « San
Francisco » dans le cotexte gauche : il est donc anaphorique au sens traditionnel. Dans le
cadre discursif que nous venons d’évoquer, a contrario, l’adverbe « here » pourra ici être
considéré de manière univoque comme anaphorique : l’objet introduit par l’expression « San
Francisco » dans le cotexte gauche occupe une position élevée dans la pile66 qui modélise
l’état attentionnel des interactants ; l’adverbe peut alors aisément être interprété comme une
instruction de maintenir cet objet discursif dans cette position privilégiée. Cette analyse nous
semble par ailleurs confirmée par le fait (non envisagé dans nombre d’analyses) que
l’énonciation de (24) ailleurs qu’à San Francisco (bien clairement moins acceptable qu’une
version recourrant à « there ») pourrait toujours, selon certains locuteurs, mener à la
désignation de la ville de San Francisco par l’adverbe « here ». On pourra dès lors considérer
que c’est l’expression cotextuelle « San Francisco » qui constitue le déclencheur d’antécédent
dans cet exemple, et pas la situation géographique des interactants.
Les deux derniers exemples problématiques concernent respectivement ce que Lyons
1977 a appelé la « deixis textuelle impure » (« impure textual deixis » ; Lyons 1977 : p. 670)
et l’utilisation de « pronoms de paresse » (« pronouns of laziness » ; cf. Geach 1962 (pp.
125ff). Considérons les exemples suivants :
Ex (25) A : I’ve never seen him.
B : That’s a lie
Ex (26) The man who gave his paycheque to his wife was wiser than the man who
gave it to his mistress.
L’exemple 25 n’est pas assimilable à un usage anaphorique au sens traditionnel, « that »
ne coréfèrant avec aucune expression du cotexte ; une approche déictique textuelle /
discursive classique expliquerait une éventuelle référence à la phrase prononcée par A, mais
pas à son énonciation en contexte. On se trouve donc, si l’on se contente de l’approche
traditionnelle, dans une situation intermédiaire (cf. Levinson 1980 : p. 87) qui a valu à ce
phénomène le qualificatif « impur » attribué par Lyons 1977.
66 Les notions de pile et d’état attentionnel sont celles introduites au chapitre 2 dans le cadre du modèle proposé
par Grosz & Sidner 1986.
Chapitre 4 – Anaphore et discours
144
L’exemple (26) est présenté comme particulièrement problématique pour la notion
traditionnelle d’anaphore car le pronom « it » ne coréfère avec aucune expression du cotexte ;
la solution envisagée traditionnellement (cf. Levinson 1980 : p. 87) consiste tout de même à
postuler que ce pronom désigne une entité de manière indirecte, par l’intermédiaire d’une
expression présente dans le cotexte (ici le syntagme nominal « The man who gave his
paycheque to his wife ») ; c’est ce second aspect qui lui vaut son rapprochement avec la deixis
textuelle / discursive.
Ces deux exemples ne peuvent pas recevoir d’explication discursive satisfaisante avec
les seuls éléments que nous avons présentés jusqu’ici ; nous allons en conséquence introduire
un second aspect discursif, intentionnel et praxéologique celui-là qui permettra non seulement
de fournir une description et un explication homogène de ces phénomènes, mais aussi de
postuler un ensemble fini d’objets mentaux possibles.
Une approche discursive praxéologique
Notre définition du discours implique la notion d’activité de communication ; on
retrouve cette conception dans nombre de travaux héritiers de la théorie des actes de langage :
on pensera ainsi notamment aux logiques illocutionnaires de Searle & Vanderveken 1985 ou
encore de Trognon & Brassac (1988, 1992, 1993) ou à la version standard du Modèle
Genevois (Roulet et al. 1985).
Comme nous l’avons mentionné chapitre 3, Searle 1965 considère l’acte de langage, et
plus précisément l’acte illocutionnaire (en tant qu’acte fondamental d’une énonciation)
comme l’unité minimale de la communication linguistique : « To put this point more precisely, the production of the sentence token under certain conditions is
the illocutionary act, and the illocutionary act is the minimal unit of linguistic communication »
(Searle 1965 : p. 221)
Notre conception se distingue cependant de cette approche des actes de parole en ce
sens que nous pensons important de prendre en considération trois points
fondamentaux souvent négligés : nous critiquerons ainsi ce que nous appelons les tendances
unipolaire, désincarnée et parcellaire de la théorie classique.
L’aspect unipolaire de l’approche classique est lié au fait que cette dernière s’appuie
fondamentalement sur le concept de « production » de l’énonciation, et non sur ceux de co-
construction ou de reconstruction qui impliquent a minima la prise en compte de
l’interlocuteur par le locuteur ou, plus justement, la participation active de l’interlocuteur à la
Chapitre 4 – Anaphore et discours
145
communication67. Il semble pourtant fondamental de prendre en considération l’aspect
interactif de la communication, envisageable comme une entreprise collaborative
(re)constructive et probabiliste (Cornish 2003a : p. 5) ;
Deuxièmement, il nous semble aussi fondamental de prendre en compte la dimension
intentionnelle de la communication : l’activité de communication donnée, comme toute
activité humaine, constitue avant tout un moyen d’atteindre des objectifs. Grosz & Sidner
1986 ainsi que la Théorie de la Pertinence accordent une place prépondérante aux intentions
tant dans le cadre de la structuration que dans celui de la compréhension du discours. A
contrario, le cadre classique de la théorie des actes de parole néglige totalement cette
dimension fondamentale de l’interaction langagière : les actes constituent pour leurs analystes
des données désincarnées qui constituent les unités fondamentales d’architectures logiques.
L’approche classique, finalement, nous semble parcellaire car elle place
systématiquement les seuls actes illocutionnaires au cœur de la réflexion praxéologique. En
effet, comme nous venons de le rappeler ci-dessus avec la citation de Searle 1965, les travaux
fondateurs (d’Austin et de Searle), tout comme les travaux dérivés (les « logiques
illocutoires ») et les travaux critiques afférents (on pensera notamment aux travaux réalisés
dans le cadre de la Théorie de la Pertinence) se sont toujours organisés autour de l’acte
illocutionnaire. Ainsi, Vernant 1998, fort critique à l’égard de la théorie classique concernant
la tendance unipolaire que nous avons mentionnée plus haut, se cantonne au même cadre
général et ne propose, avec sa notion d’« interacte », qu’une nouvelle déclinaison d’une
logique illocutionnaire.
Nous noterons cependant qu’une vision praxéologique, même parcellaire (c'est-à-dire
uniquement illocutionnaire), permet tout de même de rendre compte de l’un des deux
exemples problématiques de deixis textuelle / discursive qu’il nous restait à traiter et que nous
répétons ci-dessous :
Ex (25) A : I’ve never seen him.
B : That’s a lie
67 On pensera par exemple aux travaux de Bakhtine sur le dialogisme, sur lesquels s’appuie Roulet et al. 2001 ou
encore aux travaux des énonciativistes tels que ceux de Culioli qui se démarquent d’une vision purement codique
de la communication centrée sur le locuteur (ou plutôt l’énonciateur) au profit des concepts de jeu et de plasticité
dans l’ajustement lié à la co-construction ou à la reconstruction du sens (Culioli 1990 : pp. 25-27).
Chapitre 4 – Anaphore et discours
146
Cet exemple d’utilisation du pronom démonstratif distal « that » pose comme nous
l’avons dit un problème pour une description classique, y compris avec l’adoption de la
catégorie ad hoc qu’est la deixis textuelle / discursive. Pour constituer un cas de deixis
textuelle / discursive, il faudrait en effet que « that » désigne la phrase de A, or une phrase (si
tant est que cette unité soit pertinente) n’a pas de valeur de vérité, et ne peut donc être ni vraie
ni fausse, ni a fortiori un mensonge. Une solution alternative consisterait à dire que le pronom
« that » désigne la proposition exprimée par la phrase de A qui peut, elle, recevoir une valeur
de vérité ; cependant, la qualification apportée par B (« a lie ») nous permet d’écarter aussi
cette seconde solution : une proposition peut être vraie ou fausse, mais elle ne peut pas être un
mensonge, à la différence de son assertion par un individu. L’entité désignée par « that », son
antécédent au sens défini plus haut, peut donc être assimilée à l’assertion de la proposition
exprimée par A, c'est-à-dire à l’acte illocutionnaire accompli par A lors de l’énonciation ; le
déclencheur d’antécédent est ici le fait que A effectue cet acte d’assertion dans l’interaction.
On pourra définir le fonctionnement du pronom démonstratif « that » dans cet exemple
comme déictique, destiné à promouvoir l’acte illocutionnaire accompli par A à un statut
privilégié au sein des modèles mentaux des interactants.
Cet exemple est intéressant à trois titres principaux. Premièrement, il confirme
l’importance de la qualification rétroactive de l’acte (ou de l’« interacte » selon Vernant 1998)
opérée lors de l’interlocution : l’acte de communication n’est dès lors plus à considérer
comme l’apanage exclusif du locuteur, mais plutôt comme l’œuvre collaborative (ou
compétitive, mais en tout cas commune) des participants à l’interaction.
Deuxièmement, on voit que le cotexte immédiat de l’expression indexicale, ce que
Cornish 1999 appelle le « segment indexical », joue un rôle crucial dans la détermination du
référent : le calcul menant à cette détermination du référent n’est ainsi plus considéré comme
fondé uniquement sur la forme de l’expression indexicale, mais aussi sur les propriétés du
segment textuel qui la contient (sens contextuel de la prédication hôte, aspect, temps,
modalité, etc. ; cf. Cornish 1999). Nous reviendrons plus loin sur ce point fondamental pour la
thématique de l’anaphore.
Troisièmement, on notera que nous avons dû recourir à la notion d’acte illocutionnaire
afin d’expliquer la possibilité de référence déictique présente dans l’exemple (25). Ceci
montre que la dimension praxéologique de l’interaction peut fournir des entités constitutives
des modèles mentaux des interactants. On se rappellera aussi, d’autre part, le fait que les
éléments textuels peuvent eux aussi constituer des référents au sein des modèles construits par
Chapitre 4 – Anaphore et discours
147
les interactants : on retrouve là la version classique du phénomène de deixis textuelle /
discursive68, dont (27) ci-dessous est un exemple emprunté à Hengeveld 2004 :
Ex (27) My brother-in-law, if that’s the right word for him, is a poet.
La Grammaire Fonctionnelle du Discours (« Functional Discourse Grammar » ou
FDG ; cf. Hengeveld 2004), analyse ces deux possibilités comme la prise en compte
d’éléments des niveaux « interpersonnel » et « expressif » au sein du niveau
« représentationnel » ; c’est alors le « contexte communicationnel » qui, enrichi par les entités
fournies par ces niveaux, joue le rôle d’intermédiaire (Hengeveld 2004 : p. 11). En termes
plus triviaux, il semblerait donc que les interactants soient capables de « faire feu de tout
bois » dans la communication : toutes les dimensions de la communication (aspects
praxéologiques, sémantiques et purement formels) peuvent ainsi être mises à profit et fournir
les référents qui peuplent leurs modèles mentaux.
Nous noterons que certains, au sein de la FG, notent le caractère surprenant de la prise
en compte de l’illocutionnaire dans le cadre de la structure de la clause (cf. par exemple
Anstey 2002 : p. 4 à propos de Hengeveld 1989). Le passage au niveau discursif, par le biais
du niveau interpersonnel de la FDG, réduit le caractère apparemment ad hoc de cette prise en
compte, mais il nous semble que, si la prise en compte de l’acte illocutionnaire permet
d’expliquer les cas problématiques du type de (25), elle ne constitue qu’un premier pas dans
la démarche praxéologique. En effet, une vision praxéologique élargie semble pouvoir
apporter quelques éléments de réponse concernant le problème de la deixis textuelle impure
représenté par l’exemple (26) que nous répétons ci-dessous :
Ex (26) The man who gave his paycheque to his wife was wiser than the man who
gave it to his mistress.
Une praxéologie étendue, fondée par exemple sur l’inventaire des actes de parole
proposé par Searle 1969, permet ainsi de proposer que le pronom « it » désigne le référent lié
à l’acte référentiel (type d’acte propositionnel selon Searle 1969) correspondant à « his
paycheque ». Cet acte référentiel implique l’adjectif possessif « his » qui fonctionne ici de
manière anaphorique (selon la conception définie plus haut) : ce pronom constitue une
instruction consistant à désigner un objet bénéficiant d’un statut privilégié (nous dirons
« focalisé ») au sein du modèle mental, en l’occurrence le premier individu mentionné. L’acte
68 Par opposition aux cas problématiques qui nous ont intéressé jusqu’à présent.
Chapitre 4 – Anaphore et discours
148
référentiel réalisé par l’intermédiaire de l’expression « his paycheque » peut être vu comme
une fonction reliant un salaire à son possesseur représenté comme objet mental « focalisé ».
Cet acte constitue le déclencheur d’antécédent lié au pronom « it ».
Le pronom « it » permet alors la constitution rétroactive de cet acte référentiel en tant
qu’objet discursif et réitère la procédure associée en la désignant : celle-ci associe alors un
salaire à l’objet mental « focalisé » à ce moment-là de l’interaction, c'est-à-dire au second
individu mentionné ; ce second acte référentiel constitue l’antécédent du pronom « it » qui
semble donc être en quelque sorte un déictique de procédure anaphorique.
Cette proposition, qui mériterait bien entendue d’être approfondie, montre selon nous
l’intérêt potentiel d’un élargissement de l’approche praxéologique, au-delà et en deçà du seul
illocutionnaire. Insistons cependant sur le fait qu’une telle « brèche praxéologie », représentée
par l’intégration de l’illocutionnaire au sein de la structure de la clause en FG (au sein du
niveau interpersonnel), couplée à la prise en compte d’éléments du niveau expressif de la
FDG, pourrait conduire à une prolifération des éléments composant les modèles mentaux des
interactants. Ce risque constitue l’un des problèmes majeurs posés par le type d’approche
discursive que nous proposons ; une telle thématique, cependant, dépasse largement le cadre
de cette thèse : ainsi, elle ne sera pas traitée ici plus avant, mais fait l’objet d’un article en
préparation.
1.1.4 Synthèse
Nous avons tenté de montrer dans cette section qu’une approche classique de la
distinction deixis / anaphore n’était pas, en définitive, directement transposable dans le cadre
d’une approche discursive : l’opposition formulée en termes de lieu de résolution y est
considérée comme orthogonale à la nature de l’opération effectuée sur les composants des
modèles mentaux des interactants. Dans cette perspective, la deixis et l’anaphore se
distinguent par le fait que la première permet la focalisation d’un objet mental ne bénéficiant
pas d’un statut privilégié, alors que la seconde préserve ce statut concernant un objet mental
donné. L’anaphore constitue dès lors une instruction de continuité alors que la deixis
s’apparente à une instruction de changement.
Cette approche de l’indexicalité dans un cadre discursif, si elle permet de résoudre
nombre de problèmes, en pose également plusieurs nouveaux concernant notamment la nature
et le mode d’introduction des objets composants les modèles mentaux des interactants ainsi
que la nature exacte des procédures utilisées par ces derniers dans le cadre de la co-
Chapitre 4 – Anaphore et discours
149
construction de la communication. Nous aborderons certains de ces problèmes dans la
seconde partie de ce chapitre, mais il est auparavant important de terminer notre inventaire
des solutions apportées par l’approche discursive aux problèmes posés par les descriptions
classiques du phénomène de l’anaphore. Nous venons de traiter de la relation deixis /
anaphore, mais le chapitre 2 avait aussi mis en évidence les problèmes liés à la vision
antécédentiste de l’anaphore. C’est à présent vers cette thématique que nous allons donc nous
tourner.
1.2 Autonomie référentielle, coréférence et reprise
L’approche classique de l’anaphore peut être représentée par la conception milnérienne
(Milner 1982) selon laquelle l’anaphore implique un processus de saturation sémantique
d’expressions dépourvues de référence virtuelle (les « anaphorisants » de Milner 1982) à
partir d’expressions qui en sont pourvues (les expressions « anaphorisées »). Une telle
conception pose trois problèmes majeurs concernant respectivement le concept d’autonomie
référentielle, et ceux de coréférence et de reprise, associés plus spécifiquement à l’anaphore
pronominale. Analysons ces problèmes tour à tour.
1.2.1 Le concept d’autonomie référentielle
Rappelons (cf. chapitre 2, §1) que le concept de référence virtuelle est posé en relation
avec celui de référence actuelle : ainsi, un segment de réalité, s’il constitue la référence
actuelle d’une expression donnée, doit remplir l’ensemble de conditions définies par sa
référence virtuelle. Une expression dont la référence virtuelle permet seule de définir sa
référence actuelle, indépendamment de son énonciation, est alors caractérisée par son
« autonomie référentielle ».
Les groupes nominaux sont ainsi selon Milner référentiellement autonomes :
« [dans un groupe nominal] plusieurs unités lexicales peuvent intervenir, et les références
virtuelles de chacune se combinent pour contraindre une référence actuelle possible ; mais une
référence actuelle donnée n’est associée qu’à la combinaison d’ensemble et non pas à chacune des
unités combinées. » (ibid. : pp. 10-11)
Appliqué à un groupe nominal comportant un article défini (la « description définie »
chère aux philosophes du langage), ce principe implique qu’une référence actuelle pourrait
être attribuée à l’expression sur la base de sa référence virtuelle compositionnelle et ce
indépendamment de son énonciation.
Chapitre 4 – Anaphore et discours
150
Ex (28) a. The cat
b. The funny little grey cat
L’observation des exemples (28a) et (28b) montre cependant que, bien que la référence
virtuelle du groupe nominal se complexifie (sa saturation sémantique augmente) avec l’ajout
de nouveaux éléments, même le groupe (28b) n’est pas capable de se voir attribuer une
référence actuelle sur la base de sa seule référence virtuelle. Ce fait est illustré par l’anecdote
rapportée par Cornish 1999 (pp. 57-58) : Roy Hattersley, membre du gouvernement Wilson
en 1976, alors en visite en Roumanie, fut interpellé par l’ambassadeur du Royaume Uni à sa
descente d’avion ; ce dernier lui annonça « The Prime Minister has just resigned ! » ; la
confusion éprouvée par Roy Hattersley (de quel premier ministre s’agit-il ? le premier
ministre roumain ou son homologue britannique ?) fut cependant rapidement effacée par les
explications de l’ambassadeur et, comme le souligne Cornish 1999 par un travail inférentiel
particulier de la part de Roy Hattersley. Cet exemple attesté montre l’inaptitude des
descriptions définies à faire preuve d’une véritable autonomie référentielle, c'est-à-dire
indépendamment de leur énonciation.
Seule une description telle que (29) semble supporter cette affirmation :
Ex (29) Le président de la République française élu en 2002.
Il faut bien reconnaître, cependant que de telles descriptions définies complètes sont
l’exception plutôt que la norme dans la communication ordinaire ; cela revient-il à dire pour
autant que les interactants sont incapables d’attribuer une référence actuelle aux descriptions
définies spécifiques telles que celles de l’exemple (28) ? Bien évidemment pas, et il est
heureux qu’il en soit ainsi car, à l’instar de l’article défini, le démonstratif, et même des unités
telles que l’adjectif « local » ou l’adverbe « alentours » suffisent à annuler l’hypothétique
autonomie référentielle de l’expression qui les accueille69. Nous appellerons temporairement
ces unités (article défini, adjectif démonstratif, etc.70) des « marqueurs de non-autonomie
référentielle ».
Il semblerait alors légitime, si l’on tentait de sauvegarder le cadre milnérien, de
s’interroger sur ce processus de perte d’autonomie. L’unique explication nous permettant de
conserver ce cadre consisterait à postuler qu’un marqueur de non-autonomie référentielle 69 Cf. Moeschler & Reboul 1994 : pp. 136ff. pour une présentation plus détaillée de ce phénomène bien connu. 70 Comme on l’a déjà vu au chapitre 2, l’ensemble n’est en fait pas fermé.
Chapitre 4 – Anaphore et discours
151
diminue la référence virtuelle d’ensemble de l’expression ; or, l’approche compositionnelle ne
prévoit que l’ajout de contraintes dans le cadre de la constitution de la référence virtuelle d’un
groupe nominal et une référence virtuelle « négative » semble difficile à envisager… Dans ces
conditions, le concept d’autonomie référentielle semble difficile à conserver.
Une solution alternative consiste à considérer que les marqueurs de non-autonomie
référentielle apportent en fait des contraintes de nature différente de celles apportées par le
nom et ses complémenteurs au sein de l’expression nominale. On reconnaît aisément là la
distinction classique entre « unités lexicales » et « unités fonctionnelles », « mots pleins » ou
« mots outils », etc. Blakemore 1987, dans le cadre de RT, propose une distinction entre
« signification conceptuelle » et « signification procédurale » qui semble recouper la
distinction que nous opérons au sein des expressions nominales entre d’un côté le nom et ses
complémenteurs et d’autre part le marqueur de non-autonomie référentielle : on aurait ainsi
d’une part des expressions (appelons-les « expressions C ») dont l’objectif est d’encoder (pour
utiliser la terminologie de Blakemore) un concept sémantique, et d’autre part des
« expressions P » (nos marqueurs de non-autonomie référentielle), destinées à fournir des
instructions relatives à la procédure d’attribution de référence actuelle pour les expressions C.
Il serait cependant réducteur de vouloir limiter une expression donnée à un seul type de
signification71 : à l’évidence, du fait de leurs marques de genre et de nombre en français, ou
de « distance »72 pour les démonstratifs anglais, les expressions P semblent aussi mettre en jeu
certaines contraintes assimilables à la référence virtuelle. Il semblerait donc qu’une
expression donnée fasse appel à une proportion variable d’éléments de signification
conceptuelle et de signification procédurale. Nous venons de mentionner les expressions P
typiques que sont les définis, les démonstratifs et les pronoms, composées majoritairement de
signification procédurale, mais comportant tout de même des éléments de signification
conceptuelle ; les adjectifs tels que « local » ou les adverbes comme « alentours » semblent
comporter eux aussi les mêmes ingrédients (éléments de signification procédurale et éléments
de signification conceptuelle), mais dans une proportion inverse. Les autres expressions (les
têtes nominales « classiques » et leurs complémenteurs) seraient composées uniquement de
signification conceptuelle. La simplification est extrême, mais elle a l’avantage de souligner
71 Et vice et versa. 72 Nous utilisons le terme de manière très générique ; en effet, la dimension spatiale n’est que l’un des domaines
possibles de manifestation de ce concept de distance, qui peut aussi se traduire dans les dimensions énonciatives
(cf. par exemple Toupin 1998 pour les usages adverbiaux de « this » et de « that »).
Chapitre 4 – Anaphore et discours
152
la différence fondamentale opposant les deux catégories extrêmes et il semble fort que cette
différence soit d’ordre discursif.
En effet, le fait d’appréhender ce problème dans un cadre discursif nous permet de
proposer que nos « marqueurs de non-autonomie référentielle », ou « expressions P »,
constituent des instructions destinées à guider l’intégration, au sein des modèles mentaux
construits par les interactants, les représentations liées au segment de texte qui les contient.
Ainsi, si l’on considère que les usages référentiels des expressions nominales permettent la
désignation d’un référent situé dans le modèle mental construit par chaque interactant, on peut
analyser l’apport des expressions P non pas comme des contraintes pesant sur le « segment de
réalité » désigné (pour utiliser la terminologie de Milner 1982) mais comme un indicateur de
procédure de construction et/ou d’identification de l’objet mental. La nature exacte de ces
procédures fait partie des problèmes nouveaux posés par l’adoption d’un cadre discursif ; il
semblerait alors que l’on ne fasse que repousser les difficultés d’un cran. Nous montrerons
dans la section 2 de ce chapitre qu’il n’en est rien, une approche discursive permettant la
description et l’explication des choix linguistiques des interactants.
Nous avons montré dans cette section que la notion d’autonomie référentielle semblait,
de par son applicabilité restreinte, peu pertinente pour la caractérisation du fonctionnement
référentiel des expressions nominales utilisées dans la communication ordinaire. La non-
autonomie référentielle semble donc être la norme alors que l’autonomie référentielle
constitue presque une bizarrerie. Ce phénomène trouve selon nous un début d’explication
intéressante dans l’identification des expressions P, dont la signification majoritairement
procédurale permet d’expliquer le fonctionnement dans un cadre discursif. Cette démarche
implique cependant une description précise du fonctionnement de ces expressions P au niveau
d’analyse « discours » et notamment une description détaillée du fonctionnement de l’article
défini et du démonstratif au sein de ces expressions. Cette analyse détaillée dépassant le cadre
restreint de cette thèse, nous ne la traiterons pas de manière très approfondie ici ; le lecteur
pourra cependant trouver des éléments spécifiques dans Hawkins 1977a et 1977b, Corblin
1983 et 1987, Apothéloz 1995, Cornish 1999, Salmon-Alt 2001 ou encore Charolles 2002,
notamment concernant la distinction des procédures définie et démonstrative.
Chapitre 4 – Anaphore et discours
153
1.2.2 L’anaphore pronominale : coréférence et reprise
L’anaphore pronominale reçoit dans Milner 1982 une caractérisation fondée sur les
concepts de coréférence et de reprise. Rappelons cette position :
« C’est là justement ce que l’on entend par anaphore pronominale : elle combine […] la relation
symétrique de coréférence et une relation asymétrique, qu’on peut dire de reprise, entre deux
termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid., p. 19)
Cette conception de l’anaphore pronominale repose en fait sur les principes de la
distinction classique entre deixis et anaphore ; l’anaphore, notamment, est ainsi
fondamentalement assimilée à une relation endophorique (intra textuelle) qui l’unit à une
expression explicite du cotexte (cf. aussi Zribi-Hertz 1992). Les phénomènes d’anaphore
évolutive et d’anaphore situationnelle constituent, comme nous l’avion mentionné chapitre 2,
autant de problèmes pour cette approche ; étudions-les tour à tour.
L’anaphore évolutive
L’anaphore évolutive implique une différence significative entre les références de
l’anaphorisé apparent (l’expression nominale « autonome ») et de l’anaphorisant. On peut
donner la définition suivante des référents évolutifs :
« Un énoncé est un exemple de référent évolutif s’il décrit ou implicite un processus ou une suite
de processus tel(le) que l’objet du premier processus est identique d’un point de vue numérique à
celui qui émerge du dernier processus alors même que les processus intervenus l’ont modifié au
point qu'il ne mérite plus sa dénomination initiale. » (Reboul et al. 2004, p. 13)
Un exemple célèbre de référent évolutif est donné dans Brown & Yule 1983 (p. 202) :
Ex (30) Kill an active, plump chicken. Prepare it for the oven, cut it into four pieces
and roast it with thyme for 1 hour.
Cet exemple est dans l’ensemble conforme à la définition donnée ci-dessus : une série
de processus est décrite qui génère un objet (un plat de poulet rôti au thym) pour lequel la
dénomination d’origine (« un poulet vif et gras ») n’est plus applicable. Ainsi, comme nous
l’avions suggéré chapitre 2, § 3.1.2, la position qui consisterait à affirmer que la dernière
occurrence du pronom « it » dans l’exemple (30) est coréférente avec « an active, plump
chicken » n’est pas tenable. De plus, dire que le pronom constitue une reprise de ce groupe
nominal impliquerait qu’une substitution n’apporte aucune modification sémantique ; à
Chapitre 4 – Anaphore et discours
154
l’évidence, cette proposition n’est pas tenable non plus et transformerait une recette de cuisine
en une séance de sadisme animalier.
Dans une approche discursive telle que nous l’avons envisagée au chapitre 3, le locuteur
réfère à (à l’aide d’une expression linguistique qui désigne) un objet du modèle mental
construit par et pendant l’interaction : cet objet est construit et modifié de manière dynamique
par le texte en tant qu’ensemble d’instructions. Un pronom anaphorique permet ainsi la
désignation d’un objet bénéficiant d’un statut privilégié, mais est suffisamment sous spécifié
sémantiquement pour continuer à être employé, marquant ainsi la continuité référentielle tout
en permettant l’évolution phénoménologique du référent au sein des modèles mentaux des
interactants.
On voit que les référents évolutifs sont pris en compte de manière naturelle par une
approche discursive : en effet, le fait que la dénomination d’origine d’un objet mental ne soit
plus applicable malgré sa désignation par un pronom anaphorique ne constitue qu’un cas
extrême de la modification « normale » des objets mentaux dans le cadre de la
communication. Le rôle des prédications venant modifier l’objet, ainsi que le cotexte
immédiat de l’anaphorique, le « segment indexical » (Cornish 1999 ; mais cf. aussi Yule 1982
et Ziv 1996), jouent bien entendu un rôle crucial dans cette évolution progressive. Observons
l’exemple (31) emprunté à Cornish 1999 :
Ex (31) Joe ate an apple last night, but it was much too acid for his liking.
Dans cet exemple, si l’expression « an apple » constitue le déclencheur d’antécédent
relativement au pronom « it », l’antécédent de ce dernier n’est pas simplement une pomme
quelconque intacte (désignée par « an apple »), mais la pomme mangée par Joe la nuit
précédant l’énonciation de (31) (Cornish 1999 : p. 44). Il y a bien évolution du référent, même
si l’on ne se trouve pas dans le cas extrême des « référents évolutifs » qui nous intéressent ici.
Nous noterons en conclusion que l’adoption d’une approche discursive induit
nécessairement un nouveau questionnement concernant les contraintes pragmatico-
sémantiques qui expliquent et limitent la possibilité d’anaphore pronominale pour les
référents évolutifs ; ce nouveau problème posé par l’approche discursive, bien qu’important,
ne sera pas traité dans le cadre de cette thèse ; le lecteur trouvera cependant de nombreux
éléments dans Schnedecker & Charolles 1993 et Kleiber 1997.
Chapitre 4 – Anaphore et discours
155
L’anaphore situationnelle
Comme nous l’avons rappelé, l’anaphore, dans l’approche traditionnelle, est
endophorique ; l’anaphore pronominale, en particulier, doit recevoir sa référence virtuelle
d’une unité présente (saturée sémantiquement) dans le cotexte. Des cas tels que (32), (33) et
(34) ci-dessous sont alors évidemment problématiques :
Ex (32) [La compagne de l’auteur, sortant de sa chambre, agitant un livre qu’il croyait
perdu]
Il était sur l’ordinateur !
Ex (33) [Exemple emprunté à Cornish 1999 (p. 136) ; Chez un antiquaire : le vendeur
rassure le client intéressé par un guéridon endommagé]
Il est facile à réparer.
Ex (34) [Exemple emprunté à Cornish 1999 (p. 131) ; dans une piscine découverte du
Sud-Ouest de la France. Un client à l’accueil s’adressant à F. Cornish qui
partait :]
Elle est froide ?
L’appellation même d’anaphore situationnelle semble quelque peu contradictoire au
sein du cadre traditionnel : le terme « anaphore » est, nous venons de le rappeler,
généralement lié à l’endophore alors que l’adjectif « situationnelle » range le phénomène du
côté de l’exophore. Dans un cadre discursif, a contrario, une telle dénomination prend tout
son sens : l’anaphore consiste en une instruction concernant un objet privilégié des modèles
mentaux des interactants (on pourra dire de manière non technique « focalisé »), or, ce statut
privilégié peut résulter de configurations textuelles et/ou situationnelles. L’anaphore de
l’approche classique (avec reprise et coréférence) pourrait donc être définie discursivement
comme un cas particulier d’« anaphore textuelle », opposée à l’anaphore situationnelle qui
nous intéresse ici.
Les exemples (32), (33) et (34) nous montrent que l’accession d’un objet mental au
statut « focal » à partir d’une configuration situationnelle comporte plusieurs modalités. Les
exemples (32) et (33) sont liés à la coprésence de l’élément situationnel et du pronom
anaphorique : en (32), l’accession au statut focal de l’objet mental est assurée par une
Chapitre 4 – Anaphore et discours
156
monstration de la part du locuteur ; en (33), en revanche, si monstration il y a, celle-ci n’est
pas (aussi) ostensive (on pourra penser au regard insistant du client sur le guéridon).
L’exemple (34), finalement, montre la possibilité d’anaphore situationnelle sans coprésence
de l’élément situationnel et du pronom anaphorique : le pronom « elle » est univoquement
compris comme désignant l’eau du bassin sans pour autant que celui-ci (et donc a fortiori
l’eau contenue) soit en vue. L’exemple (34) confirme la proposition de Kleiber 1994
concernant l’importance de la saillance de la situation d’énonciation (et pas nécessairement de
l’élément situationnel) dans ce cadre (cf. l’analyse de Cornish 1999 : p. 131).
1.3 Synthèse
Cette section nous a permis de montrer comment l’adoption d’une approche discursive
peut apporter des solutions intéressantes non seulement aux problèmes de distinction entre
deixis et anaphore mais aussi aux problèmes posés par une vision antécédentiste de cette
dernière. Nous noterons que l’adoption d’une approche discursive constitue en fait une
transposition de la distinction deixis / anaphore d’un cadre « géographique » (résolution par
recours à la situation ou au cotexte) à un cadre cognitif : le critère définitoire n’est dès lors
plus l’emplacement d’un éventuel « antécédent », mais plutôt le statut de l’objet mental
désigné par l’expression indexicale au sein des modèles mentaux construits par les
interactants. Cependant, comme nous l’avons mentionné, cette transposition génère un
ensemble de problèmes nouveaux ; parmi les différents problèmes que nous avons
mentionnés, nous retiendrons tout particulièrement ceux concernant la nature des procédures
liées à l’usage anaphorique des expressions indexicales. Nous restreindrons plus
particulièrement la suite de ce chapitre à l’analyse du fonctionnement anaphorique des
pronoms dits « personnels » qui constitueront l’objet des analyses présentées dans la
quatrième partie de cette thèse.
2 Anaphore pronominale et discours
La section précédente nous a permis de dessiner quelques pistes concernant les
solutions apportées par une approche discursive aux problèmes de la description traditionnelle
de l’anaphore ; ces pistes ont notamment pris la forme d’une reformulation des concepts de
deixis et d’anaphore en tant que procédures discursives. Parmi les nouveaux problèmes posés
par une telle reformulation, nous retiendrons dans le reste de ce travail ceux concernant le
fonctionnement référentiel des expressions indexicales pronominales ; notre démarche se
Chapitre 4 – Anaphore et discours
157
décomposera en trois étapes : tout d’abord, nous effectuerons une rapide description
comparative du fonctionnement des expressions définies, démonstratives et pronominales
dans l’objectif principal de montrer la spécificité des ces dernières ; nous étudierons ensuite
les conséquences de la mise en correspondance de ces formes linguistiques avec des
procédures référentielles spécifiques, notamment concernant la possibilité d’une typologie. La
troisième partie de cette section, finalement, proposera l’étude de la Théorie du Centrage
comme modèle explicatif de l’interprétation anaphorique dans le discours.
2.1 Fonctionnement référentiel des expressions indexicales : généralités
Le questionnement concernant le fonctionnement des formes anaphoriques dans le cadre
de la communication se traduit fréquemment par une analyse des expressions définies,
démonstratives et pronominales : on retiendra des travaux tels que par exemple Hawkins
1977a et 1977b, Corblin 1987, Apothéloz 1995, Cornish 1999, Salmon-Alt 2001 ou encore
Charolles 2002 pour des analyses de tout ou partie de ces expressions. Nous allons suivre
cette voie et présenter succinctement le fonctionnement de ces trois types d’expressions.
2.1.1 Expressions définies
On considère généralement depuis Russell 1905 que le fonctionnement référentiel des
expressions définies implique la satisfaction de conditions d’existence et d’unicité : une
phrase dont le sujet est une expression définie n’est vraie que si le référent de cette dernière
existe et est unique et si ce que l’on en prédique est vrai. Strawson 1977 proposera un recours
au concept de présupposition : l’existence et l’unicité du référent désigné par une expression
définie font alors partie des présupposés d’un énoncé ; leur non-satisfaction entraîne
l’impossibilité de pouvoir attribuer une valeur de vérité à la phrase hôte.
L’adoption de l’approche discursive que nous proposons induit la relativisation de ces
contraintes à un univers cognitif restreint : l’existence et l’unicité du référent seraient alors à
considérer dans le cadre plus restreint des modèles mentaux des interactants ; une simple
transposition cependant ne résoudrait ni les problèmes posés par les cas d’anaphore
associative (cf. Gaiffe et al. 1997) concernant la contrainte d’existence, ni le problème de la
non spécificité du critère d’unicité. Concernant ce second point, Corblin 1987 précise en effet
que le critère d’unicité se retrouve aussi bien dans les expressions définies que dans les
expressions démonstratives ou pronominales qui « impliquent [toutes] d’une manière ou
d’une autre singularité » (p. 102).
Chapitre 4 – Anaphore et discours
158
Comme le soulignent par exemple Apothéloz 1995 (pp. 55ff) ou Salmon-Alt 2001 (pp.
31ff), des solutions alternatives aux contraintes d’existence et d’unicité ont été proposées par
exemple par Hawkins 1977 et 1978, Marandin 1986, Kleiber 1986 et 1990, Corblin 1987 et
Gaiffe et al. 1997 ; ces propositions, bien que divergentes par certains aspects, caractérisent
fondamentalement la référence « définie » comme impliquant une procédure singularisante
indirecte (de nature lexicale et fondée sur des connaissances d’arrière plan) au sein d’un
domaine d’interprétation. L’identification du référent d’une expression définie s’appuie ainsi
sur sa référence virtuelle, mais implique l’identification couplée d’un domaine
pertinent (Hawkins 1977 ; Gaiffe et al. 1997), « un domaine dans lequel son contenu soit en
mesure de constituer un signalement singularisant » (Corblin 1987 : p. 244). La mise en
rapport avec le « domaine d’interprétation » (Salmon-Alt 2001) est indirecte car fondée sur la
référence virtuelle de l’expression définie et fait en général appel à des informations
extratextuelles de nature encyclopédique et stéréotypique (Hawkins 1977a ; Kleiber 1990).
On notera finalement avec Kleiber 1986 que la référence définie implique une forme de
continuité avec les « circonstances d’évaluation » déterminées par l’ensemble des
informations prédiquées du référent depuis son introduction (cf. Apothéloz 1995 : pp. 64ff
pour une présentation plus détaillée).
2.1.2 Expressions démonstratives
Les expressions démonstratives sont souvent présentées comme des formes
concurrentes des expressions définies (cf. Apothéloz 1995) ; nombre de travaux, en effet, ont
eu pour objectif principal de distinguer les contraintes d’usages de ces deux types
d’expressions indexicales.
Dans ce cadre, la plupart des auteurs considèrent la référence démonstrative comme
plus directe que la référence définie : la désignation du référent se fait ainsi sans recours
fondamental à la référence virtuelle de l’expression ; en conséquence, l’expression
démonstrative « a besoin d’un contexte qui doit lui-même fournir un moyen d’isoler l’objet
désigné » (Salmon-Alt 2001 : p. 36). On retrouve cette proposition dans Hawkins 1977 qui
suggère une contrainte de « perceptibilité » concernant la référence démonstrative, par
opposition à l’unicité et l’exhaustivité de la référence définie.
Une seconde caractéristique de la référence démonstrative concerne la possibilité de
reclassification associée à l’anaphore démonstrative par opposition à l’anaphore définie.
Comme le souligne Salmon-Alt 2001, libéré de sa fonction identificatrice (cruciale dans le
Chapitre 4 – Anaphore et discours
159
cadre de la référence définie), la référence virtuelle de l’expression démonstrative peut
permettre une reclassification du référent. Corblin 1987 propose que cette différence de
fonction de la référence virtuelle explique en grande partie l’opposition défini / démonstratif :
dans le cadre de l’anaphore définie, la distance sémantique entre l’antécédent et l’expression
anaphorique est nécessairement limitée (relations d’identité, de synonymie, d’hyperonymie,
de métonymie) ; dans l’anaphore démonstrative, a contrario, et étant donnée la perceptibilité
du référent, cette distance peut être plus importante, autorisant des cas tels que (35) ci-
dessous, emprunté à Apothéloz 1995 (p. 62), où « ce compagnon » anaphorise « un arbre »73.
Ex (35) Un arbre dressait ses branches tordues non loin de là. Il décida de passer la
nuit près de ce compagnon.
Cette caractéristique de reclassification n’est pas sans rappeler l’analyse de Kleiber
(1986 et 1990) qui propose une prédominance du démonstratif lorsque l’énoncé contenant
l’expression anaphorique constitue une rupture avec les circonstances d’évaluation attachées
au référent.
On notera finalement que Corblin 1987 oppose expressions définies et démonstratives
dans le cadre de sa Théorie des Contrastes. Ainsi, l’anaphore définie est présentée comme
reposant sur un contraste entre domaines lexicaux alors que l’anaphore démonstrative
implique un contraste à l’intérieur d’un domaine donné, plus précisément entre les éléments
de la classe virtuelle englobant le référent. Un tel contraste devient déterminant, notamment
lorsque d’autres éléments de la même classe sont activés dans la suite de la communication,
comme dans l’exemple (36) ci-dessous emprunté à Corblin 1987.
Ex (36) Une voiture était rangée devant la porte. C’est cette voiture que j’ai prise et
non la tienne.
2.1.3 Expressions pronominales
Cette rubrique consacrée aux « expressions pronominales » sera en fait centrée sur les
pronoms dits « personnels » de troisième personne. Selon Kleiber 1994, et comme nous
l’avons défendu, les pronoms personnels tels que « il » ou « he » entrent de plein droit dans la
catégorie des expressions référentielles : ces pronoms ne sont pas de simples substituts
formels à un antécédent textuel explicite. Au même titre que les autres expressions étudiées
73 On notera que l’expression définie telle que « du compagnon » à la place de « ce compagnon » permettrait
difficilement cette interprétation.
Chapitre 4 – Anaphore et discours
160
ici, ces marqueurs sont dotés de signification conceptuelle et de signification procédurale (cf.
§ 1.2.1). La signification conceptuelle des pronoms personnels est à mettre en relation avec
les marques de genre, de nombre et, pour l’anglais, le trait humain / non-humain pour la
troisième personne du singulier. Nous n’aborderons pas plus avant les caractéristiques des
systèmes de l’anglais et du français dans ce domaine, mais reviendrons ci-dessous sur
l’interaction de la signification conceptuelle avec la signification procédurale dans le cas des
pronoms (cf. § 2.2.1).
La signification procédurale des pronoms est, dans un cadre cognitif, en général
présentée (cf. par exemple de Mulder & Tasmowski-De Ryck 1997 dans le cadre de la
référence évolutive) comme une instruction de continuité attentionnelle et référentielle.
Cornish 1999 souligne une différence de comportement des pronoms selon que ceux-ci sont
accentués ou pas. Ainsi, si les pronoms inaccentués, « clitiques » ou « conjoints » (cf. par
exemple Charolles 2002 : pp. 187ff) sont l’archétype même de ce fonctionnement de
continuité ; les pronoms accentués, en revanche, semblent se comporter de manière plus
complexe. Observons les exemples (37) ci-dessous.
Ex (37) a. Paul called Jim a Republican. Then he insulted him.
(he-Paul / him-Jim)
b. Paul called Jim a Republican. Then HE insulted HIM.
(HE-Jim / HIM-Paul)
Les exemples (37a) et (37b), empruntés à Lakoff 1971, montrent que l’accentuation des
pronoms « he » et « him » (marquée ici par les majuscules) induit une différence dans
l’interprétation de ces derniers ; on constate par exemple que « he » inaccentué fonctionne de
manière anaphorique en prorogeant le statut focal de l’objet mental associé à « Paul », ce qui
n’est pas le cas de sa contrepartie accentuée. Nous traiterons ce phénomène de manière
détaillée dans le chapitre 6 de cette thèse, en relation avec l’analyse du rôle discursif de la
prosodie. Pour l’instant, nous centrerons nos analyses sur le fonctionnement des pronoms
personnels clitiques ou inaccentués et c’est de ces expressions qu’il sera question lorsque nous
parlerons d’« anaphore pronominale » dans la suite de ce chapitre.
Présenter l’anaphore pronominale comme une simple instruction de continuité
concernant la focalisation d’un objet mental constitue bien évidemment une simplification
Chapitre 4 – Anaphore et discours
161
schématique. Comme le souligne Salmon-Alt 2001 (p. 39), une telle approche n’explique pas
le fonctionnement détaillé de ces expressions lorsque, par exemple, plusieurs objets mentaux
peuvent prétendre au statut privilégié (« focal ») dont il est question. En définitive, la question
centrale consiste à savoir comment une expression sémantiquement aussi réduite peut
fonctionner référentiellement dans la communication. C’est plus précisément vers cette
thématique que nous allons à présent nous tourner.
2.2 Anaphore pronominale et discours
Plusieurs réponses peuvent être fournies à la question du fonctionnement référentiel des
pronoms personnels. Nous allons aborder plusieurs de ces réponses dans les rubriques
suivantes de cette section : nous commencerons ainsi par souligner la contribution de ce que
F. Cornish appelle le « segment indexical » dans le fonctionnement référentiel des pronoms
personnels ; cette contribution est plus particulièrement liée au sens conceptuel de
l’expression anaphorique, qu’elle vient en quelque sorte compléter. Nous évoquerons ensuite
le rôle joué par une forme de typologie attentionnelle associant formes linguistiques et statuts
des objets mentaux désignés ; cet aspect concerne plus spécifiquement l’aspect procédural des
expressions indexicales en général et des pronoms personnels anaphoriques en particulier.
Nous présenterons finalement plusieurs modèles qui intègrent certains des paramètres
précédents et ont pour objectif de rendre compte de manière systématique des aspects liés à la
production et à la perception des anaphores pronominales dans la communication.
2.2.1 Référence et responsabilité partagée
Le point que nous allons aborder constitue l’une des explications les plus importantes de
la possibilité d’attribution référentielle univoque pour les anaphores pronominales en dépit du
faible contenu conceptuel de ces dernières. Le lecteur trouvera dans le chapitre 3 de Cornish
1999 une présentation détaillée et argumentée des éléments que nous allons évoquer ici.
Cornish 1999 propose que l’expression anaphorique74 désigne un référent non
seulement en fonction de ses sens conceptuel (genre, nombre, humain/non-humain) et
procédural (référent ayant un statut attentionnel) privilégié, mais aussi crucialement en
fonction des indices fournis par la proposition (le « segment indexical ») qui la contient ; le
prédicat, notamment, joue dans cette perspective un rôle déterminant. Ainsi, le prédicat,
74 Notamment lorsque celle-ci est pronominale, mais aussi, en fait, lorsque cette expression est ambiguë
(polysémie, homophonie/homographie, etc.).
Chapitre 4 – Anaphore et discours
162
« unité sémantico-grammaticale » (ibid. : p. 70) permet l’assignation de deux composants de
sens à l’expression anaphorique : son statut argumental ou prédicatif et l’ordre de l’entité
désignée. Nous n’aborderons pas ici ce second point (déjà évoqué chapitre 1) et allons
focaliser notre attention sur le premier.
Le rôle joué par la structure du segment indexical (et notamment par le prédicat en son
sein)75 dans l’attribution du statut argumental ou prédicatif à une expression anaphorique peut
être mise en évidence à l’aide des exemples (38) et (39) ci-dessous.
Ex (38) [Bill baille]
Bill : I’m really tired, you know.
Jane : (a) But you don’t regret it/*so, do you ?
(b) But you don’t sound it/so, actually.
L’exemple (38), inspiré de l’exemple (3.4) de F. Cornish (ibid. : p. 72) propose deux
réponses alternatives de Jane ; ces deux réponses diffèrent par la nature du prédicat au sein du
segment indexical (les structures syntaxiques des segments sont identiques). Le pronom « it »
peut être caractérisé comme un pronom défini intrinsèquement argumental, par opposition à
« so », typiquement prédicatif (ibid. : p. 73). Cette distinction est flagrante en (a), où le verbe
factif « regret » exclut la possibilité de reprise par « so » au profit de « it », argumental. La
possibilité (plus variable selon les locuteurs) d’avoir aussi bien « it » que « so » dans (b)
résulte de la nature même du verbe recteur « sound » : ce verbe (et par extension l’ensemble
des verbes d’apparence physique en anglais) a ainsi la capacité d’invalider la lecture standard
du pronom « it » et de forcer un statut prédicatif pour son référent.
Ex (39) (a) La vie à l’époque était une lutte, et elle devait le/*la rester.
(a’) Life at the time was a struggle, and (it) was to remain so/*it.
(b) La vie à l’époque était une lutte. Il fallait la/*le prendre à bras le corps sans relâche.
(b’) Life at the time was a struggle. One had to take it/*so on without weakening.
75 Concernant la structure de la clause dans son ensemble, on notera avec Cornish 1999 (p. 73) que le fait que
l’expression anaphorique soit sujet syntaxique (« argument externe ») au sein du segment indexical impose au
référent de cette dernière un statut argumental.
Chapitre 4 – Anaphore et discours
163
Les exemples (39), empruntés à Cornish 1999 (p. 74), montrent un phénomène similaire
pour le français (les traductions anglaises sont de F. Cornish). En effet le segment indexical de
(39a) est organisé autour de la quasi-copule « rester » qui régit le pronom neutre « le » ;
l’impossibilité d’accord avec « une lutte » (« la » est ici exclu), féminin, constitue un indice
explicite du statut prédicatif du référent désigné par « le »76. L’exemple (39b), a contrario,
interdit l’usage du neutre « le » au profit du féminin « la » ; il y a accord entre le pronom et le
déclencheur d’antécédent « la vie » par le fait que c’est la locution verbale « prendre à bras le
corps » qui joue ici le rôle d’élément recteur au sein du segment indexical et qui induit un
statut argumental au référent désigné par « la »77. On remarquera finalement que c’est la
nature du segment indexical (notamment par le biais des statuts mentionnés) qui impose la
différence de déclencheurs d’antécédent notée par F. Cornish.
Notons enfin que l’aspect, le temps et le mode du verbe recteur au sein du segment
indexical, tout autant que la nature même de ce dernier, constituent autant d’éléments
déterminants dans l’attribution référentielle liée à une expression indexicale donnée (cf.
Cornish 1999 : pp. 83-98).
Nous retiendrons donc qu’un aspect important de la possibilité de désignation univoque
des pronoms personnels dans la communication, en dépit de leur relative pauvreté
conceptuelle, réside dans le fait que ces derniers ne désignent pas seuls ! Le pronom lui-
même, bien sûr, mais aussi la nature, l’aspect, le temps et le mode du verbe recteur au sein du
segment indexical constituent un véritable faisceau d’indices permettant l’identification d’un
référent au sein des modèles mentaux des interactants. Cette position revient à considérer que
les caractéristiques du segment indexical complètent en quelque sorte la composante
conceptuelle de la signification des pronoms personnels ; ceci constitue une approche
linguistique élargie du fonctionnement de ces expressions. Cette approche nous semble
pouvoir être complétée avec profit par une analyse plus cognitivo-pragmatique, centrée sur la
signification procédurale de ces expressions, vers laquelle nous nous tournons à présent.
2.2.2 Typologies attentionnelles
Nous l’avons répété à maintes reprises, dans une approche discursive cognitive-
attentionnelle, le fonctionnement anaphorique est lié au maintient d’un objet mental dans une
position privilégiée au sein des modèles mentaux des interactants. Nous avons remarqué par
76 L’impossibilité d’utiliser « it » en (39a’) va tout à fait dans le même sens. 77 Cette analyse est confortée par l’impossibilité d’utiliser « so » en (39b’).
Chapitre 4 – Anaphore et discours
164
ailleurs (cf. § 2.1.3) que les pronoms semblaient d’une certaine manière être « spécialisés »
dans la manipulation d’objets mentaux de ce type. Ainsi, si une forme indexicale donnée n’est
en relation biunivoque stable avec aucun statut attentionnel particulier, il semble malgré tout
que l’on puisse proposer des associations plus ou moins « lâches » entre formes indexicales et
statut attentionnel du référent. On retrouve là le programme défini par Prince 1981 (cf.
chapitre 3, § 1.3) concernant le problème des relations unissant formes linguistiques et entités
discursives :
« The solution to the problem then may be seen as requiring three parts: (a) a taxonomy of
linguistic forms, both morphological and syntactic; (b) a taxonomy of the values of Assumed
Familiarity; and (c) an account of the correlation between the two. Structural linguistics and
transformational grammar has provided us with the first part, at least for forms that are identifiable
on the level of the sentence or less, and this chapter is an attempt to provide the second. Hopefully,
once the two taxonomies have been arrived at, further research can determine the correlation.
(Prince 1981 : p. 233)
Comme nous l’avons mentionné, Prince 1981 constitue une transition entre une
approche dichotomique « relationnelle » et une approche graduelle, « référentielle » et
cognitive (Gundel 1988) de la distinction « donné » / « nouveau ». Les travaux de Givón
(1983, 1985 et 1990) ainsi que ceux d’Ariel (1994, 1996 et 2000) s’inscrivent à des degrés
divers dans cette perspective « référentielle » et ne sont pas sans rappeler l’« échelle de
familiarité » proposée par Prince 1981.
L’approche de Givón constitue en fait une extension de l’approche fonctionnaliste qui,
rappelons-le, oppose le « donné » (« thème » ou « topique ») au « nouveau » (« rhème »,
« commentaire » ou « focus ») à l’intérieur de l’énoncé. La notion de « topique discursif »
adoptée par Givón (cf. Grobet 2002 pour une analyse critique du concept) s’entend à l’échelle
du texte et correspond grossièrement à ce dont il est principalement question dans celui-ci (cf.
le concept d’« aboutness » proposé par Reinhart 1981). Dans ce cadre, Givón 1983 propose
une correspondance entre la continuité topicale78 et son marquage linguistique sous la forme
d’une échelle telle que celle représentée dans la figure 13 ci-après :
78 Déterminée en fonction de paramètres tels que la distance linéaire (en nombre de propositions ou de phrases)
entre deux désignations d’un référent, les interférences référentielles (nombre de référents entre deux
désignations d’un référent) et l’information thématique (maintient ou changement du protagoniste).
Chapitre 4 – Anaphore et discours
165
zero anaphora < unstressed/bound pronouns or grammatical agreement <
stressed/independent pronouns < R-Dislocated DEF-NPs < neutral ordered DEF-NPs
< L-Dislocated DEF-NPs < Y-moved NPs (‘contrastive topicalisation’) < cleft/focus
constructions < referential indefinite NPs
Figure 13: Echelle de codage du topique selon Givón 1983.
On remarquera notamment que les pronoms inaccentués occupent une place élevée dans
cette échelle, du fait de leur propension à la continuité topicale.
Dans sa Théorie de l’Accessibilité, Mira Ariel postule qu’une expression référentielle
donnée est choisie par le locuteur en fonction de l’accessibilité supposée de l’objet mental
désigné pour l’interlocuteur. Plus cet objet mental sera accessible, plus l’expression utilisée se
situera dans une position élevée au sein de l’« échelle de marquage d’accessibilité »
(« accessibility marking scale ») donnée dans la figure 14 ci-dessous :
zero < reflexives < poor agreement markers < rich agreement markers <
reduced/cliticized pronouns < unstressed pronouns < stressed pronouns < stressed
pronouns + gesture < proximal demonstrative (+NP) < distal demonstrative (+NP) <
proximal demonstrative (+NP) + modifier < distal demonstrative (+NP) + modifier <
first name < last name < short definite description < long definite description < full
name < full name + modifier
Figure 14: Echelle de marquage d’accessibilité selon Ariel 2000.
Dans ce cadre, l’accessibilité supposée d’un référent est calculée par le locuteur en
fonction des deux paramètres principaux que sont la saillance du référent (que celui-ci soit
linguistique ou pas) et l’unité du discours (définie en termes de distance et de degré de
cohésion entre unités). On remarquera ici aussi la position élevée occupée par les pronoms
inaccentués qui constituent des marques d’accessibilité élevée de leur référent.
Les travaux de Jeannette Gundel (cf. notamment Gundel et al. 1993), finalement,
entrent eux aussi dans cette filiation « référentielle ». Ils ont de plus l’avantage de proposer
non seulement une typologie ordonnée des expressions référentielles (de manière similaire à
Givón ou Ariel), mais aussi une topologie cognitive de l’attention. En effet, contrairement aux
approches que nous venons de mentionner, Gundel et al. 1993 va au-delà d’une présentation
de la topicalité ou de l’accessibilité sous forme d’un continuum et postule un gradient d’états
Chapitre 4 – Anaphore et discours
166
cognitifs discrets. La figure 15 ci-dessous est une représentation de cette « Hiérarchie du
Donné » (Gundel et al. 2000 parle de « Hiérarchie de la Donation »).
In focus > activated > familiar > uniquely identifiable > referential > type identifiable
(it) that that N the N indef this N a N
this
this N
Figure 15: Hiérarchie du donné selon Gundel et al. 1993
(repris de Gundel et al. 2000 : pp. 81-82).
L’approche s’appuie sur une vision dynamique de la distinction des deux dimensions
cognitives que sont l’activation et l’attention : comme le résume Huang 2000 à la suite de
Chafe 1994,
« […] activation of a referent in one’s current short-term memory at moment tn is a result of
focusing one’s attention on that referent at a previous moment tn-1. » (Huang 2000 : p. 160)
Comme l’explicite Cornish 1999 (p. 8), les expressions référentielles associées aux états
cognitifs le sont purement à titre illustratif ; nous noterons néanmoins à nouveau la position
élevée occupée par les pronoms dans cette échelle qui nous permet d’expliciter leur
fonctionnement en relation avec la topologie cognitive proposée : les pronoms personnels
semblent donc spécialisés dans la désignation de référents situés dans le focus attentionnel des
interactants. La vision dynamique adoptée permet d’expliquer l’exemple (40) ci-dessous :
Ex (40) (a) I dropped ten marbles and found all of them except for one. It’s probably
under the sofa.
(a’) # I dropped ten marbles and found only nine. It’s probably under the sofa.
Au terme du premier énoncé de (40a), la bille manquante a été introduite dans le focus
par mention explicite (« except for one ») ; celle-ci peut donc être reprise par un pronom,
comme le prévoit la Hiérarchie du Donné. En (40a’), a contrario, le référent correspondant à
la bille manquante n’a pas été explicité : il peut donc difficilement être repris par le pronom
« it », comme le signifie le « # ». Etant « uniquement identifiable », ce référent pourrait être
désigné par une expression telle que « the missing marble ».
Les différentes typologies attentionnelles que nous venons d’évoquer permettent
d’affiner la vision selon laquelle les pronoms réfèrent à un objet mental « privilégié » dans les
modèles mentaux des interactants. La Hiérarchie du Donné, notamment, proposée par Gundel
Chapitre 4 – Anaphore et discours
167
et al. 1993, permet de postuler une association conventionnelle « lâche » entre expressions
linguistiques et zones cognitives discrètes, organisées selon une hiérarchie explicite stricte. De
telles théories constituent des modélisations permettant d’expliciter certaines des contraintes
de production et le déroulement de certains processus de perception impliqués dans l’usage
des pronoms personnels dans la communication79. Nous allons à présent nous tourner vers
l’une des modélisations les plus abouties dans le domaine de l’anaphore discursive
pronominale, la Théorie du Centrage, et montrer certaines de ses limites et des évolutions
qu’elle a motivées.
2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive
Principes généraux
La Théorie du Centrage (« Centering Theory » ; nous dirons « CT ») reçoit sa première
formulation dans Grosz, Joshi & Weinstein 1983, puis dans Grosz, Joshi & Weinstein 1986,
un manuscrit non publié qui a longtemps servi de référence commune à nombre de travaux. Il
est important de noter que CT constitue en fait un prolongement de deux traditions : d’une
part les travaux de Joshi, Kuhn et Weinstein (Joshi & Kuhn 1979 ; Joshi & Weinstein 1981) et
d’autre part ceux de Grosz (cf. Grosz 1977) et Sidner (cf. Sidner 1979). De nombreux travaux,
à la fois théoriques et expérimentaux, sont venus enrichir le cadre de CT ; nous fonderons
cependant notre présentation sur Grosz et al. 1995a (repris dans Grosz et al. 1995b) et Walker
et al. 1998b, qui comptent parmi les présentations récentes de la théorie les plus exhaustives.
CT a pour objectif principal de rendre compte de la cohérence du « discours » par une
prise en compte de l’interaction du choix des expressions référentielles, de l’état attentionnel
des interactants et des inférences requises pour l’interprétation d’un énoncé au sein d’un
segment de discours (Grosz et al. 1995a : p. 8). Les concepts fondamentaux d’état attentionnel
et de structure discursive (par l’intermédiaire des segments de discours) sont directement
inspirés de Grosz & Sidner 1986 que nous avons présenté au chapitre 3. Nous retiendrons
principalement que la cohérence globale du discours est présentée comme dépendante de la
structure intentionnelle (entre segments de discours et en relation avec le « Discourse
Purpose »), alors que la cohérence locale est liée à l’enchaînement des énoncés au sein même
d’un segment de discours (en relation avec le « Discourse Segment Purpose ») ; l’état
attentionnel, de manière similaire, comporte deux niveaux liés à ces deux niveaux de 79 Nous nous attacherons plus particulièrement aux processus cognitifs d’interprétation des pronoms personnels
dans le chapitre 8 de cette thèse.
Chapitre 4 – Anaphore et discours
168
structure. Hormis quelques exceptions dont nous parlerons plus loin, CT s’intéresse à la
modélisation du niveau local, c'est-à-dire à l’intérieur d’un segment de discours.
Centres prospectifs et rétrospectifs
Chaque énoncé contient un certain nombre de « centres » qui permettent de le relier aux
autres énoncés au sein d’un segment de discours (SD). De manière plus simple, on pourra
considérer qu’un centre correspond à un objet du modèle mental des interactants ; ainsi, dans
« Paul a vu Marie à Lyon », on considèrera que les entités mentales correspondant à Paul,
Marie et Lyon sont les centres de l’énoncé.
Les relations unissant centres et expressions linguistiques ne sont cependant pas
toujours aussi directes ; dans CT, elles sont de deux ordres (cf. Grosz et al. 1995a et 1995b ;
Walker et al. 1998c) : on parlera ainsi de « réalisation » et de « réalisation directe », la
seconde option étant un cas particulier du premier. Depuis Grosz, Joshi & Weinstein 1986
(qui s’appuie sur la sémantique des situations de Barwise & Perry 1983), on dit
• qu’un énoncé E « réalise » un centre c si c est un élément de la situation décrite par E
ou si c est l’interprétation d’une portion de E ;
• qu’un énoncé E « réalise directement » un centre c si c est l’interprétation d’un
syntagme de E.
Ainsi, l’énoncé « Paul a vu Marie à Lyon » réalise le centre rencontre et réalise
directement les centres Paul, Marie et Lyon. De manière schématique, la réalisation directe,
qui nous intéressera ici particulièrement, est liée à la désignation explicite d’une entité du
modèle mental des interactants à l’aide d’un déclencheur d’antécédent de type expression
référentielle.
D’après la contrainte 2 ou « C2 » de Walker et al. 1998c, chaque énoncé E contient un
ensemble partiellement ordonné Cf(E, SD) de « centres prospectifs » (« forward-looking
centers ») dont chaque élément doit être réalisé dans E. On peut concevoir les Cf, en tant
qu’entités introduites dans le modèle mental, comme autant de liens potentiels avec les
énoncés suivants. En ce sens, les centres Paul, Marie et Lyon de l’énoncé pris en exemple
sont les Cf de cet énoncé.
Chapitre 4 – Anaphore et discours
169
L’ensemble Cf(E, SD) est défini en fonction de plusieurs paramètres dont les plus
importants sont la fonction sémantico-syntaxique80 (sujet > objet animé indirect > objet direct
> objet inanimé indirect > autre), l’ordre linéaire d’introduction, le statut par rapport au
recteur (élément de valence > élément de rection) et, comme le souligne Brennan 1995, divers
paramètres prosodiques induisant la saillance d’un élément81. L’ordre des centres Cf(E) est
défini uniquement en fonction de E et sans référence aux énoncés précédents. Depuis Brennan
et al. 1987, on considère que le membre hiérarchiquement le plus élevé de cet ensemble est le
Cp(E) ou « centre préféré » (« preferred center ») de l’énoncé E. Les Cf de notre exemple
peuvent donc être ordonnés de la manière suivante Paul > Marie > Lyon, avec Cp = Paul.
La contrainte 1 ou « C1 » de Walker et al. 1998c précise que chaque énoncé non-initial
de SD est aussi caractérisé par un unique « centre rétrospectif » (« backward-looking center »)
Cb(E, SD)82 correspondant à l’objet mental le plus saillant au moment où l’expression
linguistique qui le réalise est interprétée.
Une dernière contrainte « C3 » postulée par Walker et al. 1998c indique que le Cf(En-1)
le plus élevé réalisé dans En est nécessairement le Cb(En).
Types de transition
Les concepts de centres prospectifs et rétrospectifs que nous venons d’évoquer
permettent de rendre compte de l’enchaînement des énoncés successif au sein d’une segment
de discours ; on parlera alors de trois types de « transition » (Grosz et al. 1995a : p. 11),
principalement définies en fonction des relations entre le centre rétrospectif Cb(En+1) d’un
énoncé et le centre rétrospectif Cb(En) de l’énoncé qui le précède :
• Continuation (« Center Continuation ») : Cb(En+1) = Cb(En) = Cp(En+1). Le Cb de
l’énoncé en cours et de l’énoncé précédent sont identiques et ce Cb est aussi le Cp de
l’énoncé en cours.
• Conservation (« Center Retaining ») : Cb(En+1) = Cb(En), Cb(En+1) ≠ Cp(En+1). Les Cb
de l’énoncé en cours et de l’énoncé précédent sont identiques mais le Cb de l’énoncé
en cours est différent de son Cp.
80 Ce paramètre, et notamment la fonction sujet, semble dominer les autres paramètres. 81 Cf. chapitre 6. 82 Ces diverses notations sont simplifiées en Cf(E) et Cb(E) lorsque le SD est identifié.
Chapitre 4 – Anaphore et discours
170
• Rupture (« Center Shift ») : Cb(En+1) ≠ Cb(En). Les Cb de l’énoncé en cours et de
l’énoncé précédent sont différents.
CT propose deux règles concernant ces transitions :
• Règle 1 : si un élément quelconque de Cf(En) est réalisé par un pronom dans En+1,
alors le Cb(En+1) doit aussi être réalisé par un pronom.
• Règle 2 : une continuation est préférée à une conservation, et une conservation est
préférée à une rupture.
Brennan et al. 1987 utilisent les règles 1 et 2 ainsi que l’ensemble des types de
transitions que nous venons de présenter afin de décrire le fonctionnement discursif des
pronoms personnels. Les auteurs proposent dans ce cadre une première modification à la
version standard représentée par Grosz et al. 1986 en scindant la transition de type « rupture »
en deux types distincts :
• Rupture douce (« Smooth-Shift ») : Cb(En+1) ≠ Cb(En), Cb(En+1) = Cp(En+1). Les Cb de
l’énoncé en cours et de l’énoncé précédent sont différents, mais le Cb de l’énoncé en
cours et son Cp sont identiques.
• Rupture nette (« Rough-Shift ») : Cb(En+1) ≠ Cb(En), Cb(En+1) ≠ Cp(En+1). Les Cb de
l’énoncé en cours et de l’énoncé précédent sont différents, et le Cb de l’énoncé en
cours est aussi différent de son Cp.
Les transitions peuvent alors être représentées à l’aide du tableau 1 ci-dessous :
Cb(En+1) = Cb(En)
ou Cb(En) = [?] Cb(En+1) ≠ Cb(En)
Cb(En+1) = Cp(En+1) Continuation Rupture douce
Cb(En+1) ≠ Cp(En+1) Conservation Rupture nette
Tableau 1 : Transitions possibles dans CT d’après Walker et al. 1998c (p. 5).
La règle 2 est accommodée en conséquence :
Règle 2 : une continuation est préférée à une conservation, une conservation est préférée
à une rupture douce et une rupture douce est préférée à une rupture nette.
Chapitre 4 – Anaphore et discours
171
Quelques exemples
Ex (41) (a) Susan gave Betsy a pet hamster.
(b) She reminded her that such hamsters were quite shy.
(c) She asked Betsy whether she liked the gift.
L’exemple (41) est emprunté à Grosz et al. 1995a (ex. (7) p. 13) ; analysons les
transitions (41a) – (41b) et (41b) – (41c) :
• 41a – 41b : continuation
- Cb(a) [?]
- Cb(b) [ C3 : SUSAN, « she »]83 = Cp(b) [SUSAN, « she »]
• 41b – 41c : continuation
- Cb(c) [C3 : SUSAN, « she »] = Cb(b) [C3 : SUSAN, « she »]
- Cb(c) [C3 : SUSAN, « she »] = Cp(c) [SUSAN, « she »]
Ex (42) (a) Susan gave Betsy a pet hamster.
(b) She reminded her that such hamsters were quite shy.
(c) Betsy told her that she really liked the gift.
L’exemple (42) est emprunté à Grosz et al. 1995a (ex. (8) p. 13) ; analysons la
transition (42b) – (42c) (la transition (42a) – (42b) est identique à celle de l’exemple
précédent) :
• 42b – 42c : conservation
- Cb(c) [C3 : SUSAN, « her »] = Cb(b) [SUSAN, « she »]
- Cb(c) [C3 : SUSAN, « her »] ≠ Cp(c) [BETSY, « Betsy »]
83 L’expression Cb(b) [C3 : SUSAN, « she »] se lira « le centre rétrospectif de l’énoncé b, Susan, réalisé par le
pronom ‘she’ en vertu de C3 ». En effet, on a Cb(b) [SUSAN, « she »] car (1) Cp(a) [SUSAN, « Susan »] et (2)
SUSAN est réalisé dans b (on a deux pronoms personnels ne pouvant pas coréférer — « she » c-commande
« her » ; et Cf(a) ne contient exactement deux humains de sexe féminin pouvant être repris par un pronom de
genre féminin).
Cont.
Cont.
Cons.
Chapitre 4 – Anaphore et discours
172
Ex (43) (a) Susan gave Betsy a pet hamster.
(b) Betsy told her that she really liked the gift.
(c) She said it was a fantastic surprise.
Analysons l’exemple (43) :
• 43a – 43b : conservation
- Cb(a) [?]
- Cb(b) [C3 : SUSAN, « her »] ≠ Cp(b) [BETSY, « Betsy »]
• 43b – 43c : rupture douce
- Cb(c) [C3 : BETSY, « she »]84 ≠ Cb(b) [SUSAN, « her »]
- Cb(c) [BETSY, « she »] = Cp(c) [BETSY, « she »]
Ex (44) (a) Susan gave Betsy a pet hamster.
(b) Betsy told her that she really liked the gift.
(c) Susan said she deserved a present.
Analysons finalement la transition (44b) – (44c) de l’exemple (44) :
• 44b – 44c : rupture nette
- Cb(c) [C3 : BETSY, « she »] ≠ Cb(b) [SUSAN, « her »]
- Cb(c) [C3 : BETSY, « she »] ≠ Cp(c) [SUSAN, « Susan »]
On notera que les exemples (43) et (44) comportent tous deux une première transition
de type conservation qui anticipe en quelque sorte la seconde, de type rupture (cf. Cornish
1999 : pp. 169-170).
84 On considèrera ici que « she » réalise BETSY. Alternativement, on aurait pu proposer que BETSY n’est pas
réalisé dans c, ce qui reviendrait à postuler que « she » réalise SUSAN (seul autre élément de Cf(b) humain
féminin) ; on aurait alors une continuation avec Cb(c) [C3 : SUSAN, « she »] = Cb(b) [SUSAN, « her »] et Cb(c)
[SUSAN, « she »] = Cp(c) [SUSAN, « she »]. C’est en fait le prédicat de (c) et nos connaissances du monde qui
nous font préférer BETSY (c’est le fait de recevoir un cadeau qui peut être une surprise, et pas celui de faire un
cadeau), nous faisant préférer une rupture douce à une continuation et violant par là même la règle 2.
Conservation
Rupt. douce
Rupt. nette
Chapitre 4 – Anaphore et discours
173
La décroissance progressive de la « cohérence » (objet central de CT) entre ces
exemples suggère une préférence pour la continuité discursive ou « topicale » (situation non
marquée, cf. Cornish 1999 : p. 172) sur la rupture.
Abordons à présent le problème plus spécifique de la modélisation du fonctionnement
discursif référentiel des pronoms personnels.
Limites et évolutions
On notera avec Kehler 1997 que l’utilisation de la version standard de CT comme base
pour l’interprétation des pronoms personnels anaphoriques (au sens traditionnel ; les seuls
analysés dans le cadre de CT) ne permet pas la formulation de prédictions précises. Reprenons
avec Kehler 1997 un exemple inspiré de celui proposé par Grosz et al. 1995a (p. 8) :
Ex (45) (a) Terry really gets angry sometimes.
(b) Yesterday was a beautiful day and he was excited about trying out his new sailboat.
(c) He wanted Tony to join him on a sailing expedition, and left him a message on his answering.
(d) Tony called him at 6AM the next morning.
(e1) He was furious for being woken up so early.
(e2) He was furious with him for being woken up so early.
(e3) He was furious with Tony for being woken up so early.
Analysons tour à tour les transitions (d) – (e1), (d) – (e2) et (d) – (e3) en commençant
par la première :
• Dans (d) :
o Cb(d) [TERRY, « him »] ;
o Cf(d) [TONY, « Tony » > TERRY, « him »] d’où Cp(d) [TONY] ;
• (e1) ne réalise directement qu’un seul des Cf(d) par « he », mais ce centre reste à
identifier :
o si, « he » réalise TONY, on a alors Cb(e1) [TONY, « he »] ≠ Cb(d) [TERRY],
ce qui constitue un cas de rupture ;
Chapitre 4 – Anaphore et discours
174
o si, « he » réalise TERRY, on a alors Cb(e1) [TERRY] = Cb(d) [TERRY], ce qui
constitue un cas de conservation.
La règle 2 du modèle standard favorise cette seconde interprétation de « he » comme
réalisant TERRY.
Les transitions (d) – (e2) et (d) – (e3) sont toutes deux beaucoup plus problématiques
dans le cadre de CT.
Concernant (d) – (e2), on notera que (e2) (« He was furious with him for being woken
up so early. ») comporte 2 pronoms ne pouvant pas co-référer (« he » c-commande « him ») ;
ces deux pronoms réalisent donc chacun l’un des deux éléments de Cf(d) [TONY, TERRY].
D’après C3 on a alors Cb(e2) = Cp(d), c'est-à-dire Cb(e2) [TONY]. On obtient alors Cb(e2)
[TONY] ≠ Cb(d) [TERRY], ce qui implique une rupture, quelle que soit la référence des
pronoms « he » et « him ».
Le modèle standard ne permet pas de différencier (et donc de classer) ces deux cas de
rupture, ce qui a pour conséquence d’empêcher la formulation de prédictions concernant la
référence des pronoms concernés.
Adopter le cadre proposé par Brennan et al. 1987, et notamment la distinction entre
rupture douce et rupture nette, couplée à la reformulation de la règle 2, semble permettre de
palier ce problème. En effet, étant donné que Cb(e2) [TONY] ≠ Cb(d) [TERRY],
• si « he », sujet, réalise TERRY, on a alors Cp(e2) [TERRY] ≠ Cb(e2) [TONY], ce qui
constitue un cas de rupture nette ;
• si, en revanche « he » réalise TONY, on a alors Cp(e2) [TONY] = Cb(e2) [TONY], ce
qui constitue un cas de rupture douce.
Dans ce cadre, cette seconde interprétation serait retenue (par la règle 2 amendée) et on
considèrerait que TONY est favorisé en tant que référent de « he », ce qui est manifestement
contraire à l’interprétation.
La seule autre solution consiste alors à postuler que l’énoncé (d) fait partie d’un
segment discursif distinct de celui contenant les énoncés (a), (b), (c) et (e2) ; la transition se
fait alors avec (c), et se résume de la manière suivante :
Chapitre 4 – Anaphore et discours
175
• Dans (c) :
o Cb(c) [TERRY, « he »] ;
o Cf(c) [TERRY, « he » > TONY « Tony »] d’où Cp(c) [TERRY] ;
• Dans (e2) :
o Cb(e2) = Cp(c) car, étant donné le principe syntaxique c (lié à la c-commande),
les deux Cf de (c) sont nécessairement réalisés ; on a donc Cb(e2) [TERRY] ;
o on a ainsi Cb(e2) [TERRY] = Cb(c) [TERRY] ;
o si « he », sujet, réalise TONY, on a alors Cp(e2) [TONY] ≠ Cb(e2) [TERRY],
ce qui constitue un cas de conservation ;
o si « he » réalise TERRY, on a alors Cp(e2) [TERRY] = Cb(e2) [TERRY], ce
qui constitue un cas de continuation.
Le fait de postuler une frontière de segment discursif (qui ne semble pas
fondamentalement contradictoire avec le sentiment de changement de point de vue que nous
éprouvons concernant cet énoncé) permet en définitive d’appliquer le modèle standard et
notamment sa règle 2, qui nous encourage à préférer la continuation à la conservation et donc
à identifier « he » comme référant à Terry, et « him » à « Tony », ce qui est conforme à
l’interprétation.
La transition (d) – (e3), comme le souligne Kehler 1997 est encore plus gênante :
• Dans (d) :
o Cb(d) [TERRY, « him »] ;
o Cf(d) [TONY, « Tony » > TERRY, « him »] d’où Cp(d) [TONY] ;
• Dans (e3) :
o le syntagme prépositionnel « with Tony » réalise TONY qui est Cp(d) ; on a
donc en vertu de C3 Cb(e3) [TONY] ;
o Afin de ne pas violer la condition c liée au concept syntaxique de c-commande,
on est obligé de déduire que « he » ne co-réfère pas avec « Tony » ; dans ce
cas, « he » réalise nécessairement le seul autre centre humain masculin de
Cf(d), c'est-à-dire TERRY.
Chapitre 4 – Anaphore et discours
176
Ceci constitue une violation de la règle 1 (un élément de Cf(d) est réalisé par un pronom
alors que Cb(e3) ne l’est pas). De plus la transition ainsi réalisée serait, dans le meilleur des
cas, une rupture nette (car Cp(e3) [TERRY, « he »] ≠ Cb(e3) [TONY, « with Tony »]).
On peut adopter plusieurs positions face à ce problème. Une première solution, adoptée
par Kehler 1997, consiste à rejeter la validité de l’approche dans son ensemble, et notamment
la règle 1 et le principe d’interprétation immédiate des pronoms personnels proposé dans
Grosz et al. 1995a (note 3, p. 8).
Une approche alternative consisterait au contraire à s’appuyer sur ces principes pour
rejeter les exemples tels que (45 e3), qui n’est pas attesté (cf. Di Eugenio 1998). Ce second
type de démarche nous semble plus cohérent avec le phénomène de « pénalité de nom propre
répété » observé expérimentalement dans des séquences où le Cb est réalisé par la répétition
d’un nom propre en lieu et place d’un pronom (cf. Cornish 1999 : pp. 172ff pour une
présentation de ces expériences et de leurs résultats). Typiquement (cf. Gordon et al. 1993),
ce phénomène se produit dans des séquences ou le nom répété est en position sujet, comme
par exemple dans « Jean voulait partir tôt. Jean avait rendez-vous ... », mais Gordon & Chan
1995 ont aussi observé ce phénomène lorsque le nom répété apparaît en position objet,
comme c’est le cas ici avec (e3). Cette pénalité de traitement nous encourage à classer ce type
d’enchaînement comme marqué et, loin de remettre en cause les principes de CT, constitue à
l’évidence une confirmation des hypothèses du modèle.
Notons qu’une prise en compte élargie du segment indexical dans le cadre de
l’interprétation anaphorique (position que nous adoptons), semble compatible avec ce type
d’approche (cf. la conception avancée par Kameyama 1994).
A un niveau encore plus étendu, il est intéressant de noter un mouvement important au
sein de CT qui propose, selon une logique comparable, une globalisation de la théorie par delà
les frontières des segments discursifs (la nécessité de ce type d’approche a été démontrée avec
notre exemple 45 e2). Ainsi, au sein de CT, on pensera par exemple aux travaux tels que
Brennan 1995 ou au Modèle du Cache de Walker (1996 et 1998). Une autre approche
intéressante, consiste à coupler CT avec différents autres modèles discursifs, globaux ceux-ci
: on pensera dans ce contexte à Roberts 1998 qui propose une intégration avec la sémantique
dynamique de Heim et Kamp (Heim 1982), ou à la Théorie des Veines (cf. par exemple
Cristea et al. 1998, Cristea et al. 2000 et Ide & Cristea 2000), qui propose une globalisation
de CT par l’extension de ses contraintes et règles au sein de « veines » discursives définies
Chapitre 4 – Anaphore et discours
177
dans le cadre des relations de cohérences de la Théorie de la Structure Rhétorique (ou
« RST », cf. Mann & Thompson 1988). Ces évolutions et ces nouveaux modèles du
fonctionnement discursif des pronoms personnels mettent en évidence un point fondamental
de la relation anaphore – discours ; nous avons jusqu’à présent focalisé notre attention sur le
fait que le discours joue un rôle dans la production et l’interprétation des expressions
indexicales ; il est temps à présent de montrer, avec la rubrique suivante que cette relation
n’est pas à sens unique et que le discours, lui aussi a besoin de l’anaphore.
2.3 Interdépendance de l’anaphore et du discours
Comme nous l’avons vu, le texte (au sens de Cornish 1990, 1999 et 2003a), notamment
par l’intermédiaire du segment indexical, joue un rôle crucial dans l’interprétation des
expressions indexicales. Comme l’a montré CT, l’environnement immédiat (notamment la
structure Cf) joue lui aussi un rôle crucial dans ce domaine. Le Modèle du Cache Walker, tout
comme la Théorie des Veines, mettent en exergue l’importance d’un troisième empan
discursif dans l’interprétation de ces expressions. Il semble donc que l’on pourrait concevoir
les effets discursifs sur l’interprétation pronominale à trois niveaux différents de structure : au
sein du segment indexical, tout d’abord, mais aussi entre énoncés au sein d’un segment
discursif, ou encore à l’échelle du texte, entre segments discursifs.
Il est intéressant de remarquer, cependant, que les relations anaphore – discours
semblent plus complexes que ce constat ne le laisse entendre. Ainsi, s’il est indéniable que les
différents niveaux de l’heuristique que constitue le discours contribuent à la détermination des
anaphores, cette dernière semble elle-même jouer un rôle d’importance dans la détermination
de nombreux phénomènes à plusieurs de ces niveaux. Dans ce contexte, nous allons consacrer
cette rubrique au rôle joué par l’anaphore en général et par l’anaphore pronominale en
particulier dans la structuration discursive globale.
Nous avons ainsi vu que l’anaphore pronominale constitue, des trois types que nous
avons évoqués, le type d’expression indexicale impliquant la plus grande continuité
discursive ; ceci est mis en évidence par la relative spécialisation des expressions dans la
désignation des objets mentaux focalisés (Gundel et al. 1993), hautement accessibles (Ariel
1996), familiers (Prince 1981) et topicaux (Givón 1983). Ce statut particulier de l’anaphore
pronominale permet de proposer que cette dernière joue, au niveau discursif, le rôle d’un
véritable indice de continuité, facilitant l’intégration en temps réel du segment indexical au
sein des modèles mentaux des interactants :
Chapitre 4 – Anaphore et discours
178
« […] this function of facilitating the integration of the clause currently being processed with its
discourse context is precisely the role of anaphors of various kinds, whose function is to signal a
particular degree of continuity with regard to emerging contents of the mental discourse model
under construction. » (Cornish 1996 : p. 42)
Cette continuité marquée par les anaphores, comme nous l’avons vu lors du chapitre
précédent, a été fréquemment associée au concept de cohérence. Nous avons mentionné les
problèmes nombreux posés par ce concept, et avons suggéré que le concept de pertinence, tel
que défini dans le cadre de la théorie éponyme pouvait en constituer un substitut avantageux.
Il nous faut cependant noter que les concepts dérivés de « relations de cohérence », « relations
rhétoriques » ou encore « relations de discours » (nous utiliserons cette dernière expression)
peuvent représenter un intérêt tout particulier.
Discours et relations discursives
Le nombre et la nature des relations de discours constituent autant de points
controversés au sein de la littérature sur la question (cf. Hovy 1990 ou Knott & Sanders 1998
pour un aperçu) : on compte par exemple deux relations fondamentales dans Grosz & Sidner
1986 (domination et statisfaction-précédence), plus de cent chez Martin 1992 et la liste
proposée par Mann & Thompson 1988 est explicitement présentée comme ouverte. Une telle
indétermination est selon nous liée à la nature de ces relations : nous n’allons pas nous lancer
ici dans un débat typologique fondé sur l’origine intentionnelle, sémantique et/ou pragmatique
de ces dernières ; au contraire, comme le suggère Knott & Sanders 1998, nous allons nous
placer dans un cadre « psychologique » (p. 136), ce qui nous permettra de la relier avec la
définition du discours que nous avons donnée à la fin du chapitre 3.
Nous avons principalement défini le discours comme une heuristique complexe de
l’activité de communication humaine. Le terme « heuristique » a été retenu car il reflète selon
nous les deux approches fondamentales que l’on peut avoir de la communication : la
production et l’interprétation langagières constituent le résultat d’une modélisation adaptative
et globale de la communication (la construction de modèles discursifs) ; cette modélisation
peut être effectuée à deux niveaux distincts :
• au niveau communicationnel, elle est située et en temps réel, et elle est effectuée par
les interactants-participants ;
• au niveau méta-communicationnel, elle n’est plus située, opère en temps décalé et est
du ressort des interactants-analystes.
Chapitre 4 – Anaphore et discours
179
Cette dichotomie des niveaux et des fonctions discursives n’est pas à concevoir comme
perméable : tout interactant-participant peut assumer la fonction d’interactant-analyste dès
lors qu’il se détache de la situation de communication pour l’appréhender dans sa nature
spécifiquement communicationnelle85. A contrario, la démarche linguistique nous place au
niveau méta-communicationnel et nous coupe en grande partie de la fonction d’interactant-
participants. Il y a donc une asymétrie fondamentale entre d’une part l’interactant-participant
qui peut se détacher temporairement de la situation (en quelque sorte « jouer au linguiste ») et,
d’autre part, le linguiste qui assume fondamentalement la fonction d’interactant-analyste86. Il
n’en reste pas moins que tous deux sont des interactants dont le modèle de l’objet analysé (la
situation de communication ou sa trace textuelle au sens large) est dynamiquement construit
par l’interaction.
Le questionnement de la nature des relations de discours en tant qu’indices utilisés par
les interactants-participants est problématique. Ainsi si certains (cf. Hobbs 1990, Mann &
Thompson 1988, Sanders et al. 1992 et 1993, Knott & Sanders 1998) considèrent la
conceptualisation des relations de discours par les participants comme un préalable à
l’interprétation du discours, d’autres (cf. Grosz & Sidner 1986) voient plutôt les relations
discursives comme des outils analytiques destinés à l’analyse de la structure textuo-
discursive. Notre position est intermédiaire : ainsi, si nous reconnaissons avec Knott &
Sanders 1998 que les relations discursives peuvent être conçues comme des modèles des
différents modes d’intégration des propositions (p. 138), nous insistons sur le fait que de tels
modèles appartiennent au plan méta-communicationnel et ne sont manipulables en tant que
tels que lorsque le participant assume une fonction d’analyste87 ; au plan communicationnel,
les relations discursives n’existent pas en tant que telles mais constituent des effets de bord
d’un principe plus général gouvernant la communication (par exemple des effets cognitifs en
relation avec le Principe de Pertinence ou des épiphénomènes d’un principe global de
cohérence). Cette approche mériterait d’être plus longuement explicitée, mais nous nous
contenterons de ces « préliminaires » pour aborder les liens unissant relations discursives et
anaphore.
85 C’est le cas notamment dans le discours rapporté et, de manière générale, la mention (par opposition à
l’usage). 86 La démarche linguistico-pragmatique cognitive peut cependant être perçue comme une tentative de simulation
de modélisation au niveau communicationnel. 87 Il pourra alors constituer une relation discursive donnée en tant qu’objet mental explicite.
Chapitre 4 – Anaphore et discours
180
Relations discursives et anaphore
Nous nous appuierons dans cette rubrique sur Cornish 2003b dont nous reprendrons
quelques exemples et propositions. F. Cornish s’appuie sur différents exemples tels que (46)
et (47) ci-dessous pour illustrer les approches théoriques qu’il présente (Cornish 2003b : (4a)
et (4b) p. 74 ; Sanders 1997 : 7(3) et 7(4)) :
Ex (46) Théo était épuisé car il avait couru jusqu’à l’université.
Ex (47) Théo était épuisé, puisqu’il était à bout de souffle.
Quelles que puissent être les relations unissant les propositions dans ces deux exemples,
nous insisterons avec Cornish 2003b sur le fait que les hypothèses utilisées pour en
déterminer la nature « ne valent que si le pronom sujet il de la proposition subordonnée
causale coréfère avec le sujet de la principale, assurant ainsi la continuité de la situation
décrite dans les deux propositions » (ibid. : p. 75). Le même raisonnement vaut pour un
exemple tel que (48) (Cornish 2003b : (5) p. 78) :
Ex (48) [Commentaire radio, BBC Radio 4, 12 juin 1984]
The Americans have developed a new method of shooting down
intercontinental ballistic missiles in space: they did it on Sunday.
Cornish mentionne concernant (48)
« un bel exemple de complémentarité entre le fonctionnement des anaphores signalées dans la
2ème phrase (le pronom they + l’anaphorique prédicatif it), d’une part, et l’assignation d’une
relation de cohérence appropriée — ici, celle d’Hypothèse-Preuve » (ibid. : p.78).
L’analyse des nombreux exemples proposés par l’auteur pourrait continuer encore, mais
nous retiendrons pour résumer que l’attribution référentielle des pronoms anaphoriques doit
être effective pour que les relations discursives puissent être déterminées ; cette interaction ne
doit pas être conçue comme séquentielle, mais simultanée. Ce phénomène argumente en
faveur de l’approche interdépendante des notions d’anaphore et de discours que nous
proposions plus haut : l’anaphore peut ainsi être perçue comme facilitant l’intégration du
segment indexical à différents niveaux discursifs (entre énoncés contigus par le biais de
relations discursives au niveau méta-communicationnel ou à l’échelle plus globale du texte,
par un renforcement de la topicalité ou de la cohérence au sein de ce dernier).
Chapitre 4 – Anaphore et discours
181
2.4 Synthèse
Notre objectif principal dans cette seconde section a été d’aborder de manière plus
précise le fonctionnement des expressions indexicales en général et des expressions
pronominales en particulier dans le cadre discursif que nous avons continué de développer à
partir des éléments formulés au chapitre 3. Nous avons ainsi différencié le fonctionnement
référentiel des expressions définies, démonstratives et pronominales avant de nous intéresser
plus particulièrement à ces dernières. Nous avons notamment explicité le rôle fondamental du
segment indexical dans l’attribution référentielle avant de préciser le « statut
cognitif privilégié » dont bénéficient leurs référents. Nous avons de plus présenté un exemple
de modèle, CT, fondé sur Grosz & Sidner 1986 (présenté chapitre 3) qui permettait de
formuler certaines conditions explicites gérant le fonctionnement discursif des anaphores
pronominales à un niveau local. La dernière rubrique de cette section, finalement, nous a
donné la possibilité de montrer, au-delà de la simple dépendance de l’anaphore par rapport au
discours, la fondamentale interdépendance qui unit ces deux notions. Nous pourrons dire en
résumé que si de nombreux éléments discursifs interviennent dans le fonctionnement de
l’anaphore, celle-ci, en retour, joue un rôle déterminant dans la structuration, la production et
l’interprétation de ce dernier.
3 Synthèse générale
Nous terminons avec ce chapitre la seconde partie de cette thèse. Cette partie, centrée
sur la thématique de l’anaphore discursive s’est organisée en deux moments. Dans un premier
temps, nous avons tenu à retracer de manière dynamique la constitution de la notion de
discours, de la notion de texte à la vision multidimensionnelle exemplifiée par Grosz &
Sidner 1986 et Roulet et al. 2001. Nous avons introduit, notamment les dimensions cognitive-
attentionnelle et praxéologique qui nous semblent fondamentales. Le chapitre 3 s’est terminé
par une réflexion sur la pertinence d’un objet « discours » par opposition au concept
clairement défini de texte (cf. Cornish 1999 et 2003a) et nous a conduit à proposer une
définition de travail relativement neutre pour le concept de discours.
La seconde phase de cette partie, finalement, par le biais du présent chapitre, a consisté
en une mise en relation des problèmes de l’approche traditionnelle de l’anaphore et de notre
conception du discours. Nous avons précisé, dans l’ultime section de ce chapitre, le
fonctionnement des expressions indexicales et notamment des expressions anaphoriques.
Notre insistance a porté plus particulièrement sur diverses propositions de modélisations des
Chapitre 4 – Anaphore et discours
182
états cognitifs et des contraintes relatifs à l’anaphore discursive pronominale. Notre analyse,
finalement, s’est terminée par la suggestion d’un changement de perspective conduisant à ne
plus considérer l’anaphore comme un problème pour le discours (on parle fréquemment de
« résoudre » les anaphores), mais, au contraire, comme l’un des dispositifs principaux utilisés
par les interactants pour structurer la communication par une forme de « garantie de
continuité » topicale et/ou attentionnelle. C’est principalement cette optique que nous
adopterons dans la suite de ce travail, l’anaphore étant avant tout considérée comme un indice
de structuration discursive, et pas comme une énigme à résoudre.
Notre parcours nous a cependant permis d’isoler le comportement spécifique des
pronoms anaphoriques marqués prosodiquement par l’accent. Ces pronoms, en effet, semblent
assumer un fonctionnement référentiel particulier sensiblement différent de leurs homologues
atones. Ce constat, couplé à la vision multimodale du texte que nous avons choisi d’adopter et
à notre conception de l’oralité comme prototypique de la communication nous encourage
naturellement à approfondir notre approche de la prosodie et à définir de manière plus précise
le rôle de cette dernière au niveau discursif, et plus particulièrement en relation avec
l’anaphore. Ce sont ces éléments qui vont constituer le cœur de la troisième partie de cette
thèse.
183
Partie 3 :
Approches de la prosodie
Partie 3 – Approches de la prosodie
185
La seconde partie de cette thèse nous a permis de commencer à ébaucher notre
conception du niveau d’analyse « discours » ; cette ébauche constitue un élément de réponse
aux problèmes rencontrés par les descriptions classiques de l’anaphore en linguistique ; elle
consiste à considérer le discours comme une heuristique complexe de l’activité de
communication humaine par l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la
fois trace de et indice pour les processus cognitifs (au sens large) qui président à sa production
et à son interprétation situées. Nous proposons ainsi d’envisager le texte dans deux
dimensions orthogonales et complémentaires :
• Du point de vue fonctionnel, nous l’avons mentionné au chapitre 3, le texte est à la
fois trace et indice ; il constitue le résultat et contribue à l’ensemble « point de départ »
des processus impliqués dans le discours ;
• du point de vue formel, le texte est à considérer comme une entité polymorphe
impliquant des ressources verbales, para-verbales et non verbales.
Dans cette troisième partie nous allons aborder ces deux dimensions en relation avec le
phénomène prosodique.
Le premier chapitre de cette troisième partie (chapitre 5) sera pour nous l’occasion de
replacer le concept de prosodie dans son cadre historico-conceptuel et d’en préciser quelques
fondements et enjeux, concernant notamment son statut vis-à-vis de la linguistique, sa
multidimensionnalité et la multiplicité de ses niveaux de représentation.
Le second chapitre (chapitre 6) consistera en une analyse plus détaillée des relations qui
unissent la prosodie et le discours ; nous nous consacrerons plus particulièrement au rôle de la
prosodie dans la structuration textuo-discursive et à son influence sur les expressions
indexicales dans le cadre de l’anaphore.
187
Chapitre 5
Conceptions prosodiques fondamentales
188
Chapitre 5 : Sommaire
1 Prosodie : première approche .................................................................... 189 1.1 Prosodie et pragmatique : destins parallèles .............................................................. 190
1.1.1 Guerre ….............................................................................................................. 190 1.1.2 … et paix.............................................................................................................. 193 1.1.3 Développements récents et perspectives.............................................................. 195
1.2 Suprasegmental, intonation : point terminologique .................................................. 196 1.2.1 Suprasegmental .................................................................................................... 197 1.2.2 Intonation et prosodie........................................................................................... 198
1.3 Synthèse ......................................................................................................................... 200 2 Le macro-système prosodique.................................................................... 201 2.1 Niveaux de représentation............................................................................................ 202
2.1.1 Niveaux de représentation et niveaux d’analyse.................................................. 202 2.1.2 Modalité directe ................................................................................................... 204 2.1.3 Modalité indirecte ................................................................................................ 207
2.2 Multiplicité des paramètres et des dimensions prosodiques ..................................... 210 2.2.1 Prosodie multi-paramétrique................................................................................ 210 2.2.2 Prosodie multi-dimensionnelle ............................................................................ 214
2.3 Espace spectral .............................................................................................................. 220 2.3.1 Statut linguistique ................................................................................................ 220 2.3.2 Vers une intégration linguistique partielle ........................................................... 222
2.4 Ordre métrique et accent ............................................................................................. 225 2.4.1 L’accent : « stress » et « accent »......................................................................... 225 2.4.2 L’ordre métrique comme interface cognitive de haut niveau .............................. 228
2.4 Synthèse ......................................................................................................................... 229 3 Structure(s) et représentation(s) Prosodique(s) ....................................... 230 3.1 Représentations prosodiques : la cas de l’espace fréquentiel ................................... 230
3.1.1 Cadre général ....................................................................................................... 231 3.1.2 Représentation phonétique : l’algorithme MOMEL ............................................ 231 3.1.3 Représentation phonologique de surface ............................................................. 233
3.2 Extensions et applications : ProZed ............................................................................ 237 3.2.1 Extension à d’autres espaces prosodiques ........................................................... 237 3.2.2 L’environnement applicatif ProZed ..................................................................... 238
3.3 Structure(s) prosodiques de l’anglais.......................................................................... 239 3.3.1 Unités prosodiques............................................................................................... 239 3.3.2 Phonologie profonde et phonologie de surface.................................................... 240 3.3.3 Statut phonologique de l’emphase ....................................................................... 243
3.4 Synthèse ......................................................................................................................... 245 4 Synthèse générale ........................................................................................ 246
Chapitre 5 – Conceptions prosodiques fondamentales
189
Les trente dernières années ont donné lieu à une véritable montée en puissance de la
prosodie dans les études linguistiques. Ainsi, jadis en marge de la linguistique et cantonnée,
hormis son rôle lexical, à l’expression graduelle de phénomènes paralinguistiques (affects
notamment) et non linguistiques (origine régionale, âge du locuteur, etc.), la prosodie semble
aujourd’hui omniprésente à de nombreux niveaux de l’analyse. Tout linguiste oraliste, en
définitive, semble pouvoir être tenté par les sirènes prosodiques, au risque de succomber à ce
qu’Albert Di Cristo (à paraître) appelle la « prosodimania ».
Ce chapitre a pour objectif principal d’évoquer le contexte de l’émergence de la
prosodie au sein de la linguistique afin de tenter d’expliquer sa structure et de préciser la
conception que nous proposons de cette partie vivace de la linguistique. Comme nous le
verrons, cette présentation de quelques fondamentaux de la prosodie nous permettra par la
même occasion d’apporter notre pierre à un argumentaire en faveur de l’élargissement (déjà
entamé) de la linguistique, d’une linguistique stricte de la langue à une linguistique
pragmatisée de la parole.
En conséquence, nous structurerons ce chapitre en trois sections principales, suivies
d’une synthèse. Dans la première section, nous tâcherons de préciser le contexte idéologique
qui a présidé à l’intégration (partielle) parallèle de la pragmatique et de la prosodie au sein de
la linguistique. Nous tenterons notamment de souligner les similitudes de ces deux processus
intégratifs afin de les rapprocher et de proposer une perspective d’évolution.
La seconde section sera pour nous l’occasion de préciser plus avant la conception de la
prosodie que nous souhaitons adopter dans ce travail de thèse. Nous nous placerons ainsi
notamment dans le cadre d’une modalité indirecte de mise en relation des aspects prosodiques
formels et fonctionnels. Le concept prosodique sera ensuite présenté comme système à la fois
multiparamétrique et multidimensionnel.
La troisième section, finalement, nous permettra de montrer une application de la vision
de la prosodie proposée dans la section précédente au sein de l’espace lié à la fréquence
fondamentale, ouvrant la voie à une caractérisation prosodique phonologique profonde dans le
cadre des travaux développés par Daniel Hirst et Albert Di Cristo à Aix-en-Provence.
1 Prosodie : première approche
La première section de ce chapitre va être pour nous l’occasion de fournir un cadre à la
conception de la prosodie que nous développerons dans la seconde section et que nous
Chapitre 5 – Conceptions prosodiques fondamentales
190
adopterons pour le reste de ce travail de thèse. Cette approche va se décomposer en deux
phases principales. La première phase est motivée par une mise en perspective de la prosodie
en relation avec la linguistique et la pragmatique ; notre objectif dans ce cadre sera de mettre
en évidence certaines des contraintes qui ont présidé à l’intégration partielle de la pragmatique
et de la prosodie au sein d’une linguistique élargie, et de dessiner quelques unes des
potentialités de développement futur.
La seconde phase consistera en un rappel de la florescence terminologique qui entoure
le concept de prosodie ; nous justifierons alors notre préférence pour le terme « prosodie » par
rapport à ces « concurrents ».
1.1 Prosodie et pragmatique : destins parallèles
Le rapide aperçu historico-conceptuel que nous avons déjà évoqué concernant la
thématique de la référence est en définitive, nous l’avons dit, représentatif de l’évolution de la
linguistique dans son ensemble, notamment dans ses relations avec sa voisine pragmatique.
Nous allons évoquer rapidement dans cette rubrique les destins de la pragmatique et de la
prosodie en relation avec celui de la linguistique : cette démarche, c’est notre objectif, nous
permettra de mieux comprendre les positions passée et présente de la prosodie, voire même
peut être de formuler quelques hypothèses concernant son futur … Pour ce faire nous
commencerons par évoquer les aspects ostracistes de la relation linguistique – pragmatique /
prosodie avant de nous intéresser plus particulièrement aux tendances intégratives plus
récentes ; dans chaque cas, nous traiterons du « sort » de la pragmatique avant de parler de
celui de la prosodie.
1.1.1 Guerre …
La formulation est un peut exagérée, nous le reconnaîtrons volontiers, mais force est de
constater que les relations de la pragmatique vis-à-vis de la linguistique ont été pour le moins
tumultueuses. Notre objectif n’est pas ici de nous livrer à une analyse approfondie de la
constitution des champs pragmatique et prosodique, mais plutôt de fournir un éclairage
général. Concernant la pragmatique, le lecteur pourra se référer par exemple à Levinson 1983,
Moeschler & Reboul 1994 ou encore Verschueren 1995 et 1999 pour une exégèse détaillée ;
dans le cadre de la prosodie, on se réfèrera utilement par exemple à Crystal 1969 et 1975,
Ladd 1996 ou Di Cristo à paraître.
Chapitre 5 – Conceptions prosodiques fondamentales
191
L’origine du terme « pragmatics » est à trouver dans Morris 1938. La pragmatique est
alors définie comme l’étude des relations qu’entretiennent les signes et leurs interprètes
(« [the study of] the relation of signs to interpreters », Morris 1938 : p. 6). Cette définition est
insérée au cœur d’un projet sémiotique tripartite ambitieux comportant par ailleurs la
sémantique (« [the study of] the relation of signs to the objects to which the signs are
applicable », ibid. : p. 6) et la syntaxe (« [the study of] the formal relation of signs to one
another », ibid. : p. 6). Les jalons été posés pour une pragmatique « gourmande », englobant
presque tous les aspects de la communication par signes :
« Since most, if not all, signs have as their interpreters living organisms, it is a sufficiently
accurate characterization of pragmatics to say that it deals with the biotic aspects of semiosis, that
is, with all the psychological, biological, and sociological phenomena which occur in the
functioning of signs. » (Morris 1938 : p. 30)
Ce type de démarche englobante conforte une vision parallèle de la pragmatique comme
l’étude du langage en usage (« the functioning of signs ») par rapport à l’étude du système de
la langue. On pourra dès lors retrouver l’opposition saussurienne entre langue et parole, et
donc privilégier, dans le cadre du structuralisme et du générativisme la première par rapport à
la seconde. En ce sens, la pragmatique constitue le complémentaire de la linguistique
(représentée ici par l’agrégat sémantique-syntaxe, auquel on ajoutera la phonologie et la
morphologie) au sein de l’ensemble sémiologique.
On comprend alors les approches doublement négatives de la pragmatique par rapport à
la linguistique. Le premier aspect négatif de cette relation est conceptuel. Du fait de la
concurrence entre sémantique et pragmatique dans l’appréhension du sens, une conception
courante consiste à présenter la pragmatique comme le sens moins les conditions de vérité :
« Pragmatics has as its topics those aspects of the meaning of utterances which cannot be
accounted for by straightforward reference to the truth conditions of the sentence uttered. Put
crudely: PRAGMATICS = MEANING – TRUTH CONDITIONS. » (Gazdar 1979 : p. 2)
La pragmatique peut ainsi être schématiquement définie en creux, par opposition à la
sémantique. On notera cependant avec Levinson 1983 (p. 12) qu’une telle attitude fait en
définitive dépendre les frontières de la pragmatique directement de celles de la sémantique.
Ce phénomène a d’ailleurs été largement exploité pour rejeter hors du champ d’application de
la linguistique tout phénomène récalcitrant à ses analyses ; Bar-Hillel 1971 ira même jusqu’à
parler de « pragmatic wastebasket » pour qualifier le statut attribué par nombre de linguiste au
domaine pragmatique.
Chapitre 5 – Conceptions prosodiques fondamentales
192
Il est intéressant de noter que les phénomènes associés à la prosodie, même s’ils ont été
identifiés de manière assez fine plus tôt, ont longtemps été marqués du même sceau para-
linguistique. Etudions à ce propos la position de Sapir 1921:
« All that part of speech which falls out of the rigid articulatory framework of language is not
speech in idea, but is merely a superadded, more or less instinctively determined vocal
complication inseparable from speech in practice. All the individual color of speech — personal
emphasis, speed, personal cadence, personal pitch — is a non-linguistic fact, juts as the incidental
expression of desire and emotion are, for the most part, alien to linguistic expression. » (Sapir
1921: p. 47 ; cité dans Crystal 1969 : p. 45)
Les paramètres prosodiques consensuels (« speed » et « personal pitch » notamment)
sont, ont le voit, explicitement présentés comme hors du champs de la linguistique et mis en
relation, la chose est répandue, avec la dimension émotive. Les travaux ultérieurs de Sapir, et
notamment Sapir 1927, abordent les paramètres prosodiques de manière moins « brutale »,
notamment en reconnaissant des configurations linguistiques telles que l’« attitude
interrogative » (cf. Crystal 1969 : p. 45).
Une seconde position, mois radicale, consiste à penser la prosodie dans le cadre utilisé
pour l’étude des phonèmes : cette comparaison, si elle aboutit elle aussi généralement à un
rejet partiel hors des limites de la linguistique, a néanmoins l’avantage de donner à la prosodie
la qualité d’aspirant légitime, contrairement à ce que nous avons vu avec Sapir 1921.
Bloomfield 1933 est selon Crystal 1969 (p. 45) le premier à avoir entrepris ce type de
démarche ; l’auteur propose plus particulièrement de considérer l’intonation et l’accentuation
comme des phonèmes secondaires (étant donnée leur variabilité formelle) au statut imprécis :
« We use features of pitch very largely in the manner of gestures, as when we talk harshly,
sneeringly, petulantly, caressingly, cheerfully, and so on. In English […] pitch is the acoustic
feature where gesture-like variations, non-distinctive but socially effective, border most closely
upon genuine linguistic distinctions. » (Bloomfield 1933 : p. 114 ; cité dans Crystal 1969 : p. 46)
Le qualificatif « effective » est présenté comme particulièrement problématique par
Crystal 1969 (p. 46) ; néanmoins, ce concept d’efficacité, au sein de la dimension sociale elle
aussi mentionnée, nous semble compatible avec la vision de la pragmatique proposée par
Morris 1938 : l’accent n’est pas ici mis sur le système abstrait de la langue, mais plutôt sur
son utilisation concrète dans un contexte social déterminé. Une position similaire est présente
dans Pike 1945 qui propose de concevoir ces paramètres comme « socially significant
gradations […] which affect the meaning of utterances but are not organised into a rigidly
limited set of contrastive units » (Pike 1945 : p. 99). L’intonation, plus particulièrement, voit
Chapitre 5 – Conceptions prosodiques fondamentales
193
son espace de déploiement catégorisé en quatre niveaux discrets, mais reste néanmoins perçue
comme secondaire, sens temporaire superposé au sens lexical intrinsèque d’une unité.
L’approche de Martinet (cf. Martinet 1960/1964, 1962), dans le cadre de la Théorie de
la Double Articulation, oppose les éléments prosodiques aux phonèmes, éléments discrets de
la phonématique :
« On classe dans la prosodie tous les faits de parole qui n’entrent pas dans le cadre de la
phonématique, c'est-à-dire ceux qui échappent, d’une façon ou d’une autre, à la deuxième
articulation. » (Martinet 1960 : p. 83)
Les tons sont considérés par l’auteur comme des éléments discrets comparables aux
phonèmes, ce qui justifie leur statut linguistique univoque. L’intonation, a contrario, étant
donné son caractère « automatique » dans la parole et sa résistance à la discrétisation est
pourvue d’un statut plus ambigu, comparable à celui proposé par Pike 1945 :
« On ne saurait donc dénier toute valeur linguistique à l’intonation. […] Les variations de la
courbe d’intonation exercent, en fait, des fonctions mal différenciées, fonction directement
significative comme dans il pleut ?, mais, le plus souvent, fonction du type de celle que nous avons
appelée expressive. » (ibid. : p. 84)
On retiendra finalement que l’intonation est définie de manière négative, par rapport
aux tons et à l’accentuation :
« On aura intérêt à réserver le terme d’intonation à ce qui reste de la courbe mélodique une fois
qu’on a fait abstraction des tons et des faits accentuels. » (ibid. : p. 84)
Nous terminerons cette ébauche d’évocation en constatant la similitude de statut de la
pragmatique et de la prosodie par rapport à la linguistique : toutes deux semblent constituer un
rebus imprécis destiné à accueillir les phénomènes exclus du cadre de la linguistique. On
notera aussi en définitive la tendance commune à définir ces deux champs d’étude de manière
négative, par opposition à des domaines constitués (sémantique et phonologie,
respectivement) dans le cadre desquels il n’entrent pas.
1.1.2 … et paix
La situation a bien évolué depuis cette époque, et ce en raison de mouvements
réciproques de rapprochement de la linguistique d’une part et de la pragmatique et la prosodie
d’autre part. Une fois encore, notre compte-rendu sera nécessairement partiel et sélectif, mais
nous citerons tout de même un ensemble d’éléments qui semblent favoriser cette proposition.
Chapitre 5 – Conceptions prosodiques fondamentales
194
La pragmatique a été (et est encore dans une certaine mesure) caractérisée par une
tendance fortement expansive, liée aux influences nombreuses qui ont présidé à son
développement88. Ce champ de recherche a cependant connu, principalement à l’initiative de
philosophes du langage tels que Searle (1969), Bar-Hillel (cf. 1971) ou encore Grice (1975),
un recentrage linguistique qui motive l’appellation actuelle de « pragmatique linguistique »
(on pensera par exemple aux nombreuses études pragmatiques de formes linguistiques telles
que les connecteurs). Ce recentrage s’est accompagné d’une « mise en conformité »
conceptuelle et méthodologique : à titre d’exemple, on notera que la pragmatique s’est dotée
d’unités dont l’identification repose sur celle d’unités (pseudo-)linguistiques (les actes de
paroles, dépendants, selon Searle 1969, de l’unité linguistique « phrase ») ; on soulignera avec
Levinson 1980 l’importance de la grammaticalisation des faits pragmatiques ; on pensera à
l’adoption de méta-règles (cf. Charolles 1978), comparables aux règles linguistiques ; etc.
De manière symétrique à cette « linguistisation » de la pragmatique, on notera une
propension à la « pragmatisation » de la linguistique, et notamment de la sémantique (cf. les
travaux de G. Kleiber dans le domaine de la « pragma-sémantique » ; cf. aussi Tyvaert 1994
pour un exemple concernant l’implication). On pensera dans ce cadre à l’adoption forcenée
par la sémantique générative de l’hypothèse performative (cf. Lakoff 1989 pour un compte-
rendu) ; on n’oubliera pas de noter aussi, dans ce cadre, la mention notoire de la « compétence
pragmatique » (cf. Chomsky 1978) dont nous avons déjà parlé au chapitre 3.
La prosodie, elle aussi, bénéficie à l’heure actuelle d’un statut fort différent de celui
évoqué plus haut. Un tel changement en une trentaine d’années, correspond, selon Di Cristo à
paraître, au passage d’une phase de négligence de la prosodie, véritable « Cendrillon de la
linguistique », à une phase montrant les signes d’une « véritable épidémie de prosodimania ».
Un tel bouleversement résulte, de manière similaire à ce que nous venons de mentionner pour
la pragmatique, d’un double rapprochement. La linguistique a ainsi notamment reconnu le
rôle fondamental de la prosodie dans l’acquisition (cf. Konopczynski 1991), la perception et
la compréhension (cf. Cutler et al. 1997 pour un compte-rendu) du langage ainsi que sa
résistance dans le cadre de l’aphasie (cf. Caplan 1987).
Force est de reconnaître, cependant, que la prosodie a en quelque sorte suivi une
évolution significative, tant méthodologique que conceptuelle, afin de se conformer aux
88 Cf. par exemple les liens historiques avec la philosophie du langage, et ceux soulignés par van Dijk 1978 avec
la psychologie cognitive, la sociologie, l’anthropologie, etc. (cf. Verschueren 1995 pour un bilan).
Chapitre 5 – Conceptions prosodiques fondamentales
195
attentes de la linguistique. Cette évolution a notamment été corrélée à de nombreux
développements technologiques (électronique, informatique) et scientifiques (traitement du
signal) qui ont permis l’objectivisation des paramètres prosodiques ; plus important encore, la
discrétisation de l’intonation a constitué un élément clé dans l’intégration de la prosodie au
sein de la linguistique : la prosodie pouvait dès lors se targuer d’une démarche objective et
phonologique en lieu et place de ses caractérisations impressionnistes et graduelles passées. Il
est aussi important de noter que l’ancrage de la prosodie dans le champ linguistique devait
nécessairement s’accompagner de l’adoption d’unités appartenant à la linguistique : un
précédent existait avec les tons lexicaux distinctifs (cf. Martinet 1960), et il était alors naturel
que la structure prosodique soit étudiée en relation avec la syntaxe, ce qui a constitué la
majeure partie des études prosodiques pendant une longue période (cf. par exemple Rossi
1999 (p. 7) pour qui l’intonation est un système destiné notamment à « linéariser la hiérarchie
des structures syntaxiques »).
1.1.3 Développements récents et perspectives
Comme nous venons de l’évoquer rapidement, il semble que la linguistique, après une
phase de réticence, ait finalement intégré partiellement la prosodie et adopté en partie la
pragmatique ; réciproquement, on aura remarqué que ceci a pu se dérouler notamment dans le
cadre de l’adoption de méthodes et de concepts linguistiques par la prosodie et la
pragmatique.
Mais il est intéressant de noter que, dans le cadre de la pragmatisation de la linguistique,
la prosodie tend à s’affranchir des limites strictes de la linguistique phrastique pour
s’intéresser au discours ; on notera que cet élargissement du champs prosodique au sein de la
linguistique s’est fait de manière similaire au cheminement suivi par l’analyse du discours,
notamment par l’intermédiaire de la structure informationnelle qui, comme nous l’avons
suggéré chapitre 3, a constitué une véritable charnière conceptuelle.
La multiplication des publications et des conférences liant aspects pragmatico-discursifs
et aspects prosodiques confirme ce relatif affranchissement de la prosodie des limites
traditionnelles de la linguistique. Les recherches que nous avons effectuées au sein des
groupes ProDiGE (Prosodie, Discours et Grammaire Ecologique) et EPGA (English Prosody
Group of Aix) du Laboratoire Parole et Langage affirment l’importance de cette émancipation
de la prosodie et nous permettent de postuler (dans un cadre plus radical) avec Di Cristo à
Chapitre 5 – Conceptions prosodiques fondamentales
196
paraître (p. 22) que « l’étude des fonctions signifiantes de la prosodie ne peut être menée à
bien que dans le cadre de l’analyse du discours, de la conversation ».
Une telle position induit un changement de perspective concernant l’intégration de la
prosodie au sein de la linguistique ; ainsi, si cette intégration a tout d’abord impliqué
l’adaptation de la prosodie au cadre linguistique traditionnel (unités de type phrastiques,
nécessité du caractère discret des unités, mise en correspondance avec une signification
strictement linguistique, etc.), il semble aujourd’hui, sous les pressions conjuguées de la
pragmatique et de la prosodie, que le cadre linguistique lui-même ait évolué : le type de
signification avec laquelle la prosodie entre en correspondance dépasse le cadre étroit d’une
sémantique traditionnelle et intègre de nombreux aspects jadis marqués au fer
paralinguistique89. Nous vivons sans doute depuis une trentaine d’années une phase cruciale
du développement de la linguistique, depuis la linguistique de la langue à une linguistique
intégrant la parole ; la prosodie, dans cette affaire, aura joué et va continuer à jouer, un rôle
déterminant.
1.2 Suprasegmental, intonation : point terminologique
Le rapide tour d’horizon que nous venons d’effectuer concernant les relations prosodie-
linguistique suggère que la prise en compte de paramètres communément présentés comme
prosodiques n’est pas récente90. Une telle lignée d’études s’est bien évidemment
accompagnée d’une impressionnante florescence terminologique. Notre objectif n’est
évidemment pas de nous livrer ici à l’exégèse de tous les termes associés à la prosodie ; nous
consacrerons plus particulièrement cette rubrique à un point terminologique opposant les
termes souvent concurrents « suprasegmental » , « intonation » et « prosodie »91.
89 On pensera dans ce cadre à la proposition visionnaire de Crystal 1969 (p. 190) qui postulait un relâchement de
la contrainte liée au caractère nécessairement discret des unités linguistiques. 90 Hirst 1987 (p. 171) fait par exemple remonter à Steele 1779/1965 (seconde édition enrichie de Steele 1975) la
tradition de l’intonation anglaise. 91 Le lecteur pourra trouver une telle présentation détaillée dans Crystal 1969, et plus récemment Rossi 1999.
Chapitre 5 – Conceptions prosodiques fondamentales
197
1.2.1 Suprasegmental
La genèse du terme « suprasegmental » est indissociable du structuralisme américain.
En effet, Hocket 1942 oppose le suprasegmental au segmental de la manière suivante :
« features which clearly follow each other in the stream of speech are segmental. Those which
clearly extend over a series of several segmental groupings are suprasegmentals. » (Hocket 1942 ;
cité dans Crystal 1969 : p. 49)
Une telle conception englobe d’autres phénomènes pouvant s’appliquer à des groupes
de segments, comme par exemple le voisement, la vélarité, l’harmonie vocalique, etc. (cf.
Firth 1948, Crystal 1969, Lehiste 1970). En ce sens, les paramètres que nous appellerons
« prosodiques » font partie de cet ensemble suprasegmental plus grand.
Le terme « suprasegmental », cependant est, comme le souligne Rossi 1999 (pp. 19ff),
éminemment ambigu. Nous n’entrerons pas ici dans le détail de la problématique, mais
mentionnerons tout de même deux des sources principales d’ambiguïté identifiées par
l’auteur92 :
• au sein même du structuralisme américain, des positions telles que celle de Pike 1945
sont difficilement compatibles avec la définition que nous venons de rappeler ; en
effet, Pike 1945 considère que les contours intonatifs sont constitués de « phonèmes
de hauteur (ou « pitch phonemes ») coextensifs à la voyelle et définis en termes de
niveaux intonatifs » (Rossi 1999 : p. 22) ;
• une seconde conception du terme « suprasegmental » est à trouver chez I. Lehiste (cf.
Lehiste 1970) ; celle-ci se place en effet sur le plan perceptif (avec des concepts tels
que « pitch », « stress » et « quantity ») et considère que la caractéristique définitoire
des phénomènes suprasegmentaux est de ne pas pouvoir être identifiés par opposition
paradigmatique, mais uniquement par contraste syntagmatique, c'est-à-dire en relation
avec les autres éléments de même nature dans le cotexte93.
92 Rossi 1999 identifie en fait trois sources principales d’ambiguïté concernant la terme « suprasegmental » ;
nous avons cependant choisi de ne pas inclure ici la mention faite aux travaux d’André Martinet car celui-ci
faisait préférentiellement usage du terme « prosodique » et non pas « suprasegmental » pour caractériser les
phénomènes n’entrant pas dans le cadre de la Double Articulation. 93 C’est principalement cette notion de relativité que retient Ladd 1996 (p. 9) concernant l’accentuation.
Chapitre 5 – Conceptions prosodiques fondamentales
198
1.2.2 Intonation et prosodie
Les termes « intonation » et « prosodie » ont été et continuent à être utilisés de manière
souvent interchangeable ; nous allons nous fonder sur Hirst & Di Cristo 1998 dans l’objectif
de préciser l’extension attribuée à chacun de ces termes par les auteurs.
Cette confusion est, selon les auteurs, liée à la double ambiguïté liée à l’usage du terme
« intonation ». La première source d’ambiguïté est liée à l’empan du domaine d’application
du terme :
• conçue de manière large, l’intonation englobe tous les phénomènes liés aux variations
des paramètres tels que la fréquence fondamentale, l’intensité, la durée ou les
caractéristiques spectrales, que ces derniers soient spécifiques au niveau lexical (sous
la forme de ton, d’accent lexical ou de quantité) ou plus généraux ;
• conçue de manière plus restrictive, l’intonation ne concerne que les paramètres que
nous venons de mentionner au sein d’un domaine d’application non lexical ; on
mentionnera alors l’« intonation au sens strict » (« intonation proper »).
Le type d’opposition utilisé ici peut être représenté à l’aide de la figure 16 ci-après
empruntée à Hirst & Di Cristo 1998 :
Figure 16 : Distinction entre prosodie et intonation en fonction du domaine d’application
(Hirst & Di Cristo 1998 : p. 4).
La seconde source d’ambiguïté réside selon les auteurs dans les usages divers observés
dans le cadre de la distinction entre niveau formel abstrait et niveau physique concret. Ainsi,
certains auteurs privilégient une association du terme « intonation » avec la variation d’un
unique paramètre physique (la fréquence fondamentale, considérée comme paramètre le plus
important) alors que d’autres (cf. par exemple Rossi 1981 et 1999, Beckman 1986, von
Heusinger 1999) incluent les variations d’intensité et de durée segmentale dans leur concept
Chapitre 5 – Conceptions prosodiques fondamentales
199
formel d’intonation. Dans ce cadre, Hirst & Di Cristo 1998 propose cette seconde acception
comme premier aspect de leur conception de la notion d’« intonation ». La figure 17 ci-
dessous (Hirst & Di Cristo 1998 : p. 5) résume cette position :
Figure 17 : Distinction entre prosodie et intonation en fonction du domaine d’application
avec prise en compte des paramètres physiques (Hirst & Di Cristo 1998 : p. 5).
La prosodie est ici le concept englobant.
Les auteurs proposent cependant un deuxième aspect relatif à leur notion
d’ « intonation » :
« We also propose to use the term intonation with a second meaning, to refer to a specifically
phonetic characteristic of utterances, a construction by which the prosodic primitives on the lexical
level and the non-lexical level, however we choose to represent these formally, are related to
acoustic prosodic parameters. » (Hirst & Di Cristo 1998 : p. 7)
L’intonation, en ce sens, constitue une interface entre les composantes phonologiques
(lexicale et non-lexicale) de la prosodie et sa composante physico-acoustique (paramètres
prosodiques physiques). Dans cette perspective, on peut concevoir l’intonation comme la
partie prosodique de la phonétique. Cette proposition est représentée par la figure 19 ci-après :
Chapitre 5 – Conceptions prosodiques fondamentales
200
Figure 18 : Représentation conjuguée des deux aspects de l’intonation selon
(Hirst & Di Cristo 1998 : p. 7).
Cette approche, si elle a l’avantage de proposer une distinction entre les niveaux
d’analyse prenant à la fois en compte les aspects pluri-paramétriques de la prosodie et la
spécificité lexicale de son niveau phonologique, contribue selon nous à perpétuer la
complexité terminologique présentée comme problématique.
1.3 Synthèse
Cette première section nous a permis de préciser les circonstances de l’intégration de la
prosodie dans une linguistique progressivement pragmatisée ; cette révision dynamique du
champs de la linguistique explique selon nous les développements présents des études
prosodiques et nous permet d’envisager leurs évolutions futures sous l’angle d’une
redéfinition des critères de « linguisticité ». Le gradient linguistique proposé par Crystal 1969,
ainsi que les propositions de Di Cristo à paraître concernant une catégorisation tripartite des
contrastes linguistiques (discrets, scalaires et graduels) semblent constituer respectivement
une prémonition précoce et une concrétisation de ces tendances dynamiques.
Cette section liminaire a aussi été pour nous le lieu d’un rapide point terminologique qui
nous a permis de poser les bases de notre choix du terme « prosodie » dans le cadre général de
l’étude de la production et de l’interprétation linguistique élargie des paramètres physiques de
la parole que sont la fréquence fondamentale, l’intensité, la durée et les caractéristiques
spectrales.
Chapitre 5 – Conceptions prosodiques fondamentales
201
Le cadre est à présent posé pour que nous tentions, dans la section suivante, la
formulation progressive de la conception de la prosodie que nous adopterons dans la suite de
ce travail de thèse.
2 Le macro-système prosodique
Nous allons proposer une explicitation de la conception de la prosodie qui va servir de
cadre non seulement à l’étude des relations prosodie – discours (chapitre 6), mais aussi à la
partie expérimentale de ce travail de thèse (chapitres 7 et 8). Notre démarche va se
décomposer en quatre phases, dans l’objectif de permettre la mise en relation de formes et de
fonctions prosodiques au sein du cadre d’analyse que nous aurons explicité. L’ensemble de
nos propositions sera majoritairement fondé sur les propositions de l’Ecole Aixoise, telle
qu’elle est représentée par les travaux d’Albert Di Cristo et Daniel Hirst.
Dans un premier temps, nous préciserons ainsi les niveaux de représentation permettant
l’interfaçage de la substance et des fonctions prosodiques, explicitant par là même les
positions relatives de l’acoustique, de la phonétique et de la phonologie prosodiques.
La seconde rubrique de cette section sera centrée sur les aspects formels de la prosodie
et leur organisation ; nous adopterons dans ce cadre une démarche résolument ascendante et
progressivement structurée, destinée à expliciter la conception que nous adoptons concernant
notre objet d’étude. Nous insisterons notamment sur les aspects multiparamétrique et
multidimensionnel de la prosodie.
La troisième rubrique nous donnera l’opportunité de préciser la place que nous
souhaitons accorder aux paramètres spectraux : ainsi, après avoir précisé le statut
généralement para-linguistique accordé à ces paramètres, nous proposerons certains
arguments en faveur de leur intégration au sein du système de la prosodie linguistique.
La quatrième et dernière rubrique proposera une rapide évocation de la position qui
nous semble correspondre à l’« ordre métrique » proposé par A. Di Cristo ; nous ferons
notamment l’hypothèse d’une hiérarchisation des ordres structurels, plaçant ainsi l’ordre
métrique à l’interface des niveaux prosodiques phonologiques et des fonctions cognitives de
haut niveau.
Chapitre 5 – Conceptions prosodiques fondamentales
202
2.1 Niveaux de représentation94
La reconnaissance d’une distinction minimale entre deux niveaux d’analyse (l’un
formel, l’autre fonctionnel) semble être une conception consensuelle non seulement en
linguistique en général mais aussi concernant la prosodie (cf. ‘t Hart & Collier 1975) ; pour la
prosodie, nous pourrons dès lors postuler que le niveau formel trouve son expression typique
dans l’acoustique du signal, alors que le niveau fonctionnel, que nous détaillerons plus loin,
doit s’apparenter à la signification prosodique. On pourra envisager deux modalités de mise
en relation de ces deux niveaux : une modalité directe et une modalité indirecte, médiatisée
par au moins un niveau intermédiaire. Nous allons analysé un exemple de chacune de ces
modalités après avoir effectué un rapide point terminologique concernant le choix du terme
« représentation ».
2.1.1 Niveaux de représentation et niveaux d’analyse
Le problème de la distinction terminologique entre niveau de représentation et niveau
d’analyse est soulevé par Hirst et al. 2000. Les auteurs opposent :
• d’une part les représentations cognitives, internes aux locuteurs et dont la nature reste
l’objet d’hypothèses diverses ;
• d’autre part, les représentations analytiques, physiques, liées aux choix opérés par le
chercheur, et correspondant ainsi à des « niveaux d’analyse ».
Le statut des représentations intermédiaires (entre le niveau purement physique et le
niveau purement cognitif) constitue selon les auteurs une question empirique, ce qui justifie
leur préférence pour une utilisation générique du terme « représentation » et par extension
« niveaux de représentation » à « niveau d’analyse ».
On retrouve ce thème dans l’approche épistémologique de la linguistique développée,
dans le cadre de sa Théorie des Opérations Enonciatives, par A. Culioli (cf. Culioli 1990 : pp.
21ff). Selon l’auteur, en effet, la démarche linguistique suppose trois niveaux de
représentation. Le niveau 1 est le niveau des représentations mentales des énonciateurs (et
donc inaccessibles au linguiste). Le niveau 2 est dédié aux représentations linguistiques,
traces de l’activité de représentation du niveau 1 ; Culioli 1990 (p. 22) formule de manière
explicite le caractère plurivoque des relations qu’un « marqueur » du niveau 2 entretient avec
94 Notre analyse de la thématique de la structuration des représentations entre substance et fonctions prosodiques
est fondée sur Hirst et al. 2000 dont elle reprend l’organisation d’ensemble et nombre de propositions.
Chapitre 5 – Conceptions prosodiques fondamentales
203
une ou plusieurs valeurs du niveau 1 (et réciproquement). Le niveau 3, finalement, est celui
des représentations méta-linguistiques, construites par le chercheur, et dont l’objectif est de
représenter les éléments du niveau 2.
Mettons ces deux approches en parallèle :
• le niveau 1 de Culioli 1990 correspond aux représentations cognitives proposées par
Hirst et al. 2000 ;
• le niveau 3, si l’on utilise les critères de nature physique et de choix opérés par le
chercheur, est sans conteste une représentation analytique ;
• le statut du niveau 2, en revanche, si l’on a recours aux mêmes critères, est plus
complexe : linguistique, ce niveau est physique mais ne résulte pas de choix
conscients et explicites du chercheur mais de ceux, peut-être moins conscients et
explicites de l’énonciateur.
Nous noterons cependant que Culioli 1990 propose de construire le niveau 3 afin que
celui-ci soit
« dans une relation d’adéquation (de correspondance) au niveau 2, telle que, par le biais de cette
relation explicite entre 2 et 3, nous puissions simuler la correspondance entre 1 et 2. » (Culioli
1990 : p. 23)
Ainsi, si l’on prend en compte d’une part la nature analytique du niveau 3 (qui
représente le niveau 2) et d’autre part la proportionnalité du rapport niveau 3 – niveau 2 par
rapport au rapport niveau 2 - niveau 1, il nous semble envisageable de considérer le niveau 2
(linguistique) comme analytique.
Ceci nous pousserait à considérer tout niveau de représentation externe aux énonciateurs
(c'est-à-dire accessible au linguiste) comme analytique. Le niveau des représentations
mentales, interne aux énonciateurs, serait alors le seul niveau cognitif. Une telle conception
est compatible avec la conception des plans communicationnel et méta-communicationnel que
nous évoquions en fin de chapitre 4 : ainsi, si les interactants ont la possibilité de prendre du
recul par rapport au niveau communicationnel c’est peut-être en raison de la nature
fondamentalement identique (modulo une différence des degrés de conscience impliqués) de
la démarche de communication et de la démarche de méta-communication (dont une partie
spécialisée constitue la linguistique).
Chapitre 5 – Conceptions prosodiques fondamentales
204
Cette réflexion, une fois encore, mériterait d’être approfondie, mais nous remarquerons
pour terminer qu’elle est néanmoins compatible avec le choix du terme générique
« représentation » proposé par Hirst et al. 2000 ; c’est donc en conséquence ce terme que nous
adopterons pour le reste de ce travail.
2.1.2 Modalité directe
Une première manière d’envisager les relations entre niveau formel (acoustico-
phonétique) et niveau fonctionnel (signification prosodique) consiste à proposer une relation
directe. Cette position est défendue par exemple par M.-A. Morel & L. Danon-Boileau dans le
cadre de leur modèle énonciatif de l’intonation (cf. Morel & Danon-Boileau 1998 et Morel
2000)95.
Cette approche, du fait même de l’absence de médiation entre forme brute et fonction,
repose sur une interprétation iconique de configuration globales concernant des paramètres
prosodiques tels que la fréquence fondamentale, l’intensité, la durée et les pauses :
« Nous postulons que chaque indice (hauteur, intensité, durée, pause-silence) a une valeur iconique
de base, puis une valeur conventionnelle. Le poids de la valeur iconique est considérable en raison
du fait que l’intonation, contrairement aux autres phénomènes de la langue, est de l’ordre du
continu et du non segmenté. Or, selon nous, la conventionalité du langage découle de la
segmentation qui bloque la mise en jeu analogique du sens. La valeur conventionnelle des indices
de l’intonation existe cependant, mais elle ne se cristallise que lorsque plusieurs indices se
conjuguent régulièrement. C’est dans ces cas-là que l’on voit se dessiner clairement les valeurs
correspondant aux fonctions précédemment évoquées (séquenciation, expressivité, etc.). » (Morel
& Danon-Boileau 1998 : pp. 11-12 ; cité dans Simon 2004 : p. 26)
Le domaine de la fréquence fondamentale est divisé en quatre niveaux (de 1 à 4), eux-
mêmes regroupés en deux plages : la plage basse (de 1 à 2,5) et la plage haute (de 2,5 à 4).
Dans ce cadre, les variations reflètent la « coénonciation », « façon dont celui qui parle
envisage la réception de son discours par celui auquel il s’adresse. » (Morel 2000 : p. 61). Des
variations au sein de la plage basse constituent une rupture de coénonciation, un signe
iconique de repli sur soi, impliquant l’absence totale d’anticipation de la pensée du
coénonciateur ; un tel phénomène se produit selon les auteurs lorsque l’énonciateur est surpris
(il est accaparé sur son discours) ou bien lorsqu’il « développe la croyance que l’autre n’a pas
accès à ce qu’il dit, qu’il est le seul à pouvoir l’asserter. » (Simon 2004 : p. 28 à propos de
Morel 2000 : p. 63). On dira alors qu’il y a « égocentrage en plage basse ». A l’inverse, des
95 Nous appuierons principalement dans cette rubrique sur le compte-rendu fourni par Simon 2004 (pp. 26-30).
Chapitre 5 – Conceptions prosodiques fondamentales
205
variations situées en plage haute constituent un positionnement à l’intérieur de la
coénonciation, impliquant une prise en compte et une anticipation de la pensée du
coénonciateur, un appel à l’autre ; sur un mode consensuel, ce positionnement représente
l’entérinement ou la recherche d’un accord avec le coénonciateur, alors que sur un mode
discordant, on aura alors affaire à un « égocentrage en plage haute », lié à la défense d’une
position jugée non compatible à celle supposée présente chez le coénonciateur.
L’intensité est liée à la « colocution », la gestion du droit à la parole dans l’interaction.
On a alors deux possibilités principales :
« Si [le locuteur] veut prendre la parole, l’intensité monte, s’il la conserve elle se stabilise, s’il
l’abandonne ou s’il considère ce qu’il dit comme un à-côté de son discours, elle chute. » (Morel &
Danon-Boileau 1998 : p. 14 ; cité dans Simon 2004 : p. 27)
Le paramètre de durée syllabique est lié à la « formulation », « l’état de mise en mots »
(Simon 2004 : p. 28). Morel 2000 (p. 65) défend plus particulièrement la thèse très contestée
de l’isochronie syllabique pour le fançais : dans ce contexte, le maintient de l’isochronie est
un signe iconique de formulation normale alors qu’un allongement de la durée syllabique
signifie la difficulté éprouvée par l’énonciateur pour poursuivre sa mise en mots (hésitation) ;
a l’inverse, on observera une accélération du débit, liée à une diminution de la durée
syllabique, dans le cas des incises (ou « parenthétiques »).
La pause, finalement, considérée comme une charnière, un « tournant au sein d’un cadre
déjà constitué » (Morel & Danon-Boileau 1998 : p. 14 ; cité dans Simon 2004 : p. 28).
Comme nous l’avons vu précédemment, le caractère conventionnel des significations
prosodiques est obtenu, selon les auteurs, lorsque plusieurs paramètres sont associés. A titre
d’exemple nous retiendrons qu’une chute conjuguée de la fréquence fondamentale et de
l’intensité signifie une rupture volontaire avec la thématique préalablement développée
(Simon 2004 (p. 29) à propos de Morel & Danon-Boileau 1998 : p. 17). Morel & Danon-
Boileau 1998 fournit ainsi (p. 20) un tableau précisant les valeurs associées aux couplages
divers des paramètres prosodiques analysés.
Si nous reconnaissons avec Simon 2004 (p. 30) que le modèle de Morel & Danon-
Boileau 1998 constitue une tentative de prise en compte conjuguée des aspects iconiques et
conventionnels de la prosodie. Cette tentative se fait malheureusement selon nous au
détriment d’une rigueur élémentaire concernant la démarche tant énonciative que strictement
prosodique.
Chapitre 5 – Conceptions prosodiques fondamentales
206
En effet, l’approche de Morel & Danon-Boileau 1998 se veut fondée sur la théorie
culiolienne dont nous avons fait mention ci-avant en 2.1.1. Cette hérédité apparente est liée
notamment à un grand nombre d’emprunts terminologiques (intérieur, extérieur,
coénonciation, etc.). Certains principes fondamentaux, en revanche, semblent ne pas avoir été
pris en considération, comme par exemple la nature des relations unissant les niveaux 2 et 3 ;
Culioli (1990 : p. 23 puis pp. 28-30) explicite en effet qu’« il n’y a pas [entre les niveaux de
représentation] de relation d’univocité : si la relation était univoque, il n’y aurait qu’à
remonter de niveau en niveau. » (ibid. : p. 23). La démarche de Morel & Danon-Boileau 1998
implique cependant une relation biunivoque entre configurations de paramètres prosodiques
(niveau 2) et phénomènes énonciatifs (niveau 3) ; la construction du niveau 3, de plus, comme
l’explicite Simon 2004 (p. 29), ne repose sur aucune démarche d’explicitation, ce qui est aussi
contraire à la vision culiolienne.
La démarche prosodique est elle aussi problématique : nous retiendrons principalement
des problèmes spécifiques à l’approche de la fréquence fondamentale, d’autres spécifiques à
celle de la durée, et finalement un problème majeur relatif à la démarche dans son ensemble.
Le domaine fréquentiel est ainsi découpé en deux plages définies par rapport aux extrema
atteints par un énonciateur lors d’une interaction ; nous noterons tout d’abord qu’une telle
position est, dans le meilleur des cas, arbitraire et injustifiée ; dans le pire des cas, elle est en
fait directement dérivée des présupposés théoriques de bipolarisation de l’énonciation. On
notera enfin avec Simon 2004 (pp. 29-30) que ce traitement de la fréquence fondamentale ne
tient compte ni des variations de niveau et d’étendue de registre, ni des contraintes
physiologiques liées au phénomène de déclinaison96.
Le traitement de la durée est fondé sur le principe d’isochronie syllabique, classant par
là même de manière univoque le français dans la catégorie des langues à rythme syllabique ; il
est pourtant important de noter avec Pike 1945 (cf. aussi Di Cristo 1999, Lacheret-Dujour &
Beaugendre 1999 et Simon 2004) que la distinction « stress-timed » / « syllable-timed » peut
être conçue comme servant à différencier des structures rythmiques pouvant coexister au sein
d’une même langue. L’approche de Morel & Danon-Boileau 1998, finalement, semble ne pas
tenir compte de l’importance du débit dans la perception des durées syllabiques.
D’un point de vue prosodique général, en conclusion, on notera ainsi d’une part
l’absence de prise en compte de ce que Ladd 1996 appelle les « dimensions orthogonales » de
96 Nous expliciterons ces concepts dans la suite de ce travail.
Chapitre 5 – Conceptions prosodiques fondamentales
207
la prosodie (étendue et niveau du registre, débit) et, d’autre part, l’absence de distinction entre
substance et forme prosodique : la mise en relation ne se fait ainsi pas en réalité entre un
niveau formel et un niveau fonctionnel, mais entre le niveau de la substance prosodique et
celui de son interprétation énonciative. Il semble cependant crucial de prendre en
considération non seulement les nombreuses interactions entre paramètres prosodiques mais
aussi entre paramètres prosodiques et paramètres segmentaux : on pensera par exemple aux
effets des consonnes non-voisées sur la fréquence fondamentale (phénomène de « pitch
skip » ; cf. par exemple Di Cristo & Hirst 1986), ou encore aux modifications de la durée
vocalique en fonction de la structure syllabique (cf. Di Cristo 1978).
Ce type de problème, traité de manière plus détaillée plus loin, nous pousse en
conséquence à rejeter le type d’approche représenté par Morel & Danon-Boileau 1998 au
profit d’une modalité indirecte de mise en relation des niveaux formel et fonctionnel vers
laquelle nous nous tournons à présent.
2.1.3 Modalité indirecte
L’architecture des systèmes de représentations proposée par Hirst et al. 2000 consiste à
postuler une médiatisation entre niveau formel (physique) et niveau fonctionnel (au sein du
niveau phonologique profond) via deux niveaux intermédiaires :
« Between the underlying phonological representation and the physical representation we wish
then to postulate two distinct levels: the level of surface phonology and the level of phonetics. The
level of surface phonology is a level of distinctive discrete categories with which we can describe
surface phenomena cross-linguistically. The level of phonetics is the level of continuously variable
phenomena from which we have factored out universal constraints on the production and
perception of sounds. » (Hirst et al. 2000 : p. 54)
Nous remarquerons que cette proposition revient en fait à proposer trois niveaux
intermédiaires entre forme (acoustique) et fonction (signification prosodique) ; ces trois
niveaux sont liés aux représentations phonétique, phonologique de surface et phonologique
profonde.
Cette proposition peut être représentée à l’aide de la figure 19 ci-après :
Chapitre 5 – Conceptions prosodiques fondamentales
208
Figure 19 : Schéma des niveaux de représentations de la prosodie
selon Hirst et al. 2000 : p. 55).
Ce modèle est étroitement lié à une conception de la distinction entre phonologie et
phonétique directement empruntée à Troubetzkoy 1939 : la phonologie est ainsi concernée par
des phénomènes discrets, et la phonétique par des phénomènes continus.
Le niveau physique (représenté ici par « utterance ») constitue l’extrémité formelle de
cette structure de niveaux ; concernant la prosodie, ce niveau est lié aux paramètres physiques
continus tels que la fréquence fondamentale et l’intensité en relation avec le temps.
Le niveau de représentation phonétique est lui aussi continu mais prend en compte les
contraintes universelles de production et de perception : cette représentation vise à dépasser la
simple substance acoustique et à rendre compte de la forme prosodique telle qu’elle est perçue
par les interactants ; on pensera par exemple dans ce contexte à la normalisation de la durée
d’un noyau syllabique opérée par les sujets en fonction de la structure syllabique (cf. les effets
intrinsèques et co-intrinsèques proposés par Di Cristo 1978) ; ou encore de manière plus
évidente, à la perception continue de la mélodie, opposée à la discontinuité de la courbe de
fréquence fondamentale97.
Le niveau de représentation phonologique de surface est composé d’unités distinctives
discrètes permettant la description inter-linguistique des éléments phonétiques. L’exemple
donné par les auteurs concerne la durée d’unités phonologiques : 97 Nous traiterons de ces aspects de manière plus détaillée dans la section suivante.
Chapitre 5 – Conceptions prosodiques fondamentales
209
« Studies of the duration of phonological units of a large number of languages might well lead us
to the conclusion that only some small finite number of durational distinctions are ever distinctive
on a cross-language basis. This could then lead us to set up discrete surface phonological
categories and we should then hope to be able to predict the observed range of values from an even
more restricted number of underlying representations. » (Hirst et al. 2000 : p. 54-55)
Le niveau de représentation phonologique profond est présenté comme devant fournir
deux types d’information : d’une part les informations formelles nécessaires à la production
d’un énoncé (en relation avec le niveau phonologique de surface) et d’autre part les
informations fonctionnelles nécessaires à l’interprétation sémantique et syntaxique de cet
énoncé. Le niveau phonologique profond est donc présenté (cf. schéma 4 ci-avant) comme
une interface entre le niveau formel le plus abstrait (avec ses « paramètres prosodiques
abstraits ») et le niveau fonctionnel des significations prosodiques.
Les différents niveaux intermédiaires sont de plus caractérisés par une « Condition
d’Interprétabilité » qui stipule que ceux-ci doivent être interprétables non seulement à leur
niveau adjacent plus concret (vers le niveau physique) mais aussi à leur niveau adjacent plus
abstrait (vers le niveau phonologique profond) :
« Interpretability Condition: Representations at all intermediate levels must be interpretable at
both adjacent levels: the more abstract and the more concrete. » (Hirst et al. 2000 : p. 54)
Nous noterons pour terminer que la représentation multi-niveau proposée par Hirst et al.
2000, soulève (nécessairement) sans y répondre nombre de questions fondamentales
concernant notamment la nature et la place de la phonologie prosodique dans l’organisation
linguistique ainsi que la nature de la phonétique, processus interprétatif dynamique comme le
suggère Pierrehumbert & Beckman 1988, ou plutôt véritable niveau de représentation comme
le proposent les auteurs.
L’originalité de la démarche consiste, comme le montre l’application proposée par les
auteurs au domaine tonal, à permettre la formulation de modèles dans le cadre d’une
heuristique de type « analyse par synthèse » ; nous évoquerons plus précisément ces aspects
dans la troisième section de ce chapitre.
Nous adopterons au terme de ce rapide survol de la thématique des niveaux de
représentations le principe d’une distinction multi-niveau entre formes et fonctions
prosodiques ; la rubrique suivante va nous permettre de développer notre conception multi-
paramétrique de la prosodie (inspirée notamment des travaux d’A. Di Cristo) au sein d’un
cadre dérivé de celui de Hirst et al. 2000.
Chapitre 5 – Conceptions prosodiques fondamentales
210
2.2 Multiplicité des paramètres et des dimensions prosodiques
La conception selon laquelle la prosodie (ou l’« intonation » selon les choix
terminologiques des auteurs) implique la prise en compte de plusieurs paramètres physiques
est consensuelle (cf. les exemples récents de Couper-Kuhlen & Selting 1996, Ladd 1996,
Hirst & Di Cristo 1998, Rossi 1999, Di Cristo 2000, etc.) ; couplée au fait que chaque
paramètre semble suivre des principes d’organisation qui lui seraient propre, cette conception
nous mène naturellement à postuler que la prosodie constitue en fait un macro-système ou un
système complexe. Cette conception est particulièrement explicite dans les travaux récents
d’A. Di Cristo au sein et en dehors du groupe ProDiGE. C’est donc naturellement cette
version que nous allons choisir comme point de départ afin de proposer nos propres
conceptions multi-paramétriques et multi-dimensionnelles de la prosodie ; ce cheminement
nous permettra finalement d’aboutir à la définition opératoire que nous utiliserons dans la
suite de ce travail de thèse.
2.2.1 Prosodie multi-paramétrique
Analysons la définition de la prosodie proposée par Di Cristo 2000 :
« Envisagée d’un point de vue formel, la prosodie peut être considérée comme un supra-système
intégrant trois ordres structurels interagissants : l’ordre de structuration métrique qui gouverne
l’organisation métrique des énoncés, l’ordre de structuration tonale qui gère les modulations (tons
et intonation) et l’ordre de structuration temporelle qui régit les phénomènes de quantité (pauses et
tempo). La projection concrète de ces ordres structurels est actualisée par le jeu de trois paramètres
prosodiques intrinsèques, tels que la variation de la fréquence fondamentale (F0), de l’énergie et
de la durée (pausale, segmentale, syllabique) et d’un paramètre ‘para-prosodique’, la variation du
timbre. » (Di Cristo 2000 : p. 196)
La démarche adoptée ici prend les allures d’une démarche descendante par laquelle des
« ordres structurels » sont projetés dans des paramètres physiques. Nous allons pour notre part
tout d’abord adopter une démarche ascendante (suggérée par Di Cristo à paraître), fondée sur
la substance prosodique (les paramètres physiques spécifiques) et construisant
progressivement les formes prosodiques (au niveau des phonologies de surface et profonde)
avant d’essayer de conjuguer les deux démarches dans le cadre linguistique pragmatisé que
nous avons mentionné plus haut.
Chapitre 5 – Conceptions prosodiques fondamentales
211
Pour une redéfinition des paramètres prosodiques intrinsèques
Di Cristo 2000 inclut dans les paramètres prosodiques intrinsèques la fréquence
fondamentale, l’énergie et la durée. Il nous semble crucial de noter que ces paramètres ne sont
pas tous trois purement acoustiques :
« Duration is often referred to as one of the three prosodic acoustic parameters, the other two being
fundamental frequency and intensity. Unlike the other parameters, however, duration is not purely
acoustic: it is impossible for a machine to produce something like a 'duration curve' in the same
way that machines can produce intensity curves or fundamental frequency curves. In order to
measure duration we need to posit boundaries which are associated with phonological categories
such as phonemes or syllables. » (Hirst et al. 2000 : pp. 54-55)
La notion de durée, en effet, implique nécessairement la définition préalable d’une unité
non nécessairement strictement prosodique (silence, phonème, syllabe) ; ceci nous conduit
donc à réduire notre inventaire des paramètres intrinsèquement prosodiques à la fréquence
fondamentale et l’intensité. Néanmoins, ce rejet ne doit pas être interprété comme la négation
du rôle fondamental joué par la dimension temporelle dans la phonologie et la phonétique
dans son ensemble ; c’est d’ailleurs précisément de cette manière que nous proposons
d’envisager les aspects temporels de la communication verbale, en tant que dimension globale
au sein de laquelle se développent les paramètres prosodiques.
La dimension temporelle permet d’isoler trois états ordonnés correspondant à la
production, à la transmission et à la perception de la substance prosodique : parmi ces trois
états, les deux derniers s’apparentent respectivement au niveau physique et au niveau
phonétique proposés par Hirst et al. 2000.
Nous proposons de parler d’« espace fréquentiel » et d’« espace d’intensité » comme
cadres respectifs des variations de fréquence fondamentale et d’intensité ; ces deux espaces,
tout comme les éléments du système segmental, sont, comme nous venons de le dire,
caractérisés par l’existence d’une dimension temporelle commune qui permet leur
quantification temporelle, la catégorisation de leurs états et leur synchronisation avec divers
phénomènes à d’autres niveaux de l’analyse linguistique.
La discrétisation et l’odre des états permettent d’identifier les caractéristiques concrètes
représentées dans le tableau 3 ci-après :
Chapitre 5 – Conceptions prosodiques fondamentales
212
Production
(physiologie)
Transmission
(acoustique)
Perception
(audition)
Espace
fréquentiel Activité musculaire
laryngale
Fréquence
fondamentale (F0) Mélodie
Espace d’intensité Pression sous-glottique Intensité Sonie
Tableau 3 : Caractéristiques concrètes des espaces prosodiques.
Ce mode d’organisation peut être représenté à l’aide de la figure 20 ci-dessous :
Figure 20 : Représentation des espaces prosodiques fréquentiel et d’intensité au sein de la
dimension temporelle commune aux domaines segmental et prosodique.
La topologie de l’espace d’intensité reste moins bien connue que celle de l’espace
fréquentiel ; ceci est notamment dû à la sensibilité de ce paramètre à divers types de
perturbations (changement d’orientation, obstacles, etc.) :
« […] intensity variation will never have communicative significance for the simple reason that
intensity is too susceptible to noise. If the speaker accidentally turns his head or passes a hand
before his mouth, intensity drops of greater magnitude than those caused by the difference between
stressed and unstressed syllables will easily occur. » (Sluitjer & van Heuven 1996 : p. 2372)
Certaines propositions alternatives à la prise en compte de l’intensité globale,
notamment par le recours à la notion de balance spectrale (ou « spectral tilt »), ont été
suggérées notamment par Sluitjer & van Heuven 1993 et 1996 ainsi que par Campbell 1995 et
Dimension temporelle Production > Transmission > Perception
Domaine prosodique
Domaine Segmental
Espace fréquentiel
Espace d’intensité
Act. L.
Press. sous-G.
F0
Intensité Sonie
Mélodie
Chapitre 5 – Conceptions prosodiques fondamentales
213
Campbell & Beckman 1995 (cf. Herment-Dujardin 2001 : pp. 52-54 et 152ff pour un compte-
rendu détaillé) ; les protocoles utilisés dans ce cadre permettent de se dispenser d’une distance
micro – sujet constante, contrainte forte pour une utilisation pertinente du paramètre
d’intensité globale. Cette méthode alternative fondée sur la balance spectrale n’étant pour
l’instant pas utilisée dans nos travaux, la suite de notre analyse prendra majoritairement en
compte l’espace fréquentiel, dont la mesure est jugée plus fiable.
Notons pour terminer que la figure 20 ci-dessus ne constitue qu’une simplification du
fonctionnement physiologique de l’appareil articulatoire et de l’appareil perceptif au sein des
espaces fréquentiel et d’intensité. Nous détaillerons plus loin (cf. § 3.2) les contraintes de
production et de perception impliquées dans le fonctionnement de l’espace fréquentiel.
Le paramètre de durée
Nous avons vu précédemment que la durée, généralement présentée comme un
paramètre prosodique intrinsèque, nous semblait plutôt constituer une dimension permettant
l’organisation et la synchronisation des espaces prosodiques entre eux, avec le domaine
segmental et, au-delà, les autres domaines linguistiques.
L’ « ordre temporel » proposé par Di Cristo 2000 n’est donc pas selon nous spécifique à
la prosodie. En revanche, la projection d’une dimension temporelle dans le domaine
segmental correspond à la prise en compte syntagmatique d’unités phonologiques telles que
les segments ou les syllabes. On pourra considérer cette projection comme un point de vue
spécifiquement prosodique (cf. Lehiste 1970) sur des phénomènes plus ou moins exogènes98.
Par assimilation, nous parlerons d’ « espace de durée » comme cadre pour les variations de
durée des unités phonologiques choisies. Ainsi, si nous nous intéressons à l’état de
transmission, on pourra parler de durée acoustique des unités choisies, tout comme l’on parle
de fréquence fondamentale brute dans l’espace fréquentiel ; l’état de perception comprendra
les phénomènes de longueur, au même niveau que la mélodie ou la sonie des espaces
fréquentiel et d’intensité.
98 En effet, si l’on devait retenir le phonème et la syllabe comme unités du plan segmental, on noterait que le
phonème paraît difficilement pouvoir être considéré comme purement prosodique ; le statut de la syllabe est plus
complexe.
Chapitre 5 – Conceptions prosodiques fondamentales
214
2.2.2 Prosodie multi-dimensionnelle
Approches relativistes et absolues des variations prosodiques
Jakobson, Fant & Halle 1952 propose une vision opposant les phénomènes segmentaux,
caractérisés par des traits inhérents (c'est-à-dire absolus) et les phénomènes prosodiques,
définis de manière relative :
« [any] opposition of inherent distinctive features [is] definable without any reference to the
sequence. Prosodic features, on the other hand, can be defined only with reference to a time series.
» (Jakobson, Fant & Halle 1952: p. 13 ; cité dans Ladd 1996 : p. 253)
Comme le souligne Ladd 1996, cette position est compatible avec la conception
structuraliste américaine représentée par Pike 1948 (qui insiste sur la hauteur relative d’une
syllabe par rapport à son cotexte) ou encore Lehiste 1970. Cette approche a été explicitée
notamment par Crystal 1969 qui propose par exemple (pp. 14-146) de caractériser la hauteur
d’une syllabe accentuée non tonique en fonction de la syllabe qui la précède selon six niveaux
distinctifs d’amplitude fréquentielle (« pitch-range »).
Ce type d’approche relativiste, que Ladd 1996 (pp. 252ff) baptise « initialising
approach », pose cependant plusieurs problèmes. Les langues tonales telles que le Yoruba
présentent sans doute l’un des problèmes les plus délicats concernant l’approche relativiste ;
observons les exemples (49), (50) et (51) empruntés à Ladd 1996 (p. 254) :
Ex (49) wón tún gbé túwó wá
Ils ont apporté du tuwo à nouveau.
Ex (50) omo won ni e lo fi se oko
C’est leur fils que tu épouses.
Ex (51) èwù ònà Àrà ò tàn
La couleur des habits sur le chemin d’Ara est terne.
Les exemples (49), (50) et (51) ne comportent respectivement que des tons hauts (H),
moyens (M) et bas (L) ; si les tons étaient nécessairement définis par rapport aux tons M et B,
il devrait être impossible de les identifier dans des énoncés tels que (49)99, 100.
99 Le même raisonnement s’applique bien entendu aux tons M de (50) et aux tons L de (51).
Chapitre 5 – Conceptions prosodiques fondamentales
215
Une solution à ce problème consiste à adopter une approche proposant de représenter
les phénomènes prosodiques de manière plus absolue (en ayant recours à des modèles de
normalisation ou « normalising models » dans les termes de Ladd 1996). « Absolu »
s’entendra ici de manière restrictive comme « non relatif au cotexte » ; en effet, une méthode
réellement absolue, fondée par exemple sur des valeurs brutes en Hertz pour la fréquence
fondamentale interdirait toute généralisation des observations, notamment entre locuteurs de
sexe différent.
Dans l’espace fréquentiel, le type d’approche préconisé revient à coder la hauteur d’une
syllabe non plus comme relative aux syllabes qui l’entourent, mais en relation avec les
extrema fréquentiels du locuteur (nous parlerons d’ « ambitus » pour caractériser l’écart
compris entre le minimum et le maximum absolus de fréquence fondamentale atteints par un
locuteur). Earle 1975 propose ainsi d’analyser les tons du vietnamien en terme de pourcentage
de l’ambitus : 0% correspond ainsi au minimum et 100% au maximum de fréquence
fondamentale de chaque locuteur. Rose 1987 utilise quant à lui une méthode de normalisation
par transformée z101, fondée sur la distribution des valeurs de fréquence fondamentale d’un
locuteur et qui définit les valeurs de hauteur en terme de fraction d’écart type par rapport à la
moyenne.
Ce type de méthode, s’il permet une description phonétique fine entre locuteurs, postule
en revanche un référentiel défini une fois pour toute en fonction d’un locuteur donné ; on
retrouve par ailleurs une position comparable chez Crystal 1969 (pp. 143-144), qui fait
l’hypothèse d’une « constante fréquentielle » (ou « pitch constant ») liée à la réalisation de
l’« attaque » (ou « onset »), première syllabe accentuée d’une unité intonative102. Deux
phénomènes viennent pourtant perturber cette conception référentielle fixe : les variations de
« niveau et d’étendue fréquentiels » vers lesquelles nous nous tournons à présent.
100 Jakobson & Halle 1971 (p. 37) propose tout de même que, dans ce cas de figure, des « indices de
substitution » (par exemple la dynamique tonale sur le noyau vocalique) puissent compenser l’absence des unités
constrastives. 101 Nous expliciterons cette méthode statistique dans le chapitre 7 de cette thèse. 102 Crystal 1969 prend acte de la possibilité de variation concernant cette valeur d’attaque, mais considère celle-
ci comme exceptionnelle (d’une fréquence de l’ordre de 1 pour 200).
Chapitre 5 – Conceptions prosodiques fondamentales
216
Niveau et étendue fréquentiels
Imaginons deux locuteurs : pour des raisons physiologiques, les extrema fréquentiels de
M, locuteur masculin à la voix grave, sont 60 Hz et 140 Hz ; la locutrice F, en revanche,
oscille entre 180 Hz et 340 Hz. Cette configuration est représentée par la figure 21 ci-
dessous :
Figure 21: Espaces fréquentiels pour le locuteur M et la locutrice F.
Ce cas de figure représente deux différences couplées :
• il y a tout d’abord une différence de « niveau fréquentiel » (« (overall) pitch level »),
identifiable par le fait que les valeurs, et notamment la valeur moyenne, de fréquence
fondamentale diffèrent selon que l’on s’intéresse à M (moyenne à 100 Hz) ou à F
(moyenne à 260 Hz) ;
• il y a aussi une différence d’« étendue fréquentielle » (« pitch span »), généralement
liée (cf. Cosmides 1983) à la différence d’ambitus respectifs de M (80 Hz) et F (160
Hz). Patterson & Ladd 1999 et Patterson 2000 démontrent cependant pour l’anglais
britannique qu’une prise en compte des valeurs des pics et des vallées fréquentiels
médians (non initiaux et non finals) sont plus fortement corrélés aux jugements
attitudinaux des sujets.
Comme le souligne à juste titre Ladd 1996 (pp. 260-261), ces deux phénomènes sont
rarement dissociés dans les analyses du fait de leur fréquente variation conjuguée : un niveau
fréquentiel bas s’accompagne généralement d’une étendue réduite alors que niveau
fréquentiel plus élevé s’accompagne en général d’une étendue plus importante (cf. Patterson
& Ladd 1999 et Portes & Di Cristo 2003 pour une confirmation expérimentale récente). Ce
phénomène justifie l’utilisation d’échelles logarithmiques (telle que les échelles en octaves ou
Chapitre 5 – Conceptions prosodiques fondamentales
217
en demi-tons) dans le cadre de la modélisation de la perception : étant donnée une fréquence
de 60 Hz, l’octave supérieure (intervalle perceptif reconnaissable) sera perçue à 120 Hz,
générant une étendue de 60 Hz ; avec une fréquence de 180 Hz, l’octave sera perçue à 360
Hz, générant une étendue de 180 Hz, trois fois plus importante que dans le cas précédent.
Une question importante concerne la perceptibilité de ces phénomènes ; plusieurs études
expérimentales récentes confirment que ces dimensions sont bien perceptibles par les sujets :
Portes & Di Cristo 2003 montre ainsi une corrélation inter-juge relativement élevée pour le
français et, plus récemment encore, Carlson et al. 2004 démontre que les sujets suédois sont
capables, une fois le sexe du locuteur connu, d’identifier de manière fiable le niveau
fréquentiel dans lequel se situe un ensemble d’énoncés.
Nous terminerons cette évocation de ce que Ladd 1996 a nommé les « dimensions
orthogonales de l’intonation » par un questionnement concernant le statut linguistique ou
para-linguistique de ces phénomènes. La majorité des études montre l’association forte de
modifications de niveau et d’étendue fréquentielle avec des phénomènes d’expressivité (cf.
par exemple Couper-Kuhlen 1986 : chap. X) ; il est cependant important de noter que
Patterson & Ladd 1999, qui proposait à leur sujet la caractérisation d’énoncés en fonction de
douze étiquettes, n’en ont finalement retenues que sept, dont une nommée « emphasis » (p.
1171) : cette conservation de l’emphase comme catégorie fonctionnelle pertinente constitue
selon nous un argument intéressant en faveur de l’inclusion du niveau et de l’étendue
fréquentiels au sein des catégories linguistiques. Nous reviendrons sur cette question dans le
cadre du chapitre 6 ; au préalable, cependant, nous allons proposer l’extension de ces concepts
orthogonaux aux autres espaces prosodiques.
Extension aux autres espaces prosodiques
Avec les concepts de niveau et d’étendue fréquentiels, nous venons d’évoquer les
« dimensions orthogonales » de l’espace fréquentiel ; il est intéressant de noter que l’espace
de durée, que nous avons défini par analogie avec les espaces fréquentiel et d’intensité,
semble lui aussi pouvoir s’étendre dans une dimension orthogonale103.
Ainsi, si des variations de fréquence fondamentale peuvent être réalisées au sein d’un
niveau et avec une étendue donnés, il semble que des variations de durée d’unités
103 Un raisonnement analogue vaut aussi pour l’espace d’intensité, que nous avons choisi de ne pas analyser pour
les raisons évoquées plus haut.
Chapitre 5 – Conceptions prosodiques fondamentales
218
phonologiques puissent elles aussi être considérées comme réalisées dans le contexte d’un
débit (« tempo » ou « speech rate ») particulier.
Tout comme le niveau et l’étendue fréquentiels, le débit est généralement considéré
comme une variable continue liée à l’expression de l’affect (cf. par exemple Ladd 1996 : p.
8). D’autres travaux (cf. par exemple Koopmans-van Beinum & Donzel 1996 ou Batliner et
al. 1997) suggèrent cependant que le débit est étroitement corrélé avec la structuration
informationnelle du discours et permet la désambiguïsation syntaxique, et pourrait donc
prétendre à un statut linguistique.
Interactions entre dimensions orthogonales et dimensions « basiques »
Une volonté d’homogénéisation nous pousse dans un premier temps à rebaptiser les
phénomènes prosodiques que nous avons tout d’abord identifiés (variations de fréquence
fondamentale, d’intensité et de durée des unités phonologiques) comme « dimensions
basiques » par opposition à la dénomination de « dimension orthogonale » proposée par Ladd
1996 concernant le niveau et l’étendue fréquentiels.
Nous proposons néanmoins de remettre en cause cette nomenclature au profit d’une
opposition entre « dimensions localisantes » (ou « dimensions cadre ») et « dimensions
localisées ». Les dimensions localisantes correspondent aux dimensions que nous venons
d’identifier (niveau et étendue fréquentiels et débit) ; les dimensions localisées qui leur
correspondent sont les variations de fréquence fondamentale et les variations de durée des
unités phonologiques. Nous avons choisi cette terminologie dans le but de restituer le
phénomène de réinterprétation phonologique que nous postulons au sein des dimensions
localisantes. Cette proposition constitue en fait une extension du phénomène de normalisation
qui permet une interprétation phonologique uniforme pour tous les locuteurs d’une variété,
quels que soient leur âge (enfant vs. adulte) ou leur sexe, que ce soit au niveau segmental (cf.
Ménard 2002) ou au niveau prosodique.
De manière plus précise, nous proposons, dans le cadre de la démarche de
représentation proposée par Hirst et al. 2000, que la phase critique de représentation
phonologique de surface implique la détermination préalable :
• pour l’espace fréquentiel, d’un empan caractérisé par un niveau et une étendue
fréquentiels donnés ;
• pour l’espace temporel, d’un empan caractérisé par un débit donné.
Chapitre 5 – Conceptions prosodiques fondamentales
219
L’interprétation phonologique d’une dimension localisée (variation de F0 ou de durée
d’unités) se fait ainsi à l’intérieur du cadre référentiel que constituent les dimensions
localisantes afférentes.
L’identification concrète des frontières des dimensions localisantes constitue un
problème auquel nous pouvons envisager deux types de solutions. La première solution
consiste à postuler que la détermination d’une dimension localisante se fait sur la base même
de la dimension localisée qu’elle cadre : c’est ainsi parce que l’on aurait un ensemble de
variations de F0 dans une partie élevée de l’espace fréquentiel du locuteur que l’on déduirait
la présence d’un niveau de registre élevé qui permettrait alors à son tour la réinterprétation des
valeurs de F0. Une telle détermination réciproque, bien que conceptuellement intéressante,
pose cependant le même problème que celui rencontré par l’approche relativiste de Jakobson,
Fant & Halle 1952 : comment peut-on postuler une dimension localisante sans éléments
pouvant entrer en relation de contraste syntagmatique ?
La seconde solution, d’ailleurs suggérée par Jakobson & Halle 1971 (p. 37), répond à
ce problème précis : une dimension localisante peut être identifiée sur la base d’indices
acoustico-phonétiques appartenant à d’autres espaces. C’est ce type de fonctionnement que
suggère Carlson et al. 2004 en relation avec les jugements effectués par leurs sujets suédois :
« [A] possibility is that listeners have based their judgments on variation in voice quality. It is
known that stretches of speech produced in a lower pitch range are sometimes characterized with
particular unstabilities in pitch, such as jitter and shimmer, that are due to limitations of the vocal
apparatus. Similarly, in our earlier study on break prediction […], we found that relatively low
pitch regions right before stronger breaks were accompanied by creaky voice. Finally, it has been
shown that some aspects of the vocal source, such as open quotient, which has an impact on the
perceived timbre of a person’s voice, may also covary with pitch level, e.g. […]. » (Carlson et al.
2004 : p. 692)
Cette suggestion d’un rôle important joué par les paramètres spectraux (associés à la
qualité de voix) dans le cadre de l’identification des dimensions localisantes, couplée avec les
fonctions linguistiques potentiellement assumées par ces dernières, nous pousse à nous
interroger plus avant sur le statut linguistique des paramètres spectraux. C’est vers ce
questionnement que nous allons brièvement nous tourner à présent.
Chapitre 5 – Conceptions prosodiques fondamentales
220
2.3 Espace spectral
La qualité de voix a bénéficié jusque tout récemment d’un statut comparable à celui de
la prosodie avant son intégration à la linguistique ; toujours associée majoritairement à
l’expression paralinguistique (affects) et non linguistique (âge, sexe du locuteur, état physique
global, etc.), la qualité de voix semble constituer un noyau dur réfractaire à l’intégration
linguistique. Cette rubrique sera organisée en deux phases. Dans la première phase, nous
évoquerons ce statut para / extra linguistique traditionnel de la qualité de voix et tenterons
d’en expliquer certaines des raisons après avoir proposé quelques définitions du concept. La
seconde phase, notamment par un recours à l’hétérogénéité fonctionnelle de la qualité de voix,
nous permettra de proposer des arguments en faveur d’une intégration totale de cet ensemble
de phénomènes au sein de la dimension prosodique.
2.3.1 Statut linguistique
Propositions de définition
L’une des raisons pour laquelle la qualité de voix bénéficie d’un statut marginal réside
sans doute dans la difficulté rencontrée pour la définir de manière univoque. L’une des
premières définitions les plus anciennes de la qualité de voix (dans une acception proche de
celle adoptée aujourd’hui) est à trouver dans Carrel & Tiffany 1960, qui propose de la
concevoir comme
« an aspect of tone which is independent of pitch, loudness, and duration; it is it is the remaining
cue that enables us to differentiate between two tones if the other three variables are the same in
both. » (Carrel & Tiffany 1960 : p. 266 ; cité dans Crystal 1969 : p. 102)
Cette définition négative de la qualité de voix fait clairement référence à l’aspect
perceptif du concept. Des approches plus contemporaines mettent en relation deux aspects
(deux « états » dans notre terminologie) du phénomène. Dans ce cadre, on pourra penser à
Ladefoged (cf. Ladefoged 1971 et 1973 ; Ladefoged & Maddieson 1996 ; Epstein 2002 pour
un compte-rendu) qui propose la mise en rapport du concept de qualité de voix avec
différentes qualités de voix, définies le long d’un continuum dont les degrés regroupent des
descripteurs de production et de perception : une tension forte des cordes vocales sera ainsi
associée à une voix laryngalisée (« creaky voice ») ; une voix soufflée (« breathy voice ») sera
le corrélat perceptif d’un relâchement et d’une occlusion incomplète ; un voix modale
correspondra à une configuration « par défaut » des cordes vocales.
Chapitre 5 – Conceptions prosodiques fondamentales
221
Plus récemment encore, Epstein 2002 (pp. 8-9) propose, en s’appuyant sur Laver
1980104, de prendre en compte les trois points de vue que nous avons isolés concernant la
substance prosodique (les « états » de notre terminologie) de manière simultanée : on peut
ainsi concevoir la qualité de voix comme l’ensemble des configurations laryngiennes et supra
laryngiennes représentées par des traces acoustiques et suscitant des percepts distincts tels que
« voix soufflée » ou « voix laryngalisée ».
Un phénomène « para / extra - linguistique » ?
C’est sans doute l’association tenace de la qualité de voix avec l’expression des
attitudes et des émotions qui a joué le rôle le plus déterminant dans sa caractérisation para-
linguistique. Ainsi, cet ensemble de paramètres continus associés à des fonctions non
linguistiques graduelles (attitudes, émotions) ne cadre pas avec le critère de discrétisation des
entités requis par le paradigme traditionnel de la linguistique, hérité notamment de la
phonologie. Un tel statut, y compris dans les travaux récents les plus récents (cf. Gendrot
2001, Campbell & Mokhtari 2003, Gobl & Ní Chasaide 2003, Campbell 2004 ; Ní Chasaide
& Gobl 2004), loin d’être remis en cause, est même présenté comme l’une des spécificités de
la qualité de voix par rapport à la fréquence fondamentale, l’intensité et la durée, ses
concurrents dans le domaine de l’émotion.
Si elle se limitait à ce domaine de l’affect, la qualité de voix pourrait difficilement
prétendre à un statut linguistique reconnu. Bien entendu, tel n’est pas le cas, et nombre de
spécialistes du domaine (nous retiendrons particulièrement C. Gobl et A. Ní Chasaide)
revendiquent pour la qualité de voix, en plus de ses fonctions para-linguistiques, un ensemble
de fonctions linguistiques directes et indirectes vers lesquelles nous nous tournons à présent,
et qui constituent autant d’argument en faveur de l’intégration de la qualité de voix à la
prosodie.
104 On trouvera dans Laver 1980 et 1991 (p. 227), ouvrage de référence sur la question, une description
physiologique extrêmement détaillée (en fonction de configurations laryngiennes et supra laryngiennes
complexes) de différentes qualités de voix.
Chapitre 5 – Conceptions prosodiques fondamentales
222
2.3.2 Vers une intégration linguistique partielle
Topologie d’un espace spectral
Nous l’avons vu, le concept de qualité de voix peut être abordé de trois points de vue
différents, chacun correspondant à l’un des états ordonnés que nous avons identifiés à
l’intersection d’un espace prosodique et de la dimension temporelle :
• l’état de production nous permet de concevoir la qualité de voix comme un ensemble
de configurations laryngiennes et supra laryngiennes ;
• l’état de transmission nous fait envisager la qualité de voix comme spectre (ensemble
des fréquences du signal de parole par rapport au temps)105 ;
• l’état de perception, finalement, donne son nom courant à la qualité de voix et semble
pouvoir être caractérisé à l’aide de catégories telles que « voix soufflée »
(« breathy voice » ou « voix laryngalisée » (« creaky voice »).
Il semblent donc que l’« espace spectral » (que nous définirons comme l’espace
prosodique lié à la perception de la qualité de voix) présente une structure comparable aux
autres espaces identifiés (espaces fréquentiel, d’intensité et de durée), ce qui lui permet de se
conformer à la démarche de représentation proposée par Hirst et al. 2000 et que nous
adoptons ici.
On pourra en effet considérer
• d’une part que le spectre constitue une représentation physico-acoustique de l’état de
production, et
• d’autre part, que les variables obtenues par l’application du filtrage inverse soit couplé
au modèle LF (cf. Fant et al. 1985 et par exemple Ní Chasaide & Gobl 2004 pour une
application récent) soit associé à l’algorithme d’extraction du Coefficient Normalisé
d’Amplitude (ou « NAQ », cf. Campbell 2003 et Campbell et Mokhtari 2004)
105 Le fait que nous ayons réservé le terme fréquentiel en relation avec les variations de F0 constitue en fait un
usage presque abusif ; le spectre, en réalité, étant composé de l’ensemble des fréquences du signal, serait sans
doute un meilleur candidat. Notre méthode de dénomination des espaces prosodiques, cependant, s’appuie sur le
terme correspondant à l’entité spécifique de l’état de transmission correspondant : la F0 nous fait donc parler
d’ « espace fréquentiel », et le spectre d’« espace spectral ».
Chapitre 5 – Conceptions prosodiques fondamentales
223
constituent une représentation phonétique du spectre, comparable à la représentation
obtenue par l’algorithme MOMEL dans l’espace fréquentiel.
La conformité de l’espace spectral avec la structure postulée implique cependant une
représentation phonologique de surface et une représentation phonologique profonde. Dans le
cadre de l’expression continue d’affects graduels (fonction para / extra – linguistique),
l’espace spectral n’exige aucune discrétisation et l’on peut fort bien concevoir une relation
directe forme (phonétique)-fonction, comparable à celle postulée dans le cadre de l’expression
des émotions par le biais de la F0.
L’espace spectral, cependant, si sa fonction la plus « populaire » est effectivement
l’expression de l’émotion et de l’attitude des locuteurs, présente néanmoins une multiplicité
fonctionnelle qui empiète sur le champ des fonctions linguistiques, permettant ainsi de
supposer un niveau catégoriel de représentation de type phonologique. C’est cette
hétérogénéité fonctionnelle de l’espace spectral que nous allons aborder à présent.
Hétérogénéité fonctionnelle
Comme nous venons de le rappeler, la qualité de voix est indissociable de l’expression
para / extra – linguistique des émotions ; d’autres fonctions sont cependant aussi liées aux
éléments de l’espace spectral, et ce à plusieurs niveaux de l’organisation linguistique106. Dans
le cas présent, nous nous restreindrons principalement aux fonctions liées à la proéminence et
à la constituance prosodique afin de faciliter l’intégration de cette partie de notre étude avec
les remarques que nous allons formuler en 2.4 concernant l’ordre métrique et son rôle
linguistique.
Notons cependant que des distinctions de tons lexicaux ont été identifiées, comme par
exemple l’association d’une voix soufflée à l’un des sept tons du Hmong (cf. Huffman 1987),
106 Nous noterons que Ladefoged & Maddieson 1996 détaille le rôle joué par la qualité de voix au niveau
phonématique : ainsi, une voix soufflée (« breathy voice »), opposée à une voix modale, est un trait distinctif
pour les voyelles en Gujarati ; une voix tendue (« stiff voice »), opposée elle aussi à une voix modale, est un trait
distinctif pour les occlusives voisées du coréen ; notons finalement, au risque de clamer l’évidence, que le trait
de voisement, si fréquent dans le cadre de distinctions consonantiques dans de nombreuses langues, fait partie
intégrante de l’état de production de l’espace spectral. Cette mention du rôle distinctif de l’espace spectral au
sein du domaine segmental viole la séparation de ce domaine et du domaine prosodique, mais constitue
néanmoins un argument de poids concernant le rôle linguistique au sens large que peut assumer la qualité de
voix.
Chapitre 5 – Conceptions prosodiques fondamentales
224
ou encore l’opposition des tons yin (voix soufflée) et yang (voix modale) du Wu (cf. Jianssen
& Maddieson 1989)107.
Ní Chasaide & Gobl 2004 montre que le degré de proéminence et la distinction
« accentué / non accentué » (p. 191) dépendent non seulement des paramètres prosodiques
« traditionnels », mais aussi de configurations physiologiques plus tendues se traduisant par
des augmentations indépendantes des paramètres EE (variable représentant la force
d’excitation du modèle dans le modèle LF, cf. Fant et al. 1985) et FA (lié à l’augmentation
d’intensité dans la partie haute du spectre).
Les frontières (notamment finales ; cf. chapitre 6) d’unités prosodiques (cf. Ní Chasaide
& Gobl 2004 : p. 191), sont corrélées avec l’augmentation progressive de la qualité de voix
soufflée, liée à une augmentation du coefficient d’ouverture, de la symétrie des pulsations
glottales, et de la fuite dynamique (paramètres OQ, RK et RA du modèle LF).
On notera finalement la cooccurrence souvent remarquée de « creaky voice » avec les
frontières d’unités prosodiques situées dans le registre bas du locuteur.
La qualité de voix semble en conséquent être caractérisée par un hétérogénéité
fonctionnelle lui permettant d’assumer des fonctions non seulement para / extra –
linguistiques, mais aussi, comme nous venons de le voir rapidement, des fonctions
linguistiques associées au marquage catégoriel de la signification lexicale, de la proéminence
et de la constituance prosodique.
Ces observations constituent selon nous des arguments en faveur de l’existence d’un
niveau phonologique de représentation au sein de l’espace spectral, permettant à ce dernier
d’arborer une structure similaire aux autres espaces et ainsi de prétendre au titre de
« quatrième dimension prosodique » (cf. Campbell et Mokhtari 2003). Cependant, la nature
exacte de ce niveau phonologique de représentation semble bien devoir rester pour l’instant
non encore déterminée.
L’association de faisceaux paramètres prosodiques avec les notions de proéminence et
de constituance prosodique, caractéristiques de l’« ordre métrique » postulé par Di Cristo
2000, nous pousse à nous interroger plus avant, dans le cadre de la rubrique suivante, sur cette
structure organisatrice de la prosodie. 107 Les traits spectraux sont en fait couplés à des valeurs initiales de F0 différentes (F0 plus basse pour le ton
Yin) ; ceci peut s’expliquer par une stratégie de redondance, similaire à celle observée par exemple dans le cadre
du marquage multiple de proéminence à l’aide de la F0, de la durée et du tilt spectral.
Chapitre 5 – Conceptions prosodiques fondamentales
225
2.4 Ordre métrique et accent
La définition de la prosodie qui a servi de point de départ à notre analyse mentionnait,
rappelons-le, trois « ordres structurels » (Di Cristo 2000 : p. 196). La rubrique précédente
nous a permis d’aborder l’organisation de la substance fréquentielle, d’intensité et de durée
en trois états ordonnés (production, acoustique et perception) au sein de la dimension
temporelle : on pourra ainsi considérer que l’« ordre tonal » et l’« ordre temporel » proposés
par Di Cristo 2000 correspondent à la structuration (fréquentielle et de durée, respectivement)
que nous venons d’évoquer et à son extension formelle aux niveaux phonologiques (de
surface et profond). Cette extension du phonétique au phonologique correspond à la
construction d’une théorie phonologique qui dépasse les limites que nous avons définies pour
ce travail de thèse (nous livrerons néanmoins en 3.2 une étude plus détaillée des éléments
relatifs à l’« ordre tonal » dans sa globalité, du niveau de la production au niveau
phonologique profond).
Il est cependant intéressant de s’attacher à présent à l’« ordre métrique », dont, jusqu’à
présent, nous n’avons rien dit. La manière dont nous avons abordé les ordres structurels tonal
et temporel est, il faut le reconnaître, partisane, nous arrêtant au seuil de la forme prosodique
(phonologique). Nous assumons cette démarche et répétons notre volonté de ne pas nous
plonger dans l’analyse phonologique détaillée du domaine prosodique, notre préoccupation
première se situant au niveau des interactions entre paramètres prosodiques acoustico-
phonétiques et niveau discursif en relation avec l’anaphore. Nous conserverons donc cette
démarche concernant l’organisation métrique.
L’organisation métrique repose sur la notion d’accentuation, dont la représentation
implique simultanément la proéminence et la constituance (cf. Halle et Vergnaud 1987 et Di
Cristo à paraître pour un compte-rendu) ; les grilles métriques parenthésées constituent un
exemple de ce type de représentation. Attachons-nous plus précisément à la nature de l’accent
en tant qu’élément fondamental de l’« ordre métrique ».
2.4.1 L’accent : « stress » et « accent »
On notera avec Hirst & Di Cristo 1998 que la terminologie de langue anglaise a
longtemps oscillé entre les termes « stress » et « accent ». Le compte-rendu détaillé fourni par
Jensen 2004, sur lequel nous nous appuierons ici, rappelle que le concept de « stress »,
jusqu’au milieu du XXème siècle, a été massivement associé avec l’état de production et
notamment à une effort particulier : on pensera par exemple à Jones 1909 et 1918 qui parle de
Chapitre 5 – Conceptions prosodiques fondamentales
226
« degree of force with which a sound or syllable is uttered » (Jones 1918 : p. 245) ou encore à
Pike 1943 (p. 119) qui utilise l’expression « stronger initiator pressure » pour caractériser les
syllabes accentuées (« stressed syllables »).
Gimson 1956 (p. 144) explique cette conception physiologique du concept de « stress »
comme une conséquence du changement terminologique qui avait conduit au remplacement
du terme « accent » (associé aux variations fréquentielles et d’intensité destinées à rendre une
syllabe proéminente). L’auteur s’appuie (ibid. : p. 147) sur Scott 1939 pour rejeter l’inaptitude
de la conception physiologique du « stress » (liée au paramètre d’intensité) à rendre compte
de la proéminence, concept prépondérant de son analyse. On passe ainsi dans les années 1950
d’une mise en avant de ce que nous avons appelé l’état de production à une emphase de l’état
de perception ; on retrouve ce changement de perspective en faveur de la perception chez
Jassem 1952, repris dans Jassem & Gibbon 1980 :
« Whatever cannot be heard by a normal human ear ipso facto lies outside the field which is
covered by phonetics as a strictly linguistic discipline. » (Jassem 1952 cité dans Jassem & Gibbon
1980 : p. 4).
Ce changement de perspective s’accompagne aussi d’un changement dans la prise en
compte des paramètres acoustiques. En effet, de nombreux auteurs (dont d’ailleurs Jones
1909) avaient déjà identifié le rôle crucial joué par les paramètres prosodiques, et notamment
les variations fréquentielles dans le marquage de la proéminence ; dans cette lignée, des
études expérimentales telles que Fry 1958a et 1958b montrent qu’il semble possible
d’associer la perception de proéminence avec l’ensemble ordonné des paramètres acoustiques
suivant : F0 > durée > intensité (Fry 1965 ajoutera la composition formantique (F1, F2) en
queue de liste).
« Sentence intonation [variations fréquentielles au sein d’une syllabe] is an over-riding factor in
determining the perception of stress and [...] in this sense the fundamental frequency cue may
outweigh the duration cue. » (Fry 1958a : p. 151).
On retrouve une position similaire dans Bolinger 1958 qui propose à la fois une
nouvelle conception et un nouveau terme :
« Having given up the more usual definition of stress, I think it is wise, because of association, to
give up the term also. From this point on I shall therefore refer not to stress but to PITCH
ACCENT, or simply ACCENT, meaning prominence due to the configuration of pitches. »
(Bolinger 1958: 127).
Chapitre 5 – Conceptions prosodiques fondamentales
227
Les paramètres d’intensité et de durée ne sont pas abandonnés, mais constituent des
indices secondaires utilisés notamment pour la différenciation de deux candidats au statut de
syllabe accentuée (ibid. : p. 138-139).
Adams & Munro 1978, dans une série d’expériences destinées à analyser les corrélats
acoustiques de la production et de la perception de l’accent ont quant à eux montré que les
variations de durée constituaient les indices les plus fiables de la perception de l’accent,
devant celles de fréquence fondamentale et d’intensité. Ces résultats, et la contradiction qu’ils
entraînent avec les résultats précédents, sont expliqués par le fait que les travaux de Fry ou de
Bolinger recourraient à des items isolés ou placés en position finale d’énoncé, position qui
neutralise notamment le rôle joué par le paramètre de durée (phénomène d’allongement final).
Ces résultats sont confirmés par Nakatani & Aston 1978 qui fournit les paramètres
ordonnés suivants : durée > F0 > qualité vocalique (pas d’influence de l’intensité). La notion
de neutralisation des indices acoustiques est elle aussi confirmée, notamment par le fait que la
durée semble neutralisée en fin d’énoncé et la fréquence fondamentale après un mot porteur
d’un accent dit « emphatique » (à mettre en relation avec les phénomènes d’abaissement
observés en position post-focale par Di Cristo & Jankowski 1999).
Une majorité de travaux depuis le début des années 1980 s’est cependant fondée sur les
positions telles que celle de Bolinger ou Fry et analyse majoritairement les proéminences
accentuelles en relation avec la fréquence fondamentale par le biais du concept de « pitch
accent » proposé par Bolinger 1958. Des travaux récents montrent cependant que le sujet n’est
pas clos : Terken 1991 (p. 1773) postule que les sujets utilisent des stratégies différentes
lorsqu’il s’agit de porter un jugement sur la proéminence d’une syllabe ou sur sa hauteur,
suggérant ainsi que l’équation de ces deux phénomènes n’est pas triviale ; de plus, les sujets,
même entraînés n’utilisent pas tous les mêmes stratégies pour identifier les accents (cf.
Streefkerk et al. 1997 ; Silipo & Greenberg 1999 et 2000) ; finalement, le phénomène de
balance spectrale (renforcement de l’énergie dans les fréquences élevées du spectre ; déjà
évoqué en 2.2.1) s’est avéré être un paramètre acoustique comparable à la durée dans les
analyses de Sluijter & van Heuven (1993 et 1996).
Ce passage en revue des conceptions et des études pourrait être continué encore bien
longtemps, mais nous estimons qu’il suffit en l’état à montrer d’une part la complexité de la
caractérisation de l’accent par la substance prosodique, et d’autre part l’impossibilité
Chapitre 5 – Conceptions prosodiques fondamentales
228
d’associer ce phénomène à un seul paramètre ; c’est sur ce second point que nous allons nous
appuyer à présent.
2.4.2 L’ordre métrique comme interface cognitive de haut niveau
Comme nous venons de le voir, le concept d’accent semble ne pas pouvoir être rattaché
de manière univoque à un unique paramètre prosodique acoustique. L’accent, en tant
qu’élément fondamental de l’organisation métrique, semble en quelque sorte constituer un
complexe formel associé à l’ensemble des paramètres prosodiques (F0, durée, intensité et
caractéristiques spectrales) dans des proportions qui varient selon les sujets (cf. Streefkerk et
al. 1997 ; Silipo & Greenberg 1999 et 2000) mais aussi selon les langues en fonction de
l’utilisation des ressources prosodiques à d’autres niveaux (par exemple dans le cadre
d’oppositions phonémiques de durée ; cf. Berinstein 1979).
Il semble donc que l’accent soit une forme métrique abstraite identifiée sur la base
d’éléments appartenant aux espaces prosodiques fréquentiel, de durée, d’intensité et spectral.
Se pose alors la question de savoir à quel niveau se fait cette association ; quatre possibilités
sont envisageables, correspondant aux niveaux proposés par Hirst et al. 2000 : l’association
pourrait ainsi s’opérer au niveau acoustique (notre état de transmission), au niveau phonétique
(notre état de perception), au niveau phonologique de surface ou au niveau phonologique
profond. Une association avec un niveau autre que le niveau phonologique profond semble
violer la contrainte d’interprétabilité (cf. Hirst et al. 2000 : p. 54 ; et ici même § 2.1.3) et
remettre en cause l’intérêt de l’existence même des ordres structurels tonal et temporel ; nous
postulerons en conséquence pour l’instant une association avec les formes phonologiques
profondes des différents espaces prosodiques108.
Dans ce cadre, il est alors envisageable de réévaluer le statut de l’ordre métrique et de
postuler que ce dernier serait situé à un niveau d’abstraction plus élevé (étant donnée la
108 La différence de stratégies utilisées par les sujets dans le cadre de la comparaison de proéminences ou de
hauteurs proposée par Terken 1991 pourrait être considérée comme un argument en faveur d’une autre
hypothèse : une association précoce de la forme accentuelle (par exemple avec les éléments de l’état de
transmission ou de perception, c'est-à-dire les niveaux acoustique et phonétique) lors du jugement de
proéminence pourrait en effet justifier les divergences obtenues (le jugement de hauteur serait quant à lui
effectué en suivant la structure interne de l’espace fréquentiel). Nous remarquerons cependant que la nature
métalinguistique de la tâche demandée constitue selon nous un cas de passage au niveau métacommunicationnel
(cf. chapitre 3) qui permet une vision plus consciente et « externalisée » des processus, permettant par là même
un « court-circuitage » artificiel.
Chapitre 5 – Conceptions prosodiques fondamentales
229
contrainte d’interprétabilité) que les niveaux phonologiques des espaces prosodiques liés à un
paramètre acoustique. Cette proposition peut être résumée à l’aide de la figure 22 ci-dessous :
Figure 22 : Niveaux de représentation de la prosodie avec intégration du niveau métrique.
Nous pourrions ainsi faire l’hypothèse que l’ordre métrique constitue une interface entre
certaines fonctions cognitives de haut niveau (liées à la proéminence accentuelle et à
l’empaquetage de l’information) et leur implémentation phonologisée au sein des différents
espaces prosodiques. On peut pourrait envisager aussi que d’autres fonctions, moins
strictement linguistiques, ne transitent pas par le niveau métrique, et entre en relation directe
avec le niveau d’abstraction relatif à la phonologie profonde de chaque espace prosodique.
Nous reviendrons sur ce point dans la rubrique 3.3.
2.4 Synthèse
Cette seconde section nous a permis de poser de manière explicite le cadre structurel
que nous souhaitons aborder concernant la prosodie. Nous appuyant sur Hirst et al. 2000,
nous avons ainsi tout d’abord détaillé la structure qui nous semblait la plus adaptée à la
représentation des niveaux d’organisation prosodique. Dans un deuxième temps, nous avons
explicité notre conception multiparamétrique et multidimensionnelle de la prosodie en
proposant quatre espaces prosodiques (fréquentiel, d’intensité, de durée et spectral) insérés
dans la structure organisatrice définie précédemment. Chaque espace est ainsi conçu comme
Chapitre 5 – Conceptions prosodiques fondamentales
230
pouvant être représenté, dans la dimension temporelle, de l’état de production à l’état de
perception et, au-delà de cette dimension, au sein d’une structure de représentation
hiérarchisée permettant la mise en relation de la substance prosodique et de sa représentation
phonologique profonde médiatisée par les niveaux phonétique et phonologique de surface.
Nous avons proposé, finalement un niveau hiérarchique supplémentaire, lié au
placement de l’ordre métrique à l’interface des systèmes phonologiques des espaces
prosodiques et des fonctions linguistiques de haut niveau.
Après cette présentation théorique, c’est à présent vers une application concrète d’une
proposition de traitement réversible de l’espace fréquentiel (depuis la substance jusqu’à la
forme phonologique de surface) que nous allons nous tourner dans la section suivante.
3 Structure(s) et représentation(s) Prosodique(s)
La première partie de cette section va s’organiser autour de la présentation de la
méthodologie associée par Hirst et al. 2000 à la démarche indirecte de représentation
prosodique que nous avons évoquée en § 2.1. Plus précisément, nous allons tout d’abord
détailler la représentation de ce que nous avons appelé l’espace fréquentiel, du niveau
physico-acoustique au niveau phonologique de surface ; nous évoquerons ensuite l’extension
de cette méthodologie à d’autres espaces prosodiques avant d’effectuer une rapide
présentation de ProZed, environnement applicatif de cette méthodologie.
La seconde partie de cette section présentera certaines des propositions de Hirst 1998
concernant la représentation phonologique profonde de l’anglais. Etant donné le cadre général
choisi, c’est précisément ce passage de la phonologie de surface à la phonologie profonde qui
semble constituer le cœur d’une théorie prosodique phonologique ; au terme de cette section,
nous aurons ainsi présenté une proposition homogène de représentation de la prosodie de
l’anglais, du niveau concret de la substance au niveau abstrait de la forme phonologique.
3.1 Représentations prosodiques : la cas de l’espace fréquentiel
Cette rubrique va être consacrée à la présentation de la méthodologie proposée par
l’école aixoise (notamment Albert Di Cristo et Daniel Hirst) dans le cadre de la représentation
de la prosodie. Les différentes phases que nous allons suivre correspondent respectivement
aux représentations phonétique et phonologique de surface proposées par Hirst et al. 2000. La
représentation phonologique profonde, objet de la théorie prosodique phonologique, fera
l’objet de la rubrique suivante (§ 3.2).
Chapitre 5 – Conceptions prosodiques fondamentales
231
3.1.1 Cadre général
Nous noterons en préambule que nombreux sont les travaux visant la modélisation de
contraintes et des effets de production (cf. les travaux de H. Fujisaki, notamment Fujisaki
1988 et 1997) et de perception (cf. les travaux de l’ « Ecole Hollandaise », notamment ceux
de ‘t Hart ou Terken, notamment ‘t Hart et al. 1990 et Terken 1991 ; ou encore les
modélisations proposées par Rossi et al. 1980 et d’Alessandro & Mertens 1995). Nous
sommes conscient du choix partisan que nous effectuons en ne rendant compte que du modèle
proposé par l’« Ecole Aixoise » représentée par A. Di Cristo et D. Hirst.
Notons cependant que ce choix, hormis le manque évident de place et la thématique
nécessairement restreinte de ce travail de thèse, est aussi motivé par la réversibilité de la
méthodologie proposée, qui constitue selon nous une caractéristique et un avantage
fondamentaux. En effet, un va-et-vient constant entre données empiriques et modèles formels
semble constituer l’archétype de la démarche scientifique contemporaine où se succèdent les
phases inductive et hypothético-déductive ; la linguistique ne saurait déroger à cette tendance
(cf. Culioli 1990). Or, la démarche adoptée ici permet non seulement une abstraction formelle
automatique à partir de la substance prosodique du niveau physico-acoustique, mais aussi la
génération automatique d’une représentation phonétique (et, via synthèse vocale, physico-
acoustique) à partir d’une représentation formelle abstraite. Cette démarche, qui s’intègre dans
la méthodologie générale de l’analyse par synthèse, sera détaillée en 3.1.4 ci-après.
3.1.2 Représentation phonétique : l’algorithme MOMEL
Le représentation phonétique, conçue comme un processus unissant les niveaux
physico-acoustique et phonétique, repose sur l’hypothèse que toutes les langues obéissent à
des contraintes de production et de perceptions identiques ; une représentation phonétique,
dans ce contexte, doit résulter de la dissociation de ces contraintes (cf. Di Cristo 1978).
Niveau physico-acoustique
Concernant l’espace fréquentiel, le niveau physico-acoustique est intimement lié au
paramètre de fréquence fondamentale (ou F0), corrélat de l’activité glottale (état de
production de l’espace fréquentiel). La fréquence fondamentale, dont l’unité est le Hertz, est
généralement représentée dans un espace temps-fréquence qui donne lieu à une représentation
graphique de type « courbe ».
Chapitre 5 – Conceptions prosodiques fondamentales
232
A la suite de Di Cristo et Hirst 1986, on considèrera que la courbe de F0 résulte de la
superposition d’une composante microprosodique et d’une composante macroprosodique,
fondement de la représentation phonétique. La composante microprosodique résulte de
l’ensemble des effets liés aux contraintes de production de bas niveau. Di Cristo 1978 propose
une distinction entre effets « intrinsèques » (liés à l’influence locale de la production d’un
segment sur un paramètre prosodique) et effets co-intrinsèques (liés à la coarticulation, et
notamment à l’influence des consonnes sur les voyelles adjacentes) ; au sein de ces deux
catégories, nous pourrons retenir les deux effets suivants concernant l’espace fréquentiel :
• Effets intrinsèques :
o F0 plus élevée pour les voyelles hautes que pour les voyelles basses ; ce
phénomène s’explique par la traction laryngale consécutive au soulèvement de
la langue : toutes choses égales par ailleurs, celle-ci entraîne nécessairement
une augmentation de la tension des cordes vocales et donc de la fréquence
fondamentale ;
o F0 plus basse pour les obstruantes voisées ;
• Effets co-intrinsèques :
o Saut de F0 de l’attaque d’une voyelle précédée d’une consonne non voisée
(« pitch skip ») ;
o Abaissement de la F0 de l’attaque et de la valeur cible d’une voyelle précédée
d’une obstruante voisée.
La composante macroprosodique, vers laquelle nous nous tournons à présent, peut donc
être conçue comme la partie de la courbe de F0 directement liée à la structure organisatrice de
l’espace fréquentiel, c’est-à-dire, en termes triviaux, au « reste » de la courbe de F0, une fois
gommés les effets microprosodiques.
Niveau phonétique
Comme nous l’avons indiqué, le niveau phonétique de représentation est fondé sur la
composante macroprosodique. Etant donnés les effets microprosodiques que nous venons de
mentionner, cette composante est quasi-identique, dans l’espace fréquentiel, à la courbe de F0
obtenue à partir d’une suite de voyelles et de sonorantes (de type « mamama »).
Chapitre 5 – Conceptions prosodiques fondamentales
233
Une telle courbe aurait pour caractéristique d’être à la fois lisse et continue (la courbe et
sa dérivée première sont toutes deux continues) ; la fonction la plus simple obéissant à ces
deux caractéristiques est une courbe spline quadratique, qui permet une représentation fine de
courbes de F0 avérées (cf., en plus de Hirst et al. 2000, Hirst 1980, 1983 et 1987, ainsi que
Hirst & Espesser 1993).
L’algorithme MOMEL (pour « MOdélisation MELodique »), développé à partir des
proposition de Hirst 1987 et détaillé dans Hirst & Espesser 1993 et Hirst et al. 2000, permet
l’obtention automatique de l’ensemble de courbes splines quadratiques modélisant au mieux
une courbe de F0 donnée. La figure 23 ci-après représente une courbe de F0 modélisée par
des splines quadratiques à l’aide de l’algorithme MOMEL.
Figure 23 : Courbe de F0 modélisée à l’aide de l’algorithme MOMEL.
Comme on peut le voir, la modélisation effectuée par l’algorithme MOMEL permet
l’obtention de courbes splines quadratiques réalisant l’interpolation d’un ensemble de points-
cibles. Ces points-cibles (ainsi que les courbes auxquelles ils sont liés) sont situés dans
l’espace temps-fréquence et constituent les éléments continus de la représentation phonétique
de la fréquence fondamentale.
Il est important de noter finalement que ce type de représentation est dans une relation
d’équivalence perceptive avec le niveau physico-acoustique ; son application pour l’analyse
de courbes de F0 dans de nombreuses langues (anglais, français, espagnol, italien , arabe,
allemand, suédois et plus récemment le chinois) montre que, bien qu’encore imparfait, cet
algorithme permet d’obtenir des résultats très satisfaisants (cf. Hirst et al. 1993, Véronis et al.
1994, Campione et al. 1997 ou encore Campione 2001 pour une évaluation récente).
3.1.3 Représentation phonologique de surface
Nous venons de voir qu’une représentation phonétique de la fréquence fondamentale
pouvait être obtenue de manière automatique et fiable dans le cadre de l’application de
l’algorithme MOMEL. Qu’en est-il alors d’une représentation phonologique de surface ?
Chapitre 5 – Conceptions prosodiques fondamentales
234
C’est à cette question que nous allons répondre en deux temps, rappelant tout d’abord les
caractéristiques de ce type de représentation, avant d’introduire le système INTSINT, destiné
à ce type de représentation.
Niveau phonologique de surface : caractéristiques fondamentales
Hirst et al. 2000 (p. 54) insiste sur l’importance d’un niveau intermédiaire entre le
niveau phonétique (variant et continu) et le niveau phonologique profond (domaine de
l’invariance discrète). Ce niveau, le niveau phonologique de surface, permet ainsi la mise en
correspondance de la représentation phonologique profonde et de la représentation phonétique
(cf. la condition d’interprétabilité) ; cette étape intermédiaire permet ainsi une représentation
phonologisée n’impliquant pas la connaissance a priori du système phonologique profond de
la langue analysée (contrairement au système de représentation ToBI (cf. Silverman et al.
1992). Le système phonologique profond peut ainsi être ensuite appréhendé à partir de la
représentation de surface.
Ce niveau de représentation permet d’autre part la comparaison des systèmes
prosodiques de différents langages. La phonologie de surface est ainsi à mettre en relation
avec le mal nommé109 « Alphabet Phonétique International », dont la fonction est comparable.
Un telle comparaison inter langue a été en partie mise en œuvre dans Hirst & Di Cristo 1998,
ouvrage collectif regroupant l’analyse des systèmes prosodiques de vingt langues dont dix ont
impliqué l’utilisation d’une représentation phonologique de surface réalisée à l’aide du
système INTSINT vers lequel nous nous tournons à présent.
Codage au niveau phonologique de surface : le système INTSINT
Le système INTSINT (« an INternational Transcription System for INTonation », cf.
Hirst & Di Cristo 1998) propose de coder les configurations fréquentielles à l’aide d’un
alphabet limité de symboles tonals. Plus particulièrement, dans le cadre de la méthodologie
proposée, le codage INTSINT concernera les points-cibles obtenus au niveau de
représentation phonétique par l’application de l’algorithme MOMEL.
La conception fondamentale de ce système est que la valeur des points-cibles peut être
appréhendée de manière absolue (en relation avec l’étendue fréquentielle) ou de manière
109 Etant donné son utilisation importante de représentations catégorielles discrètes, l’API est en grande partie un
système de représentation phonologique au sens de Troubetzkoy 1939.
Chapitre 5 – Conceptions prosodiques fondamentales
235
relative (en relation avec les points-cibles adjacents, ou uniquement le point-cible précédent
selon la version utilisée).
En conséquence, INTSINT, qui utilise huit symboles,
• en réserve trois à la notation des valeurs absolues qui définissent l’étendue
fréquentielle des locuteurs : M(id), T(op) et B(ottom) ;
• et cinq à la notation des valeurs relatives de hauteur110 : H(igher), L(ower), S(ame),
U(pstepped), D(ownstepped). Ainsi, le symbole H est retenu pour coder un point-cible
dont la valeur est supérieure à celle des points-cibles adjacents ; le symbole L sera
sélectionné pour coder un point-cible dont la valeur est inférieure à celle des points-
cibles adjacents ; le symbole U sera choisi pour coder un point-cible plus haut que le
précédent et plus bas que le suivant ; réciproquement le symbole D codera un point-
cible plus bas que le précédent et plus haut que le suivant ; le symbole S, finalement,
permettra de coder un point-cible de même niveau que le précédent.
Les configurations ainsi obtenues peuvent être représentées à l’aide de la figure 24,
empruntée à Hirst et al. 2000 :
Figure 24 : Configurations tonales et codage INTSINT du point-cible médian.
Nous retiendrons pour résumer que la méthodologie adoptée dans ce travail procède
d’une correspondance indirecte entre substance (niveau physico-acoustique) et forme
prosodique (phonologie) ; une telle méthodologie permet, concernant l’espace fréquentiel, la
génération d’un codage phonologique discret par l’intermédiaire des algorithmes MOMEL
(représentation phonétique) et INTSINT (représentation phonologique de surface). Un tel
codage est représenté dans la figure 25 ci-après :
110 La description donnée ici pour les configurations associées aux symboles D (« downstep ») et U (« upstep »)
correspond à la version « phonologisante », préférée par Hirst et Di Cristo 1998 (p. 15) et utilisée notamment au
sein du groupe ProDiGE (cf. Di Cristo et al. à paraître) ; une version plus « phonétisante » et quantitative,
suggérée elle aussi par Hirst et Di Cristo 1998 (p. 15), est actuellement retenue dans la dernière version de
l’implémentation automatique du codage INTSINT (cf. Auran et al. 2004).
Chapitre 5 – Conceptions prosodiques fondamentales
236
Figure 25 : Modélisation MOMEL et codage INTSINT d’un extrait de parole
(emprunté à Di Cristo et al. à paraître).
Comme l’indique la figure 26 ci-dessous, empruntée à Hirst et al. 2000 (cf. aussi Hirst
et Di Cristo 1998), le codage INTSINT peut être effectué indifféremment à l’aide des
symboles orthographiques que nous avons présentés ou à l’aide de symboles iconiques :
Figure 26 : Symboles orthographiques et iconiques du système INTSINT
(emprunté à Hirst 2000 : p. 62).
La figure 27, finalement, représente un tel codage iconique :
Figure 27 : Codage INTSINT iconique (emprunté à Hirst 1999 : p. 62).
La représentation phonologique profonde, en revanche, ne peut faire l’objet d’un
traitement automatique et correspond nécessairement à l’établissement d’une théorie
phonologique telle que celle que nous évoquerons ci-après (cf. § 3.3).
Chapitre 5 – Conceptions prosodiques fondamentales
237
Il est auparavant important de souligner deux aspects cruciaux de cette méthode ; en
conséquence, la rubrique suivante traitera de sa possibilité d’extension à d’autres espaces
prosodiques et de son implémentation réversible dans le cadre de l’environnement applicatif
ProZed.
3.2 Extensions et applications : ProZed
3.2.1 Extension à d’autres espaces prosodiques
Hirst 1999, 2000 et 2001 proposent une extension de la méthodologie que nous venons
de présenter pour une prise en compte de l’espace temporel. Une telle extension semble
cohérente avec le cadre général adopté dans cette thèse, notamment concernant la conformité
de l’espace temporel avec les niveaux de représentations et les principes de distinction micro-
/ macroprosodique évoqués plus haut.
Selon Hirst 2001 (p. 2), l’alignement d’une transcription de l’unité phonologique
choisie (phonème, syllabe, etc.) avec le signal de parole constitue une représentation
phonétique de l’espace temporel. Nous pensons qu’une telle représentation est en fait physico-
acoustique car les éléments de l’espace temporels obtenus (des durées brutes) résultent, tout
comme la courbe brute de F0, de la conflation de la composante microprosodique (avec ses
effets intrinsèques et co-intrinsèques111) et de la composante macroprosodique.
En conséquence, une représentation phonétique des durées (effets microprosodiques
« déduits » des durées brutes) est obtenue par application d’un algorithme de modélisation tel
que celui proposé par Di Cristo & Rossi 1981 implémenté à nouveau dans le cadre de Auran
& Di Cristo 2003.
La représentation phonologique de surface peut ensuite être obtenue par réduction de la
variable continue de longueur en un nombre fini de catégories. On pourra par exemple
recourir à une méthode statistique de « transformée z » (cf. Campbell 1992) permettant
d’exprimer une unité en relation avec une moyenne et un écart type donnés (différent types de
regroupement sont en fait envisageables, par exemple en fonction de l’identité des phonèmes,
de classes de phonèmes, de complexité syllabique, etc.). Concernant le français, quatre
111 Cf. Di Cristo 1978. On retiendra à titre d’exemple le classement décroissant des durées des voyelles nasales,
hautes et basses (effet intrinsèque lié à la vélocité des effecteurs articulatoires) et la diminution de la durée
vocalique associée notamment à une coda non voisée (effet co-intrinsèque).
Chapitre 5 – Conceptions prosodiques fondamentales
238
niveaux de durée (court, normal, long et très long) sont ainsi jugés pertinents dans le cadre
d’une notation phonologique (cf. Di Cristo et al. 1997 et Hirst 1999).
Une extension de cette méthodologie aux deux autres espaces prosodiques (d’intensité
et spectral) n’a pas été envisagée, sans doute en relation avec l’absence de niveau
phonologique reconnu. Les propositions de structure que nous avons formulées plus haut nous
laisse cependant entrevoir une possibilité de ce type dans le cadre d’une prise en compte
holistique de la prosodie. Dans le meilleur des cas, cependant, une telle entreprise semble
appartenir au très long terme.
3.2.2 L’environnement applicatif ProZed
Nous terminerons cette étude de l’application de la méthodologie développée par Hirst
et al. 2000 par une rapide évocation de ProZed, l’éditeur prosodique proposé par Hirst 2000.
Les avancées de la synthèse et de la reconnaissance vocales laissent envisager le
développement d’un éditeur prosodique permettant l’implémentation totale de l’heuristique
d’analyse par synthèse suggérée dans Hirst et al. 2000.
ProZed existe aujourd’hui sous la forme d’un ensemble d’outils gérés à partir de
l’éditeur de signal Praat (Boersma & Weenink 2000) et peut être représenté de manière
schématique à l’aide de la figure 28 ci-après :
Figure 28 : Schéma de l’éditeur ProZed.
Concernant l’espace fréquentiel, ProZed permet ainsi la génération automatique d’une
représentation phonologique de surface à partir du signal de parole par l’intermédiaire des
algorithmes MOMEL (exécutable) et INTSINT (script Perl) tous deux appelés depuis Praat.
Inversement, une représentation phonologique de surface peut être utilisée (en relation
avec une transcription phonématique) pour générer une représentation phonétique (suite des
phonèmes et valeurs de la courbe de F0 modélisée par MOMEL) qui, par l’intermédiaire du
MOMEL
INTSINTINT2PHO
QSP
MBROLA Niveau physico-acoustique
Niveau phonétique
Niveau phonologique de surface
Chapitre 5 – Conceptions prosodiques fondamentales
239
système de synthèse vocale MBROLA (Dutoit et al. 1996), permet de générer un signal de
parole synthétique.
Divers paramètres ont récemment été intégrés à ProZed : on retiendra notamment les
éléments de l’espace temporel (codage phonologique de surface de la durée segmentale
d’après Hirst 1999 et 2000) ainsi que la prise en compte des dimensions orthogonales que
nous avons mentionnées plus haut, le niveau et l’étendue fréquentielle (cf. Auran et al. 2004
pour un compte rendu récent).
ProZed en est bien entendu toujours à un stade expérimental, mais l’époque se
rapproche où la méthodologie d’analyse par synthèse proposée par D. Hirst comme cadre
d’étude de la prosodie sera enfin à la portée de tout membre de la communauté.
La représentation totale des niveaux prosodiques n’est cependant pas envisageable : le
niveau phonologique profond, en effet, ne peut être défini en relation avec le niveau
phonologique de surface que dans le cadre d’une théorie phonologique dont le développement
n’est (fort heureusement pour les linguistes) pas automatisable. Nous terminerons donc
logiquement cette longue présentation de quelques éléments fondamentaux de la prosodie par
la présentation d’une théorie phonologique cohérente avec le cadre que nous avons détaillé.
3.3 Structure(s) prosodiques de l’anglais
La description phonologique de la prosodie de l’anglais n’étant pas le thème central de
cette thèse, nous n’allons faire qu’évoquer certains aspects mis en évidence par Hirst 1998 sur
lequel cette présentation va s’appuyer. Nous allons ainsi tout d’abord présenter rapidement les
unités phonologiques identifiées par l’auteur avant de donner quelques exemples de mise en
correspondance de représentations phonologiques de surface avec leur contrepartie en
phonologie profonde. Nous terminerons, finalement, par une évocation du statut
phonologique de l’emphase et proposerons une réinterprétation de la proposition de Hirst
1983 dans le cadre que nous avons proposé.
3.3.1 Unités prosodiques
Comme le rappelle Hirst 1998 (p. 58), nombre de travaux proposent de rendre compte
des configurations prosodiques intonatives dans le cadre d’unités hiérarchiques organisées
autour d’une syllabe accentuée ; on voit clairement ici la prégnance de l’organisation métrique
dans la prise en compte de la prosodie.
Chapitre 5 – Conceptions prosodiques fondamentales
240
Concrètement, cette proposition se traduit généralement par un recours au pied
(« métrique » ou « rythmique ») (« foot ») tel que défini par Abercrombie 1964. Un pied est
constitué d’une syllabe accentuée et de toutes les syllabes inaccentuées qui la suivent,
indépendamment des frontières de mots. (52) ci-dessous est un exemple de la structuration en
pieds d’un énoncé simple (les accents (« pitch accents ») sont signalés par des majuscules, et
les frontières de pied par des barres verticales) :
Ex (52) they pre | DICted his e | LECtion.
(pied 1) (pied 2) (pied 3)
D’autres types d’organisation ont été proposés (on retiendra particulièrement le modèle
proposé par Jassem 1952 ; cf. Bouzon 2004 pour une analyse comparée des deux modèles),
mais nous en tiendrons au modèle d’Abercrombie 1964 dans le cadre de cette étude. Le terme
« unité tonale » (« tonal unit » ou « TU ») fera en conséquence référence au pied défini par
Abercrombie 1964.
Hirst 1998 propose une unité supérieure à l’unité tonale. Ce niveau de structure
correspond à une unité relativement consensuelle baptisée « Tone Group » (cf. Palmer 1922,
Schubiger 1958, Halliday 1967 et 1970, Gussenhoven 1984), « Tune » (cf. Armstrong &
Ward 1926, Schubiger 1935, Jassem 1952, Kingdon 1958), « Tone Unit » (cf. Crystal 1969,
Couper-Kuhlen 1986) ou encore « Intonation Group » (Cruttenden 1986). L’auteur propose
dans ce cadre le terme « Unité Intonative » (« Intonation Unit » ou « IU »).
3.3.2 Phonologie profonde et phonologie de surface
Hirst 1998 adopte l’approche phonologique autosegmentale (cf. Goldsmith 1976 et
1990) concernant la séparation des segments tonals et des phonèmes ; la synchronisation de
ces deux lignes, en revanche, est présentée comme indirecte et dépendante d’une structure
hiérarchique comportant au moins les deux niveaux que nous venons de mentionner (TU et
IU).
Chapitre 5 – Conceptions prosodiques fondamentales
241
TU
H L
IU
L {L;H}
L’anglais n’étant pas une langue tonale, les segments tonals sont associés aux schémas
tonals spécifiques à ces deux unités ; la figure 29 ci-dessous représente ces schémas tonals :
Figure 29: Schémas tonals de l’unité tonale (TU) et de l’unité intonative (IU)
selon Hirst 1998 (p. 74).
En conséquence, la structure de l’exemple (53) pourra être représentée par la figure
(30) ci-dessous :
Ex (53) It’s almost impossible.
Figure 30 : Structure hiérarchique de l’exemple (53) selon Hirst 1998 (p. 74).
La projection des segments tonals attachés aux unités TU et UI sur un unique plan (cf.
Pierrehumbert & Beckman 1988) conduit à la représentation donnée par la figure (31) ci-
après, qui constitue une représentation phonologique profonde d’une réalisation de (53).
Chapitre 5 – Conceptions prosodiques fondamentales
242
Figure 31 : Représentation hiérarchique de l’exemple (53) avec projection des segments
tonals sur un plan unique (Hirst 1998 : p. 75).
L’anglais britannique est présenté comme caractérisé par la présence d’un ton flottant
comme second segment tonal de l’UT, situation représentée par la figure (32) ci-dessous :
Figure 32 : Schéma tonal de l’unité tonale (TU) en anglais britannique
(adapté de Hirst 1998 : p. 76).
Un ton flottant est un segment tonal non réalisé phonétiquement mais dont la fonction
principale est d’induire l’abaissement du segment tonal suivant. Un segment tonal haut (H)
suivant ce ton flottant, en l’occurrence serait alors réalisé comme un abaissement local, codé
D (« downstep »). Appliqué à l’exemple (53), ce schéma tonal donne la figure (33) :
Figure 33 : Représentation hiérarchique de l’exemple (53) avec projection des segments
tonals sur un plan unique (Hirst 1998 : p. 76).
TU
H L
Chapitre 5 – Conceptions prosodiques fondamentales
243
Cette représentation phonologique profonde permet d’expliquer la représentation
phonologique de surface associée avec une énonciation non emphatique de (53) (cf. figure
34).
Figure 34 : Représentation phonologique de surface d’une énonciation non emphatique de
l’exemple (5) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76).
On remarquera notamment que le downstep (segment tonal D) réalisé à l’initiale du
second groupe tonal résulte de l’effacement du ton flottant final du premier groupe tonal. A
contrario, une séquence phonologique de surface telle que [M T L H B], commune dans les
variétés américaine ou écossaise reflèterait le caractère non flottant du second segment du
groupe tonal profond.
3.3.3 Statut phonologique de l’emphase
Nous terminerons cette rapide évocation de la représentation phonologique profonde de
la prosodie par une remarque concernant le traitement réservé par Hirst 1998 à l’emphase.
Selon l’auteur, en effet, une réalisation emphatique de (53) pourrait se représenter de la
manière suivante (figure 35) :
Figure 35 : Représentation phonologique de surface d’une énonciation emphatique de
l’exemple (53) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76).
Selon l’auteur, cette représentation de surface pourrait correspondre à l’insertion d’un
constituant E (pour « emphase ») entre le groupe tonal et l’unité intonative, situation que l’on
pourrait représenter à l’aide de la figure 36 ci-après :
It’s ALmost imPOssible !
[ M T D H B ]
It’s ALmost imPOssible.
[ M T D B ]
Chapitre 5 – Conceptions prosodiques fondamentales
244
Figure 36 : Représentation hiérarchique d’une réalisation emphatique de l’exemple (53) avec
projection des segments tonals sur un plan unique (Hirst 1998 : p. 76).
Dans ce cas de figure, la présence de l’unité hiérarchiquement supérieure E, qui domine
directement le second groupe tonal, bloquerait l’abaissement du segment tonal H du second
groupe tonal, qui serait alors réalisé H et non plus D.
Nous ne discuterons pas cette analyse dans le détail mais il nous semble néanmoins
intéressant de noter que cette proposition semble pouvoir être interprétée dans le cadre
structurel que nous avons proposé. Nous avons en effet postulé en 2.4.2 que l’ordre métrique
pouvait être considéré comme une interface entre fonctions cognitives de haut niveau (liées au
marquage de la proéminence et à l’empaquetage informationnel) et niveaux phonologiques
profonds des espaces prosodiques ; nous avons aussi fait l’hypothèse d’une mise en relation
directe de ces niveaux profonds « spécialisés » avec certaines fonctions moins strictement
linguistiques.
Or, le statut linguistique de l’emphase ne va pas de soi : on se souviendra que Ladd &
Morton 1997 a conclu à un statut intermédiaire de l’emphase (interprétée de manière
catégorielle, mais perçue de manière plutôt continue), accompagné d’un rejet partiel de la
méthode classique de perception catégorielle (identification + discrimination) ; Remijsen &
van Heuven 1999, confirme en revanche de manière univoque la pertinence de cette
méthodologie dans le cadre de la prosodie, et postule conséquemment que l’emphase est un
phénomène graduel et non linguistique.
Notre proposition concernant ce point est que l’on aurait ici affaire à deux fonctions
distinctes mais mêlées dans la mise en œuvre des éléments de l’espace fréquentiel :
• l’emphase est une proéminence et, comme toute proéminence, elle implique une forme
de structuration linguistique au niveau métrique, ce qui implique la médiation de
Chapitre 5 – Conceptions prosodiques fondamentales
245
l’ordre métrique qui va ensuite faire intervenir les niveaux phonologiques profonds
des différents espaces prosodiques (notamment l’espace fréquentiel) ;
• simultanément, l’emphase est corrélée avec l’implication de l’énonciateur dans sa
parole ; on a ici affaire à une fonction non linguistique au sens strict. On peut imaginer
que cette fonction n’est pas médiatisée par l’ordre métrique et entre en relation directe
avec (notamment) l’espace fréquentiel.
L’insertion d’une catégorie phonologique intermédiaire E semble compatible avec notre
proposition de distinction des niveaux phonologiques : la fonction de proéminence accentuelle
entrerait en relation avec la phonologie métrique (de haut niveau) alors que la fonction
d’emphase entrerait en relation avec le niveau des phonologies spécifiques aux espaces
prosodiques, c'est-à-dire à un niveau intermédiaire entre la phonologie de haut niveau et la
phonétique.
3.4 Synthèse
Cette troisième section nous a permis de donner un exemple plus concret de la mise en
œuvre du cadre présenté dans la section précédente. Nous avons ainsi détaillé les différents
niveaux de représentation de l’espace fréquentiel, depuis le niveau physico-acoustique
jusqu’au niveau phonologique de surface. Nous avons ensuite donné un aperçu des
possibilités d’élargissement de cette démarche aux autres espaces prosodiques, notamment
dans le cadre d’une implémentation informatique telle que ProZed. La dernière rubrique,
finalement, a été pour nous l’occasion de donner un aperçu du niveau de représentation
phonologique profond tel qu’il est envisagé par Hirst 1998 pour l’anglais britannique. La
proposition d’analyse formulée en fin de rubrique représente une tentative de compte-rendu
phonologique des faits phonologiques de surface (par le biais de l’analyse proposée par Hirst
1998) et de quelques faits perceptifs ambigus trouvés dans la littérature dans le cadre que nous
avons proposé dans la seconde section de ce chapitre ; bien que ces considérations
phonologiques dépassent amplement le cadre de cette thèse, il nous semblait opportun de
donner un aperçu, aussi maladroit fût-il, des potentialités explicatives du cadre proposé.
Chapitre 5 – Conceptions prosodiques fondamentales
246
4 Synthèse générale
Arrivé au terme de ce chapitre, il nous semble important de souligner les points
essentiels proposés. De manière schématique, nous concevons la prosodie comme un macro-
système multiparamétrique et multidimensionnel, composé de deux niveaux majeurs
d’abstraction :
• Le niveau le plus bas consiste en un ensemble de quatre espaces prosodiques
impliquant une substance (espaces fréquentiel, d’intensité, de durée et spectral) ; ces
espaces prosodiques sont analysables dans le cadre de la représentation multi niveau
proposée dans Hirst et al. 2000, et s’étagent en conséquence d’un niveau physico-
acoustique (précédé selon nous d’un niveaux physiologique lié à notre état de
production112) à un niveau phonologique profond.
• Le niveau le plus élevé, formé par l’ordre métrique, composé d’entités formelles sans
rapport univoque avec des faits de substance et assurant la médiation entre les
niveaux phonologiques profonds des espaces prosodiques et les fonctions cognitives
de haut niveau (structuration informationnelle par le jeu de la constituance et des
proéminences).
Nous avons aussi souligné le rôle important de la qualité de voix non seulement dans
l’expression des émotions et des attitudes (mais la chose est connue), mais aussi dans le cadre
du marquage de fonctions plus linguistiques. Cette hétérogénéité fonctionnelle (Bertrand
1998) d’un paramètre semble en fait pouvoir être généralisée à la prosodie dans son ensemble.
Longtemps cantonnée à l’expression de phénomènes en marge de la linguistique, il
semblerait que la prosodie ait finalement parachevé son intégration au sein de cette dernière.
Plus important encore, oeuvrant de concert avec la pragmatique (qui a suivi un cheminement
similaire), la prosodie contribue à l’élargissement des frontières étroites de la linguistique
traditionnelle ; en d’autres termes, la prosodie participe à la pragmatisation de la linguistique,
liée notamment à l’intégration de phénomènes relevant du niveau discursif tel que nous
l’avons explicité dans le déroulement des chapitres précédents.
C’est donc tout naturellement que nous allons à présent nous tourner vers une analyse
plus spécifique du rôle joué par la prosodie dans le cadre discursif, notamment concernant la 112 En effet, on pourra considérer le niveau physico-acoustique comme une représentation du niveau
physiologique, bien que la question fasse évidemment débat.
Chapitre 5 – Conceptions prosodiques fondamentales
247
structuration du texte et l’interaction de la prosodie et de l’anaphore dans l’organisation de la
communication située.
249
Chapitre 6
Prosodie et discours
250
Chapitre 6 : Sommaire
1 Fonctions et formes : la quête du sens prosodique................................... 252 1.1 Usages prosodiques ....................................................................................................... 252 1.2 Fonctions prosodiques et linguistique ......................................................................... 254
1.2.1 Catégorisation linguistique et discrétude ............................................................. 254 1.2.2 Pour une pragmatisation du sens prosodique....................................................... 256
1.3 Organisation des fonctions prosodiques ..................................................................... 257 1.4 Synthèse ......................................................................................................................... 260 2 Accentuation et anaphore discursive......................................................... 261 2.1 Anaphore pronominale discursive : quelques rappels .............................................. 261
2.1.1 Anaphore pronominale discursive et faisceaux d’indices.................................... 261 2.1.2 Anaphore pronominale discursive et statut attentionnel des référents................. 262
2.3 Anaphore pronominale discursive et accentuation.................................................... 263 2.3.1 Prosodie et information ............................................................................................. 263 2.3.2 Interprétation des anaphores pronominales accentuées ........................................ 265 2.3 Synthèse ......................................................................................................................... 272 3 Prosodie et structure discursive ................................................................. 273 3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe........................................................................................................................... 274
3.1.1 Prosodie et syntaxe : conceptions divergentes..................................................... 275 3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe ................................ 277
3.2 Prosodie et segmentation discursive............................................................................ 282 3.2.1Niveau de l’unité intonative.................................................................................. 282 3.2.2 Structure prosodique au-delà de l’unité intonative .............................................. 283 3.2.3 Structure prosodique et approche conversationnelle ........................................... 285
3.3 Marques prosodiques de l’organisation discursive.................................................... 286 3.3.1 Prosodie et marquage de l’organisation discursive.............................................. 286 3.3.2 Marquage de la discontinuité discursive.............................................................. 288 3.3.3 Marquage de la continuité discursive................................................................... 297
3.4 Synthèse ......................................................................................................................... 304 4 Synthèse générale ........................................................................................ 305
Chapitre 6 – Prosodie et discours
251
Le chapitre précédent vient de nous permettre de préciser la conception générale de la
prosodie que nous allons adopter dans le reste de ce travail. Nous venons notamment
d’insister sur le caractère multiparamétrique et multidimensionnel de cette dernière.
Concernant plus particulièrement l’espace prosodique spectral, lié à la qualité de voix, nous
avons eu l’opportunité de noter un large éventail fonctionnel : en effet, la qualité de voix
semble pouvoir contribuer non seulement à l’expression para-linguistique des affects et des
attitudes des locuteurs (son domaine le plus connu), mais aussi participer au marquage
linguistique de distinctions lexicales, et de proéminences et de frontières prosodiques.
La généralisation de ce constat d’hétérogénéité fonctionnelle à la prosodie dans son
ensemble va constituer le cœur de la première section de ce chapitre. Néanmoins, nous
tenterons de faire un point terminologique relatif au concept de fonction et proposerons une
typologie hiérarchisée des fonctions généralement associées à la prosodie.
Afin de répondre à certaines questions soulevées dans le chapitre précédent, la seconde
section de ce chapitre sera centrée sur les interactions de la prosodie et de l’anaphore dans le
cadre de la référence discursive. Après avoir rappelé les principes fondamentaux du
fonctionnement des expressions anaphoriques pronominales, nous passerons en revue
certaines propositions concernant leur accentuation (fonction prosodique spécifique que nous
aurons détaillée dans la première section) et suggèrerons l’intérêt d’une prise en compte plus
fine de la structure fonctionnelle de la prosodie.
La troisième section, finalement, concernera plus particulièrement le rôle de la prosodie
dans ses fonctions de segmentation et de structuration ; nous nous interrogerons ainsi sur la
position relative de la prosodie (notamment par rapport à la syntaxe) et détaillerons dans cette
perspective les faisceaux spécifiques de paramètres prosodiques utilisés par les interactants en
soulignant les contraintes qui peuvent présider à leur usage dans le cadre du marquage de la
(dis)continuité discursive.
Chapitre 6 – Prosodie et discours
252
1 Fonctions et formes : la quête du sens prosodique
Il est à présent reconnu de manière consensuelle que la prosodie joue un rôle crucial
dans de nombreux domaines relatifs au langage. Comme nous l’avons évoqué lors du
précédent chapitre, l’expression des émotions et des attitudes, longtemps seul domaine de
compétence reconnu à la prosodie, se voit à présent rangée au sein d’une classe étendue
d’usages prosodiques. Une telle diversité nous pousse à nous interroger sur le concept de
signification prosodique.
Dans ce contexte, la première rubrique de cette section sera consacrée à une rapide
présentation de l’étendue de la gamme des usages prosodiques.
La seconde rubrique sera pour nous l’occasion de revenir sur la vision dynamique de
l’intégration linguistique de la prosodie que nous avons proposée lors du chapitre précédent.
Nous nous attacherons notamment à montrer qu’après une phase de « mise en conformité » de
la prosodie à la linguistique, la pragmatisation de cette dernière permet une intégration plus
élargie de la prosodie, mais pose le problème de la multiplication presque exponentielle des
formes et des fonctions prosodiques à analyser.
La troisième et dernière rubrique de cette section sera en conséquence consacrée d’une
part à une proposition de caractérisation des usages prosodiques selon un gradient de
spécificité que nous allons détailler et d’autre part à l’étude typologique des fonctions
prosodiques jugées les plus spécifiques.
1.1 Usages prosodiques
L’« épidémie de prosodimania » évoquée par Di Cristo 2000 trouve certainement sa
source dans la prise en compte de la diversité des utilisations de la prosodie dans le langage.
On considère généralement que la prosodie contribue de manière cruciale à l’acquisition
et à la structuration langagières. On sait par exemple que les caractéristiques prosodiques
d’une langue sont parmi les premières acquises chez l’enfant (cf. pour des travaux récents
Jusczyk 1997, Konopczynski 1991, 1998 et 1999, Ramus et al. 1999), constituant une
véritable « structure d’accueil de tous les autres éléments de la parole » (Konopczynski, 1999
: p. 68) et permettant notamment la mise en place du lexique (Christophe et al. 2003).
Chapitre 6 – Prosodie et discours
253
De manière symétrique, la prosodie est généralement classée parmi les dernières
composantes perdues dans le cadre de pathologies dégénératives du langage (cf. Caplan 1987,
Louis 2003).
La compréhension de la parole, notamment en milieu bruité, est en grande partie balisée
par la prosodie comme le montre par exemple Darwin & Hukin 2000 pour une quantification
de l’impact de paramètres prosodiques sur la compréhension dans le cadre de l’effet « cocktail
party » identifié par Cherry 1953.
De plus, on considère généralement que la prosodie joue un rôle important dans
l’organisation du discours et la régulation de la conversation (cf. par exemple Couper-Kuhlen
1986 ; Wichmann 2000 ; nous traiterons spécifiquement de ces aspects dans la dernière
section de ce chapitre).
A un niveau plus spécifique encore, la prosodie est présentée comme jouant un rôle
important dans la structuration syntaxique (cf. par exemple Pijper & Sanderman 1994 qui a
montré que les sujets étaient capables d’identifier les frontières syntaxiques sur la base
d’éléments prosodiques en parole filtrée), et notamment dans le cadre de la levée
d’ambiguïtés syntaxiques
• globales, comme dans le célèbre « La petite brise la glace » : cf. par exemple Price et
al. 1991 ; Ferreira et al. 1996) ;
• et locales, comme dans la portion momentanément ambiguë « John believes Mary
… » qui peut être suivie de « … implicitly. » ou de « to be a professor. » ; comme le
souligne Cutler et al. 1997 (d’où cet exemple est tiré), aucune ambiguïté ne persiste
dans la phrase complète, mais deux structures sont possibles au moment ou la portion
initiale est interprétée (cf. par exemple Grosjean 1983 et Grosjean & Hirt 1996 qui ont
montré le rôle de la prosodie dans la prédiction de la durée de la phrase interprétée).
La segmentation lexicale en parole continue est elle aussi facilitée par la prosodie,
comme le montrent des travaux tels que Nakatani & Schaffer 1978 pour l’anglais ou Rietveld
1980 et Christophe et al. 2003 pour le français, qui insistent sur l’importance des paramètres
de durée en ce domaine. La prosodie (on rajoutera ici « lexicale », par opposition à
« intonation proper » proposé par Hirst & Di Cristo 1998) joue bien entendu un rôle reconnu
dans la distinction lexicale pour les langues à tons, mais aussi pour les langues à accent
mélodique (« pitch accent or tonal accent languages », comme le japonais ou le suédois) ou à
accent lexical (comme l’anglais ou le russe ; cf. Beckman 1986 ; Hirst & Di Cristo 1998).
Chapitre 6 – Prosodie et discours
254
Cette liste est loin d’être exhaustive et pourrait être prolonguée encore bien longtemps,
mais elle nous semble déjà suffisante pour montrer l’ « hétérogénéité fonctionnelle »
(Bertrand 1999) massivement assumée par la prosodie, que ce soit dans le cadre de
l’acquisition, de la compréhension, aux niveaux lexical, syntaxique, discursif, etc. A ces
éléments s’ajoute aussi l’expression des attitudes et des émotions (cf. Wichmann 2002 pour
une interprétation de ces phénomènes dans un cadre inférentiel), qui ont longtemps constitué
le seul domaine de compétence reconnu à la prosodie.
Face à une telle amplitude fonctionnelle, il nous semble intéressant de proposer une
classification sommaire qui nous permettra de mieux identifier les éléments prosodiques
pertinents à notre travail de thèse ; dans cette optique, nous allons tout d’abord brièvement
nous interroger sur les critères classiquement associées à la notion de linguisticité (rubrique
1.2.1) avant de proposer (rubrique 1.2.2) une typologie inscrite dans la démarche de
pragmatisation de la linguistique que nous avons esquissée dans le chapitre 5.
1.2 Fonctions prosodiques et linguistique
1.2.1 Catégorisation linguistique et discrétude
Hirst et al. 2000, qui constitue, à quelques ajustements près, le cadre général
d’organisation prosodique que nous avons choisi d’adopter, se fonde sur Troubetzkoy 1939
pour définir la frontière séparant les phénomènes phonétiques (continus) des entités
phonologiques (discrètes). De manière générale, comme le rappelle Gussenhoven 1999, le
caractère discret et binaire (présence vs. absence) des entités linguistiques constitue un critère
fondamental, qui, étant donnée la nature foncièrement continue des moyens d’expression, doit
être ancré, toujours selon l’auteur, dans le fonctionnement cognitif :
« It is a truism that the meaningful categories of language are discrete entities, each of which is
either present or absent in a given linguistic expression. Morphemes do not represent semantic
scales. […] The pervasive discrete structure of language must result from cognitive properties,
since the mediums of language, vocal gesturing in the case of spoken language and manual
gesturing in the case of signed language, are in themselves quite suitable for the expression of
gradience. » (Gussenhoven 1999 : p. 283)
Couper-Kuhlen 1986 (chap. VI) place ce critère de discrétude au sein d’un ensemble
plus étendu de critères de linguisticité mais souligne néanmoins son caractère particulièrement
délicat concernant la prosodie qui semble véhiculer des contrastes discrets et des contrastes
graduels.
Chapitre 6 – Prosodie et discours
255
Généralisant les propositions d’Ohala 1984, Gussenhoven (cf. notamment 1999 et 2002)
propose de considérer le caractère discret de certaines unités prosodiques comme lié à un
processus progressif de grammaticalisation de codes biologiques fondamentaux (codes de
fréquence, d’effort et de production) ; dans cette perspective, un état de langue correspondrait
ainsi au figement conventionnel d’une relation entre formes prosodiques et fonctions
langagières ; l’espace non occupé par les unités phonologiques discrétisées serait alors
disponible pour la manifestation phonétique graduelle de fonctions parfois jugées en marge de
la linguistique.
Nous remarquerons que le problème posé par le critère de discrétude est en fait double :
ainsi, pour qu’une relation forme-fonction soit jugée linguistique, il faut non seulement que
cette dernière obéisse aux critères de systématicité, de conventionalité, d’intentionalité, etc.
notés par Couper-Kuhlen 1986, mais aussi que la forme et la fonction associées soient toutes
deux des entités discrètes. Ainsi, la discrétisation d’une forme donnée du continuum sonore
n’a de sens qu’en relation avec une fonction elle-même discrétisée de manière indépendante.
On retrouve là le problème fondamental soulevé par Hirst 2004 et à paraître de la relative
double indétermination formelle et fonctionnelle de la prosodie ; le danger fondamental réside
alors dans l’identification circulaire d’une forme et d’une fonction donnée ; Hirst à paraître
met en évidence cet écueil dans le cadre de la distinction phonologique de deux types de
montées mélodiques (de continuité et interrogative) et cite la méthode de distinction de ces
deux formes employée par Halliday 1967 :
« The difference, though gradual, is best regarded as phonetic overlap (…) the one being merely
lower than the other (…) But the meanings are fairly distinct. In most cases the speaker is clearly
using one or the other; but sometimes one meets an instance which could be either. » (Halliday
1967a : p. 21 ; cité dans Hirst à paraître)
Dans ce cadre, chaque forme mélodique ascendante est caractérisée par sa fonction,
considérée comme discrète (« fairly distinct »), et non pas en fonction de critères formels
spécifiques : en d’autres termes, la caractéristique d’une configuration mélodique de
continuation serait d’être continuative, ce qui, il faut bien l’avouer, ne nous en dit pas
beaucoup sur les critères utilisés par les interactants pour identifier la fonction continuative
elle-même …
En conséquence, nous sommes en accord avec les recommandations formulées par Hirst
2004 (et à paraître) qui préconise l’identification et le codage indépendants des formes et des
fonctions prosodiques. Le chapitre précédent nous a permis de donner un aperçu du codage
Chapitre 6 – Prosodie et discours
256
formel de la prosodie, notamment concernant l’espace fréquentiel113 ; étant donné le cadre que
nous venons de poser, il nous semble opportun de clarifier certains aspects fonctionnels. C’est
donc vers cette thématique de la caractérisation prosodique fonctionnelle que nous allons à
présent nous tourner.
1.2.2 Pour une pragmatisation du sens prosodique
Nous allons proposer dans cette rubrique un éclaircissement terminologique relatif aux
diverses contributions de la prosodie que nous avons mentionnées plus haut. Notre démarche
s’inscrira dans la pragmatisation progressive de la linguistique que nous avons évoquée dans
le chapitre 5 et permettra la distinction de trois niveaux de fonctionnalité linguistique. Dans
un second temps, nous nous intéresserons plus particulièrement aux fonctions prosodiques
spécifiques et en fournirons une présentation inspirée de Hirst 1977.
L’intégration progressive de la pragmatique au sein d’une linguistique élargie (cf.
chapitre 5) semble avoir favorisé une extension de l’ensemble des fonctions reconnues
comme linguistiques. En conséquence, nous pensons que si l’intégration de la prosodie à la
linguistique s’est, dans un premier temps, effectuée dans le cadre d’une « mise en
conformité » vis-à-vis de critères linguistiques traditionnels, la pragmatisation de la
linguistique peut à présent permettre une prise en compte plus étendue des diverses fonctions
assumées par la prosodie.
Comme nous l’avons proposé dans le précédent chapitre, il nous semble plausible de
considérer, dans une perspective diachronique, la prise en compte de l’accent et des tons dans
les distinctions lexicales comme la « porte d’entrée » de la prosodie dans la linguistique. Avec
ce type de relation, la prosodie pouvait dès lors se targuer d’une association avec une fonction
linguistique consensuelle, le sens lexical.
Une seconde étape est sans doute à trouver dans la mise en relation de la prosodie avec
la syntaxe. Ayant mentionné ce type de fonction prosodique dans la section précédente, nous
ne nous attarderons pas ici sur le sujet ; notons néanmoins que la « reconnaissance »
syntaxique de la prosodie, qui a fait suite à sa « reconnaissance » lexicale a consisté en une
mise en correspondance de nouvelles formes prosodiques (accents nucléaires, tons de
frontières, etc. selon les approches) avec un second type de fonction linguistique, non plus
simplement lexicale cette fois-ci, mais plus sémantico-propositionnelle : très 113 Nous avons de plus mentionné l’extension de la méthodologie proposée dans Hirst et al. 2000 aux autres
espaces prosodiques ancrés substance, et notamment à l’espace de durée.
Chapitre 6 – Prosodie et discours
257
schématiquement, nous noterons que la prosodie est passée d’une fonction de distinction
lexicale à une fonction de distinction phrastique, ce qui a permis la prise en compte plus
consensuelle et non circulaire de nouvelles formes.
Dans cette perspective, il nous semble que la pragmatisation de la linguistique, qui a
déjà permis l’élargissement du spectre prosodique fonctionnel en relation par exemple avec
les actes de parole, permet d’envisager un élargissement fonctionnel croissant, plus
particulièrement au niveau du discours tel que nous l’envisageons. Ainsi, une approche
systématique des phénomènes discursifs semble pouvoir permettre de discrétiser un ensemble
de fonctions au-delà de la structuration syntaxique, étape indispensable à la mise en relation
avec des formes prosodiques caractérisées de manière indépendante. Comme nous le
montrerons dans la dernière section de ce chapitre, la mobilisation des dimensions localisantes
(niveau et étendue fréquentiels ou débit) et localisées dans le cadre de la structuration
discursive nous semble constituer un exemple intéressant de ce type de démarche.
1.3 Organisation des fonctions prosodiques
1.3.1 Catégories prosodiques fonctionnelles
Il est important de noter que l’élargissement de l’éventail des formes et des fonctions
prosodiques que nous venons de mentionner ne va pas sans poser des problèmes importants
de délimitation d’un objet d’étude réellement gérable. Notre travail au sein du groupe
ProDiGE, notamment, bien qu’il implique une réelle équipe de spécialistes de divers
domaines connexes (prosodie, psycho-linguistique, pragmatique, sémantique, etc.), nous
permet d’appréhender toute la difficulté inhérente à l’analyse du fonctionnement de la
prosodie au niveau du discours.
Afin de répondre à cette véritable « explosion fonctionnelle » de la prosodie, Di Cristo
2000 propose d’isoler 6 fonctions prosodiques principales : structurale, de contextualisation,
d’expression de l’affect (émotions et attitudes), énonciative, interactionnelle et identificatrice.
L’auteur identifie la spécificité des cinq dernières fonctions prosodiques dans le cadre de la
parole dite spontanée, la fonction structurale, liée à la « [mise] en forme du matériau verbal
par le truchement des dispositifs de segmentation, de liage et de saillance » (ibid. : p. 214)
étant quant à elle commune à tous les types de parole.
Nous proposons de nous appuyer sur cette position et de la mettre en perspective : ainsi,
si la fonction structurale est commune à tous les types de parole, nous postulons qu’elle est en
Chapitre 6 – Prosodie et discours
258
fait plus fondamentale que les autres. Entendons-nous bien : nous ne proposons pas de
considérer la fonction structurale de la prosodie comme plus importante que les autres
fonctions ; nous suggérons simplement que cette fonction pourrait être considérée comme
fournissant le cadre indispensable au sein duquel les autres fonctions peuvent se manifester.
Dans ce contexte, nous proposons de classer ce qu’il est convenu d’appeler au sens
large les fonctions de la prosodie au sein d’une structure organisationnelle regroupant d’une
part une fonction prosodique primaire (la fonction structurale) et d’autres part des fonctions
prosodiques secondaires (les autres fonctions prosodiques proposées par Di Cristo 2000), tout
aussi cruciales que la fonction structurale dans le déroulement de l’interaction discursive.
Un inventaire explicite des primitives de cette fonction prosodique primaire constitue
selon nous la contrepartie indispensable à la spécification des primitives formelles que nous
avons proposées dans le chapitre précédent ; un telle méthodologie, en effet, paraît pouvoir
fournir bon nombre des éléments formels et fonctionnels requis pour l’assemblage des
constructs prosodiques liés à l’analyse de l’hétérogénéité fonctionnelle (Bertrand 1999) de la
prosodie dans le discours. C’est donc à présent vers cette spécification des primitives
prosodiques fonctionnelles que nous allons nous tourner.
1.3.2 Primitives prosodiques fonctionnelles
En accord avec l’approche proposée par Hirst 1977 (cf. aussi Hirst à paraître), nous
proposons d’adopter un nombre restreint de primitives prosodiques fonctionnelles ; on
dénombrera les fonctions « inaccentué », « accentué », « nucléaire », « emphatique »,
« frontière », « terminal » et « non-terminal ». Comme le propose Hirst 2004, ces fonctions
s’organisent en fait autour des deux pôles que sont les notions d’accent et de frontière, les
deux phénomènes métriques que nous avons mis en évidence dans le chapitre précédent. Le
pôle accentuel comprend ainsi les primitives fonctionnelles « inaccentué », « accentué »,
« nucléaire » et « emphatique » alors que le pôle de frontière regroupe les primitives
« frontière », « terminal » et « non terminal ».
Il nous semble important de noter que la primitive fonctionnelle « nucléaire » constitue
en fait un complexe formel et fonctionnel. En effet, la notion de nucléarité est généralement
associée à deux caractéristiques formelles selon que l’on se situe dans la tradition prosodique
britannique ou américaine ; sans entrer dans les détails, nous noterons ainsi que l’accent dit
nucléaire est généralement défini soit comme le dernier accent d’une unité intonative, soit
comme l’accent lié à la plus forte variation de fréquence fondamentale. A l’évidence, ces
Chapitre 6 – Prosodie et discours
259
deux caractérisations incorporent des éléments (spécificité positionnelle ou étendue
fréquentielle importante) qui ne constituent en aucun cas un type de spécification
fonctionnelle ; la conservation de ce type de caractérisation nous semble donc justifier
l’exclusion de la catégorie « nucléaire » hors de l’inventaire des primitives prosodiques
fonctionnelles. Notons cependant qu’une autre caractérisation, fondée par exemple sur la
notion de « proéminence (subjective) maximale », permettrait de conserver cet élément au
sein de l’inventaire proposé par Hirst 1977 ; c’est en conséquence avec cette acception que
nous conserverons la primitive prosodique « nucléaire ».
Nous proposons d’homogénéiser cette typologie en distinguant quatre niveaux dans
l’inventaire proposé plus haut, composés de traits et de valeurs primaires et secondaires :
• au premier niveau se trouvent les traits fonctionnels [A] (pour le trait accentuel) et
[F] (relatif aux frontières);
• au second niveau se trouvent
o pour le trait [A] : la valeur non marquée [-], et la valeur marquée [+] ;
o pour le trait [F] : la valeur non marquée [-] et la valeur marquée [+] ;
• au troisième niveau, on aura
o pour [A+] : les traits secondaires [emphatique] et [nucléaire] ;
o pour [F+] : le trait secondaire [terminal] ;
• et au dernier niveau :
o pour [A+ emphatique] et [A+ nucléaire] : les valeurs [-] et [+] ;
o pour [F+ terminal] : les valeurs [-] et [+].
Une primitive fonctionnelle « accent nucléaire emphatique » sera ainsi codée [A+
(emphatique+) (nucléaire+)] et une frontière terminale [F+ (terminale+)] ; par souci de
simplicité, l’absence d’accent ou de frontière associé(e) à une configuration formelle n’est pas
pertinente à l’analyse, plutôt que d’être codée [A-] et [F-], ne sera pas codée.
La démarche que nous adopterons consistera à décrire les phénomènes prosodiques
discursifs comme des constructs mettant en jeu les primitives formelles et fonctionnelles que
nous avons pu identifier, permettant par là même la dissociation de l’analyse de ces deux
aspects, préliminaire indispensable à leur mise en correspondance non circulaire. A titre
d’exemple, l’expression de l’étonnement (attitude liée à la fonction d’expression de l’affect),
Chapitre 6 – Prosodie et discours
260
pourra être analysée à un niveau prosodique plus spécifique comme impliquant des
configurations formelles particulières (telle qu’une augmentation du débit et de l’étendue
fréquentielle) associées à des configurations fonctionnelles telles que [accent emphatique].
Nous pensons que ce type d’approche, implémentée à quelques différences près dans la
méthodologie du groupe ProDiGE, permettra non seulement d’éviter la circularité de la
définition des constructs prosodiques, mais aussi de mettre en évidence la contribution de
chaque élément prosodique au fonctionnement de l’interaction.
1.4 Synthèse
Cette première section a principalement été organisée autour de la thématique de
l’identification des fonctions prosodiques. Nous avons ainsi dans un premier temps rappelé la
diversité des usages prosodiques dans des domaines aussi variés que l’acquisition du langage,
le suivi du locuteur, la distinction lexicale, la désambiguïsation syntaxique ou la structuration
discursive. Nous avons ensuite souligné le rôle joué par la pragmatisation de la linguistique
dans la prolifération quelque peu désordonnée des fonctions prosodiques et mis en évidence le
danger de la définition circulaire de ces dernières en relation avec les formes prosodiques ;
une proposition de solution à ce problème a finalement été proposée sous la forme d’une
hiérarchisation de la classification proposée par Di Cristo 2000, fondée sur le caractère
fondamental de la fonction structurale spécifique. Nous avons finalement proposé d’adopter
(modulo quelques aménagements) les traits proposés par Hirst 1977 dans l’optique de fournir
un codage fonctionnel fondamental destiné à être mis en relation avec les primitives
prosodiques formelles dans le cadre de la caractérisation des phénomènes prosodiques dans le
discours.
Ce parcours, nous en sommes conscient, a été bien rapide, et ne fait pas justice à la
masse considérable des travaux qui ont permis la mise en évidence des fonctions et des usages
prosodiques de tous ordres ; il nous semble cependant fournir les principes et les éléments
fondamentaux dans le cadre de la description prosodique formelle et fonctionnelle des
phénomènes de discours, notamment concernant l’accentuation des expressions anaphoriques,
vers laquelle nous allons à présent nous tourner.
Chapitre 6 – Prosodie et discours
261
2 Accentuation et anaphore discursive
Le chapitre 4 nous avait permis de mettre en évidence le fonctionnement référentiel
discursif des expressions anaphoriques définies, démonstratives et pronominales. Dans cette
section, nous allons nous intéresser plus particulièrement au rôle joué par la prosodie, et
notamment par la primitive fonctionnelle [A] (accent) dans le fonctionnement des expressions
pronominales.
Après un rapide rappel du fonctionnement anaphorique classique de ces expressions,
nous évoquerons les liens unissant prosodie et statut informationnel ; nous focaliserons
finalement notre attention sur l’anaphore pronominale en relation avec la primitive
fonctionnelle prosodique [A] (accent).
2.1 Anaphore pronominale discursive : quelques rappels
2.1.1 Anaphore pronominale discursive et faisceaux d’indices
L’anaphore pronominale, lorsqu’elle implique des pronoms inaccentués (« clitiques »
ou « conjoints »), peut être abordée comme liée à une procédure de continuité discursive ou
« topicale » fondée sur la prorogation du statut attentionnel privilégié d’un objet de discours.
Comme nous l’avons vu au chapitre 4, le fonctionnement anaphorique pronominal
mobilise non seulement le sens conceptuel des pronoms personnels employés (genre, nombre
et humain/non-humain pour l’anglais) mais aussi des indices fournis par la proposition (le
« segment indexical ») qui les contient. Plus particulièrement, nous avons noté que le prédicat
joue notamment dans cette perspective un rôle déterminant en permettant l’assignation de
deux composants de sens à l’expression anaphorique : son statut argumental ou prédicatif et
l’ordre de l’entité désignée.
Notons pour terminer ce rappel que l’aspect, le temps et le mode du verbe recteur du
segment indexical, constituent eux aussi des éléments déterminants dans l’attribution
référentielle (cf. Cornish 1999 : pp. 83-98).
En résumé, nous avons insisté sur le fait que l’attribution référentielle dans le cadre de
l’anaphore pronominale discursive est une entreprise collaborative impliquant l’ensemble du
segment indexical, considéré comme formant un véritable faisceau d’indices : en d’autres
termes, les pronoms anaphoriques de discours ne désignent pas seuls.
Chapitre 6 – Prosodie et discours
262
2.1.2 Anaphore pronominale discursive et statut attentionnel des référents
Le chapitre 4 nous a aussi permis de préciser le statut attentionnel généralement associé
aux référents désignés à l’aide d’expressions anaphoriques pronominales. On se rappellera
notamment de l’échelle de codage du topique de Givón 1983 :
zero anaphora < unstressed/bound pronouns or grammatical agreement <
stressed/independent pronouns < R-Dislocated DEF-NPs < neutral ordered DEF-NPs
< L-Dislocated DEF-NPs < Y-moved NPs (‘contrastive topicalisation’) < cleft/focus
constructions < referential indefinite NPs
Figure 37 : Echelle de codage du topique selon Givón 1983.
Le gradient d’accessibilité proposé par Ariel 2000, de manière similaire, place les
expressions pronominales en position élevée, comme le rappelle la figure 38 ci-après :
zero < reflexives < poor agreement markers < rich agreement markers <
reduced/cliticized pronouns < unstressed pronouns < stressed pronouns < stressed
pronouns + gesture < proximal demonstrative (+NP) < distal demonstrative (+NP) <
proximal demonstrative (+NP) + modifier < distal demonstrative (+NP) + modifier <
first name < last name < short definite description < long definite description < full
name < full name + modifier
Figure 38 : Echelle de marquage d’accessibilité selon Ariel 2000.
Il sera intéressant de rappeler aussi que, contrairement aux autres approches, la
« Hiérarchie du donné » proposée par Gundel et al. 1993 propose de mettre les pronoms
anaphoriques en relation avec le focus d’attention, considéré comme statut attentionnel
discrétisé (on dira que le référent bénéficie d’un statut focal ; cf. figure 39 ci-dessous).
In focus > activated > familiar > uniquely identifiable > referential > type identifiable
(it) that that N the N indef this N a N
this
this N
Figure 39 : Hiérarchie du donné selon Gundel et al. 1993
(repris de Gundel et al. 2000 : pp. 81-82).
Nous terminerons ces rappels en mettant en évidence un fait particulièrement intéressant
dans la comparaison des ces différentes modélisations. Il est important de noter, en effet, que
Chapitre 6 – Prosodie et discours
263
les propositions de Givón 1983 et d’Ariel 2000 font toutes deux une distinction entre pronoms
inaccentués et pronoms accentués, ce qui n’est apparemment pas le cas de la proposition de
Gundel et al. 1993. A bien y regarder, cependant, une telle distinction est en réalité opérée,
même si cela semble être à l’insu des auteurs eux-mêmes. En effet, la présentation
classiquement fournie par ces trois auteurs dans leurs différents travaux est celle que nous
avons représentée ci-dessus : nous noterons que le pronom choisi pour représenter la classe
des pronoms personnels anaphoriques est « it », pronom d’ailleurs massivement analysé dans
les travaux des auteurs114. Or, comme le font remarquer Hirst (communication personnelle) et
par exemple Wolters & Byron 2000, le pronom « it » n’est généralement pas considéré
comme accentuable en anglais : on lui préfèrera alors « that », qui figure, dans la
représentation, en tête de liste pour les expressions associées au statut « activé ».
Il semblerait donc que, même si la distinction n’est pas explicite chez tous les auteurs,
une distinction entre pronoms inaccentués et pronoms accentués soit généralement effectuée :
ainsi, si l’anaphore pronominale inaccentuée semble constituer l’une des marques les plus
robustes de continuité discursive, l’effet de l’accentuation de ce type d’expression linguistique
semble influer sur son fonctionnement. C’est donc logiquement vers ce phénomène que nous
allons nous tourner à présent.
2.3 Anaphore pronominale discursive et accentuation
Avant d’aborder le problème de l’interprétation des anaphores pronominales
discursives, il nous semble intéressant, dans un premier temps, d’effectuer un rapide rappel
des principales conceptions plus générales liées au rôle de la prosodie en relation avec le
statut informationnel ou attentionnel des modèles mentaux ; c’est donc vers cette thématique
que nous nous tournons à présent.
2.3.1 Prosodie et information
La place importante de la prosodie dans le marquage de la structure informationnelle a
été reconnue dès les débuts du fonctionnalisme. On pensera à titre d’exemple à Karcevskij
1931 pour qui la prosodie « n’a rien à voir avec la grammaire » (p. 244) et est avant tout liée à
la structure informationnelle du message ; aux travaux de Daneš, inspirés de Mathesius
1929/1975, qui proposent de concevoir l’intonation comme reflétant la dichotomie
114 On notera par exemple que sur les 34 exemples impliquant des pronoms cités dans Gundel et al. 2000, plus de
80 % (28) recourent à « it » ou « that ».
Chapitre 6 – Prosodie et discours
264
thème/rhème ; ou encore, dans un cadre similaire, à Halliday (cf. par exemple 1967b et 1970a
et 1970b) qui propose non seulement de concevoir la prosodie comme permettant la
segmentation de la parole en unités de sens (cf. infra, § 3.2), mais aussi de faire correspondre
l’organisation prosodique de l’école britannique (cf. Palmer 1922) avec la structure
informationnelle ordonnée par défaut du donné vers le nouveau : cette approche constitue
l’une des plus influentes expliquant la mise en relation du phénomène d’accentuation (par le
biais de l’accent nucléaire) avec le statut nouveau de l’information.
Nous avons souligné dans le chapitre 3 l’importance d’une vision plus graduelle des
statuts informationnels, et, dans un cadre plus cognitif, des statuts attentionnels ; toujours est-
il que l’association de la fonction prosodique d’accent avec la nouveauté de l’information
reste aujourd’hui encore une conception répandue. La thématique semble avoir quelque peu
évolué, certes, mais l’approche théorique focus-to-accent résumée par Ladd 1996 paraît, à
quelques modifications près, proroger la vision associant l’accent à la nouveauté ou
l’importance de l’information encapsulée dans la notion de focus. Ce syncrétisme semble
d’ailleurs si ancré dans les esprits qu’il est fréquent de rencontrer dans la littérature
contemporaine le terme focus pour désigner une fonction (parfois même une forme)
prosodique liée à l’accent. Dans un cadre de ce type, Wells 1986 identifie quatre catégories
phonologiques de focus (zéro, subsidiaire, principal et contrastif) mises en relation avec
différentes configurations formelles phonético-acoustiques (pic de F0, étendue fréquentielle,
intensité, etc.). Pierrehumbert & Hirschberg 1990 représente un travail influent qui fait
l’hypothèse d’une compositionnalité du sens prosodique au sein de laquelle les accents (les
« pitch accents », plus précisément) sont mis en relation avec les croyances et l’état
attentionnel des interactants : dans ce cadre, un ton haut (H*) est supposé marquer un référent
à ajouter aux croyances mutuelles des interactants (donc nouveau), alors qu’un ton bas (L*)
marque l’information saillante, mais ne devant pas être ajoutée à ces croyances mutuelles115.
Bien évidemment, nous ne détaillerons pas ici l’immense quantité de travaux relatifs à
cette question ; il nous semble plus intéressant de souligner le fait que cette conception
associant accent et information nouvelle de manière biunivoque n’est cependant pas partagée
par tous les membres de la communauté. Nombreux sont les travaux, en effet, qui démontrent
le caractère en fait peu systématique de ce couplage ; on pourra ainsi par exemple penser à
115 Nous n’entrerons pas ici dans le détail des problèmes posés par la notion de savoir ou de croyance mutuel(le),
mais proposons de recourir à Sperber & Wilson 1989 pour une vision alternative intéressante, fondée sur le
principe de manifesteté.
Chapitre 6 – Prosodie et discours
265
Terken & Hirschberg 1994 qui montre que le statut informationnel ne suffit pas à expliquer
l’accentuation des expressions désignant un référent nouveau et, réciproquement, la
désaccentuation (cf. Ladd 1980 et 1996) en relation avec les référents donnés. Swerts et al.
2002, d’autre part, montre que, si le néerlandais semble effectivement associer accent et
information nouvelle, l’italien ne semble pas présenter d’association aussi stricte (et recourrait
plutôt à l’ordre des constituants), résultat qui permet de remettre en question les prétentions
universalistes d’une conception focus-to-accent stricte.
Nous retiendrons pour résumer que si une tendance certaine semble coupler statut
accentuel et statut informationnel, une mise en correspondance biunivoque universelle
constitue une hypothèse trop forte.
Si nous restons dans le cadre conventionnel, le statut des expressions pronominales
anaphoriques accentuées ne peut manquer de nous frapper. En effet, représentante typique de
la continuité discursive, l’anaphore pronominale, lorsqu’elle est accentuée, pourrait en
quelque sorte prendre les allures d’un monstre schizophrène devant à la fois marquer le donné
et le nouveau. C’est en conséquence vers cette thématique plus spécifique que nous allons
nous orienter maintenant.
2.3.2 Interprétation des anaphores pronominales accentuées
Nous avons rappelé d’une part que la signification procédurale des pronoms est, dans un
cadre cognitif, en général présentée (cf. par exemple de Mulder & Tasmowski-De Ryck 1997
dans le cadre de la référence évolutive) comme une instruction de continuité attentionnelle et
référentielle. D’autre part, nous venons d’évoquer l’affinité conventionnellement notée entre
accentuation et statut informationnel nouveau des référents. En conséquence, l’influence de
l’accent sur l’anaphore pronominale se présente comme une thématique tout aussi complexe
qu’intéressante116.
Comme nous l’avons déjà mentionné dans le chapitre 4, de nombreux auteurs
soulignent une différence de comportement des pronoms selon que ceux-ci sont accentués ou
pas. Ainsi, si les pronoms inaccentués, « clitiques » ou « conjoints » (cf. par exemple
Charolles 2002 : pp. 187ff) sont l’archétype même de ce fonctionnement de continuité, les
pronoms accentués, en revanche, semblent se comporter de manière plus complexe. Les
116 Nous ne traiterons pas ici du fonctionnement référentiel des autres types d’expressions anaphoriques en
relation avec l’accent.
Chapitre 6 – Prosodie et discours
266
exemples (54) ci-dessous, empruntés à Lakoff 1971, constituent un classique incontournable
de la question :
Ex (54) a. Paul called Jim a Republican. Then he insulted him.
(he-Paul / him-Jim)
b. Paul called Jim a Republican. Then HE insulted HIM.
(HE-Jim / HIM-Paul)
En (54b), l’accentuation des pronoms « he » et « him » (marquée par les majuscules)
induit une différence d’interprétation qui inverse l’attribution effectuée dans la version
inaccentuée (54a).
Nous allons à présent détailler quelques approches théoriques de ce type de
phénomènes ; les choix sont nombreux, mais, dans un souci de cohérence avec les modèles
présentés aux chapitres 3 et 4, nous nous placerons à nouveau dans le cadre de la Théorie du
Centrage (« CT ») qui se propose entre autres aspects de rendre compte du fonctionnement
des expressions pronominales anaphoriques non seulement inaccentuées, mais aussi
accentuées. CT présente aussi l’avantage de permettre l’expression de différentes conceptions
dont nous allons à présent donner les points clés.
Le modèle pragmatique total de Kameyama
Une première approche de l’interprétation des anaphores pronominales accentuées est à
trouver dans les travaux de Kameyama (cf. notamment 1994, repris dans Kameyama 1997).
La conformité de cette approche avec les principes localistes de travaux tels que par exemple
Brennan et al. 1987 constitue l’une des particularités fondamentales de la conception
développée par Kameyama.
Reprenant la totalité de l’appareillage conceptuel et formel de CT, Kameyama 1994
propose d’appréhender la référence des pronoms anaphoriques accentués à partir de celle de
leur version inaccentuée ; cette conception trouve son expression la plus explicite dans un
ensemble de trois hypothèses (ibid. : pp. 315ff) :
• Hypothesis 1: Given the range β of felicitous uses of unstressed pronouns in
discourse and the range α of felicitous uses of their stressed counterparts, α ⊂ β.
Chapitre 6 – Prosodie et discours
267
• Hypothesis 2: A focused pronoun takes the complementary preference of the
unstressed counterpart.
• Hypothesis 3: Stressed and unstressed counterparts choose their values from the
same salient subset of the domain of individuals (i.e., F = B).
La première hypothèse fait sens dans le cadre de la « pragmatique totale » proposée par
l’auteur qui intègre à la fois des aspects de la sémantique de Rooth 1992 (« restricted
alternative semantics ») et les aspects pragmatico-cognitifs de CT ; l’interprétation des
anaphores pronominale est ainsi modélisée comme un ensemble de routines assimilées à des
contraintes pragmatiques : dans ce contexte, α est l’ensemble des routines liées à
l’interprétation des pronoms accentués et β celui des routines liées à l’interprétation des
pronoms inaccentués ; α contenant une routine de plus que β, l’hypothèse 1 revient à postuler
que chaque fois qu’un pronom anaphorique accentué peut apparaître, un pronom inaccentué
aurait aussi pu être employé, mais que l’inverse n’est pas vrai ; en d’autres termes, on ne peut
pas, selon l’auteur, accentuer les pronoms dans toutes les circonstances et l’interprétation de
base (la moins contrainte) est liée aux pronoms inaccentués. L’exemple (55) ci-après (adpaté
de l’exemple (4) de Kameyama 1994) illustre ce fait :
Ex (55) Babar went to a bakery. {he | ??HE} pointed at a blueberry pie.
Dans cet exemple, l’absence de contexte posant un questionnement du type « Who
pointed at a blueberry pie ? » ou une proposition contrastive telle que « Someone did not
point at a blueberry pie. » empêche selon l’auteur l’application de la routine supplémentaire
liée au pronom accentué, rendant ce dernier plus difficilement acceptable.
On comprend mieux, dans ce cadre la seconde hypothèse, plus connue sous le nom
d’« Hypothèse de Préférence Complémentaire » (« Complementary Preference Hypothesis »
ou « CPH ») qui précise que l’interprétation d’un pronom anaphorique accentué se fera en
prenant le complémentaire de l’ensemble lié au pronom inaccentué qui aurait pu être produit à
la place.
La troisième hypothèse est reliée aux principes de CT ; nous dirons schématiquement
qu’elle propose d’identifier l’ensemble saillant de référents potentiels avec les centres
prospectifs Cf de l’énoncé précédent (cf. chapitre 4 pour le concept de centre dans le cadre de
CT).
Chapitre 6 – Prosodie et discours
268
L’Hypothèse de Préférence Complémentaire consiste ainsi, lorsqu’un pronom
anaphorique accentué est rencontré, à identifier le référent de sa contrepartie inaccentuée
selon les principes de CT, avant de prendre le référent « complémentaire » au sein des Cf
syntaxiquement et sémantiquement compatibles.
Ces concepts généraux étant posés, analysons notre exemple 54 dans le cadre de
l’approche proposée par Kameyama117 :
• (54a), cas inaccentué :
o Premier énoncé (54a-e1) : Cf (e1) [PAUL > JIM]
o Second énoncé (54a-e2) : [PAUL, « he »] et [JIM, « him »]
• (54b), cas accentué :
o Premier énoncé (54b-e1) : Cf (e1) [PAUL > JIM]
o Second énoncé (54b-e2) : [PAUL, « he »] et [JIM, « him »]
o Après CPH : Cb (e2) [JIM, « HE »] et [PAUL, « HIM »]
Examinons un cas d’anaphore pronominale accentuée sans ambiguïté :
Ex (56) Jack and Mary are good friends. {he | ??HE} is from Louisiana.
L’exemple (56) (exemple (9) de Kameyama 1994), est interprété par l’auteur comme
impliquant, étant données les contraintes syntaxiques et sémantiques de restriction utilisées,
un ensemble de référents potentiels réduit à un singleton [JACK] ; le complémentaire d’un tel
ensemble étant cet ensemble même, les interprétations du pronom accentué et du pronom
inaccentué sont donc prédites identiques en vertu de CPH, ce qui est conforme à l’intuition.
Il est cependant important de noter avec De Hoop 2003 que l’accentuation du pronom
« HE » dans (56) induit en fait un contraste entre les origines de « Jack » et celles de
« Mary », comparable au contraste explicite de l’exemple (57) emprunté à Bosch 1983 :
Ex (57) When the Smiths arrived, HE waited in the car and SHE rang the bell.
Cette relative incapacité de l’approche de Kameyama 1994 à rendre compte de
phénomènes liés à l’interprétation du discours à une échelle plus globale constitue une
117 Nous suterons ici les étapes de l’attribution référentielle selon CT pour les pronoms inaccentués.
Chapitre 6 – Prosodie et discours
269
limitation dont les travaux de Nakatani ont pour objectif de se départir ; c’est donc vers ce
second type d’approche intégrée à CT que nous allons nous tourner maintenant.
Le modèle des états attentionnels local et global de Nakatani
Tout comme l’approche de Kameyama 1994, les propositions de C. Nakatani 1997a et
1997b s’intègrent dans le cadre de CT. Plus particulièrement, Nakatani propose de tirer partie
des deux niveaux attentionnels proposés dès Grosz & Sidner 1986 dans le cadre de
l’interprétation des pronoms anaphoriques accentués.
Rappelons (cf. chapitre 3) que l’état attentionnel est représenté dans Grosz & Sidner
1986 sous la forme d’une pile d’espaces focaux regroupant les entités saillantes à un moment
donné du déroulement du discours ; chaque espace focal correspond à un segment de discours
et les structurations hiérarchique et séquentielle des segments sont représentées par
l’empilement des espaces focaux que gèrent trois mouvements fondamentaux (Nakatani
1997b : p. 659) :
• l’« empilement strict » (« push-only move ») qui est lié à l’initialisation d’un nouveau
segment de discours enchâssé dans le segment actuel et se modélise à l’aide de l’ajout
d’un espace focal sur l’espace focal du segment enchâssant ;
• le « dépilement strict » (« pop-only move »), symétrique du précédent, qui correspond
à la fin d’un segment de discours enchâssé et se modélise par la suppression de
l’espace focal afférent de la pile, et donc la prise en compte de l’espace focal du
segment de discours enchâssant comme espace focal immédiat ;
• le « dépilement-empilement » (« pop-push move ») qui correspond à la transition entre
deux segments de discours A et B de même niveau et se modélise par la suppression
de l’espace focal lié à A et l’ajout de l’espace focal lié à B.
L’approche de Nakatani 1997b s’appuie de plus sur trois principes majeurs (cf. ibid. :
pp. 72-73):
• le premier principe, conforme aux différentes hiérarchies informationnelles ou
attentionnelles que nous avons rappelées, précise que la forme d’une expression
référentielle indique son niveau de traitement ; les pronoms seront ainsi considérés
comme indiquant un traitement attentionnel local, alors que les formes lexicales
pleines indiquent un traitement plus global ;
Chapitre 6 – Prosodie et discours
270
• le second principe est relatif à la fonction grammaticale des expressions référentielles :
conformément aux principes évoqués pour CT, la position de sujet, notamment,
constitue un élément favorisant fortement le positionnement en tête des Cf (donc en
tant que Cp) ; la position d’objet direct favorise la seconde position des Cf.
• Le troisième principe, proposition originale de l’auteur par rapport aux concepts de
CT, est relatif à l’influence de l’accentuation (« intonational prominence ») sur
l’interprétation des expressions anaphoriques ; dans ce cadre, l’accentuation constitue
un indice inférentiel pour un changement attentionnel en direction d’un nouveau Cb,
alors que l’absence d’accent constitue un indice inférentiel de maintien de l’attention.
S’appuyant sur ces éléments, Nakatani 1997b propose un algorithme d’interprétation
anaphorique qui prend en entrée d’une part les expressions anaphoriques accompagnées des
informations relatives à leur forme lexicale, leur fonction grammaticale et leur statut
accentuel et d’autre part l’état attentionnel immédiat, représenté au niveau global par la pile
attentionnelle et au niveau local par l’espace focal immédiat et ses centres Cb et Cf ; la sortie
de l’algorithme consiste en une mise à jour de l’état attentionnel précisant les référents des
expressions traitées.
Analysons l’exemple (58) ci-dessous, proposé par Nakatani 1997b (p. 75) et extrait d’un
corpus de parole spontanée :
Ex (58) (a) They all put FREUD on a pedestal
(b) HE is an icon okay
(c) HE can do no wrong
L’énoncé (58a) comporte les centres prospectifs réalisés par « They » et « FREUD » ;
étant donné que « They » est un pronom, on tire de la règle 2 de CT que Cb (58a) [ ?,
« They »].
Le pronom accentué « HE » de (58b) réalise FREUD, entité présente dans l’espace
focal, mais pas au premier rang. L’algorithme prévoit alors que l’accentuation de « HE » dans
(58b) indique un empilement strict conduisant à l’ajout d’un espace focal 58b sur la pile
attentionnelle, espace focal au sein duquel Cp (58b) [FREUD, « HE »] ; de plus (58b) ne
comportant qu’un seul centre, on a donc nécessairement Cb (58b) [FREUD].
Chapitre 6 – Prosodie et discours
271
Le pronom accentué « HE » de (58c) réalise quant à lui Cb (58b) [FREUD] ;
l’algorithme recherche alors un contexte emphatique ou contrastif (ibid. : p. 76) et ajoute le
centre au sommet de la liste des Cf (donc en tant que Cp).
Nous noterons pour terminer cette rapide étude que la proposition de Nakatani 1997b,
tout en s’intégrant de manière élégante dans CT, semble palier certains des problèmes
rencontrés par l’approche de Kameyama 1994, notamment concernant la prise en compte plus
globale du discours et les implicatures (interprétation contrastive ou emphatique) récupérables
par inférence à partir de l’accentuation.
Nous noterons cependant que cette conformité extrême avec CT ne va pas sans poser
quelques problèmes, notamment concernant l’interprétation des deux premiers énoncés d’un
discours. L’un des premiers tests effectués dans le cadre de l’interprétation d’un pronom
anaphorique objet (accentué ou pas) consiste en effet à vérifier le Cb de l’énoncé précédent, ce
qui est évidemment impossible dans le cas du premier énoncé (qui n’est par définition précédé
par aucun autre énoncé), et du second (car le premier énoncé n’a pas de Cb).
Remarquons pour conclure que l’ensemble des approches évoquées souffre d’une
importante sous-détermination prosodique ; en conséquence, nous allons terminer cette
rubrique par quelques remarques relatives à ce sujet.
Pour une meilleure caractérisation prosodique de l’accent dans l’anaphore
La plupart des études traitant de l’interprétation de l’anaphore pronominale discursive
utilisent les termes « focus », « stress », « accent », « contrastive accent » ou « emphatic
accent » généralement sans expliciter la nature exacte du phénomène prosodique qu’elles se
proposent d’analyser.
Nous avons pu remarquer que, de manière générale, une distinction binaire est opérée
entre présence et absence d’un accent sur une expression donnée. La démarche fonctionnelle
que nous avons esquissée, cependant laisse envisager une opposition plus riche entre les
primitives prosodiques relatives à l’accentuation ; ainsi, même si l’on exclut le trait
[nucléaire] moins consensuel, il nous semble intéressant d’affiner l’opposition classique entre
les deux valeurs du trait [A] et de proposer la prise en compte du trait secondaire
[emphatique]. On aurait dès lors la possibilité d’une double opposition, d’une part entre
accentué [A+] et inaccentué [A-], et d’autre part entre accentué non emphatique [A+
(emphatique-)] et accentué emphatique [A+ (emphatique+)].
Chapitre 6 – Prosodie et discours
272
Il nous semble que cette distinction fonctionnelle supplémentaire, notamment intégrée à
l’entrée de l’algorithme proposé par Nakatani 1997b, permettrait une simplification notable
du processus d’interprétation anaphorique des pronoms « accentués ».
Notons aussi pour conclure qu’une caractérisation formelle fait cruellement défaut dans
nombre d’analyses de l’anaphore pronominale accentuée. Si des travaux prennent le parti
d’analyser la forme du « pitch accent » en relation avec le fonctionnement référentiel discursif
d’expressions définies (cf. par exemple Bard & Aylett 1999 ou Baumann & Grice 2004), il est
important de noter que les formes accentuelles de l’anaphore pronominale semblent en
quelque sorte négligées.
2.3 Synthèse
Cette seconde section nous a permis de rappeler les principes fondamentaux du
fonctionnement anaphorique discursif des expressions pronominales ; nous avons notamment
souligné que, si l’anaphore pronominale inaccentuée constitue une garantie robuste de
continuité discursive, tel n’est pas le cas de sa contrepartie accentuée.
Dans un deuxième temps, nous avons évoqué l’association classique entre accentuation
et information nouvelle ; nous avons cependant mentionné que, si ce cadre général semble
indiquer une tendance relativement consensuelle, nombreuses sont les exceptions qui
semblent suggérer une meilleure analyse indépendante des formes et des fonctions
impliquées.
Nous nous sommes livrés, finalement, à une rapide étude de quelques approches
proposant de traiter l’attribution référentielle spécifique aux expressions pronominales
anaphoriques accentuées dans le cadre de CT. Nous avons ainsi pu montrer l’intérêt et les
limites de ces approches, notamment en relation avec une sous détermination prosodique
flagrante.
Nous retiendrons principalement de cette section que la prosodie semble non seulement
pouvoir jouer un rôle indépendant dans le marquage de la structuration informationnelle dans
le discours, mais aussi interagir avec d’autres phénomènes, et notamment l’interprétation des
anaphores pronominales.
Nous allons à présent terminer ce chapitre par une étude plus détaillée du rôle de la
prosodie dans l’organisation discursive, thème qui constitue l’un des aspects fondamentaux de
Chapitre 6 – Prosodie et discours
273
cette thèse, et qui sera plus abordé de manière expérimentale dans la dernière partie de ce
travail.
3 Prosodie et structure discursive
Parmi les fonctions prosodiques les plus consensuelles, une « fonction discursive »
figure généralement en bonne position. Cette fonction est en réalité composée d’un ensemble
de fonctions prosodiques relatives à la segmentation et à la structuration du texte et de
l’interaction discursive (cf. Couper-Kuhlen 1986 : chap. XI).
Un autre type de position est à trouver chez Wichmann 2000 (p. 13) qui propose
d’analyser de manière distincte le « discours » entendu comme monologue et la
« conversation » en tant que forme interactive. On retrouve ici la séparation classique entre
analyse du discours et analyse de la conversation.
Nombre de travaux proposent cependant une distinction moins marquée entre le
discours et la conversation. En effet, la conversation peut être reconnue comme le prototype
fondamental de la communication langagière (cf. Levinson 1983 : pp. 286ff), argument utilisé
par certains pour la distinguer du discours-monologue, rejeté au rang d’épiphénomène ; un
position moins tranchée consiste à adopter une approche bakhtinienne qui, prônant le
caractère fondamentalement dialogique de toute production langagière, favorise une égalité de
traitement du discours-monologue et de la conversation : cette position est particulièrement
mise en évidence par le Modèle Genevois (Roulet et al. 1985 et 2001 ; cf. chapitre 3, § 2.2
pour une présentation sommaire) qui, bien que se présentant comme « modèle d’analyse du
discours », consacre la majeure partie de ses analyses à la conversation. De plus, on pourrait
aussi considérer que si la conversation, d’une certaine manière, préexiste au concept de
discours, elle n’en est cependant pas moins influencée en retour, notamment dans ses
manifestations plus formelles (dans un cadre professionnel par exemple), par les critères de
forme généralement attribués au discours monologué.
En conséquence, nous proposons de ne pas dissocier l’analyse du discours de celle de la
conversation au sens de Wichmann 2000 : les approches, les méthodes et les concepts
traditionnellement proposés par l’analyse du discours et par l’analyse de la conversation, nous
en sommes conscient, sont parfois difficilement compatibles ; nous tenterons néanmoins de
montrer certaines similitudes dans les usages prosodiques relatifs à la segmentation et à la
structuration de l’activité langagière.
Chapitre 6 – Prosodie et discours
274
Plus particulièrement, nous nous attacherons, après une présentation des unités
d’analyse retenues, à l’étude des marques prosodiques associées au marquage de la continuité
et de la discontinuité discursives118. La pertinence d’une telle approche, cependant, est
intimement liée à l’indépendance de la structuration prosodique vis-à-vis de la syntaxe, autre
niveau structurant du discours ; c’est donc tout d’abord vers cette thématique que nous allons
nous tourner.
3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe
L’organisation discursive est généralement étudiée en relation avec une organisation à
plusieurs niveaux de l’analyse linguistique, notamment aux niveaux prosodique et syntaxique.
La démarche que nous proposons d’adopter ici, fondée sur l’analyse des configurations
prosodiques associées notamment aux frontières d’unités prosodiques, n’a d’intérêt que dans
la mesure où l’organisation syntaxique n’épuise pas à elle seule celle du discours. Nous allons
en conséquence proposer dans la suite de ce travail une conception intermédiaire entre les
positions extrêmes prônant une dépendance ou une autonomie totale de la prosodie par
rapport à la syntaxe.
118 Notions que nous préfèrerons à la cohésion dont nous avons montré qu’elle posait problème.
Chapitre 6 – Prosodie et discours
275
3.1.1 Prosodie et syntaxe : conceptions divergentes
Nous l’avons mentionné lors du chapitre précédent, la prosodie, et plus particulièrement
la segmentation prosodique, a souvent été analysée (et continue souvent à l’être) en liaison
étroite avec la syntaxe (cf. par exemple l’« énoncé phonologique » de Nespor & Vogel 1986).
A l’opposé de cette conception se situent des approches telles que celles de Bolinger
1972 ou de Couper-Kuhlen 1986 qui prônent une indépendance totale des deux niveaux, et
(respectivement) l’impossibilité de prédire le placement des accents et des frontières
prosodiques sur la base de la structure syntaxique.
Concernant les frontières, une position médiane est à trouver par exemple dans les
travaux de Hirst (cf. notamment 1987, 1993 et 1998) qui présente la structure syntaxique
comme un canevas pour le placement de potentielles frontières prosodiques :
« While pragmatic and phonological constraints are obviously the ultimate criteria by which a
speaker decides where he will place a boundary, syntactic criteria define where these boundaries
may occur. » (Hirst 1998 : p. 70)
La nature détaillée des relations prosodie-syntaxe dépasse certainement le cadre de ce
travail, et pose, en définitive, la question de la place de la prosodie au sein du processus de
production de la parole. Comme le rappelle Hirst et al. 2000, l’une des questions
fondamentales concerne l’accès des représentations phonologiques (notamment prosodiques)
aux représentations syntaxiques et sémantiques.
Une approche répandue (cf. par exemple Chomsky 1981 ; Levelt 1989) consiste à
considérer que la composante phonologique intervient en production en quelque sorte
« après » la composante syntaxique, et n’entretient donc qu’indirectement des relations avec
la sémantique. Cette situation est représentée dans la figure 40 ci-après.
Chapitre 6 – Prosodie et discours
276
Figure 40 : Positions relatives des représentations sémantique, syntaxique et phonologique
d'après Hirst et al. 2000. La phonologie n’accède ici qu’indirectement à la sémantique par
l’intermédiaire de la syntaxe.
Une autre conception est à trouver dans les travaux tels que ceux de Selkirk (cf. 1986).
Dans ce type d’approche, la composante phonologique est en relation directe avec les
composantes sémantique et syntaxique, comme le représente la figure 41 ci-dessous.
Figure 41 : Positions relatives des représentations sémantique, syntaxique et phonologique
selon Hirst et al. 2000. La phonologie accède ici à la fois à la sémantique et à la syntaxe.
Dans le cadre de l’analyse cognitive de la production de parole, cette vision se heurte
cependant à un problème important : présenter la composante phonologique, notamment
prosodique en ce qui nous concerne, comme interagissant à la fois avec la composante
sémantique (voire sémantico-pragmatique) et avec la composante syntaxique revient à nier en
partie la spécialisation de cette composante (cf. Levelt 1989 : pp. 14ff). Généralisée, une telle
position équivaudrait à postuler un système complexe au sein duquel chaque composante
aurait pour entrée l’ensemble des informations des autres composantes et génèrerait une sortie
Chapitre 6 – Prosodie et discours
277
spécifique ; ce type de conception massivement interactive, sous-jacent dans les travaux du
groupe ProDiGE (cf. Di Cristo et al. à paraître) au sein duquel nous travaillons, s’inscrit dans
une rupture avec la vision modulariste stricte proposée par Fodor 1983 et rejette le principe
d’encapsulation de l’information tout autant que celui de spécialisation des modules.
3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe
Une autre solution, moins exigeante en terme de coût de traitement, consiste à postuler
un schéma relationnel fondé sur la conception bipartite de la prosodie que nous avons
proposée au chapitre précédent. On peut en effet proposer que l’espace métrique, plus abstrait
que les espaces prosodiques ancrés substance (espaces fréquentiel, d’intensité, de durée et
spectral) est la sous-composante prosodique chargée des relations avec la composante
syntaxique : fondé sur les fonctions d’accentuation et de frontière, l’espace métrique
constituerait ainsi la partie syntaxique (structurante) de la prosodie et se positionnerait, au sein
du modèle de Levelt 1989, « après » la composante syntaxique au sein du « formulateur ».
On peut d’autre part postuler que les autres espaces prosodiques sont en relation
indirecte avec la composante syntaxique, l’espace métrique jouant le rôle d’interface de
traduction des commandes d’accentuation et de frontière en représentations phonologiques
profondes. De plus, on pourra aussi faire l’hypothèse que ces espaces prosodiques sont en
relation directe avec les informations sémantico-pragmatiques, permettant ainsi la génération
d’instructions associées notamment aux dimensions localisantes (niveau et étendue
fréquentiels, débit, domaine d’intensité, etc.).
La figure 42 ci-après représente schématiquement cette proposition.
Chapitre 6 – Prosodie et discours
278
Figure 42 : Positions relatives des représentations sémantique, syntaxique et prosodique. La
prosodie accède ici à la fois à la sémantique et à la syntaxe,
mais chaque sous-composante est spécialisée.
Ainsi, contrairement au modèle standard, la prosodie accède à la fois aux informations
sémantiques et aux informations syntaxiques ; de plus, la bipartition de la composante
prosodique que nous proposons permet une mise en correspondance spécifique de la
composante syntaxique avec l’espace métrique et de la composante sémantico-pragmatique
avec les espaces prosodiques ancrés substance. Nous noterons cependant que cette proposition
pourrait sembler repousser d’un niveau le problème de la non spécificité de la composante
prosodique : ainsi, si l’espace métrique se voit en effet attribuer une unique entrée, les autres
espaces prosodiques reçoivent des informations en provenance non seulement de l’espace
métrique mais aussi de la composante sémantico-pragmatique.
Ce problème de non spécificité de la sous-composante prosodique non métrique peut
cependant être résolu si l’on prend en considération le fait que les instructions émanant de
l’espace métrique et celles de la composante sémantico-pragmatique appartiennent en fait à
des dimensions certes distinctes, mais unies par une relation de dépendance mutuelle (cf.
chapitre précédent) que nous proposons de ré-analyser dans une démarche unificatrice en
relation avec une distinction en termes de domaines d’applications.
La nature ponctuelle des proéminences et des frontières liées à l’espace métrique nous
pousse à les classer parmi les phénomènes constitutifs des dimensions prosodiques localisées,
par opposition à la nature par définition plus durable des dimensions localisantes. Nous
Sém / Prag Syntaxe
Espace métrique
Espaces fréquentiel, d’intensité, de durée et
spectral
Prosodie
Chapitre 6 – Prosodie et discours
279
proposons de dépasser cette distinction, justifiée à un niveau superficiel. Plus précisément,
notre démarche actuelle consiste à proposer l’extension des valeurs catégorielles que nous
avons proposées depuis Portes et al. 2002 concernant le niveau et l’étendue fréquentielles :
• Niveau fréquentiel : N (« normal »), R (« raised ») et L (« lowered ») ; nous utiliserons
respectivement dans le reste de ce travail les symboles N (normal), > (augmenté) et <
(diminué).
• Etendue fréquentielle : N (« normal »), E (« extended ») et R (« reduced ») ; nous
utiliserons ici les symboles N (normale), > (augmentée) et < (diminuée)119.
Nous proposons d’appliquer ces valeurs à la représentation phonologique de surface de
la dimension fréquentielle localisée ; ainsi, si l’on s’appuie sur les tons proposés par le
système INTSINT (Hirst & Di Cristo 1998), on peut obtenir la matrice de valeurs suivante :
Tons M S D U L H B T
Niveau N copie < > < > < >
Etendue N < < < N N > >
Tableau 4 : Spécifications des valeurs des traits niveau et étendue pour les tons INTSINT.
On retrouve là le type d’approche proposée par nombre d’auteurs depuis le début des
années 1960 concernant la représentation des tons à l’aide de traits prosodiques (on pensera
notamment à Gruber 1964, Wang 1967, Chomsky & Halle 1968, Sampson 1969, Woo 1969,
Maddieson 1971, Fromkin 1972, Yip 1980 ou encore Pulleyblank 1986, cités dans Hirst 1987
qui détaille les systèmes proposés dans ces travaux120). De manière schématique, notre
proposition revient à caractériser un ton D (respectivement U) par un niveau diminué
(respectivement augmenté) et une étendue diminuée ; de manière similaire, un ton L
(respectivement H) sera caractérisé par un niveau diminué (respectivement augmenté) et une
étendue normale ; le caractère absolu des tons B (« Bottom ») et T (« Top »), finalement, est
119 Nous noterons que les valeurs marquées « augmenté(e) » et « diminué(e) », communes aux deux traits,
peuvent être glosées par « élevé » et « abaissé » pour le niveau fréquentiel et par « amplifiée » et « réduite » pour
l’étendue fréquentielle. 120 Nous noterons que ces travaux utilisent majoritairement un ensemble de trois traits binaires, alors que nous
avons recours à deux traits ternaires (une valeur non marquée et deux valeurs marquées).
Chapitre 6 – Prosodie et discours
280
lié à la spécification de la valeur > (augmentée) du trait d’étendue fréquentielle, qui représente
ici une incursion importante conduisant dans les parties extrêmes du registre du locuteur.
Il semble ainsi possible de rendre compte des dimensions fréquentielles localisée et
localisantes à l’aide des traits de niveau et d’étendue fréquentiels : à titre d’exemple, on
pourra considérer qu’à l’intérieur d’une « parenthèse basse », caractérisée par les valeurs
(durables) [niveau diminué] et [étendue diminuée], un ton D présente lui aussi les valeurs
(ponctuelles cette fois-ci) [niveau diminué] et [étendue diminuée]. La différence entre
dimension localisée et dimension localisante pourra alors être mise en relation avec le
caractère respectivement ponctuel ou durable d’une valeur pour ces deux traits
fondamentaux : une incursion ponctuelle (pour une unique cible tonale) dans la partie
suraiguë du registre du locuteur pourra par exemple être interprétée comme une cible T
réalisant un accent emphatique, alors que la même incursion, prolongée sur un ensemble de
cibles tonales pourra être interprétée par exemple comme un changement de niveau si les tons
L et D sont eux aussi durablement marqués par la valeur [niveau augmenté].
Bien que notre objectif ne soit pas de détailler cette proposition, nous pensons qu’une
adaptation de cette démarche aux autres espaces prosodiques ancrés substance semble
envisageable. Concernant l’espace d’intensité, dont on peut postuler qu’il adopte une structure
identique à celle de l’espace fréquentiel, un transfert direct nous semble possible : en effet, les
variations d’intensité peuvent être représentées de manière similaire à celles de l’espace
fréquentiel, et envisager deux dimensions localisantes (niveau et étendue d’intensité) ne paraît
pas irréaliste ; les réserves (relatives à l’analyse linguistique du paramètre d’intensité) que
nous avons formulées lors du précédent chapitre sont néanmoins toujours de rigueur et nous
ne développerons pas ici pour l’instant cette thématique.
L’espace de durée semble lui aussi pouvoir être conceptualisé dans le cadre que nous
proposons ; nous noterons cependant deux différences principales :
• D’une part, comme nous l’avons précisé dans le chapitre précédent, les phénomènes
de l’espace temporel semblent pouvoir être expliqués par un recours à une dimension
localisée (durée des unités) au sein d’une unique dimension localisante (le débit, ou
« vitesse d’élocution », dérivée par rapport au temps de la distance exprimée en unités
phonologiques) ; ainsi si, une approche physique (mécanique) du phénomène nous
permet de postuler l’existence d’une seconde dimension localisante (l’« accélération »,
dérivée de la vitesse par rapport au temps), la pertinence de cette dernière dans le
Chapitre 6 – Prosodie et discours
281
cadre d’analyses prosodiques n’a pas à notre connaissance été démontrée. En
conséquence, nous n’adopterons pas ici d’autre dimension localisante que le débit,
bien que notre cadre permette l’éventuelle intégration de la dimension
« accélération » ;
• D’autre part, nous noterons que les relations unissant les dimensions localisées et
localisantes pour les espaces fréquentiel et d’intensité sont directement
proportionnelles : par exemple, une augmentation ponctuelle d’étendue fréquentielle,
liée à la valeur [augmenté], peut être perçue comme l’attribution de cette même valeur
[augmenté] à une cible tonale. L’espace de durée, pour des raisons physiques
évidentes, est a contrario caractérisé par une relation inversement proportionnelle :
ainsi, une augmentation de débit (valeur [augmenté]) correspond en fait
nécessairement à une diminution de la durée des unités phonologiques considérées
(valeur [diminué]). Ce type de relation restant toujours proportionnel du fait de
l’interdépendance des dimensions localisées et localisantes, ne remet pas en cause le
mode de représentation proposé ici.
L’espace spectral, finalement, paraît plus difficilement compatible avec le cadre que
nous proposons : la raison principale de ce fait est à trouver dans l’actuelle rupture de
correspondance entre le niveau phonétique (cf. par exemple les paramètres continus tels que
le NAQ ou le coefficient d’ouverture) et un niveau phonologique de représentation. Pour
l’instant, nous laisserons de côté cette thématique qui mériterait, à elle seule, de nombreux
travaux et focaliserons notre attention sur les trois autres espaces prosodiques ancrés
substance.
Le cadre que nous proposons nous permet de postuler une spécialisation de la sous-
composante prosodique non métrique, caractérisée par l’interprétation d’informations
sémantico-pragmatiques et métriques exprimées à l’aide de traits et de valeurs identiques,
mais au sein de deux domaines d’application distincts (généralement respectivement durable
ou ponctuel). Nous considérerons donc pour conclure ce point que la composante prosodique,
tout en étant spécialisée, entretient des relations parallèles, par l’intermédiaire de ses deux
sous-composantes, avec les composantes sémantico-pragmatique et syntaxique et ne peut
donc pas être considérée comme exclusivement en correspondance avec cette dernière.
Chapitre 6 – Prosodie et discours
282
3.2 Prosodie et segmentation discursive
3.2.1Niveau de l’unité intonative
Nous venons de proposer de rejeter la position proposant une relation bijective entre
structure syntaxique et prosodie, cette dernière ayant un accès direct à d’autres sources
d’informations ; en conséquence, nous allons à présent nous intéresser à la constituance
hiérarchique propre à la prosodie.
Concernant l’anglais, nous nous placerons dans le prolongement de la tradition
britannique en considérant l’unité rythmique (ou « pied » ; cf. Abercrombie 1964 ou,
préférentiellement, Jassem 1952121) comme le premier niveau de constituance prosodique au
delà de la syllabe. L’unité intonative, définie comme un regroupement d’unités rythmiques
comportant un accent nucléaire (cf. Halliday 1967 et 1970), constitue l’unité prosodique
consensuelle maximale (cf. Hirst 1998).
L’approche proposée pour le français par Hirst & Di Cristo 1996 et Di Cristo 1998 et
2002 propose elle aussi un niveau de constituance « unité intonative », regroupant un
ensemble d’unités minimales, dites « unités tonales », bornées à droite par un accent (primaire
ou secondaire)122.
Souvenons-nous (cf. chapitre 3) que c’est sans doute l’approche informationnelle qui a
constitué une charnière entre la conception strictement structuraliste du texte et la conception
cognitive du discours ; de manière comparable, on pourra aborder la question de la
segmentation prosodique du discours par le biais de la dimension informationnelle de l’unité
intonative, définie comme « unité d’information » ou « groupe de sens » (cf. Kingdon 1958 ;
Halliday 1970 ; Selkirk 1984) :
« […] the tone group is a meaningful unit in its own right. The tone group is one unit of
information, one ‘block’ in the message that the speaker is communicating; and so it can be of any
length. » (Halliday 1970 : p. 3)
121 Le lecteur pourra trouver dans Bouzon 2004 une étude comparative approfondie de ces deux modèles, et
notamment de leur qualité prédictive concernant la distribution des durées segmentales. 122 Le modèle proposé comporte aussi unité intermédiaire, le « mot prosodique », bornée à droite par un accent
primaire (une proéminence fréquentielle couplée à une proéminence de durée). Nous ne nous attacherons pas ici
à l’étude détaillée de ce type d’unité que l’on retrouve fréquemment dans la littérature (cf. par exemple Martin
1977,
Chapitre 6 – Prosodie et discours
283
Il n’est pas étonnant, dès lors, de voir les unités intonatives jouer un rôle déterminant
dans la segmentation du discours, quelle que soit l’approche adoptée ; on pensera dans ce
contexte à l’identification des unités de la macro-syntaxe (cf. Blanche-Benveniste et al.
1990 (p. 114) pour la macro-syntaxe proposée par le GARS à Aix-en-Provence ; Delais-
Roussarie & Choi-Jonin 2004), des segments de discours du modèle de Grosz & Sidner
(1986 : pp. 177-178), des actes et des interventions du Modèle Genevois (cf. Simon 2004 :
chap. 3) ou encore des segments de tour (« turn constructional units ») des approches
conversationnalistes (cf. Auer 1996).
Nous considèrerons dès lors que l’unité intonative constitue un premier niveau
prosodique de segmentation discursive, ce qui justifie l’étude de ses caractéristiques formelles
et fonctionnelles dans la suite de ce travail.
3.2.2 Structure prosodique au-delà de l’unité intonative
Un second niveau de structuration, moins consensuel que le précédent, est généralement
identifié. Par exemple, la hiérarchie proposée par Navarro 1997 (cité dans Simon 2004) place
l’unité intonative à la base d’une hiérarchie comportant un total de quatre unités123 :
• l’unité intonative, identifiée par la présence d’un accent nucléaire ;
• l’unité définie par une pause, pouvant regrouper plusieurs unités intonatives ;
• l’énoncé, lié à la présence d’une pause et à la réalisation d’un acte illocutionnaire ;
• le paraton, généralement identifié sur la base d’une pause prolongée, d’une chute de
sonie, et d’un ton terminal (infra-) bas ; cette unité est généralement le domaine de
développement d’un topique discursif (cf. Yule 1980 ; Brown & Yule 1983).
Sans entrer dans une analyse détaillée de cette structure, nous noterons avec Simon
2004 (pp. 85-86) que seules les deux premières unités (l’unité intonative et l’unité définie par
une pause) semblent être définies de manière strictement prosodique, les deux autres faisant
appel à des notions pragmatique (illocutionnaire) ou discursive (topique).
Le paraton est une unité proposée à l’origine par A. Fox 1973 et 1984124 sous
l’appellation « paratone-group » ; l’une de ses définitions les plus répandues est néanmoins à
trouver dans Brown & Yule 1983 qui le présente comme un équivalent oral de la notion
123 La présentation donnée ici est tirée de Simon 2004 (pp. 85-87). 124 Brown 1977 semble être une autre source indépendante pour ce concept (cf. Wichmann 2000 : p. 105).
Chapitre 6 – Prosodie et discours
284
typographique de paragraphe (l’équivalent « speech paragraph » est proposé p. 100). Selon les
auteurs, le paragraphe et le paraton, dont les bornes sont relativement aisément identifiables,
constituent le lieu privilégié de développement d’un topique discursif ; cependant, il est
important de noter que c’est la nature évanescente du concept de topique discursif (même
dans sa version centrée sur le locuteur ou « speaker topic ») qui pousse les auteurs à proposer
l’identification des bornes de paragraphe et, par extension à l’oral, de paraton afin de
délimiter les topiques125 :
« It has been suggested […] that instead of undertaking the difficult task of attempting to define
‘what a topic is’, we should concentrate on describing what we recognise as topic-shift. That is,
between two contiguous pieces of discourse which are intuitively considered to have two different
‘topics’, there should be a point at which the shift from one topic to the next is marked. If we can
characterise this marking of topic-shift, then we shall have found a structural basis for dividing up
stretches of discourse into a series of smaller units, each on a separate topic. » (Brown & Yule
1983 : pp. 94-95)
La conception du paraton que nous venons de présenter correspond en fait au « paraton
majeur » proposé par Yule 1980, caractérisé par un marquage prosodique bipolaire (début et
fin). Il est important de noter que l’auteur propose aussi une unité intermédiaire entre le
paraton majeur et l’unité intonative, le « paraton mineur », dont seule la fin serait marquée (cf.
Couper-Kuhlen 1986 : pp. 191ff pour une présentation plus détaillée). Pour le français,
certains auteurs (Simon & Grobet 2001 et Simon 2004, s’inspirant de Mertens 1997)
proposent une structure complexe similaire mais considèrent a contrario le marquage final
(par un ton infra-bas codé B-B-) comme définitoire de l’unité prosodique maximale.
Les propositions d’unités prosodiques supérieures à l’unité intonative formellement et
fonctionnellement comparables au paraton sont nombreuses : paragraphe intonatif (Lehiste
1975 et Morel & Danon-Boileau 1998 utilisant le même terme dans le cadre d’approches très
différentes), paraton majeur (cf. Yule 1980 ; Brown & Yule 1983), paquet intonatif (Mertens
1997), groupe tonal majeur (« major tone group », cf. Wichmann 2000), etc. Pour des raisons
de simplicité, bien que conscient des différences d’approche et de définition de ces diverses
unités, nous proposons d’utiliser le terme « paraton » comme représentant générique de cette
classe.
125 Cette conception du paraton correspond en réalité au « paraton majeur », proposé par Yule 1980, et marqué
de manière bipolaire (début et fin). Il est important de noter que l’auteur propose aussi une unité intermédiaire
entre le paraton majeur et l’unité intonative, le « paraton mineur », dont seule la fin serait marquée.
Chapitre 6 – Prosodie et discours
285
3.2.3 Structure prosodique et approche conversationnelle
Comme nous l’avons mentionné plus haut, nous proposons, malgré les différences
importantes qui les distinguent, de ne pas dissocier analyse du discours et analyse de la
conversation. Ce type d’approche est notamment justifié par le fait que, malgré quelques
différences, certaines des unités prosodiques que nous venons de mentionner sont
communément utilisées en analyse du discours et en analyse de la conversation.
On considère généralement depuis les travaux de Sacks, Schegloff & Jefferson (1974 et
1978) que l’unité fondamentale de la conversation est le « tour de parole », régi par un
système de gestion locale de l’interaction permettant une anticipation de la fin potentielle du
tour en un « lieu pertinent de transition » (« transition relevance place » ou « TRP »). Plus
précisément, les unités permettant cette projection de TRP sont des segments de tours ou
« turn-constructional units », généralement identifiés sur la base des structures syntaxique et
prosodique (cf. Grosjean & Hirt 1996 concernant la possibilité d’anticipation de complétude
prosodique). Dans ce cadre, le « contour intonatif » constitue un premier niveau de
segmentation prosodique (cf. aussi Chafe 1987 ; Du Bois et al. 1992 ):
« An ‘intonation contour’ in [Selting’s] sense is made up of one or more accent units […]. In the
case of several accent units, the sequence is hearably cohesive because the pitch accents integrate
into some pattern (i.e. their ‘global intonation’) globally falling, rising, high, mid or low. The
global pattern in combination with loudness and duration often singles out one pitch movement as
the most salient one of the contour; such a ‘phrasal accent’ may be the end-point or the beginning
of a globally falling or rising contour, the widest pitch movement , etc. » (Auer 1996 : p. 68)
L’organisation du contour intonatif est évidemment à mettre en relation directe avec
celle de l’unité intonative telle que nous l’avons présentée plus haut : fondée sur le
regroupement de plusieurs unités accentuelles, elle est caractérisée par un « patron global » au
sein duquel sont interprétées les proéminences (et notamment l’accent le plus saillant, c'est-à-
dire l’accent nucléaire au sens de la phonologie métrique autosegmentale) ; ce patron global
est corrélé, tout comme l’unité intonative, avec un ensemble défini de valeurs pour les valeurs
des traits caractérisant les dimensions localisantes (comme par exemple les traits fréquentiels
durables [niveau élevé] et [étendue augmentée] pour la dimension fréquentielle).
De manière encore plus marquée que dans le cadre de l’analyse du discours, la
pertinence d’une unité supérieure au contour intonatif est, au sein du paradigme de l’analyse
de la conversation, une question très discutée. Sans nous livrer à une étude détaillée, nous
noterons que l’on retrouve cependant, de manière consensuelle, la notion de topique
Chapitre 6 – Prosodie et discours
286
prosodiquement marqué dans nombre de travaux d’analyse conversationnelle, ce qui nous
ramène au concept générique de paraton.
Le caractère « intuitif » de la définition du topique discursif, couplé au postulat fort
d’une distinction catégorielle entre deux topiques (le « shift » proposé par Brown & Yule
1983) sont à l’évidence problématiques126. En conséquence, nous proposons d’adopter dans le
reste de ce travail une conception inspirée de la proposition formulée dans Hirst 1998 (p. 71) :
plutôt que d’adopter une position forte prônant l’existence d’un constituant supérieur à l’unité
intonative (le paraton au sens générique), nous préfèrerons considérer que les unités
intonatives peuvent optionnellement présenter des marques de discontinuité ou, a contrario,
des marques de continuité topicale. Une telle approche permet selon nous de ne pas réitérer au
niveau du discours un principe de hiérarchie stricte (« Strict Layer Hypothesis » cf. cf. Selkirk
1984 et surtout Pierrehumbert & Beckman 1988 qui l’axiomatise) qui entre en contradiction
fréquente avec les données avérées. L’hypothèse moins forte proposée par Hirst 1998 permet
non seulement la modélisation d’unités supérieures à l’unité intonative (balisées par des
marques de discontinuité initiale et de discontinuité finale) mais aussi de composants récursifs
et/ou avortés parfois observés dans les formes spontanées de discours : on pourra ainsi par
exemple rendre compte dans ce cadre du marquage prosodique de l’« ouverture » successive
de plusieurs topiques emboîtés et de leur « fermeture » plus ou moins exhaustive dans le
déroulement de l’interaction, modélisation qu’une hiérarchie stricte rendrait impossible.
3.3 Marques prosodiques de l’organisation discursive
Comme nous venons de le proposer, nous allons nous attacher dans cette rubrique à
l’étude du marquage prosodique de continuité ou de discontinuité discursive. Avant cela, nous
allons préciser plus avant notre conception du marquage prosodique de l’organisation
discursive, intégrant celui-ci au sein de la conception générale de la prosodie que nous avons
proposée lors du chapitre précédent et que nous avons affinée plus haut dans ce chapitre.
3.3.1 Prosodie et marquage de l’organisation discursive
Nous venons de suggérer que la prosodie constituait l’une des ressources à la
disposition du locuteur dans le cadre l’organisation discursive ; plus précisément, nous avons
choisi d’utiliser le terme « marque » pour caractériser les configurations prosodiques
126 A ces problèmes s’ajoute celui de la circularité fréquente de l’identification des topiques discursifs et des
frontières supposées délimiter ces derniers (cf. Swerts & Geluykens 1994 : pp. 22-23).
Chapitre 6 – Prosodie et discours
287
employées à cet effet. Ce choix est à mettre en relation d’une part avec l’approche
interactionnelle contextualisante telle qu’elle est proposée par exemple par Gumperz 1982,
Auer & Di Luzio 1992 et Auer 1996 et d’autre part avec la caractérisation phonologique des
dimensions localisées et localisantes que nous avons proposée ci-dessus en 3.1.2.
L’approche interactionnelle contextualisante propose de concevoir les configurations
linguistiques formelles comme autant d’indices permettant l’intégration du message dans son
contexte d’interprétation. C’est donc en partie en ce sens que le terme « marque » doit être
considéré : les configurations prosodiques balisant l’organisation discursive sont interprétées
de manière interactive et peuvent entrer en relation de redondance (nous dirons
« résonnance ») ou d’opposition (nous préférerons « dissonnance ») avec des marques
d’autres niveaux de l’analyse (cf. par exemple Auer 1996 : p.58).
Cette conception est conforme à la relative indépendance de la prosodie vis-à-vis de la
syntaxe que nous proposions plus haut ; notamment, comme nous allons le voir, en raison du
fait que les configurations en jeu dans ce marquage impliquent massivement les dimensions
prosodiques localisantes, orthogonales aux éléments (plus liés à la syntaxe) de l’espace
métrique.
La seconde raison qui a présidé au choix du terme « marque » est à trouver dans
l’acception linguistique traditionnelle de ce terme. Nous considèrerons en effet que les
configurations prosodiques impliquées dans l’organisation discursive peuvent être
linguistiquement « marquées » ou « non marquées » : cette conception reflète la possibilité de
choix du locuteur de produire ou non une configuration non neutre, c'est-à-dire une instruction
explicite relative à l’intégration des éléments liés à l’unité intonative au sein du modèle de
discours actuel (continuité) ou au contraire relative à la modification plus profonde de ce
modèle (discontinuité).
Par extension avec les valeurs associées aux traits niveau et étendue de l’espace
fréquentiel, nous proposons d’analyser les configurations prosodiques impliquées dans
l’organisation discursive soit comme non marquées (situation que l’on pourrait coder à l’aide
du symbole « N »), soit comme marquées. Dans le premier cas, on pourra considérer que les
ressources prosodiques à la disposition du locuteur n’ont pas été employées par ce dernier.
Dans le second cas, ces configurations seront considérées comme activement employées par
le locuteur et se verront attribuer les valeurs « augmenté » ou « diminué » que nous avons
utilisées pour la caractérisations des dimensions fréquentielles localisée et localisantes. A titre
Chapitre 6 – Prosodie et discours
288
d’exemple, un ralentissement de débit en fin d’unité intonative, couplé à un abaissement final,
deux marques fréquentes de terminalité, pourront être interprétés comme l’attribution de la
valeur [diminué] aux traits [débit] et [niveau].
Pour résumer, nous proposons
• de concevoir les configurations prosodiques impliquées dans l’organisation du
discours de manière interactive, c'est-à-dire comme résultant de contraintes
spécifiquement prosodiques mais en relation avec des informations et des marques à
différents niveaux de l’analyse
• et de les interpréter comme l’attribution des valeurs catégorielles [normal], [augmenté]
ou [diminué] aux traits prosodiques pertinents ; dans ce cadre, si le marquage de la
continuité discursive est lié à la valeur [diminué], nous faisons l’hypothèse que le
marquage de la discontinuité sera associé à [augmenté], valeur marquée
complémentaire.
3.3.2 Marquage de la discontinuité discursive
La discontinuité discursive est généralement mise en relation avec une frontière (initiale
ou terminale) d’unité assimilable au paraton ; selon l’approche et le modèle choisi, on parlera
alors de début ou de fin d’un paragraphe intonatif (Lehiste 1975 ; Morel & Danon-Boileau
1998), d’un paraton majeur (cf. Yule 1980 ; Brown & Yule 1983) d’un segment discursif (cf.
Grosz & Hirschberg 1992 ; Hirschberg & Nakatani 1996), d’un mouvement périodique (cf.
Roulet et al. 2001 ; Simon 2004), etc. En conséquence, nous allons consacrer cette rubrique à
l’étude des configurations des unités intonatives généralement considérées respectivement
comme initiales et finales de paraton ; nous allons tout d’abord nous intéresser aux marques
de discontinuité initiale avant de nous attacher à l’étude des marques de discontinuité finale.
Discontinuité initiale
Au sein de l’espace fréquentiel, le marquage de discontinuité initiale au sein d’une unité
intonative implique généralement une élévation (Lehiste 1975 ; Brazil et al. 1980 ; Brown &
Yule 1983 ; Couper-Kuhlen 1986 ; Hirst 1998 ; Wichmann 2000) se traduisant par la valeur
[augmenté] appliquée à des domaines d’applications ponctuels et/ou durables :
Chapitre 6 – Prosodie et discours
289
• Domaines ponctuels :
o Pour l’anglais, la première syllabe accentuée (ou « onset ») est caractérisée par
une valeur significativement plus élevée (cf. par exemple Lehiste 1975 ; Yule
1980 ; Brown & Yule 1983 ; Couper-Kuhlen 1986 et 1998 ; Nakajima & Allen
1993 ; Hirst 1998 ; Wichmann 2000) ;
o de manière similaire, en français, c’est la première syllabe de l’unité qui
bénéficie de cette valeur fréquentielle plus élevée (Simon & Grobet 2001) ; ce
phénomène est connu sous le nom de réinitialisation, « resetting » ou « topic
reset ».
o L’accent nucléaire est lui aussi réalisé à une niveau fréquentiel plus élevé
(Nakajima & Allen 1993 ; Hirschberg & Nakatani 1996).
• Domaines durables :
o Selon certains auteurs (cf. par exemple Brown & Yule 1983 ; Selting 1995)
cette élévation fréquentielle peut être élargie à un domaine d’application plus
étendu que l’onset (en incluant par exemple l’anacrouse de pré tête de l’unité
intonative).
o Nombre de travaux mentionnent aussi une application aux dimensions
localisantes de niveau et d’étendue fréquentiels (cf. par exemple Brazil 1975 ;
Brown et al. 1980 ; Silverman 1987 ; Grosz & Hirschberg 1992 ; Nakatani et
al. 1995 ; Swerts 1997) sur tout ou partie de l’unité intonative.
Il est aussi important de noter avec Wichmann 1991 et 2000 et Wichmann et al. 1997 et
2000 que la proéminence fréquentielle associée avec l’onset est en général réalisée de manière
plus tardive lorsque l’unité intonative marque le début d’un topique discursif (la différence est
de l’ordre de 10 % de la durée de la syllabe accentuée). Lorsque ce délai n’est pas observé,
certains locuteurs ont recours à une stratégie alternative qui consiste à retarder le début de la
chute fréquentielle. Cette utilisation d’un délai de pic ou de chute fréquentiels, assimilable de
premier abord à un effet de bord lié à la hauteur plus importante de la cible tonale (exigeant
donc plus de temps pour être atteinte), semble en réalité être une stratégie commune (cf.
Gussenhoven 2002 : pp. 52ff), quelle que soit le type de l’accent (onset, accent emphatique,
accent nucléaire ; cf. Wichmann 2000 : p. 46).
Chapitre 6 – Prosodie et discours
290
Concernant les configurations de l’espace d’intensité une tendance similaire,
impliquant la valeur [augmenté], est observée dans nombre d’études (cf. Brown et al. 1980 ;
Brown & Yule 1983 ; Grosz & Hirschberg 1992 ; Nakatani et al. 1995 ; Hirschberg &
Nakatani 1996) qui mentionnent une intensité plus importante (ponctuelle et durable) en début
d’unité intonative lorsque cette dernière est initiale de paraton.
L’espace de durée, bien que les études systématiques soient moins nombreuses, semble
présenter des configurations spécifiques pour les débuts d’unité intonatives à l’initiale de
paratons : Koopmans-van Beinum & van Donzel 1996 montre notamment un allongement de
la durée moyenne des syllabes et donc un ralentissement du débit de parole en début de
paraton ; ces résultats sont confirmés par Smith 2004 qui montre un ralentissement marqué du
débit de parole pour le premier groupe de souffle suivant une discontinuité majeure. Ce
phénomène est expliqué selon Koopmansvan Beinum & van Donzel 1996 par le statut
informationnel (nouveau) des éléments apparaissant généralement dans cette position. Nous
noterons finalement que la valeur associée à cette configuration de durée est [augmenté] pour
la durée des syllabes et donc [diminué] pour le débit.
A notre connaissance, les études mentionnant un marquage prosodique de début de
paraton à l’aide d’éléments liés à l’espace spectral sont rarissimes : la remarque formulée par
Ní Chasaide & Gobl 2004 (p. 191), concernant un bref épisode de voix soufflée en début
d’unité (au niveau de l’unité intonative et pas du paraton), constitue ainsi une exception dans
ce domaine. Il semble cependant important de rappeler l’importance des éléments spectraux
dans la détermination du positionnement fréquentiel du locuteur dans son registre. Nous
considèrerons ainsi que l’attribution de la valeur [augmenté] aux éléments de l’espace
fréquentiel (typique des discontinuités initiales) est médiatisée par des configurations
spectrales restant à définir de manière précise.
De manière schématique, nous retiendrons que le marquage prosodique de la
discontinuité discursive initiale implique, principalement dans la partie initiale des unités
intonatives, la valeur [augmenté] pour les espaces fréquentiel et d’intensité ainsi que pour la
dimension localisée de durée (la valeur [diminué] pour le débit est quant à elle liée à la
relation inversement proportionnelle notée plus haut).
Nous remarquerons pour terminer que ces configurations correspondent, comme nous
l’avons vu dans la deuxième section de ce chapitre, au marquage prototypique de
l’information nouvelle par l’accent ; elles se distinguent cependant de ce dernier par une
Chapitre 6 – Prosodie et discours
291
application des valeurs identifiées non seulement à des domaines ponctuels (onset, accent
nucléaire) mais aussi à des domaines durables, notamment à partir de la borne « gauche » de
l’unité.
Discontinuité finale
Le marquage de la discontinuité discursive finale, que nombre d’auteurs associent à la
fin d’une unité de type paraton, semble concerner plus particulièrement la borne « droite » des
unités intonatives.
Dans l’espace fréquentiel, l’un des éléments les plus fréquemment cités concerne
l’utilisation du registre le plus bas du locuteur : au sein du domaine ponctuel du dernier accent
de l’unité intonative (l’accent nucléaire de la tradition britannique), ceci est lié au phénomène
d’abaissement final (« final lowering ») noté par Liberman & Pierrehumbert 1984 qui
implique une réalisation plus basse (cf. Yule 1980 ; Brown & Yule 1983 ; Mertens 1997 et
Simon 2004). Il est important de noter que cette propension à l’abaissement, que nous
associerons à la valeur [diminué], se matérialise aussi au sein de domaines d’application plus
durables : un premier élargissement du domaine d’application nous permet de prendre en
considération le type d’accent employé (chute plutôt que montée127) ainsi que son point de
départ et son point d’arrivée (une petite chute est jugée plus « terminale » qu’une grande
chute ; cf. Wichmann 2000 : pp. 69-71) ; un second élargissement, relatif aux dimensions
localisantes sur toute la partie finale de l’unité, permet l’observation d’une diminution de
niveau et d’étendue fréquentiels (cf. par exemple Brown et al. 1980) ; ces phénomènes de
diminution des dimensions fréquentielles localisantes pouvant être analysés dans le cadre de
tendances plus globales (notamment liées à ce que Wichmann 2000 appelle
« supradeclinaison »), seront traités plus en détails en 3.3.3 ci-dessous.
De nombreux travaux font état d’une diminution importante de l’intensité dans le cadre
du marquage de la discontinuité finale (cf. par exemple Brown et al. 1980 ; Brown & Yule
1983 ; Hirschberg & Nakatani 1996) ; en conséquence, l’espace d’intensité, tout comme
l’espace fréquentiel, sera caractérisé par la valeur [diminué]. 127 On notera cependant avec Wichmann 2000 (à la suite de Knowles 1987) que l’association d’une chute
mélodique avec la terminalité n’est pas systématique et est même fréquemment violée en anglais non formel lors
de la postposition d’adverbes dits « de phrase », comme cela est possible par exemple dans « He’s too il to come,
unfortunately » (Wichmann 2000 : p. 51). D’autres types de variations stylistiques peuvent de plus influer sur la
réalisation des ces chutes, comme par exemple dans le cadre du style liturgique qui favorisera la réalisation de
tons statiques.
Chapitre 6 – Prosodie et discours
292
L’espace de durée, toujours dans le cadre du marquage de la discontinuité finale, n’est
en revanche pas caractérisé par la valeur marquée complémentaire de celle adoptée pour le
marquage de la discontinuité initiale. Ainsi si l’on assiste à une adoption de la valeur
[diminué] pour les espaces fréquentiel et d’intensité (dans leurs dimensions localisées et
localisantes), complémentaire de la valeur [augmenté] adoptée pour le marquage de la
discontinuité initiale, la valeur adoptée pour la durée des unités phonologiques est [augmenté]
(et donc usuellement la valeur [diminué] pour la dimension localisante « débit ») aussi bien
pour le marquage de la discontinuité discursive initiale que pour celui de la discontinuité
finale128 ; la rime de la syllabe accentuée finale semble notamment être le domaine privilégié
de cet allongement final (cf. Smith 2004). Il est intéressant de noter de plus que l’allongement
syllabique (notamment de la rime) constitue l’un des indices les plus fiables et les plus
universels (cf. Fon 2002) de la présence d’une frontière d’unité prosodique, y compris à un
niveau inférieur au paraton.
L’espace spectral, finalement, semble lui aussi participer au marquage de la
discontinuité finale. En effet, la plupart des travaux mentionne la présence de laryngalisation
(« creaky voice ») en relation avec les frontières finales de paratons (cf. par exemple Brown &
Yule 1983 ; Couper-Kuhlen 1986 ; Wichmann 2000 ; Ní Chasaide & Gobl 2004 ; Di Cristo et
al. à paraître). Une position fréquemment adoptée face à ce type de données consiste à
considérer le phénomène de laryngalisation comme induit par l’utilisation du registre
fréquentiel bas ; nous noterons cependant avec Epstein 2003 et Ní Chasaide & Gobl 2004 que
si une laryngalisation accompagne fréquemment une utilisation de cette partie basse du
registre du locuteur dans le cadre du marquage de la discontinuité discursive finale, elle ne
l’accompagne généralement pas dans d’autres positions discursives. Nous conclurons donc
que ce marquage spectral est spécifique à la discontinuité finale et mérite donc une prise en
compte indépendante vis-à-vis des phénomènes fréquentiels.
Redondance et sous-spécification de certains marquages prosodiques
Nous remarquons que, si l’on prend en considération les trois espaces prosodiques
ancrés substance les plus consensuels (les espaces fréquentiel, d’intensité et de durée),
l’espace de durée semble adopter un comportement original. Ainsi, concernant les espaces
fréquentiel et d’intensité nous remarquons une alternance des valeurs [augmenté] et [diminué]
128 Hirschberg & Nakatani 1996 constitue une exception en identifiant un débit augmenté pour les unités finales.
Chapitre 6 – Prosodie et discours
293
en relation avec non seulement la position du marquage (initiale ou finale) mais aussi avec le
type de discontinuité (initiale ou finale) ; on obtient donc les associations suivantes :
• Espace fréquentiel :
o discontinuité initiale : marquage initial - [augmenté]
o discontinuité finale : marquage final – [diminué]
• Espace d’intensité :
o discontinuité initiale : marquage initial - [augmenté]
o discontinuité finale : marquage final – [diminué]
La situation est différente pour l’espace de durée :
• Espace de durée (dimension localisée) :
o discontinuité initiale : marquage initial - [augmenté]
o discontinuité finale : marquage final – [augmenté]
Nous analyserons cette situation comme une spécialisation discursive des valeurs
prosodiques fréquentielles et d’intensité qui spécifient, en redondance avec la position de
marquage, le type de discontinuité marquée ; a contrario, le marquage prosodique par
allongement des unités phonologiques est quant à lui sous-spécifié et dépend de la position du
marquage pour la détermination du type de discontinuité discursive marqué.
Pauses
Nous ne saurions terminer ce rapide tour d’horizon des configurations prosodiques
impliquées dans le marquage de la discontinuité discursive sans faire mention des pauses. Le
lecteur aura cependant remarqué que nous avons choisi de présenter les pauses dans une
rubrique indépendante des discontinuités initiale et finale ; la raison principale de ce choix
réside dans la difficulté inhérente au rattachement de la pause à une unité antérieure et/ou
postérieure. Nous allons cependant émettre quelques propositions relatives à ce thème après
avoir tout d’abord donner une définition plus détaillée du phénomène qui nous intéresse ici.
Précisons tout d’abord qu’il nous semble souhaitable d’aborder la pause dans un cadre
identique à celui adopté pour la structuration des ordres prosodiques, notamment concernant
les niveaux de représentation impliqués. Nous proposons en conséquence de parler :
• pour l’état de production (niveau physiologique), d’absence de phonation ;
Chapitre 6 – Prosodie et discours
294
• pour l’état de transmission (niveau physico-acoustique), de silence ;
• pour l’état de perception (niveau phonétique), de pause.
La pause n’est ainsi fondamentalement dans cette optique que la caractérisation
perceptive subjective d’un silence, tout comme la mélodie, la sonie et la longueur ne sont que
les caractérisations subjectives respectives de la fréquence fondamentale, de l’intensité et de
la durée d’unités phonologiques. En conséquence, tout comme la perception de la longueur
dépend principalement de la durée, mais aussi de la fréquence fondamentale (cf. Rossi et al.
1981), la perception des pauses ne dépend que principalement de la présence d’un silence ; en
d’autres termes, l’association fréquente de la présence d’un silence à la perception d’une
pause n’est en aucun cas un critère indispensable : ceci explique notamment l’inclusion des
pauses dites « remplies » ou « d’hésitation » (cf. par exemple Candéa 2000 ; Duez 2001) dans
une catégorie générale des pauses. Nous préférerons cependant, sans remettre en cause pour
autant la pertinence de ce regroupement, traiter les pauses silencieuses et les pauses remplies
comme deux phénomènes distincts : dans ce cadre, nous allons à présent tout d’abord
caractériser quelques unes des différences formelles évidentes qui distinguent ces deux classes
de phénomènes avant de nous tourner vers quelques aspects plus fonctionnels.
Malgré le fait que l’arrêt de phonation ne soit spécifiquement lié à aucun ordre
prosodique ancré substance (il les concerne tous), nous réitérons ici la proposition formulée
lors du chapitre 5, relative à l’analyse des pauses silencieuses au sein de l’espace de durée.
Cette proposition se justifie d’une part par l’absence des paramètres prosodiques spécifiques
aux autres espaces ancrés substance et d’autre part par l’affinité particulière de l’espace de
durée avec la dimension temporelle englobant les phénomènes phoniques dans leur ensemble.
Nous assimilerons ainsi les pauses silencieuses à des unités quasi-phonologiques et
caractériserons leur durée à l’aide des valeurs [neutre], [augmenté] et [diminué].
Les pauses remplies étant dotées, hormis leur durée, d’une fréquence fondamentale et
d’une intensité, nous proposons de prendre aussi en considération les espaces fréquentiel et
d’intensité dans la description de ces dernières : les valeurs [neutre], [augmenté] et [diminué]
associées aux traits caractéristiques de ces espaces prosodiques (niveau et étendue) seront en
conséquence aussi applicables.
D’un point de vue fonctionnel, les pauses silencieuses sont généralement
préférentiellement impliquées dans le marquage de la discontinuité discursive finale ; nombre
d’auteurs notent ainsi la présence de pauses silencieuses particulièrement longues en fin
Chapitre 6 – Prosodie et discours
295
d’unités assimilables au paraton (cf. Brown et al. 1980 ; Brown & Yule 1983). Cependant, il
est intéressant de noter que certains auteurs (cf. par exemple Swerts & Geluykens 1994 ;
Hirschberg & Nakatani 1996) analysent la pause silencieuse sans distinguer de manière
explicite son statut positionnel ; souvent, cette tendance se traduira par la double prise en
compte de la pause silencieuse, à la fois comme pause avant une unité (nous dirons « pause
avant ») et comme pause après une unité (« pause après »). Hirschberg & Nakatani 1996
constitue un bon exemple de ce type d’approche ; étudions particulièrement le tableau 2 ci-
après qui reprend leur tableau 5 et synthétise les résultats de l’étude :
Tableau 5 : Résultats des analyses de Hirschberg & Nakatani 1996 présentant une double
prise en compte des pauses silencieuses.
Nous noterons ici plus particulièrement que les unités initiales de paraton129 (ligne
SBEG, deux dernières colonnes à droite) semblent caractérisées par des pauses avant longues
et des pauses après courtes et que la situation est inverse pour les unités finales (ligne SF). A
l’évidence, cette situation s’explique par le fait que les pauses finales de paratons sont en fait
aussi comptées ici comme initiales du paraton suivant.
Dans ce contexte, il semble difficile d’argumenter en faveur d’un rattachement de la
pause silencieuse avec l’une ou l’autre des unités qu’elle sépare. On est donc en présence de
deux approches qui considèrent l’une que la pause silencieuse est finale, et l’autre qu’elle est
à la fois finale et initiale. Malgré le caractère apparemment insoluble de cette situation, la
prise en compte conjuguée des aspects formels et fonctionnels des pauses remplies va, comme
nous allons le voir à présent, nous fournir un argument en faveur de la caractérisation des
pauses silencieuses comme marques non spécifiques de discontinuité.
129 En réalité internes à un segment de discours dans l’étude, mais la différence n’est pas pertinente ici.
Chapitre 6 – Prosodie et discours
296
En effet, nous avons vu que les pauses remplies pouvaient être analysées dans le cadre
des trois espaces prosodiques les plus consensuels (fréquentiel, d’intensité et de durée)130.
Duez 2001 nous montre de manière particulièrement intéressante tout l’intérêt de cette prise
en compte multiple ; en effet l’analyse acoustico-phonétique de données conversationnelles en
français permet à l’auteur de mettre en évidence le fait qu’ « il existe […] une grande
similarité entre la valeur initiale de la pause remplie et la valeur de l’attaque non marquée du
syntagme [suivant] » (Duez 2001 : p. 45). Cette similarité des valeurs fréquentielles d’attaque
(d’onset) pour la pause remplie et pour l’unité suivante constitue selon nous un argument
majeur pour le rattachement de ce type de pause avec l’unité suivante, y compris dans le cas
d’un allongement de la syllabe finale d’une unité (nous sommes donc dans ce cas en présence
d’un attache ment phonétique et d’un détachement phonologique) ; un tel rattachement est
d’ailleurs proposé de manière classique dans la littérature qui attribue principalement à ce
type de pause une fonction planificatrice (cf. Duez 2001 : p. 32ff pour une revue détaillée).
Ainsi, étant donnée l’association forte (nous avons parlé de redondance) observée au
sein de l’espace fréquentiel entre une valeur donnée ([augmenté] ou [diminué]) et un type de
discontinuité (respectivement initiale et finale), nous proposons de considérer la pause
remplie, dotée d’après Duez 2001 de la même valeur que l’onset de l’unité suivante, comme
un marque de discontinuité initiale, caractérisée par la valeur [augmenté].
De manière analogique, étant donnés 1) le fait que la pause silencieuse est traitée dans le
cadre de l’espace de durée et 2) le fait que cet espace ne semble pas présenter de
spécialisation de ces configurations pour le typage de la discontinuité marquée, nous
proposons, en accord avec la position implicite de Hirschberg & Nakatani 1996, de considérer
la valeur [augmenté] de la pause silencieuse comme une marque de discontinuité discursive à
la fois initiale et finale.
Synthèse
Pour résumer cette rubrique, nous retiendrons que le marquage de la discontinuité
discursive, associé par nombre d’auteurs aux frontières d’unités de type « paraton »,
implique :
• pour la discontinuité initiale : l’utilisation de la valeur [augmenté] dans les espaces
fréquentiel (valeurs d’onset et d’accent nucléaire plus élevées, niveau plus élevé et 130 La qualité de voix (et donc l’espace spectral) joue sans doute un rôle important dans le fonctionnement de la
pause remplie, mais nos connaissances en la matière sont insuffisantes pour détailler ces phénomènes.
Chapitre 6 – Prosodie et discours
297
étendue plus importante) et d’intensité (augmentation de l’intensité notamment en
début d’unité) ainsi que pour la durée des unités phonologiques pour l’espace de durée
(allongement initial) et les pauses (remplies et silencieuses) ;
• pour la discontinuité finale : l’utilisation de la valeur [diminué] dans les espaces
fréquentiel (valeurs d’onset et d’accent nucléaire plus basses, niveau plus bas et
étendue réduite) et d’intensité (diminution de l’intensité notamment en fin d’unité) et
la valeur [augmenté] pour la durée des unités phonologiques pour l’espace de durée
(allongement final) et les pauses silencieuses.
Tout comme le locuteur peut avoir recours à la prosodie dans le cadre du marquage de
la discontinuité discursive, les ressources prosodiques peuvent aussi être mobilisées pour le
marquage de la continuité ; c’est donc vers cette thématique que nous nous tournons à présent.
3.3.3 Marquage de la continuité discursive
Hormis le marquage de la discontinuité discursive que nous venons de mentionner, la
prosodie peut aussi être utilisée de manière marquée dans le cadre de la continuité discursive.
Nous distinguerons ici l’utilisation de configurations spécifiques (associées à des valeurs
marquées) de celle de configurations non spécifiques (associées à la valeur [neutre]) ; de cette
manière, nous concentrerons nos efforts sur les cas où la prosodie est activement utilisée
comme indice de structuration discursive, par opposition avec les cas où la prosodie se
« contente » d’autres rôles.
Etant donné d’une part l’organisation à deux niveaux que nous avons adoptée ici (unité
intonative et paraton) et d’autre part, l’assimilation généralement proposée entre paraton et
topique de discours, l’analyse que nous allons proposer du marquage de la continuité
discursive concernera les unités intonatives (ou assimilées) internes aux paratons, c'est-à-dire
ni initiales ni finales.
Dans la rubrique précédente, nous avons distingué les marques de discontinuité initiale
et finale (de paraton) ; de manière similaire, nous distinguerons ici au niveau de l’unité
intonative la continuité initiale (interprétable en terme de lien avec ce qui précède ou
d’« attachement à gauche ») et la continuité finale (impliquant une notion de suite attendue ou
« attachement à droite »).
Comme nous venons de le voir, l’attribution de la valeur [augmenté] aux dimensions
localisées et localisantes des espaces fréquentiel et d’intensité correspond au marquage d’une
Chapitre 6 – Prosodie et discours
298
discontinuité discursive initiale ; il n’est pas étonnant, dès lors, de voir la valeur [diminué]
associées à ces mêmes dimensions dans le cadre du marquage de la continuité initiale.
Inversement, la valeur [diminué] étant associée au marquage de la discontinuité discursive
finale, il n’est pas non plus étonnant de voir la valeur complémentaire [augmenté] associée au
marquage de la continuité finale.
Valeurs de l’espace fréquentiel : continuité initiale et finale
Concernant l’espace fréquentiel, la valeur [diminué] associée à la continuité initiale se
manifeste principalement sous la forme d’une étendue réduite et d’un abaissement de l’onset
(« onset depression » selon Wichamnn 2000 : pp. 75-76 ; cf. par exemple Nakajima & Allen
1993 ; Nakatani et al. 1995 ; Hirschberg & Nakatani 1996). De plus, on notera
particulièrement avec Wichmann 2000 qu’une majorité (57 %) des abaissements de niveau
fréquentiel du Spoken English Corpus correspond à cette utilisation « cohésive » des
configurations prosodiques. Ce type de configuration correspond donc à la valeur [diminué]
appliquée aussi bien à la dimension fréquentielle localisée (avec une désaccentuation au sein
du domaine ponctuel de l’onset) qu’aux dimensions localisantes (niveau et étendue
fréquentiels dans des domaines plus étendus).
Le marquage de la continuité finale sera, comme nous l’avons suggéré, lié à l’usage de
la valeur [augmenté] dans un domaine d’application lié à la borne droite des unités. L’une des
manifestations les plus répandues de ce type de configuration est à trouver dans le choix
d’accents nucléaires comportant une composante ascendante. Nous faisons ici mention d’une
composante ascendante et pas simplement d’une configuration strictement ascendante de F0
car, suivant par exemple l’hypothèse de compositionnalité proposée par Pierrehumbert &
Hirschberg 1990, une configuration ascendante (ton H-) liée à l’accent de frontière de
syntagme intermédiaire (« intermediate phrase ») induira un attachement à droite
indépendamment de la nature de l’accent nucléaire et de l’accent de frontière de syntagme
intonatif (« intonative phrase »). On pensera dans ce contexte aux continuatives mineure et
majeure de Delattre 1966 pour le français ou à l’utilisation des accent nucléaires de type « low
rise » ou « fall-rise » pour l’anglais (cf. par exemple Hirst 1998 ou encore Cruttenden 1981 et
2001 qui montre la correspondance forte entre les configurations « ouvertes » (« open »),
impliquant fréquemment une composante ascendante et la fonction de continuité topicale).
Dans le même esprit, Portes 2002 a montré le caractère implicatif de la configuration
ascendante-descendate (« rise-fall ») dans le cadre du discours spontané en français.
Chapitre 6 – Prosodie et discours
299
Valeurs de l’espace d’intensité : continuité initiale
Des remarques identiques à celles formulées à propos du marquage fréquentiel de la
continuité initiale valent aussi, pour nombre d’auteurs, concernant l’espace d’intensité,
notamment dans un domaine d’application étendu (cf. par exemple Brown & Yule 1983 ;
Hirschberg & Nakatani 1996). Nous remarquons cependant que Hirschberg & Nakatani 1996
(cf. tableau 2 ci-dessus) note une différence entre unités internes et unités finales concernant
l’intensité : en effet, si un domaine d’application durable (valeur moyenne sur l’unité) ne
montre pas de différence (valeur [diminué] pour les deux types d’unités), un domaine
d’application plus ponctuel (valeur d’intensité sur l’accent nucléaire) montre l’utilisation
d’une valeur marquée ([diminué]) dans le cas des segments finals, mais une valeur non
marquée ([neutre]) pour les segments internes. Une telle distinction constitue un argument
supplémentaire en faveur de l’indépendance des dimensions localisées et localisantes, et ne
remet pas en cause la tendance générale à l’utilisation de la valeur [diminué] dans le cadre du
marquage de la continuité discursive initiale pour l’espace d’intensité.
Continuité entre unités : cohérence et parallélisme prosodique
Après avoir mentionné les configurations fréquentielles et d’intensité propres à une
unité intonative donnée et spécifiant son attachement avec l’unité qui la précède (continuité
initiale) ou qui la suit (continuité finale), nous terminerons cette rubrique par la prise en
compte d’éléments à un niveau plus élevé d’organisation, c'est-à-dire impliquant plusieurs
unités intonatives au sein d’un paraton. Dans ce cadre, nous allons tour à tour nous intéresser
d’une part au marquage de l’aspect séquentiel de l’enchaînement des unités et d’autre part au
marquage de la continuité par similitude formelle entre unités.
Nous avons vu que le marquage de la continuité et de la discontinuité discursive
correspondait schématiquement à l’extension des configurations associées au marquage
ponctuel du statut informationnel des entités discursives par l’accent ; de manière similaire,
nous allons à présent analyser, à une échelle supérieure à l’unité intonative, l’utilisation de
phénomènes généralement impliqués dans le marquage de la continuité interne de ces unités.
Un premier type de marquage prosodique de continuité impliquant plusieurs unités
consiste à inscrire les unités d’un paraton dans le cadre d’une configuration fréquentielle
globalement descendante. Ce phénomène connu sous le nom de « déclinaison » est à mettre
en relation avec un ensemble de phénomènes d’abaissements internes à l’unité intonative que
Chapitre 6 – Prosodie et discours
300
Connell & Ladd 1990 proposent de ranger sous la catégorie « downtrends » ; nous
distinguerons ainsi particulièrement (cf. Hirst & Di Cristo 1998) :
• « declination », la déclinaison : tendance phonétique à l’abaissement progressif entre
le début et la fin d’une unité intonative ;
• « downdrift » : abaissement itératif de la hauteur des tons hauts préservant l’existence
de tons bas ;
• « downstep » : abaissement itératif de la hauteur des tons hauts effaçant les tons
bas intermédiaires ;
• « final lowering », abaissement final : abaissement rapide de niveau et d’étendue
fréquentiels à proximité de la borne droite d’une unité intonative.
Nous avons déjà mentionné le phénomène phonologique de downstep lors du chapitre
5 ; l’abaissement final à quant à lui été mentionné ci-dessus dans le cadre du marquage de la
discontinuité discursive finale ; les phénomènes de downdrift et de déclinaison, en revanche
n’ont pas encore été mentionné dans ce travail de thèse. Entrer dans le débat complexe qui
oppose ces concepts nous entraînerait bien au-delà de notre thématique (le lecteur trouvera
notamment dans Ladd 1996 un compte-rendu détaillé des différentes positions adoptées à ce
sujet) ; nous proposons en revanche de noter plus particulièrement la nature strictement
phonétique de la déclinaison, par rapport à la vision plus phonologique associée au downstep
et au downdrift ; schématiquement, le débat tourne autour de la catégorisation de ce
phénomène comme un ensemble de phénomènes phonologiques d’abaissement local ou
comme une tendance sous-jacente et globale liée notamment à la diminution graduelle du
volume d’air pulmonaire et donc de la pression sous-glottique.
Nous nous contenterons ici de la caractérisation phonétique et globale du phénomène
associée au concept de déclinaison et noterons que sa manifestation implique que les tons
hauts (et bas, dans une moindre mesure) liés à la réalisation fréquentielle de certains accents
d’une unité intonative sont réalisés de plus en plus bas au fur et à mesure du déroulement de
l’unité :
« In languages like Dutch and English, the most important global attribute is the observed
tendency of F0 to decrease slowly from beginning to end of an utterance » (‘t Hart et al. 1990 : p.
121).
Chapitre 6 – Prosodie et discours
301
Graphiquement, une ligne reliant ces tons hauts et une autre reliant les tons bas
adopteraient ainsi des pentes déclinantes telles que celles représentées dans la figure 43 ci-
dessous :
Figure 43 : Représentation graphique de la déclinaison à l'intérieur d'une unité intonative.
Dans Sluijter & Terken 1993, une expérimentation impliquant la lecture de paragraphes
contenant une même phrase en des positions différentes a permis de mettre en évidence un
phénomène similaire au-delà du niveau de l’unité intonative : en effet, un effet de « supra-
déclinaison » (cf. Thorsen 1985 ; Wichmann 2000 : pp. 107ff) a été observé en relation avec
les valeurs d’onset et d’accent nucléaire qui diminuent proportionnellement à l’éloignement
de la phrase du début du paragraphe. Ce phénomène a aussi été identifié en suédois spontané
par Swerts et al. 1996 et en anglais américain spontané par Schuetze-Coburn et al. 1991.
Wichmann 2000, dans son analyse d’une partie du Spoken English Corpus, indique que, si
une tendance globale à la supra-délinaison peut être postulée pour l’anglais britannique à un
niveau sous-jacent, la réalisation effective de cette tendance est perturbée par deux sources
principales liées
• d’une part au marquage de la structure informationnelle, qui implique des réalisations
fréquentielles (accents liés à l’information nouvelle) venant perturber, reporter ou
suspendre temporairement la déclinaison ;
• d’autre part au marquage de relations unissant les unités intonatives successives, qui
implique des perturbations des valeurs d’onset, d’accent nucléaire, de niveau et
d’étendue fréquentiels (cf. Nakajima & Allen 1993).
On considérera ainsi, malgré les perturbations soulignées par Wichmann 2000, qu’une
tendance générale à la déclinaison semble être une caractéristique fréquentielle de la
continuité discursive au sein des paratons. Nous noterons plus particulièrement avec Swerts et
al. 1996 la corrélation importante (y compris en parole spontanée) entre la valeur de l’onset et
la durée de l’unité marquée par la déclinaison ; cette corrélation laisse envisager une capacité
d’anticipation (« look-ahead ») à plus long terme que ce que proposent des approches telles
Chapitre 6 – Prosodie et discours
302
que Levelt 1989 et par voie de conséquence la possibilité d’une utilisation linguistique de ce
phénomène. D’autres travaux proposent cependant de dissocier resetting et déclinaison,
postulant notamment que le resetting serait lié à une utilisation linguistique (pragmatique) de
l’espace fréquentiel alors que la déclinaison ne serait qu’un épiphénomène physiologique.
C’est par exemple le cas de Hird 2002 qui montre qu’en anglais australien conversationnel, si
toutes les prises de souffles ne sont pas associées à un resetting, tous les resettings observés
dans l’analyse suivent une prise de souffle chez les sujets normaux ; les sujets cérébro-lésés
droits, en revanche, dont la production présente (comme pour les sujets normaux) une
déclinaison liée aux prises de souffle, ne recourent pas au resetting fréquentiel. Le resetting
serait donc dans cette perspective une action linguistique (pragmatique) du locuteur, alors que
la déclinaison serait plus liée à des contraintes physiologiques. Nous reviendrons sur cette
question délicate dans le cadre de la discussion des résultats obtenus suite à l’analyse du
corpus Aix-MARSEC qui constitue le cœur du chapitre 7.
Nous venons de voir que les phénomènes d’abaissement reçoivent, selon les approches,
des caractérisations (physiologiques, acoustiques, phonétiques, phonologiques) relativement
divergentes. Une conception adoptée par l’école métrique-autosegmentale consiste par
exemple à concevoir la déclinaison que nous venons de mentionner comme une répétition de
phénomènes locaux d’abaissement. Certains auteurs considèrent l’apparition répétitive d’une
configuration donnée comme jouant un rôle dans le marquage de la continuité, tant à l’échelle
de l’unité intonative (cf. par exemple Di Cristo 2000 : p. 46) qu’à un niveau supérieur.
Dans ce contexte, Wichmann 2000 (pp. 85ff) propose le terme de « parallélisme tonal »
(« tonal parallelism ») pour caractériser le marquage de la continuité discursive à l’aide de
configurations fréquentielles récurrentes ; l’auteur s’inscrit là dans une tradition qu’elle fait
elle-même remonter à Palmer 1922 par l’intermédiaire de Crystal 1969, Fox 1984 ou encore
Bolinger 1989. De manière schématique, cette approche peut se manifester par la présence
concomitante ou distante non seulement d’accents nucléaires identiques, mais aussi d’accents
nucléaires phonologiquement distincts, mais phonétiquement proches, comme par exemple
« high rise » et « low rise » (Wichmann 2000 : pp. 88-89) ou encore « rise » et « fall-rise »
(pp. 89-90). Dans ce second cas, Wichmann suggère que la représentation métrique-
autosegmentale (qui permet la décomposition des tons de la rtadition britannique en
composants jugés plus fondamentaux) de ce type d’écho fréquentiel permettrait de mieux
mettre en évidence la similitude phonétique des deux configurations : dans ce contexte,
toujours selon l’auteur, la montée mélodique (« rise ») pourrait être représentée L*H (accent
Chapitre 6 – Prosodie et discours
303
bas et ton de frontière haut) et le « fall-rise » H*LH (accent haut suivi d’un accent bas dans la
queue de l’unité intonative et d’un ton de frontière haut. Wichmann 2000 indique cependant à
juste titre que l’effet de parallélisme est aussi lié à la réalisation phonétique de ces cibles et
qu’une représentation de ce type est indéterminée en ce domaine. Nous remarquerons pour
conclure qu’un codage fondé sur les principes que nous avons proposés, prenant en compte à
la fois la dimension fréquentielle localisée (codées à l’aide de l’alphabet INTSINT présenté
chapitre 5) et les dimensions localisantes permettrait, tout en restant phonologique (de
surface), de restreindre cette sous-spécification et ainsi de mieux comparer des configurations
impliquées dans ces effets de parallélisme tonal ; en l’espèce, le parallélisme entre « rise » et
« fall-rise » pourrait être représenté de la manière suivante :
Rise
L* H
Fall-rise
H* L H
niveau < > > < > Dimension localisée
étendue N N N N N
Niveau N N Dimensions
localisantes Etendue N N
Tableau 6 : Mise en évidence du parallélisme tonal entre « rise » et « fall-rise » à l’aide d’un
codage INTSINT intégré à l’approche proposée ici.
On a ainsi pour chaque ton de la représentation métrique-autosegmentale un ensemble
de quatre valeurs discrètes qui, tout en restant phonologique, permet ainsi une description plus
fine et donc une mise en évidence plus appropriée des phénomènes de parallélisme tonal
identifiés par Wichmann 2000.
Synthèse
Nous venons de passer en revue les principales ressources prosodiques employées par
les locuteurs dans le cadre du marquage de la discontinuité et de la continuité discursive. Plus
précisément, nous avons proposé de considérer deux type de discontinuité et de continuité,
selon que l’unité considérée indique une rupture ou un attachement avec ce qui précède (nous
avons parlé de (dis)continuité initiale) ou bien avec ce qui suit (nous parlons alors de
(dis)continuité finale). De manière schématique, nous avons ainsi montré que ce marquage de
continuité initiale ou finale impliquait
Chapitre 6 – Prosodie et discours
304
• d’une part l’inversion des valeurs associées aux configurations fréquentielles et
d’intensité dans le cadre du marquage de la discontinuité de même type (par exemple
valeur [diminué] pour l’onset et [augmenté] pour la borne droite de l’unité) ;
• d’autre part l’utilisation de procédés de marquage de l’unité du paraton tels que la
supra-déclinaison ou le parallélisme tonal.
L’évitement et la réduction des pauses, notamment silencieuses, que nous n’avons pas
détaillé, constituent parmi les stratégies les plus évidentes de marquage de la continuité
discursive.
3.4 Synthèse
Cette troisième section a été pour nous l’occasion de passer en revue la plupart des
procédés prosodiques employés par les locuteurs dans le cadre du marquage de la
discontinuité et de la continuité discursive.
Cette démarche s’est placée dans le cadre d’une approche prônant l’indépendance
relative de la segmentation prosodique par rapport à la syntaxe et qui nous a donné l’occasion
de proposer la représentation des dimensions prosodiques localisées et localisantes à l’aide de
traits (niveau et étendu) et de valeurs (neutre, augmenté et diminué) identiques pour les
espaces fréquentiel, d’intensité et, dans une moindre mesure, de durée.
Nous avons de plus retenu un principe d’organisation prosodique à deux niveaux :
l’unité intonative (ou assimilée) constituant la brique informationnelle indispensable à une
organisation à un niveau supérieur assimilé au paraton, conçu comme lieu privilégié de
développement d’un topique discursif. Cependant, si, par commodité de comparaison des
différentes approches, nous avons choisi de retenir le concept de paraton, une approche en
terme de marquage local (au niveau des unités intonatives, voire même en deçà) nous semble
intéressante, notamment en relation avec la possibilité d’absence de borne initiale, finale et/ou
de supra-déclinaison observée dans la conversation courante.
Nous résumerons l’ensemble des configurations prosodiques observées dans le cadre du
marquage de la discontinuité et de la continuité discursive à l’aide des valeurs regroupées
dans le tableau 7 ci-après131 :
131 Nous avons choisi de représenter les pauses de manière indépendante par souci de clarté.
Chapitre 6 – Prosodie et discours
305
DISCONTINUITE CONTINUITE
Initiale Finale Initiale Finale
Dim. locée > < < >
N > < < > Espace
fréquentiel Dim.
Locante E > < < >
Dim. locée > < N / <
N > < < Espace
d’intensité Dim.
Locante E > < <
Dim. locée > > Espace de
durée Dim. Locante < <
Pause remplie /
silencieuse silencieuse
Espace spectral (breathy) breathy /
creaky
Tableau 7 : Résumé des valeurs impliquées dans le marquage prosodique de la discontinuité
et de la continuité discursive.
4 Synthèse générale
Ce chapitre termine la partie majoritairement théorique de ce travail de thèse et en
constitue en quelque sorte une forme de premier aboutissement temporaire. Ainsi, après avoir,
dans le chapitre précédent, tenté d’expliciter nos conceptions concernant l’organisation
globale et les aspects plus formels de la prosodie, nous avons voulu, dans le présent chapitre
apporter un éclairage intégrant des éléments plus fonctionnels.
Nous avons tout d’abord souligné non seulement la diversité des usages prosodiques
mais aussi l’intérêt que pouvait présenter une approche typologique de la fonctionnalité
prosodique dans le cadre de la pragmatisation de la linguistique contemporaine. Plus
précisément, nous avons proposé d’adopter les six fonctions prosodiques suggérées par Di
Cristo 2000 (structurale, de contextualisation, d’expression de l’affect (émotions et attitudes),
Chapitre 6 – Prosodie et discours
306
énonciative, interactionnelle et identificatrice) et avons émis l’hypothèse de leur
hiérarchisation. Nous avons finalement suggéré l’adoption de la typologie de Hirst 1977
concernant ce que nous proposons de considérer comme les primitives fonctionnelles
prosodiques, organisées autour des notions d’accentuation et de frontière au sein de la
fonction structurale. Les fonctions prosodiques de plus haut niveau peuvent alors selon nous
être analysées en tant que constructs complexes fondés sur ces primitives (et les éléments en
provenance d’autres niveaux de l’analyse linguistique) et seront à mettre en relation avec des
analyses formelles indépendantes dans l’objectif d’une caractérisation plus systématique du
rôle de la prosodie dans le discours.
Dans la seconde section, nous avons plus particulièrement focalisé notre attention sur
l’importance de la prosodie dans la distinction informationnelle donné - nouveau. Après une
rapide évocation du lien conventionnel (mais fragile) unissant accent et nouveauté de
l’information, nous avons plus spécifiquement analysé certaines propositions de modélisation
du fonctionnement des anaphores pronominales accentuées dans le discours, configurations
linguistiques complexes dont les fonctions sont relatives simultanément à la continuité et à la
discontinuité discursive. Cette étude a, nous l’espérons, montré non seulement l’intérêt de
telles approches, mais aussi leurs limitations, notamment concernant la prise en compte de la
structuration fonctionnelle de la prosodie dans le cadre d’un dépassement de la classique
dichotomie accentué vs. inaccentué.
La troisième section de ce chapitre, finalement, a été pour nous le lieu de
développement de l’une des thématiques centrales de ce travail de thèse : le rôle de la
prosodie dans la structuration discursive. Nous avons ainsi tout d’abord tenté de montrer
l’intérêt d’une analyse de la prosodie indépendante des autres niveaux de l’analyse
linguistique, et notamment de la syntaxe. Insistons sur le fait que cette indépendance de
l’analyse ne doit bien entendu pas être perçue comme une quelconque autonomie
fonctionnelle de la prosodie dans l’interaction langagière : comme nous l’avons maintes fois
mentionné dans nos travaux au sein du groupe ProDiGE, nous prônons la description
intrinsèque des niveaux linguistiques formels et fonctionnels afin de mieux rendre compte des
interactions multiples qui tissent la trame du discours, heuristique complexe que nous avons
définie plus tôt dans ce travail.
Dans ce cadre, nous avons proposé une modélisation des configurations prosodiques à
l’aide d’un inventaire réduite de traits et de valeurs applicables à plusieurs des espaces
prosodiques ancrés substance que nous avons identifiés dans le chapitre précédent.
Chapitre 6 – Prosodie et discours
307
Nous avons ensuite proposé une analyse de la structure prosodique à deux niveaux
(unité intonative et au-delà), globalement valide tant pour le monologue que pour la
conversation.
Finalement, cette bipartition structurale, couplée à l’abstraction des configurations
prosodiques formelles que nous avons proposée, nous a permis de faire un inventaire
relativement explicite et synthétique des ressources prosodiques mobilisées dans la
structuration du discours, notamment dans le marquage de la continuité et de la discontinuité
initiales et finales.
Parmi les nombreux éléments que nous avons pu citer, notre attention se portera plus
particulièrement dans le reste de ce travail sur le rehaussement de l’attaque ou onset de l’unité
intonative dans le cadre du marquage de la discontinuité discursive initiale. Ce phénomène de
« resetting », qui compte parmi les plus répandus et les plus consensuels, nous semble
particulièrement intéressant : lié de manière étroite à de nombreux autres ressources
mobilisées dans le même contexte (comme par exemple l’augmentation de niveau et
d’étendue fréquentiels ou le délai du pic fréquentiel), le resetting est aussi impliqué de
manière indirecte dans le marquage de la continuité discursive initiale par le biais de la supra-
déclinaison.
L’ensemble de ces liens fait du resetting un repère prosodique fondamental de la
structuration discursive qu’il nous semble intéressant de mettre en relation avec des
phénomènes comparables à d’autres niveaux de l’analyse. C’est pourquoi, plutôt que de
consacrer la partie expérimentale de ce travail à l’influence directe de la prosodie sur
l’attribution référentielle anaphorique, nous nous proposons de nous livrer à une analyse
d’interactions (dont nous allons montré l’existence) dans le cadre du marquage de la
structuration discursive par la prosodie (plus précisément par le resetting) et par l’anaphore
pronominale (inaccentuée), présentée de manière consensuelle comme indice robuste de
continuité.
Nous allons ainsi clore la partie plus spécifiquement théorique de cette thèse et passer à
l’analyse expérimentale des phénomènes et des hypothèses que nous avons pu identifier
jusqu’ici ; au préalable, cependant, nous pensons justifié de faire un résumé synthétique des
concepts les plus fondamentaux que nous avons développés, et de proposer une formulation
plus explicite de nos hypothèses. En conséquence, le bref chapitre suivant, intitulé « Résumé
Chapitre 6 – Prosodie et discours
308
des concepts clés et hypothèses », constituera la charnière entre la partie plus théorique de ce
travail et sa partie expérimentale.
309
Résumé des concepts clés et hypothèses
Résumé des concepts clés et hypothèses
310
Arrivé au terme de cette évocation à dominante théorique nécessairement lacunaire des
domaines relatifs au discours et aux rôles respectifs de l’anaphore et de la prosodie en son
sein, nous pensons judicieux de proposer un rapide bilan retraçant les positions que nous
avons choisi d’adopter vis-à-vis des concepts fondamentaux abordés jusqu’ici. Nous
organiserons donc cette partie récapitulative de notre travail en terme de rubriques non
hiérarchisées traitant tour à tour de la thématique de la référence, du discours, des approches
traditionnelle et discursive de l’anaphore, de la structure prosodique et, finalement, de son
rôle discursif. Nous terminerons cette partie charnière par la formulation des hypothèses que
nous avons souhaité valider dans le cadre de la partie expérimentale de ce travail de thèse.
La référence
Le premier chapitre de cette thèse nous a permis d’évoquer à grands traits l’évolution du
concept de référence. Nous avons notamment tenté de montrer que l’approche que nous avons
adoptée résulte en fait d’une longue évolution de la linguistique dans son ensemble, depuis
une conception logico-philosophique stricte jusqu’à l’approche cognitivo-pragmatique qui
constitue sans doute aujourd’hui un paradigme important.
Il serait totalement erroné de penser que cette évolution aurait pu s’effectuer de manière
cloisonnée et non cumulative : notre compte-rendu n’est qu’une vision schématique de
certaines positions à certaines époques du développement de la linguistique. Une position
moins réductrice consisterait à noter que les aspects envisagés (logico-sémantique,
pragmatique et cognitif, pour résumer) ont toujours été représentés à des degrés divers, quelle
que soit l’époque considérée ; le caractère dominant d’une approche sur les autres, à une
période donnée, est à prendre en compte dans le cadre plus général de l’histoire des idées, qui
dépasse, on s’en doute, non seulement le cadre de cette thèse, mais aussi celui de nos
compétences. Nous retiendrons cependant que la thématique de la référence semble
aujourd’hui être particulièrement étudiée dans un cadre pragmatique et cognitif dont le
concept de discours se trouve être un produit fondamental.
Le discours
Le concept de discours, nous venons de le rappeler, constitue en fait l’un des produits
principaux de l’approche pragmatico-discursive contemporaine. Plus particulièrement, on
peut considérer que le discours résulte de la transposition pragmatique et cognitive des
questionnements relatifs à la structure des textes. Le texte, en effet, tout d’abord conçu
comme objet linguistique de rang supérieur à la phrase, a rapidement posé des problèmes
Résumé des concepts clés et hypothèses
311
importants au cadre linguistique (générativiste) qui l’accueillait. Les approches fonctionnelles,
par le biais de la prise en considération de l’organisation informationnelle au sein et au-delà
de la phrase ont joué un rôle de charnière permettant d’ouvrir le texte à la dimension
cognitive, et, par la suite, à de nombreuses autres dimensions.
Au terme du chapitre consacré à l’évocation de ce concept, nous avons proposé de
définir le discours comme une heuristique complexe de l’activité de communication humaine
par l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la fois trace de et indice
pour les processus cognitifs (au sens large) qui président à sa production et à son
interprétation situées. Présentant le discours comme une heuristique, nous n’adoptons pas la
conception répandue d’un discours-unité ; nous préférons l’envisager de manière dynamique
comme un processus de communication entre interactants mettant en jeu un texte multimodal
qu’ils construisent et interprètent de manière commune. Nous reconnaissons cependant la
pertinence extrême d’une famille d’approches abordant ce processus selon divers angles, dans
le cadre d’une « perspective discursive » relativement consensuelle. C’est d’ailleurs dans cette
perspective, plutôt que dans le cadre d’une approche plus traditionnelle, que nous avons
proposé d’analyser le fonctionnement de l’anaphore
Anaphore : d’une approche traditionnelle à une approche discursive
Les chapitres 2 et 4 ont été pour nous l’occasion de rappeler sommairement les
positions respectivement traditionnelle et discursive de l’anaphore. Cette fois encore, étant
donnée la masse colossale des travaux effectués sur la question, notre compte-rendu n’a été,
au mieux, qu’une synthèse partielle de quelques questions importantes. Nous retiendrons
cependant que l’adoption d’une perspective discursive permet d’apporter des réponses
intéressantes aux problèmes posés par les descriptions classiques.
Dans ce contexte, nous avons proposé de concevoir l’anaphore comme une procédure
de gestion des modèles mentaux des interactants. L’anaphore pronominale, plus
particulièrement, a été dissociée des notions de coréférence et de reprise, fondamentales dans
l’approche traditionnelle ; dans l’approche que nous adoptons, la référence des expressions
anaphoriques pronominales est établie de manière inférentielle, à la fois ascendante et
descendante, sur la base d’informations provenant principalement :
• de leur contenu conceptuel : en général, caractère humain ou non humain, genre et
nombre ;
• des informations fournies par le segment indexical qui les contient ;
Résumé des concepts clés et hypothèses
312
• et sur la base de relations de cohérence liées à l’interprétation du segment au sein du
discours.
Les anaphores pronominales inaccentuées sont ainsi typiquement utilisées pour
maintenir le statut attentionnel privilégié d’une entité cognitive, et constituent par là même
une marque de continuité discursive parmi les plus robustes.
Organisation prosodique
Nous proposons de concevoir la prosodie comme un système multiparamétrique et
multidimensionnel complexe. Plus précisément, nous pensons possible de concevoir la
prosodie comme composée de quatre systèmes en relation avec la substance sonore de la
parole (les espaces fréquentiel, d’intensité, de durée et spectral) et d’un système plus abstrait,
l’espace métrique, organisé autour des notions de proéminence et de frontière et dont la
fonction principale est d’assurer une voie privilégiée d’interfaçage avec les phénomènes
linguistiques non prosodiques, et notamment la syntaxe.
Selon nous, chaque espace peut et doit être analysé à plusieurs niveaux d’abstraction (a
minima, le niveau physico-acoustique, le niveau phonétique, le niveau phonologique de
surface et le niveau phonologique profond) afin d’une part de permettre la description
formelle des primitives et des constructions prosodiques et, d’autre part, d’envisager la mise
en relation systématique de ces dernières avec les fonctions assumées par la prosodie,
notamment au niveau discursif.
Prosodie et discours
L’intégration progressive de la prosodie à la linguistique s’est effectuée, nous l’avons
mentionné, par une mise en rapport systématique avec les unités définies au sein des
différents domaines de cette dernière. La prosodie lexicale, qui a en quelque sorte constitué le
point d’entrée de la prosodie est ainsi généralement représentée comme un domaine à part
entière : en effet, bien qu’utilisant les mêmes ressources que « le reste » de la prosodie, celle-
ci, fait significatif, se voit par exemple dotée d’une terminologie spécifique (ton, accent
lexical et quantité). La recherche intense de correspondance entre syntaxe et prosodie, de
manière assez prévisible, a constitué une seconde étape de cette intégration. On comprendra
dès lors que la prise en compte linguistique du niveau discursif, sous l’influence d’une
dynamique de pragmatisation de la linguistique, ne pouvait manquer de se répercuter au
niveau de la prosodie.
Résumé des concepts clés et hypothèses
313
Opérant une inévitable sélection parmi les nombreux rôles joués par la prosodie dans le
discours, nous avons choisi de nous intéresser aux relations unissant accent et statut
informationnel (notamment dans le cadre de l’attribution référentielle pour les expressions
anaphoriques) ainsi que, de manière plus centrale, aux faisceaux de paramètres prosodiques
impliqués dans le marquage de la cohésion discursive. Nous avons choisi de retenir plus
particulièrement le phénomène fréquentiel de resetting, défini comme une élévation
significative de la valeur de l’attaque ou onset d’une unité intonative et qui constitue une
marque consensuelle de discontinuité discursive initiale.
Quelques hypothèses
Les quelques problèmes liés à l’anaphore discursive que nous venons d’évoquer nous
ont permis d’isoler trois phénomènes mêlant intimement prosodie et anaphore dans le cadre
que nous avons délimité.
Le premier phénomène est relatif à l’influence de l’accentuation sur le fonctionnement
des pronoms anaphoriques, notamment leur attribution référentielle ; passionnant, ce domaine
a déjà fait l’objet d’études qui, sans avoir complètement « fait le tour de la question »,
donnent un ensemble de réponses relativement satisfaisantes.
Le second phénomène, à notre connaissance moins étudié, met en relation la prosodie et
l’anaphore en tant que marques de continuité discursive. En effet, les phénomènes
prosodiques tels que, par exemple, l’abaissement de valeur d’onset ou les effets d’écho entre
configurations tonales (parmi tant d’autres) semblent constituer, comme nous l’avons suggéré,
des indices procéduraux destinés à faciliter l’intégration du segment de discours qui les
contient au sein du modèle développé par les interactants. Comme nous l’avons vu, ce
fonctionnement est tout à fait similaire à celui des pronoms anaphoriques. D’autres
configurations sont en général liées au marquage de la discontinuité et impliquent en général
soit les mêmes valeurs prosodiques en position finale, soit les valeurs complémentaires dans
la même position.
Il nous semble dès lors intéressant d’étudier plus avant le fonctionnement « en
commun » de ces deux types de marque de cohésion. Les valeurs d’onset, notamment, qui
résultent d’un ensemble de contraintes psycho-physiologiques (en relation avec la
déclinaison) et discursives (marquage de la continuité et de la discontinuité) semblent
constituer un sujet particulièrement intéressant.
Résumé des concepts clés et hypothèses
314
Les travaux que nous poursuivons avec les autres membres du groupe ProDiGE mettent
en évidence l’intérêt d’une approche du discours mettant en relation un ensemble d’indices à
de nombreux niveaux de l’analyse linguistique. Notre hypothèse fondamentale est qu’il existe
une interaction entre les marques de continuité discursive que peuvent être les valeurs d’onset
et les pronoms anaphoriques. Nous allons envisager ces possibles relations sous les deux
aspects complémentaires de la production et de la perception, en anglais et en français.
Dans le cadre de l’étude des aspects de production, nous avons travaillé avec des
données authentiques extraites du corpus d’anglais britannique Aix-MARSEC, développé en
collaboration avec Caroline Bouzon sous la direction de Daniel Hirst au sein du groupe EPGA
(English Prosody Group of Aix).
L’étude des aspects perceptifs de notre thème de recherche a été menée dans le cadre de
tests en français, destinés à valider les hypothèses formulées à l’issue de l’étude des aspects
de production.
Des conditions idéales auraient pu nous permettre d’étudier les deux aspects que nous
venons de mentionner pour ces deux langues : nous aurions ainsi pu nous livrer à des analyses
identiques sur des corpus oraux en anglais et en français, ainsi qu’à des tests de perception
avec des locuteurs natifs de ces deux langues. Des contraintes de disponibilité, concernant tant
les corpus que les sujets, nous ont malheureusement contraint à ce protocole croisé qui
constitue donc la première partie du projet de recherche que nous proposons de poursuivre sur
le long terme. Comme nous allons à présent le voir, cependant, les analyses que nous avons
menées nous permettent d’éclairer certains aspects du fonctionnement discursif qui mériteront
d’être approfondis dans des travaux ultérieurs.
315
Partie 4 :
Approche expérimentale des relations prosodie-anaphore
Partie 4 – Approche expérimentale des relations prosodie-anaphore
316
Nous pourrons retenir des parties précédentes l’attention particulière que nous avons
portée au rôle joué par l’anaphore et la prosodie dans l’organisation du discours.
Si un nombre non négligeable d’études traitent de l’influence des configurations
prosodiques accentuelles sur l’interprétation anaphorique, il n’en existe à notre connaissance
aucune qui se propose d’analyser le comportement conjugué et les potentielles influences
réciproques des marques de continuité anaphoriques et prosodiques. Etant donné le cadre
d’analyse que nous avons proposé, inspiré des travaux du groupe ProDiGE, il ne sera dès lors
pas étonnant que nous nous livrions à ce type de recherches. Le discours envisagé comme une
heuristique complexe implique chez les interactants la prise en compte dynamique d’indices
multiformes et polyfonctionnels à de nombreux niveaux de l’analyse linguistique ; de manière
nécessairement plus modeste, notre contribution consistera à analyser les relations unissant
des éléments de deux de ces niveaux, à la recherche d’interactions potentielles.
D’une part, l’anaphore pronominale, caractérisée par son affinité avec les entités
discursives les plus saillantes, constitue une marque robuste de continuité. D’autre part, nous
avons montré que la prosodie, parmi les nombreuses fonctions qu’elle assume dans le
discours, constitue une ressource fondamentale de la segmentation et de l’organisation du
monologue et de la conversation. Des configurations prosodiques telles que la diminution de
la valeur de l’onset, du niveau et de l’étendue fréquentiels et de l’intensité sont, nous l’avons
vu, des marques typiques de la continuité du discours. Une augmentation de ces valeurs, a
contrario, et notamment un resetting important, marque une discontinuité de manière robuste
dans de nombreuses langues.
Etant donnés les objectifs que nous nous sommes fixés et notre désir d’aborder tant les
aspects relatifs à la production que ceux relatifs à la perception des phénomènes qui nous
intéressent, cette partie s’organisera en trois phases successives.
Nous présenterons ainsi tout d’abord le corpus d’anglais britannique Aix-MARSEC que
nous avons développé en collaboration avec Caroline Bouzon et sous la direction de Daniel
Hirst au sein du groupe EPGA du Laboratoire Parole et Langage. La constitution de cette base
de données de parole authentique, qui a occupé une part importante de notre temps de travail
de thèse, a constitué la base fondamentale de notre analyse expérimentale des aspects de
production, elle-même présentée dans le chapitre suivant.
En effet, nous consacrerons plus particulièrement le second chapitre de cette troisième
partie à l’analyse de l’influence du marquage de la continuité discursive par l’anaphore sur la
Partie 4 – Approche expérimentale des relations prosodie-anaphore
317
réalisation des onsets dont nous venons de rappeler qu’ils pouvaient être polyvalents. Plus
précisément, nous justifierons et exposerons de manière plus explicite et détaillée nos
hypothèses de travail, avant de présenter le protocole mis en place et les résultats obtenus
dans le cadre de cette analyse.
Finalement, le troisième chapitre de cette partie expérimentale sera pour nous l’occasion
de proposer en quelque sorte une contrepartie perceptive aux aspects de production évoqués
précédemment. Nous fournirons un compte-rendu de tests de perception effectués en français,
et tenterons par là même d’éclairer les phénomènes mis en évidence dans l’étude évoquée
dans le chapitre précédent dans le cadre d’une approche multilingue.
319
Chapitre 7
Constitution de la base de données Aix-MARSEC
320
Chapitre 7 : Sommaire
1 Aix-MARSEC : un corpus, une base de données, un projet ................... 322 1.1 Le corpus........................................................................................................................ 322 1.2 La base de données........................................................................................................ 322 1.3 Le projet......................................................................................................................... 323 1.4 Synthèse ......................................................................................................................... 324 2 Aix-MARSEC : les origines ........................................................................ 325 2.1 De SEC à MARSEC...................................................................................................... 325
2.1.1 Le Spoken English Corpus................................................................................... 325 2.1.2 Le corpus MARSEC ............................................................................................ 328
2.2 Traitements préliminaires............................................................................................ 329 2.2.1 Homogénéisation : correspondance texte-audio .................................................. 329 2.2.2 Première approche de l’alignement...................................................................... 329
3 Les traitements spécifiques......................................................................... 330 3.1 Phonétisation ................................................................................................................. 330
3.1.1 Différentes approches .......................................................................................... 330 3.1.2 Principes de phonétisation Aix-MARSEC........................................................... 332 3.1.3 Traitements spécifiques........................................................................................ 333 3.1.4 Problèmes spécifiques.......................................................................................... 335
3.2 Optimisation par règles d’élision................................................................................. 335 3.2.1 Condition d’application des règles....................................................................... 336 3.2.3 Règles d’élision.................................................................................................... 338 3.2.4 Évaluation des règles d’élision ............................................................................ 342
3.3 Alignement du corpus Aix-MARSEC ......................................................................... 344 3.3.1 Méthodes d’alignement........................................................................................ 344 3.3.2 Evaluation ............................................................................................................ 345
3.4 Autres niveaux d’analyse ............................................................................................. 349 3.4.1 Unités syllabiques ................................................................................................ 350 3.4.2 Unités rythmiques ................................................................................................ 350 3.4.3 Annotation fréquentielle ...................................................................................... 351
4 Synthèse générale ........................................................................................ 351
Chapitre 7 – Constitution de la base de données Aix-MARSEC
321
Avant de nous livrer à l’étude des interactions entre anaphore pronominale discursive et
valeurs d’onset (chapitres 8 et 9), nous allons consacrer ce premier chapitre de notre partie
expérimentale à la présentation du projet Aix-MARSEC.
Plus particulièrement, la première section de ce chapitre sera pour nous l’occasion de
préciser les différents aspects par lesquels Aix-MARSEC peut être approché. Nous
mentionnerons ainsi le « projet » Aix-MARSEC en tant que concept global, avant d’aborder
les aspects « corpus » et « base de données évolutive ».
La seconde section explicitera les origines du corpus Aix-MARSEC, depuis son ancêtre
le Spoken English Corpus (ou « SEC ») jusqu’à son état actuel en détaillant notamment les
différentes étapes menant de SEC à MARSEC (« Machine Readable Spoken English
Corpus »), second stade de développement du corpus. Nous inclurons aussi dans cette
seconde section la présentation des traitements préliminaires qui, fondés sur MARSEC, ont
posé la base de la constitution propre d’Aix-MARSEC.
La troisième section de ce chapitre, finalement, exposera le détail des traitements
spécifiques impliqués dans la constitution d’Aix-MARSEC. Nous aborderons ainsi
consécutivement les phases de phonétisation, d’optimisation et d’alignement de la
transcription phonétique avec le signal sonore qui permettent à Aix-MARSEC d’être l’un des
rares corpus de parole authentique proposant une granularité maximale d’alignement aux
niveau du phonème.
Nombre des traitements mis en œuvre dans la constitution du corpus Aix-MARSEC
sont le fruit du travail collaboratif de Caroline Bouzon, Daniel Hirst et de l’auteur ; nous
tâcherons néanmoins de préciser, lorsque cela sera possible, la part exacte du travail que nous
avons réalisé à titre personnel.
Notons pour conclure ces remarques liminaires que ce compte-rendu s’appuie
principalement sur une série de publications produites au sein du groupe EPGA et dont Auran
& Bouzon 2003, Auran et al. 2004a et 2004b sont des éléments représentatifs.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
322
1 Aix-MARSEC : un corpus, une base de données, un projet
Avant de nous livrer à la présentation détaillée des origines et de la constitution d’Aix-
MARSEC, nous souhaitons faire un rapide point terminologique et conceptuel.
En effet, nous pensons qu’Aix-MARSEC peut être abordé sous trois angles
complémentaires, en tant que (sans ordre) corpus, base de données et projet. Nous allons en
conséquence nous pencher sur ces trois aspects dans les trois rubriques de cette courte section
introductive.
1.1 Le corpus
Il nous semble important de souligner qu’AIX-MARSEC est sans doute considéré
majoritairement par nombre de chercheurs qui connaissent son existence comme un corpus.
En effet, rassemblement d’enregistrements audio numériques accompagnés de leur
transcription à plusieurs niveaux (du phonème à l’unité intonative, comme nous le verrons
plus loin), Aix-MARSEC présente touts les caractéristiques d’un corpus classique.
Aux habitués des corpus écrits qui pourraient s’étonner d’une apparente petitesse d’Aix-
MARSEC (environ 5 heures de parole), nous rappellerons que le traitement des données
audio, que ce soit pour leur enregistrement (originellement dans le corpus SEC) ou leur
traitement (transcription orthographique, annotation, alignement, extraction des données,
etc.), représente une quantité de travail et une difficulté sans commune mesure avec les corpus
purement orthographiques ; ces derniers, bien entendu, présentent eux aussi un intérêt majeur
pour la linguistique et réclament pour leur élaboration des outils et des compétences
extrêmement importantes, mais exigent, à quantité égale (exprimée en mots par exemple), un
traitement peut être moins complexe.
Si l’on prend de plus en compte la granularité phonématique de l’alignement, la
multitude des niveaux d’annotation proposés et la mise à disposition gratuite du corpus, Aix-
MARSEC figure de plein droit au sein du club assez fermé des corpus majeurs d’anglais oral.
1.2 La base de données
Par opposition à la vision traditionnelle du corpus comme objet constitué et statique,
une seconde conception d’Aix-MARSEC consiste à le considérer comme une base de données
évolutive.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
323
Une base de données, tout comme un corpus, consiste fondamentalement en une
collection d’informations diverses ; la base de données se distingue cependant du corpus par
le fait qu’elle implique une structuration particulière des données et une possibilité de requête,
caractéristiques toutes deux présentes dans Aix-MARSEC.
Aix-MARSEC comporte à la fois des informations sonores (sous la forme de 408
fichiers au format Microsoft WAV) et textuelles (ensemble de fichiers au format ASCII,
lisible sur tout ordinateur). La structuration des enregistrements en catégories, héritée comme
nous le verrons ci-dessous de SEC, constitue un premier niveau d’organisation de ces deux
types d’informations. Le format de fichier retenu dans Aix-MARSEC, d’autre part,
correspondant à la norme TExtGrid pour le logiciel Praat (cf. Boersma et Weenink 1996 et
2000), isole les informations sur des niveaux distincts (« tiers ») et permet facilement la
formulation de requêtes soit directement à partir de Praat, soit à l’aide d’outils tels que ceux
que nous avons-nous même développés dans le cadre de ce travail de thèse (cf. chapitre 8).
Mail il faut noter de plus, qu’Aix-MARSEC comporte une dimension dynamique qui ne
cadre pas avec la conception classique du corpus comme objet statique et abouti. Comme
nous avons eu l’occasion de le répéter lors des présentations d’Aix-MARSEC que nous avons
pu effectuer, la seule véritable condition à l’exploitation de cette base de données consiste en
un engagement de la part des utilisateurs à soumettre aux responsables (les membres du
groupe de travail EPGA) les éventuels ajouts d’information qu’ils auront pu effectuer
(nouvelles annotations, tagging, parsing, etc.). Nous considérons en effet Aix-MARSEC dans
le prolongement de la démarche cumulative qui a présidé à sa constitution et proposons
l’intégration raisonnée de nouveaux niveaux, permettant ainsi la croissance continue de la
base.
1.3 Le projet
Un troisième aspect d’Aix-MARSEC que nous souhaiterions évoquer est relatif à sa
conception en tant que projet. Deux éléments nous pousse à retenir cette troisième acception.
Notons tout d’abord qu’Aix-MARSEC ne se résume en réalité pas à son corpus, ni
même à sa base de donnée ; en effet, la distribution courante d’Aix-MARSEC (v1.01 à ce
jour) comporte non seulement l’état actuel de la base de données, mais aussi l’ensemble des
outils (scripts en langage Perl et Praat, fichiers-dictionnaires) qui ont été utilisés dans le cadre
Chapitre 7 – Constitution de la base de données Aix-MARSEC
324
de son développement132. L’utilisateur peut ainsi non seulement suivre toutes les étapes que
nous décrirons plus loin (cf. § 3) mais aussi apporter des modifications précises à certaines
phases ou adapter et utiliser ces outils dans le cadre d’autres recherches133.
De plus, le travail d’équipe qui a servi de cadre au développement d’Aix-MARSEC,
constitue selon nous un second argument en faveur de sa conception en tant que projet. Ainsi,
si nous ne pouvons manquer d’évoquer le groupe EPGA134 (« English Prosody Group of
Aix ») au sein duquel le projet a pris forme, nous noterons aussi une collaboration au-delà du
Laboratoire Parole et Langage, avec le Laboratoire d’Informatique d’Avignon135 (UPR 931 et
CNRS FRE2487), et notamment Christophe Lévy et Pascal Nocéra.
Les perspectives de développement envisagées, finalement, comme nous l’évoquerons,
en fin de chapitre, nous semblent être un dernier argument en faveur du statut de projet,
notamment dans la connotation prospective du terme.
1.4 Synthèse
Nous résumerons cette courte mise au point terminologique en disant que le corpus Aix-
MARSEC est un élément d’une base de données elle-même élément du projet Aix-MARSEC,
qui implique un ensemble de chercheurs appartenant à plusieurs laboratoires dans le cadre du
développement d’outils et de la proposition de nouvelles annotations.
Pour des raisons de simplicité, cependant, nous nous limiterons dans ce travail de thèse
au terme plus spécifique de « corpus » lorsque nous mentionnerons Aix-MARSEC, sans que
cela remette en cause la multiplicité de points de vue que nous venons d’évoquer.
Nous allons à présent (§ 2) retracer les grandes étapes qui ont précédé Aix-MARSEC
avant de nous livrer (§ 3) à une présentation plus détaillée des traitements spécifiques que
nous avons mis en place.
132 Les outils liés aux algorithmes MOMEL et INTSINT (cf. chapitre 5) ne sont pas inclus dans la distribution,
mais sont librement téléchargeables depuis la rubrique « ressources » de notre site (http://www.lpl.univ-
aix.fr/~auran/). 133 Ces outils sont soumis à la licence GNU GPL. 134 Visitez le site du groupe à l’adresse suivante : http://www.lpl.univ-aix.fr/~EPGA/ 135 http://www.lia.univ-avignon.fr
Chapitre 7 – Constitution de la base de données Aix-MARSEC
325
2 Aix-MARSEC : les origines
Cette seconde section va s’organiser de manière chronologique autour des principales
étapes antérieures ou préliminaires à la constitution du corpus Aix-MARSEC.
Dans une première rubrique, nous détaillerons ainsi les deux phases antérieures du
corpus (SEC et MARSEC) en nous concentrant plus précisément sur les aspects quantitatifs
(durée, nombre de locuteurs, etc.) et qualitatifs (notamment relatifs au système d’annotation
choisi) les plus importants.
La seconde rubrique de cette section présentera ensuite plus en détail les traitements
préliminaires de vérification et d’homogénéisation qui ont permis de fournir une base pour les
traitements plus spécifiques à Aix-MARSEC.
2.1 De SEC à MARSEC
Il est important de noter que le corpus Aix-MARSEC constitue en fait le troisième stade
de développement du corpus originel SEC (« Spoken English Corpus ») ; le second stade de
développement, connu sous la forme du corpus MARSEC (« Machine Readable Spoken
English Corpus ») est donc à considérer136 comme une phase intermédiaire qui a constitué le
point de départ des traitements que nous avons effectués dans le cadre du projet Aix-
MARSEC.
Remarquons pour terminer ce préambule que nos travaux se sont inscrits dans le cadre
d’une démarche cumulative non destructive et que la quasi totalité des traitements opérés
consistent en un ajout d’information, synonyme d’un enrichissement du corpus de départ.
2.1.1 Le Spoken English Corpus
SEC (« Spoken English Corpus ») est un corpus d’anglais britannique standard
contemporain, d’une durée totale de plus de cinq heures de parole authentique, contenant
approximativement 55.000 mots répartis dans 411 fichiers représentant onze styles de parole
différents. Ces onze catégories sont représentées ci-après :
136 De manière rétrospective et du point de vue d’Aix-MARSEC, bien entendu.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
326
Groupe A : Commentaires Groupe B : Bulletin d’informations
Groupe C : Parole publique de type I Groupe D : Parole publique de type II
Groupe E : Emissions religieuses Groupe F : Reportages
Groupe G : Fiction Groupe H : Poésie
Groupe J : Dialogues Groupe K : Propagande
Groupe M : Divers
Tableau 8 : Styles de parole du SEC.
Ces différents styles proviennent des archives de la BBC (années 1980) et présentent un
certain éventail de catégories de discours et peuvent être exploités séparément lors d’études
expérimentales. En effet, ce corpus peut non seulement être exploité dans sa totalité en tant
qu’échantillon de parole authentique (dans l’acception que nous avons proposé en
introduction), mais aussi permettre l’observation et la comparaison d’un ou plusieurs styles
spécifiques.
Le corpus rassemble 17 femmes et 36 hommes soit un total de 53 locuteurs. Divers
chercheurs appartenant à l’université de Lancastre et au groupe IBM sont à l’origine du projet
SEC, notamment G. Knowles, P. Alderson, B. Williams et L. Taylor.
Différents niveaux d’information sont présents dans le SEC. Ainsi, outre le signal
sonore, le corpus a été transcrit orthographiquement (version ponctuée et version non
ponctuée), étiqueté morphosyntaxiquement grâce au système CLAWS (cf. Garside 1987) et
annoté prosodiquement par G. Knowles et B. Williams à l’aide d’un ensemble de quatorze
marques tonétiques (« tonetic stress marks » ou « TSM »). Les symboles utilisés par les deux
transcripteurs sont résumés dans la figure 44 ci-après :
Chapitre 7 – Constitution de la base de données Aix-MARSEC
327
Figure 44 : Marques prosodiques (TSM) utilisés dans SEC137.
Chaque syllabe accentuée est précédée d’un accent tonétique indiquant le mouvement
de la fréquence fondamentale ; ce mouvement débute sur la syllabe annotée et continue
jusqu’à la syllabe accentuée ou la frontière d’unité intonative suivante (Roach 1994)138.
Afin de tester la fiabilité de l’annotation prosodique, 24 passages (soit 9% de la totalité
des fichiers) ont été annotés par les deux transcripteurs ; nous parlerons ici
de « chevauchement » dont l’étude révèle une homogénéité certaine des annotations (plus de
80% d’accord selon Knowles 1993), mais aussi certaines différences systématiques
exploitables avec profit (cf. Wichmann 2000).
Les mots sont regroupés en unités intonatives (UI) mineures et majeures, définies en
fonction de critères phonétiques (pause, allongement final, rupture rythmique), mais aussi
syntaxiques (la rupture relative à la présence d’une frontière soit être « syntaxiquement
137 Nous remercions Anne Wichmann de nous avoir fait remarquer que cette figure empruntée au site d’ICAME
(http://khnt.hit.uib.no/icame/manuals/sec/VERS.HTM#5i) comporte une erreur concernant l’antépénultième
accent tonétique qui n’est en fait pas un “Low rise fall”, mais le symbole d’une pause non-structurelle ; le
traitement des données ne s’est pas appuyé sur cette interprétation erronée. 138 Nous ne présenterons pas ici le détail de ce système d’annotation qui bien que préservé dans sa version
MARSEC dans Aix-MARSEC, n’a pas été exploité de manière détaillée dans les travaux présentés ici (le lecteur
se réfèrera avec profit à Willimans 1996 pour une mise en perspective avec d’autres systèmes de transcription).
Chapitre 7 – Constitution de la base de données Aix-MARSEC
328
possible » ; cf. par exemple Williams 1996 : p. 51). Cette structuration implique de plus une
hiérarchie stricte (les unités mineures, délimitées par une pause plus courte, sont contenues
dans des unités majeures), dont nous avons soulevé quelques difficultés lors du chapitre 6.
Nous montrerons cependant dans le chapitre 8 que cette structure peut être utilisée avec profit
dans le cadre que nous proposons.
2.1.2 Le corpus MARSEC
SEC a ensuite été adapté dans le but de le rendre exploitable de manière informatique et
est alors devenu le corpus MARSEC (« MAchine Readable Spoken English Corpus »).
Les modifications apportées à SEC portent tout d’abord sur les marques prosodiques ;
en effet, les symboles utilisés dans SEC posaient un problème fondamental de portabilité,
notamment dans le cadre de l’utilisation de logiciels de traitement du signal. En conséquence,
ces quatorze marques ont été homogénéisées et modifiées afin de comporter uniquement des
symboles ASCII (facilement accessibles à partir du clavier de tout type d’ordinateur),
présentés dans le tableau 9 ci-dessous. Ces symboles sont utilisés selon un mode de
fonctionnement identique à celui de SEC, mais permettent une implémentation informatique
facilitée.
_ low level , low rise
~ high level ‘ low fall
< step-down ,\ (low rise-fall – not used)
> step-up \, low fall-rise
/’ (high) rise-fall * stressed but unaccented
‘/ high fall-rise | minor intonation unit boundary
/ high rise
\ high fall
|| major intonation unit boundary
Tableau 9 : Symboles ASCII utilisés dans MARSEC.
L’ajout fondamental apporté à MARSEC est l’alignement temporel du signal sonore au
niveau du mot. En effet, la totalité des mots transcrits orthographiquement a été alignée
temporellement avec le signal sonore. Cet alignement se présente sous la forme de fichiers
Chapitre 7 – Constitution de la base de données Aix-MARSEC
329
(format texte) avec une suite de balises temporelles marquant le début et la fin de chaque mot.
Que le lecteur ne se laisse pas influencer par la taille minime du paragraphe que nous
consacrons à ce point : cet alignement représente une évolution d’un ampleur énorme et dont
l’importance est fondamentale ; notamment dans le cadre des traitements spécifiques que nous
avons mis en place dans Aix-MARSEC.
2.2 Traitements préliminaires
Les traitements préliminaires du corpus Aix-MARSEC ont principalement consisté en
une homogénéisation et une vérification de l’alignement, phases précédant les traitements
automatiques spécifiques au projet Aix-MARSEC. Encore une fois, la taille des paragraphes
consacrés à ces points ne doit conduire le lecteur à minimiser ni le travail important lié à ces
étapes, ni son caractère crucial.
2.2.1 Homogénéisation : correspondance texte-audio
La première étape de traitement (réalisée en collaboration avec Caroline Bouzon) a
consisté à vérifier manuellement la correspondance exacte entre les fichiers sonores et les
fichiers d’étiquettes en mot. C’est lors de cette étape que trois fichiers du corpus ont été
abandonnés pour cause de signal défectueux ou de manque d’étiquettes.
Notons que ce tri s’est avéré nécessaire notamment en raison des 9% d’annotation
commune (le chevauchement évoqué plus haut). En effet, notre objectif n’étant de retenir
qu’une seule transcription par fichier sonore139, nous avons mis la dénomination des fichiers
de transcription en conformité avec celle des fichiers audio et avons arbitrairement conservé
la transcription de Briony Williams en cas de chevauchement.
2.2.2 Première approche de l’alignement
La deuxième étape de cette homogénéisation a consisté à vérifier manuellement
l’alignement entre la totalité des 55.000 étiquettes de mots et le signal sonore correspondant.
Pour cela, les fichiers d’étiquettes (format texte) ont été convertis en format TextGrid, à
savoir le format d’étiquettes utilisé dans le logiciel Praat (cf. Boersma et Weenink 1996 et
2000), à l’aide du script 01_mtomultitxtgrid.pl (version 3) que nous avons développé en
langage Perl.
139 Les fichiers non utilisés sont conservés dans les archives Aix-MARSEC.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
330
En effet, Praat permettant un contrôle auditif et visuel simultané du signal pour la
vérification de l’alignement, tout décalage de plus de 50 millisecondes entre le signal et les
étiquettes de mot a été corrigé manuellement (Caroline Bouzon : travail de DEA) dans le but
d’obtenir des données plus fiables.
De telles modifications concernent environ 20% des fichiers, que nous avons
sauvegardés avec une extension supplémentaire (« _mod ») afin de pouvoir les identifier
aisément.
3 Les traitements spécifiques
Nous allons à présent terminer ce chapitre par une présentation détaillée des traitements
spécifiques à la constitution du corpus Aix-MARSEC. Nous regrouperons ces traitements en
quatre rubriques portant respectivement sur la phonétisation de la transcription
orthographique, l’optimisation de cette phonétisation, son alignement avec le signal de parole,
et les annotations de plus haut niveau qui viennent compléter Aix-MARSEC.
3.1 Phonétisation
La phase de transcription phonématique du signal sonore est une étape fondamentale
pour de nombreuses études expérimentales en phonétique ; ce type d’annotation est également
nécessaire à l’obtention des niveaux supérieurs de représentation que sont les constituants
syllabiques et la syllabe ou encore des unités rythmiques telles que les pieds accentuels selon
le modèle d’Abercrombie 1967.
3.1.1 Différentes approches
La transcription phonétique d’un corpus oral peut revêtir des formes très diverses en
fonction des besoins des utilisateurs, des hypothèses de leur cadre théorique ou encore des
données disponibles. On remarquera notamment qu’une prise de position dans le cadre d’une
phonologie/phonétique articulatoire induira l’utilisation de méthodes spécifiques (Damper
2001 : chapitre 8) qui dépassent le cadre de ce travail.
Les méthodes destinées à fournir la transcription phonémique d’un corpus oral (étape
qui correspond à ce que nous avons défini plus haut comme une « annotation simple ») sont
elles aussi nombreuses et diverses. On peut cependant regrouper ces méthodes en deux
grandes catégories selon qu’une annotation orthographique du corpus est disponible ou pas.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
331
Dans l’éventualité où seuls les enregistrements sont disponibles, la tâche correspond à
un processus de reconnaissance de la parole. C’est alors typiquement à une méthode
stochastique que l’on va avoir recours : chaque phonème est en général modélisé à l’aide d’un
HMM (« Hidden Markov Model » ou « modèle de Markov caché »). Dans le cadre d’un
système de « décodage acoustico-phonétique », les séquences possibles de phonèmes ne sont
pas contraintes : on ne prend pas en compte le contexte afin de définir une probabilité
d’apparition d’un segment donné ; dans le cadre d’un véritable système de reconnaissance de
la parole, les séquences de phonèmes sont en général conditionnées par leur contexte (on
utilise typiquement des « n-grammes » afin de sélectionner les séquences dont la probabilité
d’apparition est la plus élevée).
Lorsqu’une annotation orthographique existe pour le corpus, la tâche consiste à générer,
à partir de celle-ci, la suite de phonèmes correspondant le mieux au signal annoté. On est alors
dans le cadre de la phonétisation d’un texte orthographique, aussi appelée « conversion
graphème-phonème » (« Grapheme-(to-)Phoneme Conversion » ou « G2P » dans la littérature
de langue anglaise) et qui constitue l’une des étapes fondamentales de tout système de
synthèse de la parole à partir du texte (Damper et al. 1999). Plusieurs méthodes sont là aussi
disponibles ; sans entrer dans le détail de l’inventaire de ces méthodes, nous noterons que l’on
peut les classer en deux grandes catégories selon :
• qu’elles font appel principalement à des règles phonologiques produites de manière
non automatique (« rule-based systems », cf. McIlroy 1973 pour l’un des premiers
systèmes ou Divay & Vitale 1997 pour l’un des plus récents) ou, au contraire,
• qu’elles s’appuient sur différentes méthodes automatiques fondées sur l’exploitation
directe de données (« data-driven systems ») : on pensera dans cette catégorie à des
algorithmes de prononciation par analogie (implicite ou explicite, cf. Damper &
Eastmond, 1997), à NETspeak (un réseau de neurones de type « perceptron multi-
couche », cf. Rumelhart et al. 1986) ou encore à IB1-IG (fondé sur une méthode
statistique de classification automatique, cf. Daelemans et al. 1997 et Van Den Bosch
1997).
Tous ces systèmes ont en commun un fonctionnement fondé sur la recherche d’entrée
dans un lexique/dictionnaire phonétisé (c'est-à-dire comportant des transcriptions en
phonèmes).
Chapitre 7 – Constitution de la base de données Aix-MARSEC
332
Le système de phonétisation utilisé pour le corpus Aix-MARSEC, vers lequel nous
allons à présent nous tourner, appartient à la première de ces catégories : en effet, fondé sur la
recherche d’entrées dans un lexique, il est ensuite complété par l’utilisation de règles
phonotactiques destinées à simuler certains des phénomènes de production spécifiques à la
parole continue. La démarche adoptée est d’inspiration clairement linguistique, caractérisée
par un équilibre entre portabilité (lexique auquel viennent s’ajouter certaines règles
phonotactiques et contraintes non spécifiques à la langue) et applicabilité spécifique à
l’anglais britannique oral (ensemble de contraintes et de règles phonotactiques spécifiques à la
langue).
3.1.2 Principes de phonétisation Aix-MARSEC
De manière plus précise, le fonctionnement global du système de phonétisation utilisé
dans ce travail consiste à rechercher automatiquement chacun des mots du corpus (à partir de
l’alignement orthographique) dans un dictionnaire électronique de prononciation à l’aide de
scripts Perl. Le dictionnaire utilisé est l’Advanced Learners’ Dictionary (publié par Oxford
University Press) qui contient un nombre total d’environ 71.000 mots.
Lors de la conversion graphème-phonème, une série d’environ 700 mots présents dans
le corpus n’avait aucune correspondance dans le dictionnaire ; il s’agit ici principalement de
noms propres associés à des personnalités ou à des lieux. Un dictionnaire de formes
complémentaires a ainsi été créé dans lequel se trouve la transcription manuelle de la totalité
de ces mots à partir du dictionnaire de prononciation Wells 1990. Par conséquent, pour
chaque mot du corpus absent du dictionnaire de prononciation principal, on cherche son
entrée dans ce deuxième dictionnaire de mots complémentaires.
Ce premier système de conversion graphème-phonème permet d’obtenir une
transcription phonologique de surface puisque le dictionnaire liste des formes de citation. Or,
la spécificité de la parole naturelle réside dans un décalage entre les réalisations phonétiques
des locuteurs et les formes de citation. Par exemple, les formes présentes dans le dictionnaire
ne tiennent pas compte de la réduction inhérente à la parole naturelle (ainsi, la conjonction
and est uniformément transcrite /ænd/). Dans le but d’améliorer la correspondance entre le
signal et la transcription obtenue automatiquement à partir des dictionnaires, s’ensuit un
traitement spécifique des formes réduites.
Un troisième dictionnaire, composé de l’ensemble des mots anglais qui possèdent à la
fois une forme pleine et une forme réduite est alors utilisé avec en entrée cette liste de mots
Chapitre 7 – Constitution de la base de données Aix-MARSEC
333
suivie de la transcription de leurs formes réduites respectives. Lors de la phase de
phonétisation, le choix entre la forme pleine (dans le dictionnaire principal) ou la forme
réduite (dans le dictionnaire de formes réduites) se fait en fonction de la présence ou absence
d’une marque prosodique sur le mot en question : s’il est précédé d’une marque prosodique, il
sera transcrit avec sa forme pleine alors que si aucune marque prosodique ne précède ce mot,
il sera transcrit avec sa forme réduite. Par exemple, « ‘/ and » est transcrit /ænd/ (présence de
la TSM « high fall-rise ») et « and » (aucune marque) est transcrit /nd/.
L’ensemble des opérations détaillées dans cette rubrique implique deux scripts que nous
avons rédigés en langage Perl :
• 02_txtgridtomatrix.pl (version 4), qui convertit le format TextGrid utilisé dans le
prétraitement en données tabulaires ;
• 03_mtx+pron_inacc.pl (version 6 ; en collaboration avec Daniel Hirst), qui effectue la
phonétisation à proprement parler et génère des données tabulaires en sortie.
Pour résumer, la phonétisation de la totalité du corpus s’effectue grâce à l’utilisation de
trois dictionnaires différents : le dictionnaire principal, le dictionnaire des mots
complémentaires transcrits manuellement et le dictionnaire des formes réduites. Notons que
ces trois dictionnaires sont séparés pour deux raisons ; dans le cas des formes réduites, il est
évident que les formes pleines et les formes réduites doivent être séparées afin que le script
sache quelle forme utiliser en fonction de la présence ou absence d’une marque prosodique.
En ce qui concerne les formes complémentaires, elles sont regroupées dans un dictionnaire
isolé plutôt qu’ajoutées au dictionnaire principal dans le but de pouvoir faire évoluer ce
système de phonétisation à d’autres corpus tout en gardant un dictionnaire spécifique à
MARSEC140.
3.1.3 Traitements spécifiques
Lors de la phase de phonétisation, certaines formes nécessitent un traitement spécifique,
notamment la réalisation du morphème ‘s’ du pluriel et de la troisième personne du singulier,
ainsi que le morphème ‘d’ du prétérit régulier et du participe passé régulier en fonction du
contexte phonémique, ou plus exactement du voisement de la consonne précédente.
140 Ainsi, une version mise à jour du dictionnaire Advanced Learners’ Dictionary pourrait être intégrée sans pour
autant perdre nos modifications.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
334
De plus, la conversion graphème-phonème ne permet pas de traiter les génitifs, les
contractions (de type I’m), les abréviations, les chiffres et les dates. En effet, ceux-ci ne sont
pas présents en tant qu’entrées dans les différents dictionnaires (il serait trop coûteux de les
ajouter manuellement) et l’application de notre système à d’autres données poserait les
mêmes problèmes. Pour y remédier, un ensemble de fonctions en langage Perl (au sein du
script 03_mtx+pron_inacc.pl, développé en collaboration avec Daniel Hirst) permet de traiter
ces différentes formes en les décomposant en formes présentes dans le dictionnaire principal.
Les génitifs sont ainsi décomposés en ‘mot + forme du génitif’ ce qui permet de
rechercher le mot dans le dictionnaire puis de transcrire le génitif en fonction du contexte
phonémique (/s/ après une consonne non-voisée, /z/ après une consonne voisée et /z/ après
/sz/).
De la même manière, les formes contractées sont décomposées en ‘pronom +
contraction’ pour ensuite être transcrites en tant que deux formes différentes regroupées. Dans
le cas de I’m par exemple, la forme contractée est décomposée en I + ’m, toute deux présentes
séparément dans le dictionnaire.
En ce qui concerne les abréviations absentes du dictionnaire général, nous distinguerons
deux types différents : les abréviations alphabétiques (composées uniquement de lettres) et les
abréviations que nous qualifierons de « mixtes » (lettres et chiffres). Les premières sont
décomposées en lettres comme par exemple BBC qui devient B + B + C, chaque lettre
figurant dans le dictionnaire principal. Les abréviations mixtes, mêlant des lettres et des
nombres comme par exemple dans les codes postaux anglais (“YO1 1ET”), subissent le même
type de traitement de décomposition en lettres + nombres (convertis en mots orthographiques)
puis de conversion graphème-phonème.
Les chiffres sont convertis en mots orthographiques pour ensuite être recherchés dans le
dictionnaire principal. Ce traitement des chiffres a toutefois posé le problème des dates : il est
difficile de distinguer de manière automatique un chiffre d’une date, ce qui est gênant dans
l’optique de la phonétisation, étant données leurs réalisations fondamentalement différentes.
Par exemple, le nombre 1975 peut tantôt être considéré comme une date et être réalisé comme
« nineteen seventy five » ou comme un chiffre et être réalisé comme « one thousand nine
hundred and seventy five ». La solution adoptée est de considérer que tous les chiffres entre
1000 et 2000 ont plus de chance d’être des dates que des nombres ; ils ont alors été convertis
comme tels par notre système.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
335
3.1.4 Problèmes spécifiques
Deux problèmes se sont posés lors de la phonétisation du corpus. Le premier concerne
le traitement des dates que nous venons d’évoquer. En effet, les nombres entre 1000 et 2000
sont considérés arbitrairement comme des dates mais ce choix ne nous garantit pas un
traitement correct de ces cas. Cette solution temporaire, permettant de limiter les erreurs, est
pour l’instant implémentée, mais demande à être plus amplement étudiée.
Le deuxième problème se posant lors de la phonétisation porte sur les doublons ; par
doublons, nous entendons les formes ayant deux entrées différentes dans le dictionnaire
principal et donc deux réalisations possibles. Le mot « object » par exemple possède deux
entrées dans le dictionnaire : le verbe prononcé /b'dekt/ et le substantif /'bdkt/. Aucune
solution automatique n’est pour l’instant appliquée (cf. Knowles 1994 pour un constat
similaire). Cependant, plusieurs possibilités s’offrent à nous concernant ce problème :
• la première possibilité de solution consisterait à nous appuyer sur le tagging lexical
effectué à l’aide de CLAWS par les responsables du projet SEC ; l’information
lexicale ainsi récupérée permettrait alors la sélection de la phonétisation adéquate dans
le cas d’homographes de catégories lexicales différentes (Nom vs. Verbe) ;
• la deuxième possibilité de traitement des doublons pourrait quant à elle s’appliquer y
compris dans le cas d’homographes appartenant à la même catégorie lexicale (comme
dans le cas des substantifs comme « wind » qui peut être réalisé /wand/ ou /wnd/).
La solution consisterait alors à fournir au système d’alignement la totalité des
possibilités de phonétisation, la solution optimale étant automatiquement retenue ;
• on peut finalement imaginer une solution mixte qui consisterait à s’appuyer de
manière préférentielle sur le tagging (solution 1), plus robuste, et à recourir à la
comparaison des phonétisations concurrentes (solution 2) lorsque la solution 1 s’avère
non pertinente. Cette voie constitue une piste de recherche dont la description et
l’évaluation feront l’objet de publications futures.
3.2 Optimisation par règles d’élision
La méthode utilisée pour la phonétisation du corpus Aix-MARSEC est, nous l’avons vu,
fondée principalement sur un algorithme d’extraction à partir d’un lexique. Ce procédé, qui a
indubitablement l’avantage de la rapidité et de la portabilité, comporte cependant plusieurs
Chapitre 7 – Constitution de la base de données Aix-MARSEC
336
inconvénients ; nous nous attacherons particulièrement ici au problème de l’« abstraction
phonologique » de la phonétisation extraite du lexique par l’algorithme.
En effet, la phonétisation récupérée dans le lexique est fondée sur la forme de citation
de l’unité graphique phonétisée ; la transcription phonétique ainsi produite correspond à une
prononciation canonique qui ne tient aucun compte des nombreux phénomènes de réduction
vocalique, d’assimilation régressive et progressive, d’élision, d’épenthèse, de métathèse, etc.
qui constituent certaines des caractéristiques les plus typiques de la parole continue.
L’utilisation d’un algorithme d’optimisation de la transcription phonémique par règles
d’élision permet alors de simuler partiellement la réalité de la parole continue de manière plus
fidèle, et constitue donc un début de réponse à ce problème. Matérialisée par la disparition
conditionnée d’un phonème dans la transcription brute, l’élision telle que nous l’entendons
n’est pas à concevoir ici dans une acception stricte ; en effet, nous n’affirmerons pas que le
phonème élidé est (phonétiquement) totalement absent du signal, mais plutôt qu’il est
généralement impossible de le distinguer dans son entièreté : ainsi, des indices (notamment de
durée) peuvent permettre de supposer la présence sous jacente du phonème présenté comme
élidé sans permettre pour autant la détermination exacte de ses bornes. Dans ce contexte, et
afin de faciliter la phase d’alignement automatique, nous avons ainsi opté pour la suppression
du phonème de la transcription, autorisant cependant une analyse ultérieure plus fine de la
durée des phonèmes préservés.
Les règles que nous avons implémentées doivent nécessairement voir leur application
restreinte par des contraintes (phonotactiques, morphosyntaxiques et autres) du type de celles
que nous avons utilisées dans le cadre du protocole d’optimisation appliqué au corpus Aix-
MARSEC et que nous allons à présent détailler.
3.2.1 Condition d’application des règles
Dans l’optique d’améliorer le système de phonétisation, nous avons élaboré une série de
seize règles d’élision de phonèmes. On peut répartir ces règles en deux catégories selon
qu’elles s’appuient ou non sur des contraintes phonotactiques :
• Règles non-phonotactiques :
o élision des phonèmes dont la durée prédite (cf. infra) est inférieure ou égale à
5ms ;
Chapitre 7 – Constitution de la base de données Aix-MARSEC
337
o élision fondée sur la nature morphologique des unités (cas de and, he, he’s,
he’ll, he’d, him, his et her).
• Règles phonotactiques : elles précisent l’inventaire des contextes spécifiques
"autorisant" l’élision d’un phonème donné. C’est dans cette perspective que nous
proposons d’utiliser l’expression « phonotactique prédictive » (cf. Auran & Bouzon
2003) que nous définirons comme l’application de règles phonotactiques en vue de
l’optimisation d’une phonétisation brute dans le cadre de la parole continue.
Les règles phonotactiques ne sont pas appliquées au signal de manière brute mais
requièrent un certain nombre de conditions. Ces conditions sont d’ordre intonatif, temporel et
phonotactique.
Concernant la contrainte intonative, la condition d’application porte sur la présence ou
l’absence de marque prosodique (TSM). En effet, on suppose que dans certains cas les mots
sujets aux élisions mais précédés d’une TSM ne sont pas réduits du fait de la présence d’un
mouvement mélodique sur ce mot. Ces cas seront précisés lors de la description des règles.
Dans la catégorie des contraintes temporelles, la première condition consiste en un seuil
minimal, fixé pour quatre phonèmes et au-dessus duquel le phonème ne peut pas être
supprimé : le seuil des phonèmes /t/, /d/ et // est de 55ms et celui de // de 110ms. Ces seuils
sont établis en fonction de la liste des durées minimales (tous contextes confondus) de Klatt
1979 et confirmés lors des observations des données. La seconde condition est relative à ce
que nous avons appelé le « facteur z » en référence à l’approche de Campbell 1992.
Comme le montre l’équation 1 ci-dessous, la méthode consiste à calculer, à partir d’une
part de la durée d’un mot donné du corpus et, d’autre part, de la somme des moyennes et des
écarts types de chacun des phonèmes qui le composent, un coefficient de modification de
durée segmentale (ou « facteur z ») pour le mot.
)*(__
1ii pho
phonemesNb
ipho sdzmMotDuree += ∑
=
(1)
Équation 1 : Durée du mot comme somme de la moyenne et d’un multiple constant de l’écart
type de la durée de chaque phonème.
Cette méthode, qui correspond à la transformée z utilisée de manière classique en
statistiques pour la réduction d’une variable centrée, est fondée sur un « principe d’élasticité »
étendu à l’échelle du mot (et non plus de la syllabe comme dans Campbell 1992).
Chapitre 7 – Constitution de la base de données Aix-MARSEC
338
)(
)(_
_
1
_
1
∑
∑
=
=
−= phonemesNb
ipho
phonemesNb
ipho
i
i
sd
mMotDureez (2)
Équation 2 : Facteur z exprimé en fonction de la durée du mot et de la moyenne et de l’écart
type de chaque phonème.
Le calcul du facteur z (équation 2) consiste à soustraire à la durée du mot, obtenue grâce
à l’alignement de MARSEC, la somme de la durée moyenne de chacun des phonèmes qui le
composent (numérateur de la formule) ; cette valeur est ensuite divisée par la somme des
écarts types de ces mêmes phonèmes (dénominateur). Un facteur z négatif dénote alors une
durée observée plus petite que la somme des durées moyennes et donc une probabilité de voir
se réaliser certains phénomènes d’élision caractéristiques de la parole continue.
La catégorie des contraintes phonotactiques est obtenue après observation d’une partie
des données du corpus et à partir des études de Jones 1991, Wells 1990 et Gimson (réédité par
Cruttenden 1997). Les règles sont par conséquent établies en fonction des élisions
systématiques observées dans le signal ainsi que par les règles données dans les études citées
ci-dessus et avérées dans le signal. Le détail de ces contraintes se trouve dans la description
des règles d’élision présentée dans la section suivante.
3.2.3 Règles d’élision
Pour des raisons de simplicité d’écriture du script Perl gérant les phénomènes d’élision
de phonèmes (04_mtx+prontopho.pl, version 16, développé par nous en collaboration avec
Daniel Hirst), seize règles (expressions régulières) ont été formulées en collaboration avec
Caroline Bouzon et Daniel Hirst. Ces seize règles peuvent être regroupées en onze principes
morpho-phonologiques. Nous présentons dans le reste de cette section ces onze principes en
les explicitant et en fournissant des exemples pour chaque cas pertinent.
Ces principes sont appliqués à condition que le facteur z du mot soit inférieur à zéro,
qu’il n’y ait aucune marque prosodique (selon les principes) et que le seuil soit respecté pour
les phonèmes concernés. Notons que dans la représentation de chacun des principes, la forme
« # » symbolise une frontière de mot et « – » en exposant symbolise l’exclusion du ou des
phonème(s) suivant(s).
Principe 0 : élision de tout phonème dont la durée prédite est inférieure ou égale à 5ms.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
339
Principe 1 : élision du phonème [d] dans and
La forme de la conjonction and concernée est nécessairement la forme réduite /nd/
puisque, suivant notre système de phonétisation, la forme pleine est précédée d’une marque
prosodique. Cette forme est souvent réduite à /n/ qu’elle soit suivie d’un mot commençant
par une voyelle ou une consonne.
Principe 2 : élision de [h] dans les formes he, he’d, he’ll, he’s, his, him, et her
En parole continue, la fricative [h] dans les pronoms et/ou contractions ci-dessus est
souvent élidée ; toutefois, cette consonne est supprimée dans la transcription à condition
qu’aucune marque prosodique ne précède le mot en question, dans ce cas, on imagine que le
pronom accentué sera réalisé avec sa forme pleine, sans élision du /h/.
Principe 3 : élision de [t] ou de [d] dans le contexte {[t][d]} # {[t][d]}
Lorsqu’un mot se termine avec un [t] ou un [d] et que le mot suivant commence par un
[t] ou un [d], l’alvéolaire finale est souvent supprimée, cette règle ayant comme condition le
facteur z et le seuil fixé à 55ms. Ce principe s’applique aux énoncés tels que I’ve got to go qui
sera réalisé /t/ ou the red dragon réalisé /redræn/ en parole continue. Il existe une
restriction à ce principe : outre la prise en compte du seuil minimal, il ne s’applique pas
lorsque le [d] correspond au morphème du prétérit ou du participe passé -ed réalisé /d/. Ainsi,
dans an unexpected turn, le /d/ n’est pas supprimé. Les deux consonnes alvéolaires ne sont
pas produites distinctement, à savoir par deux réalisations articulatoires complètes, mais la
durée de la tenue du [t] ou du [d] restant nettement au-dessus de la moyenne reflète la
présence des deux consonnes. Pour l’alignement automatique, il est nécessaire de rendre
compte de ces phénomènes puisque le système ne pourrait trouver les deux consonnes dans le
signal. Nous perdons l’information sur cette tenue plus marquée, mais nous pourrons la
récupérer grâce à l’allongement de l’alvéolaire concernée.
Principe 4 : élision de [t] et [d] dans le contexte C1 + {[t][d]} # C2 – {[h][j]}
Si [t] ou [d] en position finale de mot est précédé d’une consonne (quelle qu’elle soit) et
suivi d’un mot commençant par une consonne autre que [h] ou [j], alors il est supprimé. Ce
principe concerne les énoncés du type you mustn’t lose réalisé /msn luz/ et est caractérisée
par deux restrictions :
Chapitre 7 – Constitution de la base de données Aix-MARSEC
340
1) [t] ou [d] doit être en position finale de mot
2) C2 peut être n’importe quelle consonne sauf [h] ou [j] : Gimson (réédité par
Cruttenden, 1997) précise qu’un [t] ou [d] final suivi d’un [j] est généralement réalisé par une
affriquée, comme dans helped you réalisé /hept/. Cette réalisation est tout à fait fréquente,
mais nous avons également rencontré des cas où le [j] était simplement dévoisé sous l’effet du
caractère non-voisé de la plosive précédente. De ce fait, cette affriquation n’est pas
généralisée à la totalité du corpus.
Principe 5 : élision de [p] ou de [k] dans le contexte nasale homorganique + {[p][k]}
(#) C – {[r][l][j]}
Ce principe supprime le phonème [p] ou [k] dans les groupes consonantiques dans
lesquels sa position est homorganique avec celle de la nasale ([m] ou []) précédente. Il traite
les mots tels que glimpse produit /lms/, mais également l’ajout du morphème du pluriel, de
la troisième personne du singulier, du prétérit et du participe passé dans les séquences /mps/
et /mpt/ : on a par exemple camps /kæms/, jumps /dms/ et jumped /dmt/. L’élision peut
apparaître à l’intérieur d’un mot mais également au-delà d’une frontière de mot comme dans
they jump silently. Concernant l’élision du [k], ce principe permet de traiter les élisions dans
des mots tels que thanks, thanked mais également dans les énoncés du type thank Peter /æ
pit/. Dans ces groupes consonantiques composés de trois consonnes, la consonne centrale a
tendance à être supprimée.
Ce principe est également restreint par la nature de la consonne suivant la plosive : il
s’applique pour toutes les consonnes sauf [r - l - j] afin d’éviter de faire l’élision dans des cas
comme computers ou wrinkle où le /p/ ou le [k] serait alors supprimé.
Principe 6 : élision de [l] dans le contexte [] + [l] (#) C
Ce principe s’applique à la fois à l’intérieur des mots et au-delà des frontières de mot.
Ainsi, il rend compte de l’élision de /l/ dans les mots tels que always, already, although, all
right et almanac (mots cités par Gimson).
Chapitre 7 – Constitution de la base de données Aix-MARSEC
341
Principe 7 : élision du phonème [] dans le contexte C + [] (#) [s]
Il s’applique à l’intérieur des mots, comme par exemple dans months, twelfths et fifths
(Gimson), mais également au-delà des frontières de mot, comme par exemple dans the fifth
soldier. Ce principe a comme condition le facteur z mais également le seuil du phonème [].
Principe 8 : élision de la plosive en contexte [s|z] + {[p|b][t|d][k|]} (#) [s|z]
Deux traitements différents sous-tendent ce principe : dans le cas d’une de ces trois
séquences, il y a élision de la plosive, on se retrouve avec deux [s] adjacents, le premier est
alors élidé. Dans l’énoncé tourists ou the tourist seems, la séquence /sts/ sera tout d’abord
réduite à /ss/, puis un traitement ultérieur supprimera le premier /s/ et réduira cette séquence à
/s/. Le principe n°8 est également étendu à l’élision de la plosive dans le contexte [z] +
{[b][d][]} (#) + [z] bien qu’aucun cas ne soit présent dans le corpus.
Principe 9 : élision du schwa dans [] + {[l][r]} (#) + voyelle réduite {[][]}
Ce principe s’applique en fonction du seuil fixé pour le schwa et possède une
restriction : il ne s’applique pas dans le cas de la séquence [r] + [] + [l] + voyelle réduite,
principalement parce que
le [r] ne peut être final en anglais britannique standard et
[rl] ne représente pas une attaque licite.
Dans necessarily, il n’y a pas élision de // et le mot est réalisé /nesserl/.
Globalement, ce principe permet de rendre compte des mots tels que camera /kæmr/,
Reverend /revrnd/ et library /labr/.
Dans les cas avec un double [l] ou un double [r] après application du principe d’élision,
il y a effacement du premier phonème ; dans honorary /nrr/, il y a élision du premier
schwa, puis du deuxième, et simplification de /nrr/ en /nr/. Notons que le principe
s’applique également lorsqu’il s’agit du -r- de liaison comme dans after a while qui peut être
réalisé /ftrwal/ en parole rapide.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
342
Principe 10 : élision du schwa dans le contexte # [kn] ('syll (syll [0…n])) #
Ce principe traite les élisions de // dans les mots tels que con'front ([kn] suivi d’une
syllabe accentuée terminale) et con'stituency ([kn] suivi d’une syllabe accentuée non
terminale), ainsi que l’auxiliaire de modalité can non précédé d’une marque prosodique (I
can [kn] really believe). Un seuil de 55ms est utilisé pour le schwa.
Principe 11 : élision du schwa dans le contexte {[k][p]} + [] + [n] #
Le seuil du schwa est ici aussi fixé à 55ms et ce principe s’applique uniquement dans
les syllabes en position finale de mot, celles-ci étant nécessairement inaccentuées. Il traite les
mots tels que open, thicken. Jones (1991) précise qu’il n’y a pas d’élision après ces deux
plosives ; toutefois, lors de notre observation de certains extraits du corpus, les mots tels que
happen(ed) étaient réalisés avec un [n] syllabique et donc avec suppression du []. Nous
avons donc décidé d’étendre l’élision du schwa à tous les types de consonnes devant [n] final.
3.2.4 Évaluation des règles d’élision
L’application des seize règles d’élision de phonèmes conduit à la suppression de 4083
phonèmes dans la totalité du corpus. Le nombre de phonèmes élidés représente ainsi
approximativement 2% des 199.770 phonèmes qui constituent la phonétisation brute du
corpus Aix-MARSEC.
L’évaluation de la qualité prédictive de ces règles a été effectuée de manière manuelle
sur un échantillon de dix fichiers du corpus et est quantifiée à l’aide des mesures « rappel »,
« précision », « silence », « bruit » et « F-mesure » (cf. tableau 10 ci-après), couramment
employées en recherche documentaire (cf. Van Rijsbergen 1979).
Chapitre 7 – Constitution de la base de données Aix-MARSEC
343
MESURES
RAPPEL 50,51 %
PRECISION 74,44 %
SILENCE 49,49 %
BRUIT 25,56 %
F-MESURE 60,18 %
Tableau 10 : Mesures d’évaluation de l’algorithme de prédiction des élisions.
Le rappel quantifie le rapport des éléments pertinents récupérés sur le total des éléments
pertinents. Dans notre cas, cette mesure représente la proportion d’élisions prédites sur la
totalité des élisions rencontrées. Un taux de rappel de 100 % signifierait que toutes les élisions
rencontrées lors de l’évaluation ont été prédites par nos règles. Un rappel de l’ordre de 50 %
signifie donc que notre algorithme prédit de manière correcte la moitié des élisions
effectivement réalisées par les locuteurs dans le corpus. La mesure complémentaire du rappel
est le silence, qui représente la proportion d’élisions non prédites sur la totalité des élisions
rencontrées
La précision mesure le rapport des éléments pertinents récupérés sur le total des
éléments récupérés ; sa mesure complémentaire, le bruit, est le rapport du nombre d’éléments
récupérés à tort sur le nombre d’éléments récupérés. Dans notre cas, la précision quantifie le
nombre d’élisions prédites de manière correcte sur le nombre d’élisions prédites. Un taux de
précision de 100 % correspondrait à l’absence totale de prédiction erronée d’élision. Une
précision de 74,44 % indique donc dans notre cas que près des trois quarts des élisions
prédites par notre algorithme ont effectivement été réalisées par les locuteurs du corpus.
Il est nécessaire d’insister sur l’importance de la F-mesure dans le cadre d’une
évaluation. Dans un cas extrême, on peut en effet atteindre un rappel de 100 % en prédisant
que tous les phénomènes rencontrés sont pertinents : cela reviendrait pour nous à élider la
totalité des phonèmes du corpus… La précision, cependant diminuerait de manière
proportionnelle car la plupart des élisions prédites le seraient à tort. La performance d’un
système est optimale lorsque ce dernier obtient le couple de valeurs (rappel, précision) le plus
élevé ; cette prise en compte simultanée du rappel et de la précision d’un système est reflétée
par la F-mesure qui correspond à la moyenne harmonique des deux taux. Notre algorithme
Chapitre 7 – Constitution de la base de données Aix-MARSEC
344
bénéficie d’une F-mesure de l’ordre de 60 % qui, sans caractériser un système optimal,
démontre la qualité de la démarche adoptée.
L’annotation phonématique simple obtenue bénéficie d’un taux de fiabilité de 94,79 %
qui, comme nous le développerons en fin de chapitre, pourrait être encore amélioré par
l’augmentation du taux de rappel.
3.3 Alignement du corpus Aix-MARSEC
L’une des caractéristiques qui font du corpus Aix-MARSEC une ressource
particulièrement intéressante pour toute recherche en phonétique/phonologie anglaise est liée
à la disponibilité d’un alignement phonématique qui constitue la base fondamentale sur
laquelle peuvent s’appuyer les alignements des autres niveaux de l’analyse linguistique
(syllabe, pied, unité rythmique, mot, unité intonative). Les sections suivantes vont donc
présenter brièvement les différentes méthodes qui se sont offertes à nous pour l’alignement
des phonèmes d’Aix-MARSEC avant de fournir une évaluation détaillée de la qualité de cet
alignement.
3.3.1 Méthodes d’alignement
Une fois le corpus phonétisé, deux méthodes principales d’alignement sont disponibles.
La première méthode consiste à utiliser un algorithme Viterbi classique (Viterbi 1967) qui
calcule la séquence optimale d’états dans un modèle de Markov caché (HMM) étant donnée la
séquence d’observations que constitue notre annotation phonétique. Cette méthode dite de
« force Viterbi » consiste alors à attribuer les trames temporelles pertinentes aux phonèmes
transcrits.
La seconde méthode fait appel à la technique de programmation dynamique (« Dynamic
Time Warping » ou « DTW ») traditionnellement utilisée pour le transfert d’un jeu d’étiquettes
d’un enregistrement à un autre (Di Cristo & Hirst 1997). Dans cette perspective, la tâche
consiste à effectuer un calcul de la distance spectrale entre un signal de synthèse produit à
partir de l’annotation phonématique et le signal d’origine.
La première version de l’alignement du corpus, que nous présentons dans cet article, est
fondée sur une implémentation de la première méthode, l’implémentation de la seconde
(DTW) étant prévue lors de phases d’alignement ultérieures que nous mentionnerons plus
loin.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
345
p t
HMMs
trames
Phonèmes
De manière plus précise, l’alignement du corpus Aix-MARSEC a été réalisé par
Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon. La méthode
employée a consisté à modéliser chaque phonème à l’aide d’un modèle de Markov caché
(HMM) « gauche-droite » composé de trois états émetteurs (Rabiner 1984) et entraîné, pour
des raisons de disponibilité, sur le corpus TIMIT. Chaque état est représenté par un modèle de
mélange de gaussiennes (« Gaussian Mixture Model ») à 8 composantes et des matrices de
covariance diagonales. Le signal sonore est quant à lui représenté à l’aide de douze
coefficients cepstraux (MFCC) auxquels viennent s’ajouter un coefficient d’énergie ainsi que
les coefficients delta et delta-delta pour un vecteur total de 39 coefficients par trame de signal.
L’algorithme Viterbi est ensuite utilisé pour attribuer la ou les trame(s) temporelle(s)
pertinente(s) à chaque état émetteur, comme le représente la figure 45 ci-dessous.
Figure 45 : états émetteurs des HMMs.
3.3.2 Evaluation
Tout alignement, de manière évidente, présente un intérêt dès lors qu’il est relativement
fiable. Le seuil de fiabilité retenu dépend bien entendu de l’exploitation prévue. Notre tâche
concernant l’évaluation de l’alignement phonématique du corpus Aix-MARSEC consiste
alors à fournir une quantification des décalages observés entre les données automatiques et les
données manuelles, et ce à différents seuils. Notre intérêt résidant principalement dans des
études appartenant au domaine phonétique, nous fournissons ici les résultats correspondants à
des seuils de 5 ms à 64 ms, ordre de valeur généralement retenu dans ce type d’étude (Di
Cristo & Hirst 1997).
L’évaluation des « erreurs » d’alignement dans le corpus a impliqué la comparaison (en
collaboration avec Caroline Bouzon) de 4 fichiers d’environ une minute de parole alignés
manuellement avec l’alignement automatique de ces mêmes fichiers, fourni par la méthode
décrite plus haut. La mesure des décalages a été effectuée de manière automatique à l’aide de
Chapitre 7 – Constitution de la base de données Aix-MARSEC
346
scripts que nous avons développés en langage Perl, et peut être résumée à l’aide du tableau
suivant :
Seuil % de décalages
inférieurs au seuil
64 ms 93.25 %
32 ms 82.02 %
20 ms 68.37 %
16 ms 59.97 %
15 ms 57.40 %
10 ms 42.43 %
5 ms 23.72 %
Tableau 11 : Evaluation de l’alignement automatique à différents seuils.
On voit que l’alignement obtenu de manière automatique est fiable à près de 70 % pour
un seuil d’acceptabilité de 20 ms. Ce résultat, sans toutefois constituer un score remarquable,
est cependant de l’ordre des 77 % présentés par Dalsgaard et al. 1991 pour deux minutes de
parole anglaise lue extraite du corpus EUROM0.
Ces résultats quantifient un produit dont il nous semble important de dissocier les deux
composantes :
• la composante « phonétisation » dont la finalité est l’obtention d’une suite de
phonèmes correspondant de manière optimale avec la production effective des
locuteurs ;
• la composante « alignement » dont la finalité est la mise en correspondance temporelle
des étiquettes de phonèmes avec les portions de signal correspondantes.
La qualité globale de l’alignement final dépend donc de la qualité de chacune de ces
composantes. On pourra alors considérer qu’il y a amélioration de l’alignement final si l’une
des deux composantes voit sa qualité croître sans que la qualité de l’autre composante ne
décroisse. Dans le cas qui nous intéresse ici, la composante « phonétisation » comporte deux
phases : phonétisation brute puis optimisation par règles d’élision. Nous avons vu que la
phase d’optimisation permet une amélioration de la qualité de la composante
Chapitre 7 – Constitution de la base de données Aix-MARSEC
347
« phonétisation » ; il nous semble alors légitime de nous questionner sur l’impact de cette
phase d’optimisation sur la composante « alignement ».
Pour résumer, pour que la qualité globale de l’alignement final soit effectivement
améliorée par l’optimisation de la composante « phonétisation », il faut que la composante
« alignement » ne soit pas pénalisée par cette optimisation.
Dans cette perspective, nous avons comparé les décalages d’alignement pour les
versions respectivement optimisée et non optimisée de notre phonétisation. Comme le
montrent la figure 46 ci-dessous, les distributions observées ne semblent pas différer de
manière significative.
-300 -200 -100 0 100 200
-300
-200
-100
010
020
0
Graphique Quantile-Quantile
Erreurs en ms sans élisions
Erre
urs
an m
s av
ec é
lisio
ns
Figure 46 : Graphique quantile-quantile des distributions des erreurs pour les alignements
fondés sur les phonétisations sans et avec élisions.
Une analyse visuelle du graphique semble indiquer une absence de différence
significative entre les deux conditions analysées (cf . la droite à 45°). Cette observation des
distributions, cependant, notamment en ce qui concerne la significativité des résultats
suggérés, doit être corroborée par des tests statistiques formels.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
348
On remarquera cependant, après une rapide observation de la figure 47 ci-après, que les
distributions observées divergent de manière significative avec des distributions normales ;
cette divergence est confirmée par les indices d’aplatissement (ou « kurtosis ») et de
dissymétrie (ou « skewness ») donnés dans le tableau 12.
Sans élisions
Erreurs en ms
Fréq
uenc
es
-300 -100 0 100
010
020
030
040
050
060
070
0
Avec élisions
Erreurs en ms
Fréq
uenc
es
-300 -100 100
010
020
030
040
050
060
070
0
Figure 47 : Histogrammes des distributions des erreurs pour les alignements fondés sur les
phonétisations sans et avec élisions.
Indices Sans élisions Avec élisions Dist. normale
Aplatissement 13,07 14,64 1
Dissymétrie -0,29 -0,57 0
Tableau 12 : Aplatissement et dissymétrie pour les distributions des erreurs, mis en rapport
avec une distribution normale.
Cette divergence de la normale, notamment en ce qui concerne les forts coefficients
d’aplatissement observés (caractéristiques d’une forte concentration autour de la moyenne),
rend inapplicables d’une part une classique analyse de variance ou un test de Student pour
tester l’hypothèse de l’égalité des moyennes, et, d’autre part, le test de Fisher pour tester
l’égalité des variances, donnée de dispersion qui n'a de sens que dans le cadre d'une
Chapitre 7 – Constitution de la base de données Aix-MARSEC
349
distribution normale. Nous avons donc eu recours à des tests qui n’exigent pas la normalité
des distributions et avons testé les hypothèses d’égalité des moyennes et d'absence de
divergence entre les distributions au moyen du logiciel/environnement de programmation R
(R Project for Statistical Computing).
Nous avons tout d'abord utilisé le test de somme ordonnée de Wilcoxon (avec correction
de continuité) afin de tester l'hypothèse de l'égalité des moyennes. Avec une p-valeur de
0,7757, ce test confirme l'égalité des moyennes des erreurs d'alignement, que la phonétisation
se soit appuyée sur une version brute de la phonétisation (sans élisions) ou sur une version
optimisée (avec élisions).
Le test de Kolmogorov-Smirnov pour deux échantillons a finalement été employé afin
de tester l'hypothèse de l'absence de divergence entre les deux distributions. Avec une p-
valeur de 1 (arrondie à la seizième décimale), ce test confirme sans ambiguïté l'absence de
différence significative entre les deux distributions, et ce malgré des nombres d'éléments
(phonèmes) nécessairement différents.
Nous pouvons donc conclure d'après ces évaluations quantitatives que la distribution
des erreurs n’est pas significativement différente selon que la phonétisation est optimisée
(règles d’élisions) ou pas ; cela signifie que l'application de nos règles d'élision à la
phonétisation brute du corpus ne génère aucun biais durant la phase d'alignement
automatique.
La composante « phonétisation » voit donc sa qualité croître alors que la qualité de la
composante « alignement » reste constante. L’application des règles d’élision à notre
phonétisation brute permet ainsi une amélioration de la qualité globale de l’alignement final,
dont la fiabilité est de l'ordre de 70% pour un seuil de 20 ms.
3.4 Autres niveaux d’analyse
Comme nous l’avons mentionné plus haut, Aix-MARSEC peut être conçu comme une
base de données fournissant des informations à différents niveaux de l’analyse linguistique.
Venant de présenter les détails de la phonétisation et de l’alignement d’Aix-MARSEC, nous
proposons à présent de mentionner les unités linguistiques d’autres niveaux dont l’alignement
est fondé sur celui des phonèmes. Nous inclurons aussi dans cette rubrique une évocation de
l’annotation prosodique fréquentielle, effectuée de manière totalement indépendante, mais
dont la mise en relation avec la segmentation et l’alignement aux autres niveaux présente un
intérêt certain et constitue à l’heure actuelle l’une des thématiques les plus populaires.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
350
3.4.1 Unités syllabiques
Le niveau syllabique constitue le premier niveau supérieur au phonème que nous avons
isolé sur la base de la phonétisation et de l’alignement. De manière plus précise, nous avons
adapté l’algorithme écrit par Daniel Hirst et qui effectue, sur la base d’une suite de phonèmes,
un regroupement de ces derniers en syllabes. Dans ce cadre, le principe d’Attaque Maximale
(« Maximal Onset Principle ») de Pulgram 1970 est utilisé : selon ce principe, la plus grande
séquence de consonnes obéissant aux règles phonotactiques de l’anglais est systématiquement
préférée en tant qu’attaque syllabique ; à titre d’exemple, l’algorithme analyserait la séquence
/pstskrpt/ (« postscript ») à partir de la droite, identifierait le noyau // et regrouperait en
attaque la séquence maximale licite /skr/ car la séquence immédiatement supérieure, /tskr/,
n’est pas licite ; une frontière syllabique entre /pst/ et /skrpt/ serait donc ainsi générée.
Cet algorithme a été intégré au script Perl 04_mtx+prontopho.pl (version 16 ; développé
par nous en collaboration avec Daniel Hirst), utilisé lors de l’optimisation de la phonétisation.
Il est appliqué en tenant compte de frontières de mot et permet aussi le découpage des
syllabes ainsi obtenues en composants syllabiques (attaque, noyau et coda) selon les mêmes
principes.
On retiendra donc que l’alignement de la phonétisation permet le regroupement (et
l’alignement)141 à deux niveaux d’analyse directement supérieurs, en composants syllabiques
et en syllabes.
3.4.2 Unités rythmiques
Le découpage en unités rythmiques et leur alignement avec les syllabes constitue un
niveau supplémentaire d’analyse. Les modèles rythmiques d’Abercrombie 1964 et de Jassem
1952 sont les deux modèles qui ont été utilisés dans le cadre d’Aix-MARSEC.
Pour des raisons pratiques, l’implémentation de ces deux types de segmentation a été
effectuée à l’aide de deux scripts Perl distincts (06_a_add_Aber.pl et 06_b_add_Jassem.pl)
qui prennent en compte des informations en provenance du niveau syllabique, mais aussi du
niveau orthographique comportant l’annotation prosodique en TSM (afin de récupérer les
« pitch accents » non prévisibles à partir des « stress accents »).
141 L’alignement lui-même est effectué à l’aide du script 09_re_align.pl (version 6 ; développé par nous), après
d’autres étapes.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
351
Pour plus de détail, nous renvoyons le lecteur à Bouzon 2004 qui présente une analyse à
la fois théorique et expérimentale de ces deux modèles rythmiques.
3.4.3 Annotation fréquentielle
Aix-MARSEC, finalement, comporte aussi un ensemble de niveaux d’annotation
relatifs à la prosodie. Ainsi, en plus de l’annotation héritée de SEC (via les TSM de MARSEC
et la segmentation en unités intonatives mineures et majeurs), la totalité des 408 fichiers du
corpus a été automatiquement annotée à l’aide des algorithmes MOMEL et INTSINT au sein
de l’éditeur ProZEd (cf. chapitre 5).
Ce processus fournit un ensemble de fichiers dont certains aux formats PitchTier et
TextGrid de Praat, ce qui permet ensuite leur mise en commun avec les autres fichiers à l’aide
du script Praat 10_momel_mergetiers.praat (développé par nous).
Plus particulièrement, l’application de ces algorithmes fournit :
• deux niveaux au sein du TextGrid général d’annotation (précisant d’une part
l’emplacement des points cibles MOMEL et leur codage INTSINT, et d’autre part la
valeur en hertz de ces points cibles) ;
• un fichier PitchTier (par fichier son) permettant d’une part la représentation des points
cibles dans l’espace temps/fréquence et d’autre part celle de leur interpolation à l’aide
de courbes splines quadratiques, conformément à MOMEL.
4 Synthèse générale
Bilan
Ce chapitre nous a permis de présenter le projet Aix-MARSEC en tant que corpus et
base de données d’anglais britannique oral authentique.
Composé de 195.687 phonèmes, regroupés en 88.794 syllabes qui composent elles-
mêmes 54.083 mots pour un total de 5 heures 30 de parole, Aix-MARSEC est caractérisé par
un alignement à différents niveaux de granularité, depuis le phonème jusqu’à l’unité
intonative en passant par les composant syllabiques, les syllabes et les unités rythmiques
d’Abercromnie 1964 et de Jassem 1952.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
352
Ces caractéristiques, auxquelles viennent s’ajouter un codage et un alignement
automatique de l’intonation à l’aide des algorithmes MOMEL et INTSINT, font d’Aix-
MARSEC une base unique pour tout oraliste travaillant sur l’anglais britannique.
Concernant l’exploitation plus particulière d’Aix-MARSEC dans le cadre de l’analyse
des interactions anaphore - onset, nous noterons que les étapes de phonétisation et
d’alignement phonématique, et l’alignement des niveaux supérieurs, présentent pour nous un
intérêt tout particulier dans la mesure où elles ont notamment autorisé l’exploitation de
données temporelles et la mesure précise des valeurs fréquentielles d’onset auxquelles nous
avons eu recours dans l’étude décrite dans le chapitre suivant.
La figure 48 ci-dessous donne un aperçu de l’annotation multi niveau disponible dans
Praat :
Figure 48 : Exemple d’un TextGrid d’annotation d’Aix-MARSEC dans Praat.
Les outils et le corpus Aix-MARSEC sont disponibles gratuitement sur la page du
English Prosody Group of Aix du LPL (www.lpl.univ-aix.fr/~EPGA/), permettant ainsi une
large diffusion et, nous l’espérons, un large retour qui contribuera à l’amélioration et à
l’enrichissement du projet dans la perspective évolutive que nous avons mentionnée plus haut.
Perspectives
Plusieurs perspectives majeures sont envisagées dans le cadre de l’amélioration d’Aix-
MARSEC. Nous retiendrons plus particulièrement trois pistes.
Chapitre 7 – Constitution de la base de données Aix-MARSEC
353
Amélioration de la phonétisation
Il est intéressant d’approfondir notre analyse de la mesure de rappel, qui correspond au
taux le plus faible du couple (rappel, précision). En effet, seule la moitié des élisions
effectives est prédite par notre algorithme. Cette mesure est à mettre en relation avec le faible
nombre d’élisions prédites (2% du corpus) et appelle quelques remarques. Notons tout
d’abord que certains phénomènes d’élisions récurrents mais non traités par des règles
d’élision ont été identifiés dans le corpus. La génération de nouvelles règles phonotactiques
prenant en compte ces observations est donc envisagée, laissant espérer une augmentation
significative du rappel du système de phonétisation. A titre d’exemple, on notera que la prise
en compte de l’élision du // initial de l’article défini « the », qui représente 22 % du silence,
permettrait une telle amélioration.
Finalement, les contraintes appliquées sur les règles ont entraîné à tort le blocage de
19,59 % des élisions prédites par les règles phonotactiques. Un affinement de ces contraintes
permettrait donc de diminuer cette proportion et ainsi d’augmenter le taux de rappel du
système.
Optimisation de la phonétisation
Etant donnée la valeur minimale de 10 ms de la fenêtre utilisée par le système
d’alignement automatique, il est envisageable d’optimiser la phonétisation du corpus par la
suppression des phonèmes dont la durée est fixée à ce seuil inférieur. En effet, lors de la phase
d’alignement automatique, tout phonème présent dans la phonétisation mais non détecté par
l’aligneur est automatiquement réduit à cette durée minimale. On peut donc faire l’hypothèse
que la suppression de ces phonèmes non détectés constituerait une approximation plus fine de
la production effective des locuteurs. L’application itérative et conditionnée (nouvelles règles
phonotactiques) de cette phase d’optimisation est ainsi envisagée et fera l’objet de travaux
ultérieurs.
Amélioration de l’alignement
L’amélioration du composant « correspondance temporelle » de l’alignement est
envisagée sous la forme de l’application itérative du système « DTW ». En effet, le calcul de
distance spectrale effectué par ce système lors de sa première utilisation permet un premier
alignement qui pourra ensuite servir de base à la génération d’un second signal de synthèse.
Ce procédé peut être appliqué de manière itérative (Di Cristo & Hirst 1997) jusqu’à obtention
d’un alignement au moins localement optimal, permettant ainsi la génération d’un alignement
Chapitre 7 – Constitution de la base de données Aix-MARSEC
354
dont il sera intéressant de comparer la précision temporelle avec celle obtenue à l’aide de la
première méthode (HMMs et Viterbi). Une seconde option, que nous avons déjà initiée,
consiste à développer des modèles phonétiques spécifiques au type d’anglais britannique
présent dans le corpus. Cette démarche implique nécessairement l’utilisation d’une partie
manuellement alignée du corpus ; à l’heure actuelle, près de 45 minutes ont été alignées
manuellement par plusieurs étudiants de DEA, ce qui laisse augurer l’évaluation prochaine
d’une nouvelle version de l’alignement phonématique du corpus.
Aix-MARSEC, la prosodie et l’anaphore
Le corpus idéal n’existe pas, cependant, et nous noterons que la nature relativement peu
« spontanée » des données présentes dans Aix-MARSEC pourrait gêner les analystes forcenés
de la « conversation quotidienne ». Nous noterons néanmoins que la diversité des styles de
parole présents dans Aix-MARSEC permet une première approche intermédiaire entre la
parole de laboratoire et la conversation, déjà partiellement satisfaisante dans le cadre qui nous
intéresse. Précisément, nous allons à présent nous tourner vers l’exploitation d’Aix-MARSEC
dans le cadre de l’interaction du marquage de la (dis)continuité discursive par l’anaphore et
par la prosodie. Les potentialités du corpus viennent d’être exposées, reste à les exploiter …
355
Chapitre 8
Aspects de production et analyse de corpus
356
Chapitre 8 : Sommaire
1 Hypothèses et cahier des charges expérimental ....................................... 358 1.1 Approche interactive de l’onset et de l’anaphore ...................................................... 358 1.2 Cahier des charges expérimental................................................................................. 360 1.3 Synthèse ......................................................................................................................... 360 2 Protocole expérimental ............................................................................... 361 2.1 Extraction des données ................................................................................................. 361
2.1.1 Avantages et limites des extractions manuelle et automatique............................ 361 2.1.2 Protocole adopté................................................................................................... 363
Critères d’extraction des anaphores pronominales ................................................... 363 Critères d’extraction des paramètres prosodiques .................................................... 365 Implémentation ......................................................................................................... 366
2.2 Echantillonnage............................................................................................................. 366 2.3 Normalisation ................................................................................................................ 373
2.3.1 Transformation logarithmique ............................................................................. 373 2.3.2 Procédure de normalisation.................................................................................. 375
3 Résultats et discussion................................................................................. 379 3.1 Résultats......................................................................................................................... 379
3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive............................ 379 3.1.2 Valeur fréquentielle d’onset et anaphore pronominale ........................................ 383
3.2 Discussion....................................................................................................................... 386 4 Synthèse générale ........................................................................................ 392
Chapitre 8 – Aspects de production et analyse de corpus
357
Les parties précédentes nous ont permis d’isoler un ensemble de ressources prosodiques
mobilisées par les interactants dans le cadre de l’organisation du discours. Dans le cadre d’une
structuration prosodique discursive à deux niveaux (unité intonative et au-delà), nous avons
choisi de retenir plus particulièrement la valeur de l’attaque ou onset des unités intonatives
comme phénomène particulièrement représentatif.
Intimement lié aux modifications des dimensions fréquentielles localisantes et au
phénomène de (supra-)déclinaison, l’onset constitue en effet un lieu privilégié du marquage
de la discontinuité tout autant que de la continuité discursive. Marqueur prosodique
polyvalent, l’onset nous semble ainsi constituer un candidat particulièrement prometteur dans
le cadre d’interactions avec l’anaphore pronominale.
C’est dans ce cadre général que nous avons choisi d’effectuer les différentes analyses
retracées ici. Plus précisément, la première partie de ce chapitre va nous permettre de
formuler de manière plus explicite les hypothèses que nous avons souhaité tester dans ce
travail de thèse, et de formuler un « cahier des charges expérimental » destiné à identifier
certains éléments indispensables au bon déroulement de nos analyses.
La seconde partie de ce chapitre exposera le détail du protocole utilisé pour l’extraction
et l’analyse des données, notamment dans le cadre de la démarche de recherche de
représentativité que nous aurons décrite dans la première section.
Nous terminerons ce chapitre par un compte-rendu des résultats obtenus et une mise en
perspective de ces derniers dans un cadre discursif complexe.
Chapitre 8 – Aspects de production et analyse de corpus
358
1 Hypothèses et cahier des charges expérimental
1.1 Approche interactive de l’onset et de l’anaphore
Nous avons proposé, au terme du chapitre consacré à la thématique du discours, de
considérer se concept comme une heuristique complexe de l’interaction langagière ;
explicitons cette proposition, et notamment les concepts d’heuristique et de complexité à la
lumière des phénomènes que nous avons mis en évidence concernant l’anaphore et la
prosodie.
Le caractère heuristique de l’interaction est lié à sa nature fondamentalement
dynamique. Comme le montre par exemple la modélisation de l’état attentionnel proposée
dans le cadre de la Théorie du Centrage, l’interprétation du discours procède par
« mouvements successifs » pouvant ajouter ou supprimer des espaces focaux en relation avec
son organisation hiérarchique et séquentielle. En d’autres termes, les modèles mentaux des
interactants semblent se structurer par ajouts, modifications et suppressions, comme le
proposent aussi à juste titre la pragmatique gricéenne (notamment avec le concept de
defaisabilité des implicatures conversationnelles), la Théorie de la Pertinence (par le biais de
la modification dynamique de l’environnement cognitif des interactants) ou encore le Modèle
Genevois (avec le principe de rétro interprétation). Les représentations mentales entretenues
par les interactants dans le cadre discursif sont ainsi à concevoir comme autant d’hypothèses
provisoires intégrées dans une démarche alternant inférences inductives et hypothético-
déductives.
La complexité de l’interaction est ici à prendre dans le sens le plus commun de la
Théorie de la Complexité. L’une des propriétés clés de ce type de conception réside dans
l’irréductibilité d’un système complexe à la somme de ses composantes ; il y a dans ce cadre,
au sein d’interactions multiples et non linéaires, émergence de propriétés qui n’appartiennent
pas en propre aux éléments constitutifs. Un exemple classique emprunté au système de la
géométrie permet de montrer que le concept de distance entre deux points n’est pas une
propriété spécifique des points, mais constitue en fait une propriété émergente résultant de
leur interaction. L’émergence de fonctions discursives de haut niveau (telles que les fonctions
énonciative ou d’expression de l’affect) à partir d’interactions entre éléments de la fonction
structurale, plus fondamentale, et d’autres niveaux de l’analyse, constitue selon nous un
exemple de cette complexité du discours. De manière similaire, les notions d’inférence ou
d’implicature conversationnelle, liées schématiquement à l’interprétation d’un texte dans un
Chapitre 8 – Aspects de production et analyse de corpus
359
contexte, repose sur cette propriété d’émergence du sens pragmatique dans le discours conçu
comme système complexe.
Dans ce contexte, l’ensemble des phénomènes discursifs que nous avons pu évoquer est
à appréhender au sein d’une vision massivement interactive des formes et des fonctions à tous
les niveaux de l’analyse linguistique. Dire alors que la description exhaustive de ces
phénomènes constitue une tâche extraordinairement complexe (au sens de « compliqué »,
cette fois-ci !) relève de l’euphémisme. Notre objectif dans ce chapitre sera néanmoins de
tenter l’analyse d’une infime partie de ce système complexe en nous concentrant sur les deux
éléments que sont la valeur de l’onset des unités intonatives et l’anaphore pronominale dans le
cadre du marquage de la continuité discursive.
De manière plus explicite, nous faisons l’hypothèse fondamentale de l’existence
d’interactions mesurables entre valeur d’onset et présence d’une anaphore pronominale en
relation avec la (dis)continuité discursive. Malgré la nature complexe du discours que nous
venons d’évoquer, cette hypothèse n’est pas triviale dans la mesure où la complexité implique
des relations non linéaires : en effet, dans ce contexte, la variation d’un élément donné
n’induit pas nécessairement la variation d’un autre élément avec lequel il interagirait.
Plus précisément, nous choisissons de concentrer nos efforts sur l’influence du
marquage de la continuité discursive par l’anaphore pronominale sur la réalisation des onsets
des unités intonatives. En conséquence, notre première hypothèse de travail (H1) est que le
marquage de la continuité discursive par l’anaphore à une influence mesurable et
explicable sur la réalisation de l’onset.
Nous avons vu que le marquage de la continuité discursive s’effectue notamment par
abaissement de la valeur de l’onset ; nous formulerons donc une seconde hypothèse (H2)
selon laquelle le marquage de la continuité discursive par l’anaphore induit un
abaissement de l’onset dans le cadre d’un marquage collaboratif par redondance.
L’investigation de ces hypothèses présuppose un protocole expérimental dont nous
allons à présent fournir le « cahier des charges ».
Chapitre 8 – Aspects de production et analyse de corpus
360
1.2 Cahier des charges expérimental
Nous ferons une présentation détaillée du protocole expérimental mis en place dans
cette étude dans la deuxième partie de ce chapitre. Pour l’heure, nous proposons de formuler
un « cahier des charges », véritable ensemble de contraintes préliminaires à la constitution de
ce protocole, précisant les éléments indispensables à l’analyse.
La mise en place d’un protocole expérimental permettant le test de nos hypothèses
repose selon nous sur un concept fondamental : la mesure.
Ainsi, si nous souhaitons pouvoir (in)valider nos hypothèses, il est indispensable que
nous puissions avoir des mesures représentatives de chaque élément impliqué ; cette notion
supplémentaire de représentativité implique que les mesures identifient le phénomène mesuré
et lui seul, et en donne une quantification pertinente.
Etant donné son caractère binaire, la mesure de l’anaphore pronominale discursive
consiste en son identification, dans le cadre de la double opposition avec l’anaphore liée et
l’anaphore discursive non-pronominale.
L’onset pourra quant à lui principalement être mesuré en liaison avec deux valeurs
graduelles : sa valeur fréquentielle et sa valeur d’alignement avec la syllabe accentuée. Le
chapitre 5 nous a permis de mentionner certaines ruptures de correspondance entre niveau
physico-acoustique et niveau phonétique au sein de la prosodie ; dans ce contexte, une mesure
représentative des valeurs d’onset devra neutraliser les effets microprosodiques qui influent
sur la réalisation de la courbe fréquentielle afin de ne conserver que la composante
macroprosodique, pertinente d’un point de vue linguistique. La représentativité des mesures
d’onset devra aussi tenir compte de la variabilité inter-locuteurs, qu’elle devra neutraliser par
normalisation.
1.3 Synthèse
Cette brève section a permis de préciser notre vision du discours en tant qu’heuristique
complexe, impliquant l’interaction dynamique de différents niveaux de l’analyse linguistique.
Ce cadre nous a de plus poussé à formuler les deux hypothèses de travail que nous souhaitons
tester dans le cadre de ce chapitre :
• H1 : le marquage de la continuité discursive par l’anaphore à une influence mesurable
et explicable sur la réalisation de l’onset.
Chapitre 8 – Aspects de production et analyse de corpus
361
• H2 : le marquage de la continuité discursive par l’anaphore induit un abaissement de
l’onset dans le cadre d’un marquage collaboratif par redondance.
Nous avons finalement souligné l’importance de la représentativité des mesures
relatives aux deux éléments que nous souhaitons analyser ; nous retiendrons notamment que
cette propriété implique un ensemble de contraintes sur le protocole expérimental mis en
place, notamment concernant l’identification des anaphores pronominales discursives et la
modélisation et la normalisation des valeurs d’onset.
C’est donc vers la présentation de ce protocole que nous allons à présent nous tourner,
avant de livrer et de discuter les résultats obtenus dans la partie finale de ce chapitre.
2 Protocole expérimental
Nous allons consacrer cette section à la présentation du protocole expérimental que nous
avons adopté dans cette étude. Nous identifierons plus précisément trois parties principales,
respectivement centrées sur la phase d’extraction des données expérimentales, sur
l’échantillonnage que nous avons effectué, et finalement sur la normalisation que nous avons
dû opérer afin de garantir un niveau minimal de représentativité à nos analyses.
2.1 Extraction des données
2.1.1 Avantages et limites des extractions manuelle et automatique
Comme nous l’avons précisé lors du précédent chapitre, Aix-MARSEC peut être
envisagé comme une base de données de parole aux dimensions pour le moins généreuses ;
rappelons notamment que les quelques 5 heures d’enregistrements renferment plus de 195.000
phonèmes, presque 89.000 syllabes et plus de 54.000 mots.
Dans ce contexte une analyse manuelle des données, que ce soit pour l’annotation ou
pour l’extraction, bien qu’envisageable, présente un ensemble de problèmes majeurs dont
nous retiendrons les suivants :
• Pour commencer par le problème le plus évident, nous soulignerons le fait que
l’analyse manuelle d’un grand corpus implique un investissement temporel important.
On pourra bien argumenter du fait que les outils modernes, tout en préservant le
caractère manuel de la démarche, facilitent et accélèrent cette dernière, notamment par
des méthodes d’affichage et d’annotation des données très performantes. L’argument
est valide, certes, mais notons tout de même à titre d’exemple que l’on estime
Chapitre 8 – Aspects de production et analyse de corpus
362
généralement (cf. Di Cristo & Hirst 1997) qu’une minute de parole nécessite
approximativement 12 heures de travail pour être phonétisée et alignée, et ce malgré
l’utilisation d’outils récents et ergonomiques.
• Un second aspect important réside dans le fait que l’extraction manuelle des données
ne garantit pas un traitement homogène de bout en bout. A contrario, étant donné un
ensemble de critères, le propre du traitement automatique est de n’autoriser aucune
variation liée à la fatigue, à l’évolution des seuils d’évaluation ni aucune différence
d’accord entre les experts.
• Nous retiendrons comme troisième problème majeur le fait que l’extraction manuelle
est relativement peu réactive et tolérante aux changements d’orientation des intérêts du
ou des chercheurs. Une démarche automatisée, en revanche, notamment dans le cadre
d’une démarche de type « data mining », lorsqu’une réorientation des recherches est
rendue indispensable par les premières analyses (et la relative inexpérience du jeune
chercheur …), ou bien encore en cas d’intégration de nouvelles informations
(obtention d’un tagging, etc.), entraîne généralement des modifications qui prennent
considérablement moins de temps qu’une nouvelle itération de l’extraction manuelle.
Ces éléments, et sans doute d’autres que nous n’avons pas mentionnés, constituent selon
nous autant d’arguments en faveur d’une démarche automatisée par opposition à une
démarche manuelle. Nous tenons cependant à insister fortement que le fait que nous ne
prônons par pour autant la remise en cause de la démarche manuelle : en effet, la dimension
longitudinale de ce type de démarche, et notamment l’interaction constante qu’elle implique
entre le chercheur et le corpus nous semble être une source précieuse pour nombre
d’hypothèses fructueuses.
Toujours en faveur de l’extraction manuelle des données, nous noterons de plus que
l’identification de phénomènes fonctionnels est une spécificité hors de la portée des systèmes
automatisés actuels ; de nombreux travaux s’attachent bien entendu à l’analyse de ce type de
phénomène142, mais force est de constater que les algorithmes, aussi efficaces soient-ils dans
le cadre de la reconnaissance des formes, sont de piètres juges en matière de fonction.
C’est sans doute précisément dans cette spécialisation dichotomique que se trouve une
partie de la solution concernant l’opposition des démarches manuelle et automatique
142 Nous avons nous même proposé dans Auran & Di Cristo 2003 un algorithme de prédiction de la longueur
subjective (aspect fonctionnel) des syllabes dans le discours en français.
Chapitre 8 – Aspects de production et analyse de corpus
363
d’analyse et d’extraction des données ; ainsi, à la suite de nombreux travaux, dont notamment
Hirst à paraître, nous pensons judicieux de laisser à chaque démarche la responsabilité de son
domaine d’excellence : de manière schématique, nous suggérons que l’humain s’attache à
l’analyse (annotation, extraction, etc.) des phénomènes fonctionnels, et que la machine
s’occupe des formes qu’elle sait identifier.
L’exemple du système ToBI (cf. Silverman et al. 1992) est particulièrement instructif.
Comme le soulignent Wightman 2002 et Hirst à paraître, l’identification des aspects
prosodiques fonctionnels tels que les frontières et les accents par des experts humains présente
un accord inter juges élevé (de 85% à 92% et 87% à 91%, respectivement) ; tel n’est pas le
cas concernant les aspects formels, avec moins de 50% d’indentification consensuelle pour 6
des 8 types de « pitch accents » et pour 6 des 9 types de tons de frontières, avec les mêmes
experts humains assistés de courbes de fréquence fondamentale et de spectrogrammes.
Fondant notre démarche sur ce constat et sur les contraintes suggérées par le cahier des
charges expérimental évoqué plus haut, nous allons à présent détailler le protocole employé
dans le cadre de notre analyse.
2.1.2 Protocole adopté
L’ensemble des contraintes que nous avons évoquées semble pouvoir se résumer à deux
éléments fondamentaux : la mesure et la spécialisation de l’extraction. Nous allons donc
aborder ces deux aspects concernant l’anaphore pronominale et les valeurs d’onset.
Critères d’extraction des anaphores pronominales
Nous pensons important de noter que le choix de l’anaphore pronominale comme
élément de nos analyses n’est pas innocent. En effet, en plus des aspects fonctionnels que
nous avons longuement évoqués (notamment le marquage robuste de la continuité discursive),
l’anaphore pronominale est caractérisée par une faible diversité formelle : par définition, elle
implique des pronoms personnels de troisième personne (et par extensions des formes
obliques telles que les pronoms et adjectifs possessifs) qui appartiennent à des classes
fermées.
Sur le plan fonctionnel, il est important de rappeler que les pronoms personnels (et leur
formes obliques) sont nettement plus spécialisés que les autres types d’expression
anaphorique que nous avons pu mentionner : contrairement aux expressions définies (qui
connaissent des usages génériques fréquents) et aux expressions démonstratives (souvent liées
Chapitre 8 – Aspects de production et analyse de corpus
364
à une forme de reclassification ou de rupture avec les conditions d’évaluation), les
expressions pronominales semblent pliées de manière privilégiée au marquage de la continuité
discursive.
Prenant en compte ces deux points, il semblerait donc que le problème de la
représentativité de la mesure, lié à l’identification des formes pertinentes, soit aisément
résolu : il suffirait d’extraire automatiquement les formes pronominales de troisième personne
pour obtenir les éléments pertinents à notre analyse. Deux problèmes majeurs se posent
cependant, respectivement relatifs au pronom « it » et à l’accentuation de l’anaphore
pronominale.
Le pronom « it » est une forme polyvalente utilisable non seulement dans le cadre de
l’anaphore mais aussi dans des constructions impersonnelles qu’une analyse automatique
fondée sur les éléments que nous avons ne permet pas d’identifier. Le risque est alors réel,
dans le cadre d’une extraction systématique, de récupérer ces formes dans leur fonction non
anaphorique.
En conséquence, nous avons choisi de ne pas effectuer l’extraction de la forme « it », et
proposons de l’inclure ultérieurement dans nos analyses lorsque le tagging et le parsing de
SEC, que nous avons obtenus récemment, auront été intégrés à Aix-MARSEC143.
Le second problème est relatif au fait que l’accentuation a une influence notoire sur le
fonctionnement de l’anaphore pronominale dans le cadre du marquage de la continuité
discursive (cf. chapitre 6). Ne pas différencier les pronoms anaphoriques accentués de leurs
contreparties inaccentuées risque donc de nous faire regrouper en une unique catégorie des
phénomènes fonctionnellement assez différents.
Notons cependant, que le problème de l’accentuation des anaphores pronominales,
implique en définitive la rencontre d’une forme lexicale (un pronom), d’une fonction
discursive (l’anaphore) et d’une fonction prosodique (l’accent). Seule la fonction prosodique
d’accentuation varie dans le cadre de l’opposition qui nous intéresse ici ; en conséquence,
nous proposons de prendre en considération l’annotation prosodique héritée de SEC et
143 Ceci constitue un exemple concret de l’intérêt de la démarche automatique.
Chapitre 8 – Aspects de production et analyse de corpus
365
MARSEC afin de distinguer les pronoms accentués (comportant une TSM) des pronoms
inaccentués (sans TSM)144.
Notons pour conclure que ces deux solutions sont en accord avec le principe évoqué
plus haut : la forme pronominale (pronoms personnels de troisième personne sauf « it ») est
extraite de manière automatique et la fonction prosodique d’accentuation est elle aussi extraite
automatiquement, mais à partir d’une annotation préalable manuelle.
Critères d’extraction des paramètres prosodiques
L’extraction des paramètres prosodiques implique en fait deux niveaux distincts : l’unité
intonative et l’onset lui-même.
Identifiées dans SEC sur la base de critères formels syntaxiques et fonctionnels
prosodiques (allongement final, pause, rupture rythmique, etc.), les unités intonatives sont en
fait composites et auraient été pour le moins délicates à identifier automatiquement. Ce travail
ayant déjà été effectué dans le corpus SEC (et repris dans MARSEC) par des experts humains,
nous n’aurons qu’à extraire automatiquement cette segmentation.
L’onset, est lui aussi un phénomène composite, mêlant aspects prosodiques fonctionnels
(c’est une syllabe accentuée) et formels (c’est la première syllabe accentuée d’une unité
intonative, ce qui constitue un critère formel). L’extraction de cette information sera alors à
effectuer en accord avec les principes de spécialisations évoqués plus haut : nous nous
appuierons ainsi sur l’annotation prosodique (manuelle) fournie par SEC et MARSEC pour
identifier les syllabes accentuées au sein d’une unité intonative, et recourrons à un algorithme
automatique pour extraire les informations relatives à la première de ces syllabes.
Comme nous l’avons rappelé plus haut, la prise en considération des variations
microprosodiques évoquées lors du chapitre 5 implique l’utilisation de l’algorithme MOMEL,
qui ne conserve que la composante fréquentielle macro-prosodique ; notons qu’une
normalisation sera de plus nécessaire afin de neutraliser la variation entre locuteurs et ainsi
obtenir une représentativité optimale des mesures.
144 Dans ce contexte, les pronoms porteurs d’une TSM « level » (perceptivement proéminents sans être pour
autant porteurs d’un « pitch accent »), tout comme les pronoms caractérisés par un « upstep » (lié à un
changement de registre), ont été classés dans la catégorie générale « accentué ».
Chapitre 8 – Aspects de production et analyse de corpus
366
Implémentation
Les différents critères que nous venons de mentionner ont été intégrés dans le script Perl
query_UI.pl (version 13) qui effectue schématiquement les traitements suivants :
• lecture des fichiers de données (fichiers TextGrids et fichiers de F0 modélisée à l’aide
de MOMEL) ne comportant qu’un seul locuteur145 ;
• identification des unités intonatives et classification (type majeur ou mineur de la
frontière droite, type de la frontière gauche, durée de l’unité, nombre de mots lexicaux,
etc.) ;
• recherche d’un éventuel pronom/adjectif personnel anaphorique (« he, she, they, him,
his, her, them, their ») au sein de l’unité intonative et codage éventuel (pronom
accentué codé 2 ; pronom inaccentué codé 1 ; absence de pronom codée 0) ;
• identification de l’onset et prises de mesures prosodiques (par exemple, valeur absolue
de l’onset, valeurs absolue et relative de l’onset par rapport à la dernière syllabe
accentuée de l’unité précédente, durée normalisée de l’onset, durée de l’unité
rythmique contenant l’onset, durée de l’unité intonative, etc.)
• génération des fichiers de sortie par enregistrement sous forme de données tabulaires.
Les données ainsi obtenues ont ensuite pu être chargées dans l’environnement
statistique R146, au sein duquel nous avons effectué toutes les analyses vers lesquelles nous
allons à présent nous tourner.
2.2 Echantillonnage
En dépit du fait que cette phase constitue une réelle première analyse des données
générées par notre script d’extraction, nous avons décidé d’inclure ce que nous avons appelé
« échantillonnage » dans cette section consacrée au protocole expérimental. Parmi les raisons
qui justifient ce choix, nous retiendrons particulièrement le fait que ces traitements constituent
une réponse directe aux contraintes spécifiées dans le cahier des charges et sont plus à
considérer comme des précisions méthodologiques que des résultats finaux.
145 Les fichiers multi-locuteurs ont été écartés, de fait de l’impossibilité de normaliser automatiquement les
valeurs de F0 de manière fiable. 146 The R Project for Statistical Computing, disponible sur le site: http://www.r-project.org
Chapitre 8 – Aspects de production et analyse de corpus
367
Par échantillonnage, nous entendons ici « sélection d’un échantillon représentatif des
phénomènes analysés ». Entendue dans son acception plus statistique, cette démarche va
consister pour nous à assurer un nombre raisonnable d’observations impliquant une anaphore
pronominale.
Une première analyse globale des données brutes nous permet de fournir les éléments
numériques suivants :
Enreg. UI A A 1 A 2 A3 A4 A5 38 8618 1053 973 2 10 34 34 % de Total 12,22% 11,29% 0,02% 0,12% 0,39% 0,39%
% de A 92,40% 0,19% 0,95% 3,23% 3,23%
Tableau 13 : Première analyse des données brutes.
Légende du tableau 1 :
• Enreg. : groupes d’extraits formant un enregistrement ;
• UI : nombre total d’unité intonatives (UI) extraites ;
• A : nombre total d’UI marquées par anaphore pronominale ;
• A1 : nombre d’UI marquées par anaphore pronominale inaccentuée ;
• A2 : nombre d’UI marquées par anaphore pronominale accentuée par upstep ;
• A3 : nombre d’UI marquées par anaphore pronominale accentuée ;
• A4 : nombre d’UI marquées par anaphore pronominale accentuée par upstep et en position d’onset ;
• A5 : nombre d’UI marquées par anaphore pronominale accentuée et en position d’onset.
L’application du script d’extraction des données à ainsi conduit à la sélection de 38
enregistrements mono-locuteurs pour une durée de plus de 3h 42min et à l’extraction de
données concernant 8618 unités intonatives dont
• 1053 (12,22%) contenaient au moins un pronom anaphorique,
• 973 (11,29%) contenaient au moins un pronom anaphorique et pas de pronom
anaphorique accentué et
• 80 (A2+A3+A4+A5, soit 0,92%) contenaient au moins un pronom anaphorique
accentué.
Chapitre 8 – Aspects de production et analyse de corpus
368
Ces premières analyses, et notamment la faible proportion d’unités intonatives
contenant un pronom anaphorique, nous encouragent à pousser un peu plus loin l’observation
des données, particulièrement concernant la distributions des anaphores pronominales
inaccentuées.
En effet, le risque principal dans le cas présent est de voir la plupart des occurrences
regroupées chez une groupe restreint de locuteurs, voire même un seul, et donc d’observer un
biais important (notamment en fonction du sexe de ce locuteur) dans les valeurs
fréquentielles.
En conséquence, nous allons étudier de manière plus précise les distributions des UIs
marquées et non marquées par anaphore pronominale inaccentuée. La figure 49 ci-dessous
représente, par groupe d’enregistrements, la distribution des unités intonatives non marquées
par anaphore pronominale ; La figure 50 ci-après représente, toujours par groupe
d’enregistrements, la distribution des unités intonatives marquées par anaphore pronominale
inaccentuée.
A01
A02
A03
A04
A05
A06
A07
A08
A09
A10
A11
A12
B04
C01
D01
D02
D03
G01
G02
G03
G04
G05
H01
H02
H03
H04
H05
K01
K02
M01
M02
M03
M04
M05
M06
M07
M08
M09
543210
Distribution des unités intonatives non marquées par anaphore pronominalepar groupe d'enregistrements
group[which(anaph == "0")]
anap
h[w
hich
(ana
ph =
= "0
")]
0
200
400
600
800
1000
1200
1400
Figure 49 : Distribution des unités intonatives non marquées par anaphore pronominale
par groupe d’enregistrements.
Chapitre 8 – Aspects de production et analyse de corpus
369
A01
A02
A03
A04
A05
A06
A07
A08
A09
A10
A11
A12
B04
C01
D01
D02
D03
G01
G02
G03
G04
G05
H01
H02
H03
H04
H05
K01
K02
M01
M02
M03
M04
M05
M06
M07
M08
M09
543210
Distribution des UI marquées par anaphore pronominale inaccentuée par groupe d'enregistrements
Groupes d'enregistrements
Effe
ctif
0
50
100
150
200
250
300
Figure 50 : Distribution des unités intonatives marquées par anaphore pronominale
inaccentuée par groupe d’enregistrements.
Nous tirerons particulièrement deux conclusions de ces distributions :
• premièrement, les enregistrements, de durées très différentes, contiennent
nécessairement des nombres d’unités intonatives très différents (cf. figure 49). On
notera par exemple que l’enregistrement C01 culmine à un total de 780 unités
intonatives (tous statuts confondus), alors que d’autres enregistrements n’en
regroupent que quelques unes.
• deuxièmement, la distribution des unités marquées par anaphore pronominale
inaccentuée montre elle aussi une grande disparité selon les groupes d’enregistrement,
avec des groupes très représentés (par exemple G01 avec 325 UIs marquées) et
d’autres largement sous-représentés.
Un échantillonnage est donc indispensable si l’on veut mesurer des tendances à valeur
générale, et pas uniquement celles du locuteur des enregistrements C01 ou G01. Dans ce
contexte, le problème principal consiste à définir les critères de l’échantillonnage.
Etant donné le cadre de notre étude, nous avons pour objectif de maximiser le nombre
d’occurrences de marquage par anaphore ; deux stratégies sont dès lors envisageables :
Chapitre 8 – Aspects de production et analyse de corpus
370
• premièrement, on pourra sélectionner les enregistrements dont les valeurs absolues
sont les plus élevées (tableau 14 ci-dessous) ;
• deuxièmement, on pourra sélectionner les enregistrements dont les valeurs relatives
(nombre d’unités marquées par anaphore pronominale inaccentuée sur nombre total
d’unité) sont les plus élevées (tableau 15 ci-après).
Enreg. UI A A 1 A1%UI
G01 709 325 295 41,61%G02 325 83 81 24,92%G05 396 53 53 13,38%M06 262 49 49 18,70%C01 1223 44 43 3,52%D02 630 43 41 6,51%G04 230 41 38 16,52%K01 223 34 32 14,35%D01 612 35 29 4,74%A04 295 24 24 8,14%A10 150 24 24 16,00%M05 123 24 24 19,51%A11 194 28 23 11,86%A03 145 21 20 13,79%
Tableau 14 : Tableau partiel par ordre décroissant d’effectif d’anaphore.
Chapitre 8 – Aspects de production et analyse de corpus
371
Enreg. UI A A 1 A1%UI
G01 709 325 295 41,61% G02 325 83 81 24,92% H05 51 12 12 23,53% H01 56 12 12 21,43% M05 123 24 24 19,51% M06 262 49 49 18,70% G04 230 41 38 16,52% A10 150 24 24 16,00% K01 223 34 32 14,35% A03 145 21 20 13,79% M09 81 12 11 13,58% G05 396 53 53 13,38% A06 157 23 19 12,10% A11 194 28 23 11,86%
Tableau 15 : Tableau partiel par ordre décroissant de pourcentage d’anaphore.
Nous proposons de coupler ces deux approches afin de définir un échantillon strict et un
échantillon élargi ; pour ce faire, nous allons fixer deux seuils minimaux (un seuil pour le
classement en termes absolus et un seuil pour le classement en termes relatifs) en dessous
desquels nous exclurons les enregistrements de notre échantillon.
Nous choisirons comme seuil absolu minimal la valeur moyenne du nombre d’unités
marquées par anaphore pronominale inaccentuée, c’est-à-dire 27,71.
Nous choisirons comme seuil relatif minimal la valeur moyenne du nombre d’unités
marquées par anaphore pronominale inaccentuée par rapport au nombre total d’unités
intonatives ; cette valeur est de 11,17%.
Nous allons ainsi inclure dans notre échantillon élargi tout groupe d’enregistrements
comportant plus de 27 ou plus de 11,17% d’unités intonatives marquées ; l’échantillon strict
accueillera quant à lui les enregistrements répondant simultanément à ces deux critères. Nous
parlerons groupes « qualifiés » dans le premier cas, et « doublement qualifiés » dans le
second.
Chapitre 8 – Aspects de production et analyse de corpus
372
Les groupes doublement qualifiés sont : A11, G01, G02, G04, G05, K01147 ; et les
groupes qualifiés sont A02, A03, A05, A06, A10, C01, D01, D02, H01, H05, M05 et M09.
Le tableau 16 ci-dessous résume les groupes retenus et précise leur durée absolue et
relative à l’ensemble des groupes retenus.
Enreg. Sexe Temps de parole en sec.
% sur Aix-MARSEC mono-locuteur (doublement) qualifiés
G01 F 1146 12,46%
G02 M 534 5,81%
G05 M 549 5,97%
G04 F 314 3,41%
K01 M 276 3,00%
Doublement qualifiés
A11 M 253 2,75%
A02 M 214 2,33%
A05 M 286 3,11%
A03 M 243 2,64%
A06 M 272 2,96%
A10 M 262 2,85%
C01 M 1763 19,17%
D01 M 971 10,56%
D02 M 1099 11,95%
H01 M 105 1,14%
H05 M 73 0,79%
M05 M 271 2,95%
Qualifiés
M09 M 140 1,52%
DUREE TOTALE 8771 sec.
(2 h. 26 min. 11 sec.)
Tableau 16 : Groupes d’enregistrements retenus après échantillonnage.
La suite de nos analyses portera à la fois sur l’échantillon strict et sur l’échantillon
étendu et nous tâcherons de détailler les différences lorsque cela s’avèrera pertinent.
147 Nous avons dû exclure M06 de nos mesures suite à un problème de détection de la F0 pour cet enregistrement
Chapitre 8 – Aspects de production et analyse de corpus
373
2.3 Normalisation
Comme nous l’avons précisé dans notre cahier des charges expérimental, la
normalisation s’avère indispensable à la représentativité des mesures. Nous allons donc
consacrer une rubrique spécifique à la méthode employée dans ce travail. Au préalable,
cependant, nous allons détailler la transformation logarithmique, traitement préliminaire
classique concernant des données temporelles et fréquentielles.
2.3.1 Transformation logarithmique
Les données temporelles et fréquentielles ont pour caractéristique inhérente de ne pas
pouvoir être négatives ; ceci explique le tassement des effectifs « à gauche » que l’on observe
généralement dans les histogrammes de distributions. La figure 51 ci-dessous confirme ce fait
pour notre échantillon élargi.
Distribution de la F0 brute des onsets de l'échantillon élargi
F0 brute de l'onset
Effe
ctifs
0 100 200 300 400 500 600
020
040
060
080
010
00
Figure 51 : Histogramme et courbe de densité des valeurs brutes de F0
des onsets de l’échantillon élargi.
La transformation logarithmique des données permet d’atténuer cet effet
d’accumulation artificielle des données en début de distribution, et fournit une distribution
plus proche d’une distribution normale, dont l’analyse statistique est plus aisée. La figure 52
Chapitre 8 – Aspects de production et analyse de corpus
374
ci-dessous représente nos valeurs fréquentielles d’onset après transformation logarithmique,
toujours pour l’échantillon élargi.
Distribution de la F0 transformée des onsets de l'échantillon élargi
F0 transformée de l'onset
Effe
ctifs
2 3 4 5 6
010
020
030
040
050
060
0
Figure 52 : Histogramme et courbe de densité des valeurs de F0 des onsets pour l’échantillon
élargi après transformation logarithmique.
Si cette distribution est moins dissymétrique, elle fait néanmoins ressortir une apparente
tendance bimodale dont les deux modes sont signalés par des flèches sur la figure 52. Nous
faisons l’hypothèse que cette bimodalité est notamment liée à la différence de sexe entre les
locuteurs.
La figure 53 ci-après représente sous forme de « boxplots » les distributions de F0
transformée pour l’échantillon élargi (partie gauche) et pour l’échantillon strict (partie droite).
Chapitre 8 – Aspects de production et analyse de corpus
375
F M
3.5
4.0
4.5
5.0
5.5
6.0
6.5
F0 transformée des onsetsen fonction du sexe du locuteur
Echantillon élargi
F M
3.5
4.0
4.5
5.0
5.5
6.0
6.5
F0 transformée des onsetsen fonction du sexe du locuteur
Echantillon strict
Figure 53 : F0 transformée des onsets pour l’échantillon élargi et pour l’échantillon strict
en fonction du sexe du locuteur.
Cette différence très significative dans les deux échantillons (ANOVA : F=1193 et
F=784 pour p<2.2e-16 / KS148 : D=0.057 et D=4874 pour p<2.2e-16) ne constitue en aucun
cas une découverte ; nous espérons cependant avoir montré au lecteur non spécialiste de
traitement statistique tout l’intérêt que représente une analyse préliminaire des données.
Il nous reste à présent à neutraliser la variabilité de valeur de F0 des onsets liée au sexe
dans le cadre d’une démarche de normalisation que nous allons à présent aborder.
2.3.2 Procédure de normalisation
La procédure de normalisation que nous allons mettre en place consiste en une
« transformée z » des valeurs logarithmiques. Comme le représente l’équation 3 ci-dessous,
cette procédure statistique courante149 consiste à exprimer une valeur donnée en terme de
différence par rapport à la moyenne (on parle de centrage) divisée par l’écart type (on parle de
réduction) :
148 Nous présenterons ce second test statistique (Kolmogorov-Smirnov) un peu plus loin. 149 Que l’on retrouve dans la procédure de prédiction des élisions de phonèmes que nous avons détaillée dans le
chapitre précédent.
Chapitre 8 – Aspects de production et analyse de corpus
376
typeEcartMoyenneValeurNorm.
−=
Équation 3 : Valeur normalisée exprimée en fonction de la valeur brute et de la moyenne
et de l’écart type pour chaque sujet.
Appliquée à notre analyse, cette méthode permet d’obtenir un ensemble de valeurs
indépendantes du niveau et de l’étendue fréquentiel du locuteur ; ce qui permet une mise en
commun et une comparaison des données de plusieurs locuteurs.
Cette méthode de normalisation, cependant, exige pour être pertinente que les notions
de moyenne et d’écart type aient un sens pour la variable analysée ; en d’autres termes, il faut
que la distribution de cette variable soit relativement proche d’une distribution normale. La
section précédente nous a permis de voir que la transformation logarithmique de nos données
permet d’obtenir une distribution sensiblement plus proche de la distribution normale.
Il nous semble cependant opportun de quantifier précisément la similitude des
distributions de valeurs fréquentielles d’onset pour chacun des groupes retenus avec une
distribution normale. Nous allons ainsi tout d’abord nous livrer à l’analyse des
caractéristiques d’aplatissement et de dissymétrie à l’aide du tableau 17 ci-après.
Chapitre 8 – Aspects de production et analyse de corpus
377
Aplatissement Dissymétrie
Dist. Norm 1 0
G01 0,95 0.62
G02 -0.76 0.17
G05 0.33 0.62
G04 -0.78 0.06
K01 -0.36 0.48
A11 2.13 0.45
A02 1.74 1.52
A05 32.88 -3.29
A03 -0.11 0.04
A06 -0.22 0.04
A10 -0.48 0.44
C01 15.16 -0.81
D01 0.09 0.02
D02 0.41 0.84
H01 -0.78 0.52
H05 1.81 -0.70
M05 0.79 0.89
M09 -0.21 0.82
Tableau 17 : Aplatissement et dissymétrie des distributions de F0 transformée des onsets.
Ces indices quantitatifs laissent penser que la distribution des valeurs transformées
semble dans certains cas se démarquer de manière importante d’une distribution normale.
Nous allons donc recourir au test de Kolmogorov-Smirnov qui permet de comparer deux
distributions sans que celles-ci soient nécessairement proches d’une distribution normale.
Notre objectif va ici consister à comparer les distributions des valeurs transformées avec
une distribution normale générée aléatoirement, mais de même effectif, de même moyenne et
de même écart type. Les résultats de ces tests sont résumés dans le tableau 18 ci-après, qui
reprend aussi les valeurs d’aplatissement et de dissymétrie :
Chapitre 8 – Aspects de production et analyse de corpus
378
Aplatissement Dissymétrie D P-Valeur
G01 0,95 0.62 0.0664 0.2323
G02 -0.76 0.17 0.0862 0.1791
G05 0.33 0.62 0.0684 0.3146
G04 -0.78 0.06 0.0913 0.2931
K01 -0.36 0.48 0.1031 0.1864
A11 2.13 0.45 0.0825 0.5243
A02 1.74 1.52 0.1538 0.0377
A05 32.88 -3.29 0.1468 0.0182
A03 -0.11 0.04 0.069 0.8807
A06 -0.22 0.04 0.0955 0.4707
A10 -0.48 0.44 0.1 0.4413
C01 15.16 -0.81 0.0828 0.0005
D01 0.09 0.02 0.0525 0.3708
D02 0.41 0.84 0.1048 0.002
H01 -0.78 0.52 0.2443 0.1528
H05 1.81 -0.70 0.1176 0.872
M05 0.79 0.89 0.0569 0.9885
M09 -0.21 0.82 0.1852 0.1243
Tableau 18 : Aplatissements, dissymétries, statistiques D et P-valeurs des tests de
Kolmogorov-Smirnov effectués sur les distributions de F0 transformée des onsets.
Avec un seuil classique de confiance à 0.05, nous rejetons les groupes
d’enregistrements A02, A05, C01 et D02, qui diffèrent de manière significative d’une
distribution normale. En conséquence, nous appliquerons notre méthode de normalisation aux
autres groupes d’enregistrements, vers l’analyse desquels nous allons à présent nous tourner.
Chapitre 8 – Aspects de production et analyse de corpus
379
3 Résultats et discussion
Après avoir défini le protocole d’extraction et de traitement préliminaire des données,
nous allons à présent évoquer les résultats de nos analyses et proposer une mise en perspective
de ces derniers dans le cadre d’une discussion.
3.1 Résultats
Cette rubrique va se décomposer en deux parties traitant des relations que l’onset
entretient avec le marquage de la (dis)continuité discursive indépendamment de l’anaphore
ainsi que l’influence de l’anaphore pronominale sur sa réalisation.
3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive
Plus qu’un réel apport de données nouvelles, l’analyse des relations unissant la valeur
fréquentielle des onsets à la structure prosodique devrait nous permettre de valider le
protocole mis en place.
Parmi les mesures que nous avons extraites de manière automatique, nous avons choisi
de sélectionner deux mesures relatives à la structuration prosodique. La première mesure
correspond à la nature de la frontière finale de l’unité intonative « en cours » ; la seconde
concerne la nature de la frontière initiale de l’unité « en cours », c'est-à-dire la frontière finale
de l’unité précédente. Comme nous allons le voir avec la figure 54 ci-dessous, ces deux
mesures permettent l’apport d’informations complémentaires.
Figure 54 : Exemple de segmentation prosodique extraite de l’enregistrement A0101.
Considérons tout d’abord l’information apportée par la nature de la frontière finale de
l’unité en cours. Dans l’exemple de la figure 54, la frontière finale de la première unité
intonative a été identifiée comme majeure (TSM « || ») par les annotateurs du SEC, tout
comme pour l’unité 5 ; ce que ces deux frontières ont en commun est, en accord avec notre
vision principalement ponctuelle, de marquer un regroupement rétroactif par le biais d’une
[Good Morning] [More news about the Reverend Sun Myung Moon] 1 2 || | [founder of the Unification Church] [who’s currently in jail] [for tax evasion]
3 4 5 | | ||
Chapitre 8 – Aspects de production et analyse de corpus
380
discontinuité finale liée à la présence d’un allongement et notamment d’un pause longue (cf.
Williams 1996 et ici même, chap. 7, pour l’explicitations des critères utilisés). Nous coderons
ces unités « U-Maj » ou simplement « Maj », par opposition aux « U-min » ou plus
simplement « min », marquées par une frontière finale mineure (TSM « | »). Dans ce cadre,
notre hypothèse est que la valeur fréquentielle de l’onset devrait être abaissée ou non marquée
en cas d’U-MAJ non précédée d’U-min, comme pour 1 dans notre exemple.
A contrario, l’information que l’unité en cours est U-min (frontière finale « | ») ne nous
permet pas de formuler d’hypothèse concernant la valeur fréquentielle de l’onset ; en effet,
une telle unité peut tout à fait suivre une U-MAJ (comme l’UI 2 de notre exemple) et donc
probablement marquer une discontinuité initiale, ou bien suivre une autre U-min (comme les
UI 3 et 4 de notre exemple) et donc probablement marquer une continuité initiale.
Cette lacune est compensée par le second type d’information, qui concerne l’unité
précédente. Lorsque celle-ci est U-MAJ (c’est le cas pour l’UI 2 de noter exemple, précédée
par l’UI 1 qui est U-MAJ), l’unité en cours est liée à une discontinuité initiale, et nous
prédisons donc une augmentation de la valeur fréquentielle de l’onset.
Lorsque l’unité précédente est U-min, aucun regroupement rétroactif n’a déjà été
effectué et l’on peut postuler que l’on se situe dans une perspective de continuité discursive,
avec soit une valeur fréquentielle non marquée soit une valeur abaissée de l’onset. Ce cas de
figue est représenté par l’UI 3 de notre exemple.
On peut résumer ces hypothèses à l’aide du tableau 19 ci-dessous :
Type Prédiction
| 0 / < / > En cours
|| <
| < Précédente
|| >
Tableau 19 : Prédiction des valeurs d’onset en fonction de la nature de la frontière finale de
l’unité en cours ou de l’unité précédente.
Chapitre 8 – Aspects de production et analyse de corpus
381
En croisant ces deux types d’informations, on peut obtenir les prédictions représentées
dans le tableau 20 ci-dessous :
En cours Précédente Type
| || | ||
| 0 / < > En cours
|| < ?
| 0 / < < Précédente
|| > ?
Tableau 20 : Prédiction des valeurs d’onset en fonction de la nature de l’unité en cours
et de l’unité précédente.
L’analyse de notre échantillon confirme les prédictions effectuées. De manière
schématique, nous retiendrons que les valeurs fréquentielles d’onset sont les plus élevées
lorsque l’unité précédente est U-MAJ et l’unité en cours U-min (configuration MAJ/min), ce
qui correspond à une unité initiale de paraton dans le modèle utilisant ce concept. A l’autre
extrême, les valeurs les plus basses correspondent aux cas où l’unité précédente est U-min et
où l’unité en cours est U-MAJ (configuration min/MAJ), ce qui correspond à une unité finale
de paraton.
Les valeurs intermédiaires se rencontrent lorsque les deux unités sont U-MAJ
(configuration MAJ/MAJ, c'est-à-dire lorsque l’unité en cours constitue un paraton à elle
seule) ou U-min (configurations min/min, lorsque l’unité en cours n’est ni initiale ni finale de
paraton). La figure 55 ci-après résume cette situation :
Chapitre 8 – Aspects de production et analyse de corpus
382
min / min MAJ / min min / MAJ MAJ / MAJ
-4-2
02
4
Valeurs fréquentielles des onsets en fonction de la nature de l'unité précédente et de celle de l'unité en cours
Figure 55 : Valeurs fréquentielles des onsets en fonction de l’unité intonative précédente et de
l’unité intonative en cours (échantillon élargi).
Le tableau 21 ci-dessous résume la significativité des effets dans le cadre d’une analyse
de variance à deux facteurs croisés :
Echantillon élargi Echantillon strict
Statistique F P-valeur Statistique F P-valeur
UI précédente 312.161 < 2.2e-16 113.4834 <2.2e-16
UI en cours 178.513 < 2.2e-16 88.1092 <2e-16
Précédente : en cours 14.111 0.0001752 2.8277 0.0928
Tableau 21 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et srict.
Chapitre 8 – Aspects de production et analyse de corpus
383
Si les configurations min/min et MAJ/MAJ sont toutes deux significativement
différentes des autres configurations, elles ne sont en revanche significativement différentes
l’une de l’autre que dans notre échantillon élargi (avec une p-valeur de 0,03226 juste en
dessous du seuil classique de 0,05). Les tableaux 22 et 23 ci-après rassemblent les p-valeurs
liées aux tests de Kolmogorov-Smirnov des comparaisons binaires :
min / min MAJ / min min / MAJ MAJ / MAJ
min / min 2.694e-07 3.874e-10 0.03226
MAJ / min < 2.2e-16 4.429e-09
min / MAJ 3.475e-14
MAJ / MAJ
Tableau 22 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon élargi.
min / min MAJ / min min / MAJ MAJ / MAJ
min / min 0.000539 7.188e-05 0.7202
MAJ / min 2.016e-13 7.257e-05
min / MAJ 0.0001535
MAJ / MAJ
Tableau 23 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon strict.
En résumé, cette première série d’analyses confirme les observations antérieures (cf.
chapitre 6) relatives au marquage prosodique de la (dis)continuité discursive ; ce fait permet
de valider le protocole que nous avons mis en place, ce qui nous conduit à nous tourner à
présent vers l’étude des interactions entre anaphore et valeur fréquentielle d’onset.
3.1.2 Valeur fréquentielle d’onset et anaphore pronominale
Il semble utile de rappeler ici nos deux hypothèses fondamentales :
• H1 : le marquage de la continuité discursive par l’anaphore à une influence mesurable
et explicable sur la réalisation de l’onset.
• H2 : le marquage de la continuité discursive par l’anaphore induit un abaissement de
l’onset dans le cadre d’un marquage collaboratif par redondance.
Chapitre 8 – Aspects de production et analyse de corpus
384
Comme le montre le tableau 24 ci-dessous, l’analyse des données vérifie partiellement
l’hypothèse H1 :
Echantillon élargi Echantillon strict
Statistique F P-valeur Statistique F P-valeur
Anaphore 9.5963 0.001966 1.5179 0.2181
Tableau 24 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict.
La prise en compte de l’échantillon élargi indique en effet (au seuil classique de 0,05)
une influence du marquage de la continuité discursive par anaphore pronominale sur la
réalisation des valeurs fréquentielles des onsets (F=9,5963, p=0,001966). Cette influence,
cependant, ne semble pas être confirmée dans l’échantillon strict, ce qui laisse supposer un
effet du locuteur150.
Le tableau 25 ci-dessous fournit les résultats de l’analyse de variance à deux facteurs
croisés prenant en compte le facteur « anaphore » et le facteur « locuteur » pour les deux
échantillons :
Echantillon élargi Echantillon strict
Statistique F P-valeur Statistique F P-valeur
Anaphore 9.6058 0.001956 1.5175 0.2181
Locuteur 0.5182 0.904503 0.5264 0.7565
Anaphore : Locuteur 1.7627 0.048687 1.3509 0.2400
Tableau 25 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict.
Ces résultats semblent indiquer trois phénomènes principaux :
• le marquage de la continuité discursive par anaphore pronominale paraît influencer la
réalisation des onsets (c’est ce que suggère la significativité observée pour ce facteur
dans l’échantillon élargi) ;
150 Un effet du style de parole a aussi été envisagé, mais est écarté par nos analyses statistiques (ANOVAs à un et
deux facteurs croisés, l’anaphore étant le second facteur) tant sur l’échantillon strict que sur l’échantillon élargi.
Chapitre 8 – Aspects de production et analyse de corpus
385
• il semble cependant que cet effet est minime, comme le laissent penser la faible
statistique et la p-valeur supérieure à 0,001 ;
• l’effet de l’anaphore pronominale sur la valeur d’onset est visiblement dépendant des
locuteurs, comme le montre d’une part la perte de significativité liée au passage à
l’échantillon strict et d’autre part la significativité (p-valeur de 0,048687) de
l’interaction entre les deux facteurs.
Nous enchaînerons donc temporairement sur ce point en observant que si l’ampleur et la
variabilité de l’effet de l’anaphore sur l’onset sont plus ténues et complexe que ce que nous
supposions, le sens de cet effet est pour le moins surprenant.
Au niveau global de nos échantillons, en effet, nos analyses font ressortir que la valeur
normalisée de l’onset « avec anaphore » est supérieure à celle observée « sans anaphore » ; le
tableau 26 ci-dessous précise le détail de ces mesures :
Echantillon élargi Echantillon strict
- Anaphore + Anaphore - Anaphore + Anaphore
Valeurs normalisées -0.1531412 -0.01967583 -0.1556522 -0.0929139
Différence 0.1334653 0.06273824
Tableau 26 : Moyennes et différences des valeurs normalisées
pour les échantillons élargi et strict.
Afin d’avoir une idée moins abstraite de la différence observée, nous avons effectué une
analyse du facteur anaphore pour la réalisation des onsets par locuteur, ce qui nous a permis
d’identifier 6 locuteurs pour lesquels cet effet était significatif ; nous avons ensuite extrait les
valeurs fréquentielles moyennes d’onset dans chaque condition (avec et sans anaphore) et les
avons converties en demi-tons (par rapport à la valeur basse). Les résultats de cette procédure
sont regroupés dans le tableau 27 ci-après :
Chapitre 8 – Aspects de production et analyse de corpus
386
Diff. en Htz Diff en ½ tons
G04 24,66 1,62
A03 15,95 1,64
A06 17 1,79
A10 12,79 1,73
M05 16,69 1,94
M09 19,45 2,02
Moyenne 1,79
Tableau 27 : Différences de valeurs fréquentielles d’onset en Htz et en demi-tons en fonction
de la présence d’une anaphore pronominale ou pas, par locuteur
pour lequel l’effet est significatif.
Nous résumerons cette partie de nos analyses en rappelant que le marquage de la
continuité discursive par anaphore pronominale semble influencer la réalisation des valeurs
fréquentielles des onsets d’unités intonatives ; cette influence est cependant variable en
fonction des locuteurs et se traduit, lorsqu’elle est significative, par une augmentation de la
valeur de l’onset d’un peu moins de deux tons.
Ainsi, si notre hypothèse H1 est partiellement vérifiée, un tel comportement est
contraire à notre hypothèse H2, et va faire l’objet de la discussion vers laquelle nous nous
tournons à présent.
3.2 Discussion
3.2.1 Conceptions de l’onset
Nous remarquerons en préliminaire à cette discussion de nos résultats que le choix que
nous avons effectué concernant la conception de la valeur fréquentielle d’onset n’est pas
théoriquement neutre. Schématiquement, en effet, il y a trois manières de considérer une
valeur fréquentielle donnée :
• en termes absolus globaux (valeur brute en Htz), ce qui pose les problèmes de
comparaison et de mise en commun soulevés lors de la présentation de notre méthode
de normalisation ;
Chapitre 8 – Aspects de production et analyse de corpus
387
• en termes localement absolus (valeur relative à un domaine), par rapport au niveau et à
l’étendue fréquentielle du locuteur sur un empan de texte ;
• en termes relatifs (valeur relative au contexte immédiat), par rapport aux valeurs
environnantes au sein d’un même domaine.
Comme nous l’avons suggéré lors de nos chapitres 5 et 6, ces deux dernières
conceptions (présentes dans le système INTSINT) nous semblent être les seules capables
d’éclairer une approche linguistique de la prosodie.
Concernant le problème particulier de l’onset, ces deux approches (localement absolue,
et relative) pourraient aussi s’appliquer : on retrouve alors deux conceptions de l’onset, soit
comme valeur localement absolue étant donnés le niveau et l’étendu usuels du locuteur (notre
approche), soit comme valeur relative, notamment par rapport à la valeur finale de l’unité
précédente ; le terme « resetting » est lié à cette seconde conception et implique généralement
un retour à une valeur d’attaque par rapport à la valeur finale de l’unité précédente.
Parmi les nombreux facteurs que nous avons extraits, nous avons aussi calculé le ratio
entre ces deux valeurs, qui nous offre ce type de mesure relative. Une rapide analyse de cette
variable prise comme variable dépendante fournit les résultats résumés dans le tableau 28 ci-
dessous :
Onset relatif (=resetting) Onset localement absolu
F P F P
UI précédente 220,31 < 2.2e-16 * 302,97 < 2.2e-16 *
UI en cours
78,31 < 2.2e-16 * 226,28 < 2.2e-16 *
Anaphore 1,5684 0,2105 9,5963 0,001966 *
Tableau 28 : Valeurs de la statistique F et de la p-valeur pour les ANOVAs à un facteur
prenant l’onset localement absolu ou relatif comme variable dépendante.
Nous retiendrons deux aspects principaux de ces résultats. Le premier aspect
fondamental concerne les valeurs de la statistique F obtenues dans le cadre de l’analyse des
facteurs « UI en cours » et « UI précédente » ; on remarque que ces valeurs sont
systématiquement beaucoup plus élevées lorsque l’onset est une valeur considérée localement
absolue (notre approche) que lorsque il est appréhendé en tant que valeur relative
(« resetting »). Sans formuler de conclusion trop hâtive, ce phénomène semble indiquer que
Chapitre 8 – Aspects de production et analyse de corpus
388
les facteurs « UI en cours » et « UI précédente » expliquent mieux la variable dépendante
lorsque celle-ci est considérée comme localement absolue.
Deuxièmement, de manière similaire, seule une appréhension localement absolue de
l’onset permet à l’effet du facteur « anaphore » de se révéler significatif.
Pris ensemble, ces deux points semblent indiquer que la conception de l’onset que nous
avons adoptée ici, en termes localement absolus s’avère plus à même de mettre en évidence
les effets des différents facteurs que nous savons importants. Nous nous garderons bien
cependant de tirer ici une conclusion définitive sur ce point qui mériterait de plus amples
investigations ; l’une des raisons principales de notre méfiance réside dans le risque de
circularité qui consiste à retenir une vision de l’onset notamment parqu’elle permet à l’une de
nos variables indépendantes d’être significative.
Gardant ce danger à l’esprit nous nous appuierons cependant sur la significativité accrue
des deux autres facteurs (« UI en cours » et « UI précédente »), pour réaffirmer notre
préférence concernant la vision localement absolue que nous avons choisi d’adopter,
conforme au codage « M », « T » ou « B » que propose INTSINT pour cette valeur.
3.2.2 Discussion de nos résultats
Nous avons choisi de classer les résultats que nous avons obtenus dans deux catégories
distinctes selon que l’on s’intéressait à la relation onset-structure prosodico-discursive ou à
l’influence du marquage de la continuité par anaphore pronominale sur la réalisation
fréquentielle des onsets.
La première thématique n’a à vrai dire pas apporté de résultats fondamentalement
nouveaux : nous avons notamment confirmé les relations déjà fréquentes dans la littérature
concernant l’association d’une élévation de la valeur fréquentielle de l’onset en association
avec la discontinuité discursive et, de manière complémentaire, l’abaissement de cette valeur
dans le cadre de la continuité.
Nous tenons cependant à noter que la démarche que nous avons suivie s’est inscrite
dans un cadre (esquissé au chapitre 6) qui consiste à reconnaître un niveau d’organisation
hiérarchique supérieur à l’unité intonative, mais pas nécessairement une unité (au sens strict)
plus grande que cette dernière (de type « paraton »). Les résultats que nous avons fournis, en
total accord avec nos prédictions, semblent argumenter en faveur de la pertinence d’une
approche plus localiste du marquage prosodique de la structure discursive. Nous noterons
Chapitre 8 – Aspects de production et analyse de corpus
389
cependant pour conclure sur ce premier point que le concept de supra-déclinaison (cf. Sluijter
& Terken 1993 ; Thorsen 1985 ; Wichmann 2000), s’il doit effectivement être envisagé
comme un procédé prosodique de marquage de la continuité discursive, constitue un argument
majeur en faveur de l’hypothèse d’une unité supérieure à l’unité intonative, similaire au
paraton si souvent mentionné dans la littérature (cf. cependant Hird 2002 pour une vision
contraire).
La seconde thématique a quant à elle été moins explorée dans le cadre de travaux
antérieurs. Les résultats que nous proposons ne sont en accord que partiel avec les hypothèses
que nous avons formulées en début de chapitre ; ainsi s’il semble bien que le marquage de la
continuité discursive par l’anaphore pronominale influence la réalisation fréquentielle de
l’onset des unités intonatives, force est de constater que cette influence est moins importante
et plus complexe que nos hypothèses ne le laissaient penser. L’orientation de l’effet,
notamment est totalement contraire à nos hypothèses : on assiste en effet à une élévation de
l’onset lorsque l’unité intonative comporte une anaphore pronominale, phénomène contraire à
un marquage redondant souvent observé entre différents paramètres discursifs.
Il semble cependant qu’une explication satisfaisante puisse être apportée à ce
phénomène si l’on considère le phénomène d’onset comme la résultante d’un ensemble de
contraintes à plusieurs niveaux de l’analyse linguistique. Notamment, suivant les propositions
de Swerts et al. 1996, il nous semble intéressant d’analyser plus avant la relation unissant
valeur d’onset et durée de l’unité intonative. Ce type de corrélation suggère une anticipation
de la part du locuteur (« look ahead ») et donc une orientation « vers l’avant », contraire à
l’orientation « vers l’arrière » liée au marquage de la (dis)continuité discursive initiale.
Une analyse des corrélations entre valeur fréquentielle des onsets et durée des unités
intonatives donne des résultats tout à fait conformes à ceux suggérés par Swerts et al. 1996 ;
le tableau 29 ci-après présente les résultats de l’analyse de variance à six facteurs croisés que
nous avons effectuée dans ce cadre.
Chapitre 8 – Aspects de production et analyse de corpus
390
Facteur Statistique F P-valeur
nlui 0.0093 0.9231238
nsui 0.5141 0.4734231
nruui 6.6435 0.0099944 *
nwui 12.7314 0.0003646 *
npui 43.0414 6.19e-11 *
dui 384.7268 < 2.2e-16 *
Tableau 29 : Statistiques F et P-valeurs de l’ANOVA croisant six mesures de la durée des UI
dans le cadre de la détermination des contraintes de durée pesant
sur la valeur fréquentielle de l’onset.
L’extraction automatique de données que nous avons mise en place dans le cadre de
cette thèse a permis l’extraction de six mesures différentes de la durée des unités intonatives
analysées : npui (nombre de phonèmes), nsui (nombre de syllabes), nruui (nombre d’unité
rythmiques), nwui (nombre de mots), nlui (nombre de mots lexicaux) et dui (durée en
milisecondes). Comme le montre le tableau ci-dessus, avec une statistique F de plus de 380, la
durée brute de l’unité intonative en millisecondes est de loin la variable qui explique le mieux
les valeurs d’onset observées151.
En conséquence, nous proposons (en accord avec les résultats de Swerts et al. 1996 et
Hird 2002) de concevoir l’onset comme dépendant de deux contraintes principales :
• D’un point de vue discursif, l’onset est, nous l’avons vu, l’une des marques les plus
robustes de (dis)continuité ; on peut donc en ce sens dire que la fonction de marquage
de (dis)continuité constitue la première contrainte pesant sur l’onset. Si nous ne
prenons en compte que le marquage de la continuité, nous réduirons cette contrainte à
une contrainte d’abaissement (cf. l’ « onset depression » ; Wichmann 2000).
• D’un point de vue psycho-physiologique, l’onset est directement lié à la durée de
l’unité intonative, conçue par nombre d’auteurs comme unité informationnelle
fondamentale. Il semble donc que le locuteur ait un accès anticipé à cette information
de durée et planifie une valeur d’onset destinée à permettre au phénomène plus
151 Nous noterons que le second facteur le plus important est le nombre de phonèmes, qui est en relation directe
(et plus linéaire que les syllabes ou les unités rythmiques) avec la durée brute.
Chapitre 8 – Aspects de production et analyse de corpus
391
physiologique de déclinaison de prendre place. En ce sens, l’anticipation de la durée
de l’unité et de la déclinaison qu’elle va entraîner constitue la seconde contrainte
majeure pesant sur la valeur d’onset ; cette contrainte est fondamentalement une
contrainte d’élévation.
On pourra donc considérer qu’une valeur fréquentielle donnée d’onset, dans le cadre du
marquage de la continuité discursive, résulte d’un arbitrage entre la contrainte d’abaissement
et la contrainte d’élévation liée à l’anticipation du matériau verbal à venir.
Nous l’avons maintes fois répété, l’anaphore pronominale inaccentuée constitue une
marque fiable de continuité discursive. Nous proposons de faire l’hypothèse que la présence
d’une telle marque constitue en quelque sorte une garantie de continuité fournie par le
locuteur à son interlocuteur, et permet donc l’allègement de la contrainte d’abaissement de
l’onset. L’influence relative de la contrainte d’élévation génère ainsi une augmentation de la
valeur d’onset, sans que celle-ci ne puisse être méprise pour une marque de discontinuité.
La figure 56 ci-dessous représente schématiquement le type de fonctionnement que
nous proposons ici.
Figure 56 : Représentation schématique de l’allègement des contraintes discursives
d’abaissement de l’onset par l’anaphore pronominale inaccentuée (API). Les contraintes
d’élévation obtiennent un poids relatif plus important.
Contraintes Discursives
CONTINUITE
ABAISSEMENT
Contraintes d’Anticipation
DECLINAISON
ELEVATION
Valeur d’onset
API
Chapitre 8 – Aspects de production et analyse de corpus
392
Auran & Hirst 2004 présente dans le détail une analyse (fondée sur un protocole
similaire à celui présenté ici) qui montre que le marquage de la continuité par des connecteurs
tels que « and » ou « then » n’induit pas d’élévation d’onset.
L’interprétation que nous proposons, inspirée du « Modèle de Compétition » de Bates &
Mac Whinney (cf. par exemple Bates & Mac Whinney 1982 ; Mac Whinney & Bates 1989 et
1994), s’appuie sur le fait que ces connecteurs sont fonctionnellement polyvalents et peuvent
induire différents types de relations rhétoriques entre segments de discours (cf. Halliday &
Hasan 1976 : chap. 5). Dans les termes du Modèle de Compétition, ces connecteurs
bénéficient ainsi d’une « validité » (« Cue Validity ») peu élevée, liée à leur faible « fiabilité »
(« Cue reliability »), définie comme la fréquence avec laquelle une forme donnée est associée
à une fonction donnée. On peut dès lors faire l’hypothèse que l’emploi d’une forme de ce type
ne garantit pas le niveau de continuité fourni par l’anaphore pronominale inaccentuée : dans
ce cas, la présence de ce type de connecteur ne suffit pas à inhiber les contraintes discursives
d’abaissement pesant sur l’onset, ce qui explique l’absence d’élévation.
Notons tout de même pour conclure que cet ensemble d’hypothèses nécessite une
validation empirique non seulement en production, mais aussi en perception, afin de vérifier
la rétro interprétation de l’élévation de l’onset. C’est plutôt vers ce second type de démarche
que le dernier chapitre de ce travail de thèse va nous orienter, laissant par là même le premier
type s’ajouter à la grande liste des travaux que nous souhaiterions mener à bien dans le futur.
4 Synthèse générale
La première partie de ce chapitre, notamment fondée sur l’explicitation de notre
conception du discours en tant qu’heuristique complexe, a permis de mettre deux points en
évidence. Nous avons ainsi tout d’abord pu formuler deux hypothèses de travail
fondamentales concernant l’interaction du marquage de la continuité discursive par anaphore
pronominale inaccentuée sur les valeurs d’onset :
• H1 : le marquage de la continuité discursive par l’anaphore à une influence mesurable
et explicable sur la réalisation de l’onset.
• H2 : le marquage de la continuité discursive par l’anaphore induit un abaissement de
l’onset dans le cadre d’un marquage collaboratif par redondance.
Chapitre 8 – Aspects de production et analyse de corpus
393
D’autre part, nous nous sommes aussi interrogés sur la notion de mesure appliquée à
nos variables d’analyse, ce qui nous a conduit à la constitution d’un cahier des charges
expérimental destiné à garantir une représentativité minimale de nos données.
Ce cahier des charges a ainsi constitué le moteur de la présentation de notre protocole
expérimental dans le cadre de la seconde section de ce chapitre. Nous avons ainsi argumenté
en faveur d’une méthode automatisée d’extraction des données, tout en insistant sur les
avantages nombreux, voire même l’exclusivité d’une méthode manuelle, notamment
concernant l’annotation des phénomènes fonctionnels. Concernant la mesure de l’anaphore
pronominale, nous avons ainsi choisi de nous intéresser plus particulièrement aux pronoms
personnels et aux adjectifs possessifs inaccentués de troisième personne, à l’exclusion de
« it ». La mesure des valeurs fréquentielles d’onset a quant à elle été médiatisée par
l’application de l’algorithme MOMEL, qui permet de neutraliser les variations
microprosodiques liées au contexte segmental.
Cette seconde section nous a aussi permis d’appliquer à nos données brutes un
échantillonnage et une normalisation destinés à garantir une plus grande représentativité des
mesures.
La section finale de ce chapitre nous a permis de présenter les résultats obtenus
concernant deux phénomènes particuliers. Nous avons ainsi tout d’abord validé notre
protocole expérimental par la production de résultats conformes à ceux répertoriés dans la
littérature sur la question. Plus précisément, nous avons proposé une application de notre
approche localiste du marquage de la structure prosodico-discursive fondée sur l’annotation
fournie par les annotateurs du SEC ; les résultats confirment la pertinence de ce type
d’approche par la validation des prédictions de tendance à l’élévation ou à l’abaissement des
valeurs d’onset en fonction des frontières de l’unité précédente et de l’unité en cours.
Toujours en accord avec notre démarche, les résultats médians observés en cas de conflit de
tendances prédites (configuration MAJ/MAJ) ne sont pas significativement distincts de ceux
obtenus dans la configuration min/min, qui n’implique qu’un marquage optionnel de la
continuité discursive par abaissement.
Le second phénomène analysé ici concerne spécifiquement l’interaction onset-anaphore
envisagée ici de manière orientée, de l’anaphore pronominale inaccentuée vers l’onset. Les
résultats obtenus ne valident que partiellement notre hypothèse H1 (interaction) et invalident
totalement notre hypothèse H2 (effet d’abaissement).
Chapitre 8 – Aspects de production et analyse de corpus
394
Nous avons ainsi pu montrer que si l’anaphore pronominale inaccentuée influence
effectivement les valeurs fréquentielles d’onset, cette influence est relativement peu marquée
et varie en fonction des locuteurs. On aurait ainsi, comme c’est d’ailleurs le cas pour nombre
d’autres phénomènes152, différentes stratégies de marquage selon les locuteurs et les
contextes (sur les six enregistrements pour lesquels cet effet est significatif, trois proviennent
du style de parole A d’Aix-MARSEC (« commentaire journalistique »), sans que cela nous
permettent de tirer la moindre conclusion concernant une quelconque influence stylistique).
Le résultat le plus surprenant concerne en fait le sens de l’influence : nous avons en
effet observé que la tendance induite par l’anaphore sur l’onset est en fait, en totale opposition
avec notre hypothèse H2, une tendance à l’élévation. Nous avons quantifiée cette élévation
pour les six locuteurs pour lesquels l’effet est significatif et avons pu mesurer une élévation
moyenne de l’ordre de 2 demi-tons (1,80 demi-tons).
Nous proposons d’analyser ce phénomène comme une « garantie de continuité » fournie
par l’anaphore pronominale inaccentuée permettant l’allègement des contraintes discursives
d’abaissement de l’onset dans le cadre du amrquage de la continuité discursive ; le poids
relatif des contraintes psycho-physiologiques d’élévation (liées à l’anticipation de la durée de
l’unité et de la déclinaison) se trouve alors augmenté, ce qui explique selon nous la tendance
observée.
On aurait donc dans certains cas, contrairement à notre hypothèse H2 de marquage par
redondance, une forme de hiérarchisation du poids des marques expliquant la possibilité d’une
élévation de la valeur d’onset sans induction de discontinuité. Une telle approche est
compatible avec des conceptions telles que celles proposées par Blache & Di Cristo 2002 ou
Bates & Mac Whinney (cf. Bates & Mac Whinney 1982 ; Mac Whinney & Bates 1989 et
1994) dans le cadre du Modèle de Compétition.
Il est fondamental de rester très prudent concernant l’explication hypothétique proposée
ici : la diversité des facteurs à l’œuvre dans la parole authentique (même pour le type non
conversationnel représenté dans Aix-MARSEC) doit nous conduire à la plus grande prudence.
Il nous semble néanmoins intéressant de pousser plus avant cette démarche et de formuler des
hypothèses précises en relation avec les prédictions que l’on peut fournir dans ce cadre.
152 Nous avons par exemple montré dans Auran & Di Cristo 2003 et Di Cristo et al. à paraître que deux
locutrices en interaction « spontanée » (débat radiophonique perceptivement naturel) utilisaient des stratégies
différentes pour le marquage de la durée syllabique.
Chapitre 8 – Aspects de production et analyse de corpus
395
En conséquence, le chapitre suivant de cette partie expérimentale sera consacré à la
formulation d’hypothèses plus explicites inspirées de cette conception. Etant données les
contraintes logistiques qui ont présidé à ce travail, nous aborderons cependant le problème de
l’interaction anaphore-onset du point de vue de la perception en français. Comme nous allons
le voir, le protocole expérimental mis en place permet cette fois-ci de tester la
bidirectionnalité de l’interaction entre les paramètres retenus et serait aisément transférable à
l’anglais.
Chapitre 9
Aspects perceptifs des interactions anaphore-onset
398
Chapitre 9 : Sommaire
1 Formulation des hypothèses ....................................................................... 400 1.1 Hypothèses générales .................................................................................................... 400
1.1.1 Asymétrie des rôles de production et de perception ............................................ 400 1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses........................... 402
1.2 Revue des méthodes et de quelques résultats antérieurs........................................... 403 1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique......................... 403
Remarques préliminaires........................................................................................... 403 Méthodes expérimentales courantes ......................................................................... 404
1.2.2 Quelques résultats ................................................................................................ 406 1.3 Hypothèses de travail.................................................................................................... 407 2 Protocole expérimental : éléments communs ........................................... 409 2.1 Phase préparatoire........................................................................................................ 409
2.1.1 Enregistrement et numérisation ........................................................................... 409 2.1.2 Manipulations....................................................................................................... 410 2.1.3 Préparation des scripts d’expérimentation ........................................................... 410
2.2 Exécution des expérimentations .................................................................................. 411 2.2.1 Environnement ..................................................................................................... 411 2.2.2 PERCEVAL......................................................................................................... 411
2.3 Récupération et traitement des résultats .................................................................... 411 3 Expérimentations......................................................................................... 412 3.1 Première phase d’expérimentation.............................................................................. 412
3.1.1 Hypothèses traitées .............................................................................................. 412 3.1.2 Protocole expérimental ........................................................................................ 413
Facteurs expérimentaux ............................................................................................ 413 Stimuli....................................................................................................................... 413 Résultats .................................................................................................................... 414 Synthèse .................................................................................................................... 419
3.2 Seconde phase d’expérimentation ............................................................................... 420 3.2.1 Hypothèse expérimentale..................................................................................... 420 3.2.2 Protocole expérimental ........................................................................................ 420
Facteurs expérimentaux ............................................................................................ 421 Stimuli....................................................................................................................... 421 Résultats .................................................................................................................... 422 Synthèse .................................................................................................................... 428
3.3 Discussion....................................................................................................................... 429 4 Synthèse générale ........................................................................................ 433
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
399
Nous avons consacré les deux premiers chapitres de cette partie expérimentale de notre
thèse à la présentation du projet Aix-MARSEC et à son exploitation dans le cadre de l’étude
des interactions unissant anaphore pronominale inaccentuée et valeur fréquentielle des onsets
d’unité intonatives. Notre démarche a donc abordé la question de l’interaction de ces deux
phénomènes sous l’angle de la production à partir d’un corpus de parole authentique en
anglais.
Plus précisément, le chapitre précédent a permis une confirmation partielle des
hypothèses que nous avions proposées concernant l’impact de l’anaphore pronominale
inaccentuée sur l’onset : le marquage de la continuité discursive par anaphore pronominale
semble influencer la réalisation des onsets, mais cette influence est non seulement
relativement faible, mais aussi très dépendante des locuteurs ; le sens de cette influence,
finalement, s’est avéré contraire à nos attentes, avec une élévation de la valeur fréquentielle
des onsets, dans le cadre d’un marquage de la continuité par complémentarité et non par
redondance.
Cette interprétation de la tendance observée, si elle semble assez intéressante du point
de vue de la production (notamment par le phénomène d’anticipation de la durée de l’unité
intonative déjà observé par Swerts et al. 1996) pose de nouveaux problèmes concernant les
aspects plus perceptifs, notamment concernant l’interprétation par l’interlocuteur des signaux
à première vue contradictoires que sont une élévation de l’onset et un marquage de la
continuité par anaphore pronominale.
En conséquence, nous consacrerons ce chapitre à l’étude de certains de ces aspects
perceptifs et interprétatifs. Nous tenterons de plus de mettre en évidence certains des aspects
liés à l’autre sens de l’interaction dont nous faisons l’hypothèse, c'est-à-dire à l’influence
qu’une modification d’onset peut avoir sur le décours temporel de l’interprétation de
l’anaphore pronominale.
Nous dévouerons la première section de ce chapitre à l’explicitation de nos hypothèses
concernant le traitement de ce phénomène par l’interlocuteur. Nous effectuerons ainsi tout
d’abord une première formulation générale sous la forme d’un ensemble hiérarchisé et
ordonné d’hypothèses, dont chacune devra être vérifiée par l’expérimentation. Dans la
seconde rubrique de cette section, nous proposerons une revue préliminaire des principales
méthodes et des principaux résultats relatifs à l’interprétation de l’anaphore pronominale dans
un cadre psycholinguistique ; cette démarche plus théorique nous permettra finalement
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
400
d’effectuer la traduction des hypothèses générales fournies dans la première rubrique en
hypothèses de plus bas niveau, directement falsifiables par expérimentation.
La seconde section de ce chapitre précisera brièvement les méthodes et les outils
communs aux protocoles expérimentaux de nos expérimentations.
La dernière section de ce chapitre sera dédiée à la présentation des résultats
expérimentaux obtenus. Nous donnerons ainsi un compte-rendu explicite des deux
expérimentations que nous avons menées avant de proposer une discussion de nos résultats.
1 Formulation des hypothèses
Nous allons consacrer cette première section à la formulation des hypothèses destinées
à être testées dans le cadre de notre approche expérimentale. Nous allons suivre une démarche
en trois phases principales : dans une premier temps, nous proposerons ainsi une première
formulation des hypothèses que nous suggèrent les résultats obtenus lors de l’analyse du
corpus Aix-MARSEC, décrite dans le chapitre précédent ; nous proposerons ensuite un rapide
tour d’horizon des principales méthodes et de quelques résultats associés à l’analyse
psycholinguistique de l’anaphore pronominale ; cette revue nous permettra finalement dans un
troisième temps de traduire les hypothèses générales formulées en début de section en
hypothèses expérimentales destinées à être testées.
1.1 Hypothèses générales
1.1.1 Asymétrie des rôles de production et de perception
Comme nous l’avons suggéré en introduction, l’analyse des relations anaphore-onset au
sein du corpus Aix-MARSEC a soulevé un nombre important de questions nouvelles. Parmi
celles-ci, nous pourrons distinguer deux catégories selon que l’approche porte plutôt sur les
aspects de production ou sur les aspects de perception.
Concernant la production, on pourra notamment vouloir s’interroger sur les contraintes
précises (sémantiques, syntaxiques, discursives, rhétoriques, etc.) qui gouvernent la tendance
observée chez certains locuteurs.
Malgré l’importance fondamentale de ces questionnements, c’est cependant les aspects
perceptifs qui vont nous intéresser ici plus particulièrement. En effet, l’hypothèse que nous
proposons concernant l’élévation de la valeur fréquentielle de l’onset en cas de marquage de
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
401
la continuité discursive par anaphore pronominale inaccentuée ne semble constituer qu’une
explication partielle du phénomène, centrée sur le locuteur.
Or, si le discours est indéniablement une entreprise interactive, il semble bien qu’une
asymétrie importante règne en son sein entre locuteur (ou « énonciateur » selon les approches)
et interlocuteur (« coénonciateur »). A ce propos, Bard et al. 2000 remarque notamment une
diminution de l’intelligibilité des expressions désignant un référent déjà mentionné ; pris
comme tel, ce résultat semble uniquement confirmer la tendance communément observée à la
réduction (segmentale, prosodique et morpho-lexicale) de l’information « donnée » en général
et des expressions anaphorisantes en particulier ; l’élément particulièrement intéressant de ce
travail réside dans le fait que l’hypo-articulation qui se trouve à l’origine de la faible
intelligibilité est maintenue y compris dans des contextes où l’interlocuteur n’a pas pu
entendre la première mention. De manière similaire, lorsque la première mention du référent a
été effectuée par l’interlocuteur, le locuteur produit également une expression faiblement
intelligible. Les auteurs interprètent ces résultats par un phénomène d’amorçage sémantique
rapide (« semantic priming ») à partir des connaissances du locuteur, opposé à une démarche
inférentielle plus lente concernant l’hypothétique état attentionnel de l’interlocuteur.
Ainsi, que ce soit pour des raisons de rapidité de traitement ou d’économie de
ressources cognitives (déjà mobilisées par la production), tout se passe donc comme si le
locuteur prenait principalement en considération son propre modèle mental (que les entités y
aient été introduites par lui ou un autre) comme référentiel à sa production.
Transposée à notre thématique, cette analyse nous pousse à voir dans l’élévation de
l’onset en relation avec l’anaphore pronominale inaccentuée une manifestation de cette forme
de principe d’égoïsme du locuteur : de manière schématique, le locuteur fournissant par le
biais de l’anaphore une marque robuste et univoque de continuité, la production d’une marque
moins robuste potentiellement associée à la discontinuité est tolérée si le locuteur en retire un
bénéfice en terme de minimisation des efforts ou de maximisation des effets, comme dans le
cadre de la déclinaison, qui, démarrant à partir d’une position plus élevée, peut permettre de
ne pas avoir à « forcer sa voix » dans le registre infra-bas en fin d’unité.
En conséquence, par opposition à une vision binaire de la « stratégie de l’interprète »
(stratégie critiquée notamment par Reboul & Moeschler 1998), nous proposons une
conception plus graduelle selon laquelle le locuteur oscillerait entre un statut coopératif (cas
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
402
généralement prototypique selon la plupart des approches) et un statut plus égoïste (que l’on
pourrait rapprocher du « principe de nonchalance » de Berrendonner).
Dans ce second cas de figure, le coût cognitif est augmenté pour l’interlocuteur, qui doit
effectuer un travail inférentiel plus important. La situation est donc symétrique en ce qui
concerne la répartition des coûts cognitifs, mais hiérarchisée si l’on prend en compte le fait
que c’est le locuteur (bien entendu en fonction de contraintes situationnelles diverses) qui fixe
en quelque sorte les proportions.
1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses
Appliquons le cadre que nous venons de suggérer, à la thématique des relations onset-
anaphore. Il semble que l’on puisse faire l’hypothèse fondamentale que, du point de vue du
locuteur, le relâchement (si ce n’est la suppression temporaire) de la contrainte d’abaissement
de l’onset constitue une diminution de l’effort de production ; de manière corrélée, on
postulera alors que le coût de traitement est augmenté pour l’interlocuteur, qui va devoir
mobiliser plus de ressources afin de régler l’apparent conflit qui oppose les signaux produits
(onset élevé = discontinuité / anaphore = continuité).
Cette hypothèse fondamentale suppose en fait un ensemble d’hypothèses chaînées par
une relation de dépendance. Suivons cette séquence à rebours en partant d’une reformulation
de notre hypothèse fondamentale (H-A) du point de vue exclusif de l’interlocuteur :
H-A : L’association d’un onset élevé à une anaphore pronominale inaccentuée
constitue un ensemble contradictoire d’indices que l’interlocuteur doit « arbitrer »
dans le cadre d’inférences supplémentaires sur le degré d’« égoïsme
communicatif » du locuteur. Nous parlerons dans ce cas d’ « hypothèse
d’arbitrage ».
L’arbitrage évoqué à l’instant implique nécessairement l’interprétation de l’onset élevé
comme une marque de discontinuité contradictoire avec la continuité marquée par l’anaphore
pronominale. Nous avons vu dans le chapitre 6 que cette condition constitue l’un des résultats
les plus récurrents de la littérature sur le sujet.
Finalement, pour que cette interprétation de l’onset élevé puisse avoir lieu, il est
indispensable que cette élévation soit perçue. La question se pose alors de savoir à partir de
quel seuil cette perception est effective. Dans le chapitre 6, nous avons observé que la valeur
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
403
moyenne d’élévation de l’onset pour les locuteurs qui recourraient à ce procédé était proche
de 1 ton (1,8 demi tons). Nous pourrons donc formuler l’hypothèse B ci-dessous153 :
H-B : Le seuil de perception de l’élévation d’un onset en relation avec une
anaphore pronominale inaccentuée est inférieur ou égal à 1 ton. Nous parlerons
dans ce cas d’ « hypothèse de perception ».
En résumé, dire que l’interlocuteur doit compenser la stratégie d’égoïsme du locuteur
par une utilisation plus intense de sa propre stratégie inférentielle revient à considérer que
l’élévation d’onset consécutive à l’utilisation d’une anaphore pronominale est perçue,
interprétée comme une marque potentielle de discontinuité puis écartée par traitement
inférentiel.
Ces hypothèses, cependant, et notamment notre hypothèse d’arbitrage, ne sont pas
encore suffisamment explicites pour être directement (in)validables par expérimentation.
Nous allons donc à présent proposer une revue des méthodes et de certains résultats relatifs au
traitement perceptif et interprétatif de l’anaphore, étape préliminaire indispensable à la
traduction de cette hypothèse générale en hypothèse expérimentale.
1.2 Revue des méthodes et de quelques résultats antérieurs
Nous allons à présent donner un aperçu sommaire des méthodes généralement utilisées
dans le domaine psycholinguistique en relation avec l’anaphore pronominale, ainsi que
quelques résultats importants pour notre thématique.
1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique
Remarques préliminaires
Il nous semble important de noter deux faits principaux concernant l’investigation
psycholinguistique de l’anaphore. D’une part, nous retiendrons qu’une écrasante majorité de
travaux psycholinguistiques s’intéressant à l’anaphore abordent cette thématique dans le cadre
classique de la coréférence avec un antécédent linguistique explicite ; les auteurs présentent
alors généralement leurs travaux comme un point de vue complémentaire à une analyse
linguistique formelle :
153 Nous noterons que cette hypothèse revient à dire que l’interlocuteur disposerait d’une valeur d’onset
référence à partir de laquelle « calculer » l’élévation. Nous reviendrons sur ce point problématique dans la
dernière partie de ce chapitre.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
404
« The psycholinguistic study of anaphora is different from the formal analysis of anaphora, which
we take to be, primarily, the characterization of the constraints on coindexation and coreference
within a syntactic domain. The psycholinguist’s approach is to explore how the sentence
comprehension mechanism computes coreference during sentence processing. » (Nicol & Swinney
2003 : p. 72)
Comme nous l’avons mentionné précédemment, cette démarche fondée sur la
coréférence constitue une catégorisation restrictive de l’anaphore qui laisse de côté certains
cas que nous avons rangés dans la classe des anaphores discursives et qui dérogent à ce
schéma classique (notamment l’anaphore dite « situationnelle », mais aussi l’anaphore
évolutive et, dans une moindre mesure, l’anaphore associative154).
D’autre part, la perspective généralement adoptée dans ces études est souvent qualifiée
de « phrastique » par les auteurs eux-mêmes. Une telle qualification nous semble restrictive
dans la mesure où, dans de nombreuses études, les déclencheurs d’antécédent des pronoms
anaphoriques analysés se situent dans des phrases distinctes de celle hébergeant l’anaphore.
On notera de plus qu’un nombre croissant d’études s’intéresse à l’influence discursive sur
l’interprétation anaphorique (que ce soit dans le cadre de « Modèles Situationnels », cf. Rinck
1995, ou en relation avec la structure attentionnelle, cf. par exemple Fossard 1999 et les
travaux réalisés dans le cadre de la Théorie du Centrage présentés ici dans les chapitres 4 et
6). Nous ne souhaitons pas pour autant qualifier cette approche de « discursive » car la
perspective n’est pas celle d’une heuristique complexe située (cf. la définition que nous
proposons dans le chapitre 3). Il semblerait donc que la démarche psycholinguistique se situe
entre ces deux types d’approche, dans une perspective que nous assimilerons à l’approche
textuelle dont nous avons évoqué le statut charnière plus tôt dans cette thèse.
Méthodes expérimentales courantes
Concernant la question centrale des méthodes psycholinguistiques, nous suivrons la
présentation donnée dans Nicol & Swinney 2003 et isolerons trois types principaux. La
première méthode communément employée est celle de mesure de temps de lecture par suivi
oculaire (« eye tracking »). Bien que fondamentale dans l’investigation de la compréhension
des énoncés, cette technique pose la question de la relation temporelle entre mouvement
oculaire et traitement cognitif et est de plus réservée à un mode de présentation visuel. C’est
154 Une exception notoire est Garrod & Terras 2000, mais nous reviendrons sur ce point lors de notre
présentation de la méthode d’amorçage sémantique.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
405
cette seconde raison qui nous pousse à ne pas approfondir cette méthode afin de nous
concentrer plus particulièrement sur les deux autres.
La seconde technique importante est celle de la « vérification d’occurrence par sondage
» (« probe verification »). Cette technique consiste à demander aux sujets si un mot (présenté
visuellement) est déjà apparu dans un énoncé ou un texte présenté de manière visuelle ou
auditive. La notion de sondage est liée au fait que le mot testé (ou « mot cible ») est
susceptible d’apparaître à plusieurs positions dans l’énoncé en cours, chaque mesure
correspondant alors à un « coup de sonde » mesurant l’activation du référent désigné par
l’expression dans le modèle mental du sujet en relation avec son temps de réponse. De
manière générale, ce temps de réponse diminue avec la distance et l’introduction de nouveaux
référents ; l’anaphore, qui coréfère avec la première mention, est alors supposée suspendre
cette décroissance de l’activation du référent ; dans ce cas, une réponse plus rapide sera
produite pour la seconde mention de l’antécédent que pour la seconde mention d’un autre
élément du cotexte qui ne serait pas son antécédent.
La troisième méthode expérimentale, l’ « amorçage sémantique » (ou « semantic
priming ») est dérivée de la précédente. Dans ce type d’expérimentation, le sujet doit porter
un jugement lexical (mot vs. non mot) à propos d’une suite de lettres apparaissant sur un écran
pendant qu’il lit ou écoute un énoncé ou une suite d’énoncés formant un texte. Lorsque le
texte est présenté de manière sonore, méthode qui va nous intéresser ici plus particulièrement,
on parlera d’« amorçage sémantique trans-modal » (« cross-modal semantic priming »). Le
constat que nous avons formulé plus haut, relatif au fait que l’anaphore associative était
généralement écartée des analyses psycholinguistique de l’anaphore, n’est en fait que
partiellement justifié ; ainsi, s’il est vrai que ce type d’anaphore n’est que rarement l’objet
principal de l’analyse, force est de constater que l’anaphore associative est fréquemment
utilisée en tant qu’outil d’analyse dans le cadre de l’amorçage sémantique. En effet,
contrairement à la méthode de vérification d’occurrence par sondage, l’amorçage sémantique
consiste à effectuer des « coups de sonde » à l’aide de mots cibles associés sémantiquement
(au sens large) à une expression du cotexte (comme par exemple « grenouille » pour
« crapaud » ou « punch » pour « boxer »). On observe alors un effet similaire à celui
mentionné pour la vérification d’occurrence : le temps de réponse à un stimulus associé
sémantiquement à une expression précédant le « coup de sonde » est inférieur à celui observé
pour un mot sans lien sémantique.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
406
1.2.2 Quelques résultats
Nous allons à présent dans cette rubrique donner quelques éléments concernant certains
résultats obtenus dans le cadre d’études psycholinguistiques de l’anaphore et qui pourraient
s’avérer intéressants dans le cadre de nos analyses ; étant données nos centres d’intérêt
présent (anaphore et prosodie), nous nous limiterons ici à quelques résultats majeurs obtenus
dans le cadre de l’amorçage sémantique trans-modal.
Comme nous l’avons suggéré plus haut, le résultat fondamental de l’application du
paradigme de l’amorçage sémantique trans-modal à l’étude de l’anaphore pronominale est
qu’une facilitation de la décision lexicale est observée après le pronom anaphorique pour une
suite de lettres correspondant à un mot associé à l’antécédent. Observons l’exemple 59 ci-
dessous, emprunté à Shillcock 1982 :
Ex (59) The teacher (1) did not board the train, for the (2) simple reason that it/he (3)
was not going to the South Coast of England.
Dans l’expérience de Shillcock 1982, un mot cible associé sémantiquement au sujet
« teacher » (comme « school »), ou un autre mot cible non associé (tel que « street ») ont été
présentés visuellement à chacun des trois points de sondage codés dans l’exemple par les
chiffres 1,2 et 3. Pour le mot cible associé, un effet d’amorçage est enregistré aux points 1
(juste après « teacher ») et 3 après « he », mais pas au point 2 ni au point 3 après « it », ce qui
conforte la thèse de l’activation du référent désigné par « teacher » par l’anaphorique « he ».
Hormis la thématique centrale des contraintes sémantiques, syntaxiques et discursives
qui pèsent sur l’attribution référentielle des anaphores (la prise en compte de contraintes
prosodique est un phénomène relativement récent)155, une autre question semble cruciale dans
le cadre des études psycholinguistiques de l’anaphore. Cette question concerne le décours
temporel de l’activation liée à l’anaphore. Plusieurs travaux utilisant le paradigme de la
vérification d’occurrence ont mis en évidence un effet facilitateur un certain temps après
l’anaphore pronominale ; c’est par exemple le cas de MacDonnald & MacWhinney 1990 qui
identifie un tel effet 500 ms. après le pronom anaphorique (les deux autres « coups de sonde »
de l’expérience, immédiatement après le pronom et 250 ms plus tard, ne présentaient pas
d’effet facilitateur). A contrario, les expérimentations qui s’appuient sur la méthode
155 Nous avons abordé partiellement ces points dans les chapitres 4 et 6 et renvoyons le lecteur à Nicol &
Swinney 2003 (notamment pp. 98-100) pour une synthèse sur la question du point de vue psycholinguistique.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
407
d’amorçage sémantique argumentent en faveur d’un effet immédiatement après l’anaphore
pronominale (cf. par exemple Nicol 1988).
Nicol & Swinney 2003 (pp. 81-83) suggère que cette différence peut s’expliquer par
deux raisons principales. La première raison est à trouver dans le fait que la vérification
d’occurrence pourrait induire une réitération interne du cotexte gauche (« replaying ») liée à
la recherche du mot cible. La seconde raison est liée au fait que les études reposant sur la
vérification d’occurrence utilisent généralement des pronoms anaphoriques en position sujet,
alors que les celles qui reposent sur l’amorçage sémantique trans-modal utilisent
généralement des pronoms anaphoriques en position objet. L’hypothèse proposée par Cornish
1999 concernant le rôle du segment indexical dans l’attribution référentielle (cf. chapitre 4)
permet alors de comprendre la différence de début d’activation observée en relation avec le
fait que le pronom en position sujet, de par sa position initiale, ne peut pas bénéficier des
informations fournies par le segment indexical, ce qui induit un délai dans l’identification de
son référent ; un pronom anaphorique en position objet, en revanche, apparaissant en position
plus tardive, peut bénéficier de ces informations, et donc trouver son référent de manière plus
rapide.
Pour terminer, nous noterons finalement avec Nicol & Swinney 2003 (p. 77) que si
l’activation du référent semble immédiate dans certaines conditions, elle n’en est pas moins
très temporaire, avec une durée typique comprise entre 250 et 700 ms. Il est en conséquence
indispensable que la séquence de lettres cible soit présentée dans cet intervalle pour qu’un
effet puisse être observé dans le cadre de l’amorçage sémantique trans-modal.
1.3 Hypothèses de travail
Nous venons de donner les grandes lignes d’une présentation de plusieurs méthodes et
de quelques résultats obtenus dans le cadre d’analyses psycholinguistiques de l’anaphore ;
cette évocation nous permet à présent de traduite notre hypothèse d’arbitrage, en hypothèse
(in)validable de manière expérimentale.
D’une part, nous avons proposé d’expliquer le délai d’activation observée entre la
méthode de vérification d’occurrence et la méthode d’amorçage sémantique par la
mobilisation des ressources cognitives dans le cadre du « replaying » du cotexte.
D’autre part, notre hypothèse d’arbitrage postule que l’association d’un onset élevé à
une anaphore pronominale inaccentuée constitue un ensemble contradictoire d’indices que
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
408
l’interlocuteur doit « arbitrer » dans le cadre d’inférences supplémentaires sur le degré
d’« égoïsme communicatif » du locuteur.
En conséquence, nous proposons d’obtenir une mesure de ce travail inférentiel
supplémentaire lié à l’arbitrage des indices conflictuels par une méthode indirecte fondée sur
la méthodologie de l’amorçage sémantique trans-modal. Plus concrètement, nous proposons
deux effets :
• D’une part, par analogie avec le phénomène de délai d’activation, nous pensons qu’un
début d’activation plus tardif pourrait être observé en relation avec l’élévation de
l’onset ; ceci signifie que la présentation précoce d’un mot associé sémantiquement au
référent du pronom pourrait ne pas donner lieu à une diminution du temps de réponse.
• D’autre part, il n’est pas illogique de postuler un affaiblissement de l’effet d’amorçage
qui se traduirait par un temps de réponse intermédiaire entre celui observé avec un mot
cible non associé sémantiquement et celui observé avec un mot cible sémantiquement
associé.
En conséquence, nous proposons de tester l’hypothèse d’arbitrage explicitée plus haut
par une mesure du temps de réponse de sujets soumis à une tâche de décision lexicale dans le
cadre de la méthodologie d’amorçage sémantique trans-modal. Plus particulièrement, nous
proposons une présentation précoce des stimuli cibles (250 ms. après l’anaphore
pronominale), plus à même de mettre en évidence l’un ou l’autre des effets proposés ci-
dessus156.
La traduction expérimentale de notre hypothèse d’arbitrage est donc la suivante :
H-A’ : l’association d’un onset élevé à une anaphore pronominale inaccentuée
génère chez le sujet auditeur un coût cognitif supplémentaire matérialisé par une
absence ou une atténuation de l’effet facilitateur observé dans l’amorçage
sémantique trans-modal avec une présentation des stimuli cibles 250 ms. après le
pronom anaphorique.
Le protocole expérimental complet que nous avons retenu, et vers la présentation duquel
nous nous tournons à présent, comporte donc pour résumer deux étapes destinées à tester
156 Si ces deux effets sont cumulés, nous n’observerons qu’une absence de facilitation avec un stimulus cible à
250 ms. ; cette observation, assimilée à tort, à l’effet de délai suffirait néanmoins à montrer un effet de la valeur
d’onset en terme de coût cognitif.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
409
chacune de nos principales hypothèses. Nous commencerons tout d’abord par hypothèse de
perception H-B, dont les résultats pourront permettre d’aborder et de mettre en perspective le
test de notre hypothèse d’arbitrage H-A.
2 Protocole expérimental : éléments communs
Le détail des éléments de protocole communs à nos deux phases d’expérimentation va
s’organiser de manière chronologique en trois phases principales. Nous étudierons ainsi tout
d’abord les éléments relatifs à la préparation des expérimentations (enregistrement,
manipulation, préparation des scripts d’expérience, etc.), avant de mentionner la phase
d’exécution expérimentale (environnement, outil, etc.) et, finalement, la récupération et le
traitement des données (scripts de mise en forme, environnement d’analyse).
2.1 Phase préparatoire
2.1.1 Enregistrement et numérisation
Comme nous le détaillerons plus loin, les trois expérimentations que nous avons menées
ont impliqué des stimuli sonores qu’il nous a fallu enregistrer et numériser. Nous avons nous-
même produit les stimuli originaux et avons fait vérifier la qualité et le relatif naturel par un
phonéticien et un sujet non spécialiste.
L’enregistrement s’est déroulé dans la chambre anéchoïde du Laboratoire Parole et
Langage (CNRS UMR 6057) dans les locaux du département de Phonétique-FLE de
l’Université d’Aix-Marseille I. Le microphone utilisé est un microphone super cardioïde
Senheiser E 845 fixé sur trépied.
Afin de limiter toute perturbation de l’intensité globale du signal, nous avons conservé
une distance constante avec le microphone ; un support papier fixe a de plus été utilisé comme
support de lecture afin d’éviter tout bruit parasite lié à la manipulation d’une feuille.
Tant pour des raisons de facilité et de rapidité de mise en œuvre que pour garantir une
qualité optimale des enregistrements, nous avons effectué une numérisation des données
audio en temps réel. Dans ce cadre, nous avons effectué la numérisation par l’intermédiaire de
l’unité indépendante Tascam US-122 reliée à l’entrée USB d’un ordinateur portable Dell
Latitude D800 (512 Mo de mémoire vive et disque dur 5400 tr/min ; Microsoft Windows XP
Pro SP1) dont tous les programmes résidents non indispensables ont été désactivés. La
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
410
fréquence d’échantillonnage retenue est 44100 Hz, avec un encodage mono sur 16 bits
(format PCM Microsoft WAV).
Un total de 32 fichiers son originaux a ainsi été généré, correspondant aux 16
enregistrements sources de la phase d’expérimentation 1, et aux 16 enregistrements sources
requis pour la phase d’expérimentation 2.
2.1.2 Manipulations
Les manipulations que nous avons effectuées à partir des enregistrements sources ont
été effectuées au sein de l’éditeur ProZEd présenté au chapitre 5.
Plus précisément, la modification des valeurs fréquentielles des onsets a été effectuée
par resynthèse à l’aide de l’algorithme PSOLA à partir de la courbe de F0 modélisée par
l’algorithme MOMEL.
Les manipulations ont été semi-automatisées dans le cadre de l’utilisation de scripts en
langage Praat et ont impliqué les étapes spécifiques suivantes :
• Chargement du fichier son source
• Détection automatique des frontières d’énoncés + validation manuelle
• Sélection manuelle des zones à manipuler
• Génération automatique des nouvelles valeurs de FO modélisée par MOMEL
• Resynthèse PSOLA
• Sauvegarde des fichiers son modifiés
Par cette méthode, 528 fichiers sonores ont été générés pour les expérimentations 1 et 2
et 272 pour l’expérimentation 3.
2.1.3 Préparation des scripts d’expérimentation
Comme nous allons le voir plus en détail, les expériences ont été réalisées à l’aide de la
station d’évaluation de la perception PERCEVAL. Le déroulement de la procédure de test,
totalement automatisé, nécessite cependant que l’on définisse les stimuli à utiliser, l’ordre de
présentation, le point de sondage, le délai entre deux stimuli, etc. Cette définition se fait par
l’intermédiaire d’un script qui peut être généré soit à l’aide d’un module dédié,
PercGenScript, soit manuellement dans un éditeur de texte. Etant donnée la simplicité du
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
411
langage de script et nos habitudes de programmation, nous avons sélectionné la seconde
option et avons donc rédigé un script pour chaque expérimentation.
2.2 Exécution des expérimentations
2.2.1 Environnement
Tout comme pour l’enregistrement des stimuli source, la procédure d’expérimentation
s’est déroulée au sein de la chambre anéchoïde du Laboratoire Parole et Langage. Les sujets
étaient équipés d’un casque obturant Beyer Dynamic DT 100 branché sur la sortie audio
analogique d’un ordinateur Dell Latitude D800 dont tous les programmes résidents non
indispensables ont été désactivés.
2.2.2 PERCEVAL
Le déroulement de la procédure expérimentale s’est effectué dans le cadre de
l’environnement PERCEVAL157 (version monoposte 3.0.2 2004), station d’évaluation de la
perception développée au sein du Laboratoire Parole et Langage par Carine André et Alain
Ghio en collaboration avec Christian Cavé et Bernard Teston (cf. André et al. 2003 et Ghio et
al. 2003).
Le boîtier utilisé pour les réponses, conçu et réalisé par les concepteurs de la station, a
été relié à l’ordinateur hébergeant l’environnement (Dell Latitude D800, Microsoft Windows
XP Pro SP1) par interface USB.
Nous retiendrons particulièrement la précision de l’ordre de la milliseconde offerte par
PERCEVAL ainsi que la possibilité de présentation multimodale (texte, images, audio)
simultanée, indispensable pour notre troisième expérimentation.
2.3 Récupération et traitement des résultats
Les fichiers ASCII générés par PERCEVAL ont été reformatés et concaténés à l’aide de
scripts spécifiques que nous avons développés en langage Perl.
La récupération et le traitement statistique des données ont ensuite été effectués à l’aide
de l’environnement statistique R158.
157 Pour toute information complémentaire : http://www.lpl.univ-aix.fr/~lpldev/perceval/ 158 R PROJECT FOR STATISTICAL COMPUTING : http://www.r-project.org
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
412
3 Expérimentations
Nous allons à présent détailler dans les deux rubriques suivantes les expérimentations
que nous avons menées dans le but de tester nos hypothèses. Au sein de chaque rubrique,
nous réserverons une partie à la présentation du protocole utilisé avant de fournir les résultats
les plus importants.
3.1 Première phase d’expérimentation
3.1.1 Hypothèses traitées
La première phase d’expérimentation que nous avons menée est destinée à tester
l’hypothèse de perception H-B rappelée ci-dessous :
H-B : Le seuil de perception de l’élévation d’un onset en relation avec une
anaphore pronominale inaccentuée est inférieur ou égal à 1 ton.
Comme nous allons le détailler ci-dessous, bien que la tâche proposée aux sujets soit
linguistique (et pas métalinguistique), elle recourt à des énoncés porteurs de sens et suscite
donc un jugement conscient faisant nécessairement suite à l’interprétation du message
verbal entendu ; on ne se trouve pas ici dans le cadre asémantique d’une expérimentation de
discrimination de sons purs ou de voyelles. Ceci nous pousse à relativiser notre prétention de
tester la simple perception de l’élévation de l’onset : en l’absence d’une méthode d’imagerie
telle que les potentiels évoqués, nous testerons en réalité dans cette expérimentation un
jugement de différence faisant suite à une interprétation.
En conséquence, nous proposons de formuler une hypothèse complémentaire relative à
la différence d’effet sur l’élévation de l’onset selon que l’unité est marquée pour la continuité
par anaphore pronominale ou par connecteur.
Plus précisément, le connecteur « et » (polyvalent) présente un fiabilité inférieure à celle
de l’anaphore ; nous faisons donc l’hypothèse que ce connecteur sera moins « résistant » à
l’élévation d’onset, celle-ci étant alors perçue à un seuil inférieur. Nous retiendrons la
formulation réciproque suivante :
Hypothèse complémentaire : La perception de l’élévation de l’onset requiert une
amplitude plus importante quand l’unité marquée contient un pronom anaphorique
inaccentué que quand elle contient un connecteur.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
413
3.1.2 Protocole expérimental
Afin de tester la perception de la différence d’onset, nous avons choisi de procéder à un
test de discrimination catégorielle classique dans lequel la tâche des 12 sujets volontaires non
experts consistait à répondre si les deux stimuli (textes de trois énoncés) entendus étaient
identiques ou différents. Plus précisément la consigne était la suivante :
« Vous allez entendre des enregistrements (composés de trois phrases) groupés par deux.
Vous devrez choisir s'ils sont identiques (bouton blanc à gauche) ou différents (bouton gris à
droite).
Les différences peuvent être de plusieurs sortes ; choisissez simplement "Différents" dès que vous
percevez une différence.
Veuillez attendre que la diffusion des deux enregistrements de la paire soit terminée avant de
répondre. »
Nos sujets ont été répartis en deux groupes, chacun effectuant deux sessions
d’approximativement une demi-heure, séparées par une pause de 10 minutes.
Facteurs expérimentaux
Nous avons contrôlé deux facteurs principaux dans le cadre de cette analyse :
l’élévation de l’onset et le type de marque morpho-lexicale de continuité (anaphore
pronominale vs. « et »).
Stimuli
Les stimuli utilisés sont ceux générés par resynthèse PSOLA à partir de 16
enregistrements originaux fournis en annexe. Ces stimuli correspondent à des enchaînements
de trois énoncés phonétiquement équilibrés en terme de durée syllabique, de complexité
sémantico-lexicale et de structure syntaxique (cf. exemples 60 et 61).
Ex (60) Texte 1a-01
Michèle fait de magnifiques bouquets
Elle a un grand sens de l’esthétique
Et ce talent est fort reconnu
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
414
Ex (61) Texte 1a-11
Laura arriva à la piscine
Et les plongeoirs étaient assez hauts
Elle avait peur de sauter dans l’eau
Les modifications de la valeur d’onset ont porté sur la première syllabe de l’unité,
position de l’onset pour le français (cf. par exemple Simon & Grobet 2001).
Pour chaque enregistrement source, nous avons généré 17 stimuli expérimentaux
correspondant à
• 1 resynthèse sans modification de valeur d’onset (destinée à être utilisée à la place de
l’enregistrement original pour éviter tout biais dû à la resynthèse PSOLA) et
• 16 resynthèses présentant une valeur croissante d’onset (1/4 de ton par niveau), dont 8
ont été utilisée par groupe.
Au total, chaque sujet a porté un jugement sur 272 paires de textes.
Résultats
Globalement, les résultats obtenus confirment notre hypothèse complémentaire, mais
pas notre hypothèse H-B.
Observons tout d’abord à l’aide de la figure 57 ci-après les résultats cumulés pour tous
les sujets sans distinction entre anaphore et connecteur.
On notera particulièrement que le seuil des 50% est franchi avec le sixième niveau de
modification, qui correspond à une élévation de l’onset d’un ton et demi, supérieure d’un
demi-ton au seuil proposé dans H-B.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
415
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
identdiff
Effectifs des jugements d'identité en fonction du niveau de modification de l'onset
Niveau de modification
Effe
ctifs
050
100
150
200
Figure 57 : Jugements de différence en fonction du niveau de modification
(tous sujets confondus).
De manière plus large, le tableau 30 ci-dessous nous permet de constater que la zone
comprise entre le quatrième et le septième niveau est celle qui comprend les variations de
score les plus importantes.
Modification % Identique Ecart Modification %
Identique Ecart
1 98,96% 0 9 17,19% 6,25% 2 91,15% 7,81% 10 11,46% 5,73% 3 84,38% 6,77% 11 6,25% 5,21% 4 68,75% 15,63% 12 6,77% -0,52% 5 55,73% 13,02% 13 6,77% 0,00% 6 40,63% 15,10% 14 5,73% 1,04% 7 31,25% 9,38% 15 2,08% 3,65% 8 23,44% 7,81% 16 3,13% -1,04%
Tableau 30 : Scores en pourcentage d’identité et écart avec le niveau précédent en fonction
du niveau de modification.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
416
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet an
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet ca
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet cc
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet cd
Niveau de modification
Effe
ctifs
05
1015
Figure 58 : Jugements de différence en fonction du niveau de modification (an, ca, cc et cd).
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet cy
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet im
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet jr
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet ls
Niveau de modification
Effe
ctifs
05
1015
Figure 59 : Jugements de différence en fonction du niveau de modification (cy, im, jr et ls).
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
417
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet mg
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet rl
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet th
Niveau de modification
Effe
ctifs
05
1015
0 1 2 3 4 5 6 7 8 9 10 12 14 16
identdiff
Sujet tv
Niveau de modification
Effe
ctifs
05
1015
Figure 60 : Jugements de différence en fonction du niveau de modification (mg, rl, th et tv).
Une analyse plus détaillée des réponses de chacun des 12 sujets confirme cette plage de
seuil ; le sujet « an » constitue cependant une exception flagrante. Les figures 58, 59 et 60 des
pages précédentes donnent une représentation graphique des effectifs de jugement de
différence en fonction des niveaux de modification.
Nous avons résumé dans le tableau 31 ci-après les seuils correspondant à l’égalisation
ou au dépassement des 50 % de jugement de différence ; lorsque deux valeurs sont indiquées
(par exemple « 4-5 »), cela signifie que le sujet égale le seuil pour le premier niveau
mentionné et le dépasse pour le suivant. Le contraste entre le seuil du sujet « an » et celui des
autres sujets est ici flagrant :
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
418
Sujet Niveau-seuil Sujet Niveau-seuil
an 10-11 jr 7 ca 4-5 ls 4 cc 6 mg 4-5 cd 5 rl 7 cy 5-6 th 7 im 9 tv 6
Tableau 31 : Niveau de modification pour le seuil de 50 % pour les 12 sujets.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
identdiff
Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)
Niveau de modification
Effe
ctifs
050
100
150
200
Figure 61 : Jugements de différence en fonction du niveau de modification (un sujet exclu).
Etant donné cet écart important entre le sujet « an » et l’ensemble des autres sujets, nous
avons décidé de l’exclure de l’analyse. La figure 61 ci-dessus présente la nouvelle distribution
des jugements de différence en fonction des niveaux de modification de l’onset.
Cette nouvelle distribution semble adopter une tendance plus sigmoïdale mais nous
noterons néanmoins que le seuil des 50% reste lié au sixième niveau de modification de
l’onset, c'est-à-dire à une élévation d’un ton et demi.
En revanche, comme le suggère la figure 62 ci-après, l’observation des effectifs en
fonction du type de marqueur morpho-lexical de continuité (pronom anaphorique vs.
connecteur « et ») semble indiquer une différence de traitement confirmant notre hypothèse
complémentaire 1.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
419
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
identdiff
Condition Anaphore : Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)
Niveau de modification
Effe
ctifs
020
4060
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
identdiff
Condition Connecteur : Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)
Niveau de modification
Effe
ctifs
020
4060
80
Figure 62 : Jugements de différence en fonction du niveau de modification et du type de
marqueur de continuité discursive (un sujet exclu).
Nous remarquons en effet que le seuil des 50% de jugement de différence est perçu au
niveau 6 (1 ton et demi) pour l’anaphore et dès le niveau 5 pour le connecteur « et ». Cette
différence de distribution est confirmée par un test de chi quarré qui permet de rejeter
l’hypothèse de l’identité des distributions au seuil de 0,05 (χ2 = 197,625 et p = 0,1749).
Synthèse
Nous retiendrons de cette première phase d’expérimentation que les sujets perçoivent la
différence d’onset pour des seuils compris entre 1 ton (niveau 4 de notre expérimentation) et
1,75 tons (niveau 7).
De plus, cette perception semble influencée par la nature de la marque morpho-lexicale
de continuité discursive, avec une perception de différence inférieure d’un niveau (1/4 de ton)
dans la condition « connecteur ».
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
420
Nous discuterons ces deux résultats dans la rubrique finale de cette section et allons à
présent nous tourner vers la seconde phase d’expérimentation.
3.2 Seconde phase d’expérimentation
3.2.1 Hypothèse expérimentale
Rappelons tout d’abord notre formulation expérimentale de l’hypothèse H-A :
H-A’ : l’association d’un onset élevé à une anaphore pronominale inaccentuée
génère chez le sujet auditeur un coût cognitif supplémentaire matérialisé par une
absence ou une atténuation de l’effet facilitateur observé dans l’amorçage
sémantique trans-modal avec une présentation des stimuli cibles 250 ms. après le
pronom anaphorique.
3.2.2 Protocole expérimental
Comme nous l’avons précisé dans la première partie, nous avons opté pour la méthode
d’amorçage sémantique trans-modal : 12 sujets volontaires non phonéticiens ont écouté un
ensemble d’enregistrements formant de courts textes composés de trois phrases équilibrées en
terme de nombre de syllabes, de complexité sémantique et de structure syntaxique. La
consigne était la suivante :
« Vous allez entendre des enregistrements racontant de petites histoires.
En fin de session, vous allez devoir répondre VRAI ou FAUX à des affirmations concernant ces
histoires.
Pendant la session vous allez devoir répondre le plus rapidement possible lorque des mots
apparaîtront à l'écran.
Si le mot est effectivement un mot français, appuyez sur le bouton blanc à gauche.
Si le mot n'est pas un mot français, appuyez sur le bouton gris à droite. »
Les sujets étaient donc supposés être interrogés en fin d’expérimentation sur le contenu
des textes entendus ; ce leurre a permis de forcer l’écoute active des textes, et pas simplement
leur perception en « bruit de fond » pendant la tâche de décision lexicale.
Pendant l’expérimentation, trois types de séquences de lettres pouvaient apparaître à
l’écran 250 ms après l’occurrence du pronom anaphorique inaccentué situé au sein de
l’énoncé final : un mot sémantiquement relié à l’antécédent du pronom, un mot non relié
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
421
sémantiquement, ou un non mot. Dans tous les cas, la lecture de l’enregistrement n’était pas
interrompue par la présentation visuelle de la séquence de lettres cible.
Nos sujets ont été répartis en deux groupes, chacun effectuant deux sessions
d’approximativement un quart d’heure, séparées par une pause de 10 minutes.
Facteurs expérimentaux
Les facteurs expérimentaux que nous avons contrôlés dans cette expérimentation sont :
la modification de l’onset du troisième énoncé (comportant l’anaphore pronominale
inaccentuée), la séquence de lettres affichée (type, principalement, mais avec analyse a
posteriori du nombre de lettres et de la fréquence), le genre, et le nombre de l’antécédent.
Stimuli
Les stimuli utilisés dans cette expérience ont été obtenus à l’aide de la méthode de
resynthèse PSOLA évoquée plus haut ; pour chacun de nos 16 enregistrements originaux,
nous avons ainsi obtenus 17 enregistrements resynthétisés, dont un resynthétisé sans
modification de F0.
Comme nous l’avons évoqué plus haut, ces enregistrements forment de courts textes
composés de trois phrases équilibrées en terme de nombre de syllabes, de complexité
sémantique et de structure syntaxique (cf. exemples 62 et 63 ci-dessous).
Ex (62) Texte 1c-09
Le policier est en train de vérifier les alibis.
Dans dix-sept jours, il ira présenter son rapport au juge.
Le mois prochain, il devra se rendre à l’audience à Toulouse.
Ex (63) Texte 1c-10
La secrétaire est en train de débrancher l’ordinateur.
Dans cinq minutes, elle va ranger ses dossiers une dernière fois.
L’année prochaine, elle doit occuper un nouveau poste au Mans.
Nous avons placé le pronom anaphorique en position non initiale d’unité modifiée afin
que l’élévation de l’onset ne puisse pas être perçue, notamment dans le cadre des pronoms
personnels féminins « elle » et « elles », comme une accentuation.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
422
Pour des raisons de durée d’expérimentation, nous avons en revanche utilisé, pour
chaque enregistrement original,
• l’enregistrement resynthétisé sans modification de F0 ;
• deux enregistrements resynthétisés et dont la F0 a été modifié par des seuils distants
de 8 niveaux (par exemple niveaux 1 et 9, 2 et 10, 3 et 11, etc.)
Chaque stimulus sonore a été entendu trois fois (non consécutivement, bien entendu)
par les sujets, couplé à chaque fois avec une séquence de lettres cible différente (mot associé,
mot non associé, non mot), ce qui représente un nombre total de 144 stimuli sonores
différents.
Les séquences de lettres cible ont elles-mêmes été équilibrées en terme de nombre de
syllabes et de lettres ; une analyse a posteriori à partir de la base de données Frantext de
l’ATILF159 a été effectuée et n’a révélé aucun effet de fréquence lexicale. Les exemples 64 et
65 ci-dessous donnent une idée des mots et non mots employés :
Ex (64) Texte 1c-09 : menottes (mot associé) / sacoches (mot non associé)
baltoches (non mot)
Ex (65) Texte 1c-10 : lettre (mot associé) / cheval (mot non associé) luttrel (non mot)
Résultats
Comme avec les valeurs fréquentielles lors du chapitre précédent, les temps de réponses
fournis varient de manière significative entre les sujets. La figure 63 ci-après donne une
représentation graphique de cette variation importante.
159 Pour tout renseignement : http://www.atilf.fr/
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
423
at cb cd cy da jl ls lt nz sd sr th
050
010
0015
0020
00
Temps de réponse par sujet
Sujets
Tem
ps d
e ré
pons
e en
ms.
Figure 63 : Temps de réponse bruts par sujet.
En conséquence, nous avons décidé d’adopter une méthode de normalisation destinée à
permettre la mise en commun et la comparaison des réponses des sujets. Une fois encore (cf.
chapitres 7 et 8), nous avons eu recours, pour chaque sujet, à la méthode de « transformée z »
qui consiste à exprimer une valeur donnée en terme de différence par rapport à la moyenne
(on parle de centrage) divisée par l’écart type (on parle de réduction) :
typeEcartMoyenneValeurNorm.
−=
Équation 3 : Valeur normalisée exprimée en fonction de la valeur brute et de la
moyenne et de l’écart type pour chaque sujet.
Cette normalisation (cf. figure 64 ci-après), permet d’obtenir des valeurs comparables
pour tous les sujets, quel que soit leur temps de réponse moyen.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
424
at cb cd cy da jl ls lt nz sd sr th
-4-2
02
4
Temps de réponse normalisés par sujet
Sujets
Tem
ps d
e ré
pons
e no
rmal
isés
Figure 64 : Temps de réponse normalisés par sujet.
Malgré un aplatissement de 9,013983, une dissymétrie de -0,6232997 et une légère
tendance bimodale, la distribution des temps de réponse normalisés ne semble pas différer
d’une distribution normale de manière significative au seuil de 0,05 (Kolmogorov-Smirnov :
D = 0,0295 et p = 0,4391 / Wilcoxon : W = 1519515 et p = 0,3658). Nous pourrons donc
utiliser des ANOVAs de manière relativement fiable.
La figure 65 ci-dessous représente cette distribution sous la forme d’un histogramme
des temps de réponse normalisés.
Histogramme et courbe de densité des temps de réponses normalisés
Temps de réponse normalisés
Effe
ctifs
-4 -2 0 2 4
050
100
150
200
250
300
350
Figure 65 : Histogramme et courbe de densité des temps de réponse normalisés.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
425
Après cette nécessaire normalisation des données, nous proposons à présent de nous
tourner vers l’observation des résultats spécifiques à notre expérimentation.
Observons tout d’abord l’effet du type de séquence de lettres sur le temps de réponse
normalisé au niveau global (figure 66 ci-dessous) :
Mot non associé Mot associé Non mot
-4-2
02
4Boxplots des temps de réponse normalisés par type de séquence de lettres
Tem
ps d
e ré
pons
e no
rmal
isés
Figure 66 : Boxplots des temps de réponse normalisés par type de séquence de lettres.
L’analyse formelle des données permet de confirmer de manière significative la
tendance observée (ANOVA : F = 30,78 et p = 1.081e-13 et tests de Kolmogorov-Smirnov
deux à deux) :
• les réponses face aux non mots sont les plus lentes, avec une moyenne normalisée
positive de 0,2509133 ;
• les mots non associés viennent en second avec une moyenne normalisée négative de -
0,06661934 ;
• les mots sémantiquement associés, finalement, génèrent les réponses les plus rapides,
avec une moyenne normalisée négative de -0,184294.
Ces résultats, qui confirment l’effet d’amorçage sémantique trans-modal, semblent
cependant gênants concernant notre hypothèse H-A car la modification du niveau d’onset
semble ne pas avoir d’effet sur ce phénomène. Observons à ce propos la figure 67 ci-après :
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
426
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
-4-2
02
4
Boxplots des temps de réponse normaliséspar niveau de modification
Niveaux de modification
Tem
ps d
e ré
pons
e no
rmal
isés
Figure 67 : Temps de réponse normalisés par niveau de modification d’onset.
Une ANOVA globale du facteur « niveau de modification » semble d’ailleurs confirmer
cette apparente absence d’effet (ANOVA : F = 1,703 et p = 0,1921).
Cependant, une ANOVA croisant les facteurs « type de séquence de lettre » et « niveau
de modification » donne des résultats plus intéressants (cf. tableau 32 ci-dessous).
Echantillon élargi
Statistique F P-valeur
Type de séquence 30,615 8,61e-14 ***
Niveau de
modification 1,774 0,1830672
Type : Niveau 7,334 0,0006736 ***
Tableau 32 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification ».
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
427
Comme le montre le tableau 32, l’interaction des deux contraintes semble avoir un effet
significatif, ce qui nous encourage à analyser chaque type de séquence de lettres séparément
(sans prendre en considération les non mots). Observons tout d’abord l’influence du niveau de
modification sur le temps de réponse dans la condition « mot non associé ».
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
-4-2
02
4Temps de réponse normalisés par niveau de modification
Condition "mot non associé"
Niveaux de modification
Tem
ps d
e ré
pons
e no
rmal
isés
Figure 68 : Temps de réponse normalisés par niveau de modification d’onset pour la
condition « mot non associé ».
La très faible tendance graphique d’augmentation du temps de réponse normalisé en
relation avec l’augmentation du niveau de modification n’est pas confirmée comme
significative par un test formel au seuil de 0,05 (ANOVA : 3,6308 et p = 0,05722).
Observons ce qu’il en est pour l’influence du niveau de modification sur le temps de
réponse dans la condition « mot associé ».
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
428
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
-4-2
02
4
Temps de réponse normalisés par niveau de modificationCondition "mot associé"
Niveaux de modification
Tem
ps d
e ré
pons
e no
rmal
isés
Figure 69 : Temps de réponse normalisés par niveau de modification d’onset pour la
condition « mot associé ».
Ici encore, on observera une très faible tendance graphique d’augmentation du temps de
réponse normalisé en relation avec l’augmentation du niveau de modification ; cette fois-ci,
cependant, cette tendance est confirmée comme significative par un test formel au seuil de
0,05 (ANOVA : 7,9828 et p = 0, 004887).
Synthèse
Cette seconde phase d’expérimentation a permis d’observer clairement l’effet
d’amorçage sémantique trans-modal que nous pouvions attendre, avec des temps de réponse
significativement inférieurs pour les mots associés sémantiquement à l’antécédent du pronom
anaphorique ; la validation de notre hypothèse H-A, en revanche, semble plus délicate : en
effet, nous ne remarquons aucun effet global du niveau de modification de l’onset sur les
temps de réponse ; la dissociation des deux types de mot cible utilisés en revanche (mot
associé vs. mot non associé) permet la mise en évidence d’un effet significatif concernant les
temps de réponse.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
429
Etant donnée notre hypothèse H-A, nous considérons ces résultats comme
encourageants, mais devant être approfondis.
C’est précisément vers ce type d’approche que nous allons à présent nous tourner dans
le cadre de la discussion générale des résultats de nos deux phases d’expérimentation.
3.3 Discussion
Comme nous venons de le mentionner, il semble que l’élévation de l’onset ait un effet
sur le temps de réponses des sujets dans le cadre de l’effet d’amorçage sémantique trans-
modal ; si ceci constitue un élément favorable concernant notre hypothèse fondamentale H-A,
il est bien entendu indispensable d’approfondir notre analyse pour éclaircir la nature précise
de cet effet.
Dans ce contexte, il est important de noter que notre première phase d’expérimentation
avait permis de mettre en évidence un seuil de perception de l’élévation de l’onset compris
entre 1 ton et 1,75 tons (nos niveaux de modification 4 et 7). Nous nous inspirerons donc de
ce résultat et postulerons un effet de seuil dans le cadre de l’influence de l’onset sur le temps
de réponse des sujets dans la condition « mot associé ».
L’observation d’une courbe de moyenne mobile des temps de réponse des sujets dans la
condition « mot associé » en fonction du niveau de modification de l’onset (cf. figure 70 ci-
après) nous permet de préciser de manière univoque le sens de l’effet observé ci-dessus ainsi
que de proposer une première approximation concernant son seuil :
• le sens de l’effet est incontestablement à l’augmentation du temps de réponse en
relation avec l’augmentation de la modification de l’onset ; ce qui est compatible avec
notre hypothèse H-A ;
• le seuil à partir duquel l’effet d’augmentation est particulièrement visible semble être à
proximité des niveaux 5 et 6, ce qui confirme les observations que nous avons
effectuées dans le cadre de notre première phase d’expérimentation.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
430
0 5 10 15
-0.3
0-0
.28
-0.2
6-0
.24
-0.2
2-0
.20
-0.1
8
Moyenne mobile des temps de réponse normalisés par niveau de modificationCondition "mot associé"
Niveaux de modification
Moy
enne
s de
tem
ps d
e ré
pons
e no
rmal
isé
Figure 70 : Moyenne mobile des temps de réponse normalisés par niveau de modification
d’onset pour la condition « mot associé ».
Nous proposons donc de reprendre l’ANOVA à deux facteurs croisés que nous avons
déjà utilisée plus haut (cf. tableau 32) et de fragmenter son domaine d’application en fonction
des valeurs de seuils que nous proposons.
0-4 > 5
F P F P
Type de séquence 51,0547 <2e-16 *** 2,2144 0,1098
Niveau de modification 1,7095 0,1914 0,2420 0,6229
Type : Niveau 0,5602 0,5713 0,2992 0,7415
Tableau 33 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification » pour les plages 0-4 et >5.
Nous remarquons qu’entre les niveaux 0 et 4, le seul effet significatif est celui qui
oppose les mots associés aux mots non associés. D’autre part, tout comme l’effet du facteur
« niveau », celui de l’interaction « type:niveau » n’est pas significatif. Ceci nous permet de
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
431
conclure en l’absence d’effet de l’élévation de l’onset sur le temps de réponse à un niveau
inférieur au niveau 5, ce qui corrobore cette fois-ci de manière formelle le seuil de perception
proposé dans le cadre de notre première expérimentation.
La plage supérieure au niveau 5 pose un nouveau problème d’interprétation : en effet,
plus aucun facteur, pas même le type de séquence de lettres, ne semble avoir d’effet
significatif sur le temps de réponse des sujets. Le retour à l’observation des données, et
notamment la figure 14 ci-avant, nous pousse à faire l’hypothèse d’une seconde fragmentation
de la plage des niveaux de modification de l’onset à partir du niveau 10, qui présente une
rupture avec la croissance forte de la moyenne mobile observée depuis le niveau 5.
5-10 > 10
F P F P
Type de séquence 2,4973 0,08376 1,1877 0,30593
Niveau de modification 4,0232 0,04564 * 3,7683 0,05289
Type : Niveau 0,6996 0,49747 0,6752 0,50959
Tableau 34 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification » pour les plages 5-10 et >10.
Suite à l’observation des résultats présentés dans le tableau 34 ci-dessus, nous
remarquerons que la plage centrale des niveaux de modification de l’onset (niveaux 5 à 10)
est la seule à comporter un effet significatif au seuil de 0,05, en relation avec la modification
de niveau de l’onset.
L’ensemble de ces résultats peut selon nous s’interpréter de la manière suivante :
• Niveaux de modification 0 à 4 : l’élévation de l’onset n’est pas perçue et l’effet
d’amorçage sémantique (lié au type de séquence de lettres) est très significatif ;
• Niveaux de modification 5 à 10 : l’élévation de l’onset est à présent perçue et
influence significativement l’effet d’amorçage sémantique qui n’est plus significatif ;
• Niveaux de modification au-delà de 10 : l’élévation de l’onset dans cette plage n’est
plus significative, de même que l’effet d’amorçage sémantique.
Formulé de manière plus explicite, il semble donc que lorsque l’élévation de l’onset
n’est pas perçue (niveau inférieur à 5), l’effet d’amorçage sémantique se produit
normalement, avec une facilitation de la reconnaissance des mots associés sémantiquement à
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
432
l’antécédent du pronom ; à partir du moment où l’élévation de l’onset est perçue (niveau 5), la
différence de temps de réponse liée à cette facilitation n’est plus significative et l’effet
d’amorçage sémantique s’estompe ; à partir d’un niveau encore plus élevé (niveau 11, c'est-à-
dire une élévation de 2,75 tons) ni l’élévation de l’onset ni le type de séquence de lettres cible
n’ont d’influence significative sur le temps de réponse : l’effet d’amorçage sémantique n’est
plus significatif et l’élévation de l’onset ne contribue plus à augmenter le temps de réponse de
manière significative.
Ce fonctionnement semble donc confirmer l’hypothèse d’arbitrage que nous avons
proposée en début de chapitre, mais de manière plus complexe que nous ne l’avions
envisagé : il semble en effet qu’à partir du moment où elle est perçue, l’élévation de l’onset
induit un traitement cognitif supplémentaire qui se traduit par une annulation de l’effet
d’amorçage sémantique trans-modal ; notre expérimentation montre aussi, qu’au-delà d’un
seuil estimé à presque 3 tons ni l’élévation de l’onset ni le type de séquence de lettre cible ne
semblent influencer significativement le temps de réponse des sujets : nous interprèterons
temporairement ce résultat comme un phénomène de saut catégoriel (le texte étant peut-être
dès lors perçu comme mal formé), potentiellement un artefact de notre démarche, et
reconnaissons bien volontiers que d’autres approfondissements de cette thématique semblent
s’imposer.
Nous terminerons cette discussion de nos résultats par un rapide retour sur l’hypothèse
de perception H-B et son hypothèse complémentaire, toutes deux formulées plus haut. Ainsi,
si nous remarquons que le marquage de la continuité discursive par l’anaphore pronominale
inaccentuée semble induire un seuil perceptif très légèrement plus élevé, ce seuil reste
néanmoins plus élevé que les valeurs observées dans l’analyse du corpus d’anglais Aix-
MARSEC. Ceci nous pousse à nous interroger sur la validité inter-langue de la valeur de ce
seuil, interrogation qui ne nous semble pouvoir recevoir de réponse que dans le cadre d’un
croisement des méthodes utilisées dans cette thèse (analyse de corpus en français et analyse
de perception en anglais). Tout cela, à l’évidence, en pourra faire l’objet que de recherches
futures …
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
433
4 Synthèse générale
Les trois parties principales de ce chapitre nous ont permis de formuler et de tester la
validité de deux hypothèses relatives aux aspects perceptifs des interactions anaphore
pronominale-onset.
Notre démarche a trouvé son origine dans le constat fait lors du chapitre précédent
concernant l’élévation significative, pour certains locuteurs de la valeur fréquentielle de
l’onset des unités intonatives marquées pour la continuité discursive par anaphore
pronominale inaccentuée. Nous nous sommes appuyés sur le concept d’asymétrie
locuteur/interlocuteur afin d’interpréter ce phénomène dans le cadre d’une économie de
production pour le locuteur (un onset plus élevé permettant en quelque sorte une déclinaison
plus « comfortable ») que ce dernier laisse à la charge de l’interlocuteur de compenser par un
effort cognitif plus intense lié à la compétition de formes antagonistes.
Un rapide survol des principales méthodes psycholinguistiques utilisées dans le cadre
des études sur l’anaphore nous a ensuite permis de proposer que cet effort de traitement
supplémentaire puisse avoir un impact sur l’effet d’amorçage sémantique trans-modal.
En conséquence, après une présentation du protocole et des outils employés dans la
mise en place de nos expérimentations, l’objectif principal de notre partie expérimentale a
consisté à tester cette hypothèse centrale.
Nos résultats semblent confirmer que l’élévation de l’onset en relation avec une
anaphore pronominale inaccentuée induit des temps de réponses liés à un traitement cognitif
plus important. Ce fonctionnement est cependant conditionné par deux seuils :
• le premier, que nous appellerons « seuil de perception d’onset », compris entre 1 et
1,75 tons, est la limite inférieure à partir de laquelle l’onset est perçue par les sujets et
entre en compétition avec l’anaphore ;
• le second seuil, que nous nommerons « seuil de saturation », situé à un peu moins de
trois tons, constitue la limite à partir de laquelle la poursuite d’une élévation de l’onset
ne semble plus générer d’effet supplémentaire.
Nous avons aussi noté que le seuil de perception d’onset observé en français semble
supérieur à ce que nos analyses fondées sur l’anglais pouvaient laisser penser ; cette
différence constitue une question majeure abordable dans le cadre d’une indispensable
permutation des méthodologies que nous avons employées ici.
Chapitre 9 – Aspects perceptifs des interactions anaphore-onset
434
435
Conclusion
Conclusion
436
Proposer une conclusion à ce point de notre réflexion nous paraît presque artificiel tant
les problèmes en suspens et les pistes à approfondir sont nombreuses ; nous pensons
néanmoins que les proposisitons théoriques et les analyses expérimentales évoquées dans
cette thèse constituent un ensemble relativement homogène et assez représentatif de l’état
actuel de nos travaux. Considérons dès lors ce travail pour ce qu’il est, un instantané de notre
réflexion à ce jour, et résumons-en les aspects les plus fondamentaux.
Bilan …
Au-delà des découpages en parties et chapitres, ce travail a eu pour objectif de réaliser
une articulation entre propositions de nature théorique et expérimentation concernant les
thèmes de l’anaphore, de la prosodie et de leurs interactions dans un cadre discursif.
Concernant les propositions théoriques, nous avons souhaité placer notre réflexion
générale au sein d’une vision dynamique de la linguistique ; la description reste lacunaire,
bien évidemment, et confine parfois à une simplification réductrice, mais nous pensons que
l’idée essentielle que nous souhaitions mettre en avant est préservée : la linguistique subit
depuis quelques décennies l’influence (que nous jugeons fort positive, mais la chose est à
débattre) de la pragmatique, ce qui a pour effet de les faire évoluer toutes deux. La prosodie,
l’une des branches les plus dynamiques et les plus populaires de cette linguistique élargie,
semble elle aussi bénéficier de cette pragmatisation de la linguistique et paraît systématiser sa
représentation d’un large spectre de phénomènes depuis le lexique et la syntaxe jusqu’aux
frontières de la linguistique.
C’est dans ce cadre général que nous avons souhaité placer notre étude des relations de
la prosodie et de l’anaphore dans une perspective discursive. Ainsi, si nous avons souhaité
aborder cette étude par un rappel des conceptions traditionnellement attachées au concept
d’anaphore (chapitre 2), nous avons, dans la foulée (chapitre 3), proposé une caractérisation
du concept parfois évanescent de discours. Nous avons ainsi souligné l’intérêt de dissocier le
texte en tant que produit de et indice pour les activités cognitives des interactants, du discours
pésenté comme perspective heuristique. Notons aussi que face à la diversité des arguments en
faveur ou en défaveur de la conception du discours en tant qu’unité linguistique supérieure à
la phrase, nous avons préféré adopter une position de neutralité et proposer de concevoir le
discours comme une heuristique complexe de l’activité de communication humaine par
l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la fois trace de et indice pour les
processus cognitifs qui président à sa production et à son interprétation situées. Ce type de
Conclusion
437
définition, bien qu’évidemment imparfait, a selon nous l’avantage de mettre en évidence les
aspects multi-paramétriques, dynamiques et multidimensionnels que nous pensons
fondamentaux.
Cette ébauche de définition du discours nous a ensuite permis de proposer un double
changement de perspective qui constitue l’un des points centraux de ce travail. Ainsi, nous
inspirant principalement des propositions de Francis Cornish (notamment Cornish 1999) et de
la distinction proposée dans la Théorie de la Pertinence entre sens conceptuel et sens
procédural, nous avons proposé de considérer l’anaphore non plus comme une coquille vide et
dépendante de son cotexte, un problème à « résoudre », mais plutôt comme un procédé actif
de gestion cognitive de la dynamique discursive. Ce premier changement de perspective s’est
ensuite vu complémenté par un second, relatif à la dépendance mutuelle de l’attribution
référentielle de l’anaphore et de la structure rhétorique du discours.
Le deuxième volet de notre réflexion théorique s’est organisé autour de la thématique de
la prosodie. Dans un premier temps, nous avons souhaité nous intéresser plus particulièrement
à l’organisation et à la représentation de la prosodie. En continuité partielle avec les travaux
d’Albert Di Cristo et de Daniel Hirst, nous avons proposé de concevoir la prosodie comme un
système complexe de sous-systèmes nécessitant une représentation à plusieur niveaux, depuis
le niveau physico-acoustique jusqu’au niveau phonologique profond via les niveaux
phonétique et phonologique de surface. La partie plus originale de nos propositions comporte
trois principaux éléments :
• la généralisation de cette représentation multi-niveau à un ensemble de quatre espaces
prosodiques ancrés substance (espaces fréquentiel, d’intensité, de durée et spectral) ;
• l’extension du concept d’orthogonalité à ces espaces (notamment avec le niveau et
l’étendue fréquentiels et le débit, bien que des pistes restent ouvertes concernant les
autres espaces ancrés substance) ; permettant la mise en place du concept de
dimension « localisante » ou « cadre », au sein de laquelle se produite la
réinterpréation phonologique des phénomènes phonétiques ;
• et l’articulation de ces espaces avec un espace métrique plus abstrait, organisé autour
des deux concepts fonctionnels primaires d’accent et de frontière, et spécialisé dans
l’interfaçage de la prosodie à la syntaxe.
Nous avons de plus argumenté, contra Levelt 1989, pour un positionnement du
« compilateur » prosodique non seulement après le module syntaxique (par l’intermédiaire de
Conclusion
438
l’espace métrique gérant les proéminences et les frontières), mais aussi en parallèle avec
celui-ci, en contact direct avec le module de conceptualisation (par l’intermédiaire des espaces
ancré substance).
Nous avons terminé ce parcours théorique par un survol de quelques conceptions
relatives à l’interaction directe de la prosodie et de l’anaphore par le biais de l’accentuation
des pronoms personnels et au rôle de la prosodie dans l’organisation de l’interaction
discursive. Concernant plus particulièrement ce second point, nous avons proposé une
caractérisation unifiée des dimensions localisées et localisantes des espaces fréquentiel,
d’intensité et de durée160 en relation avec le marquage initial (« vers la gauche ») et final
(« vers la droite ») de la (dis)continuité discursive.
Arrivé au terme de cette approche théorique, nous avions ainsi pu mettre en évidence les
rôles respectifs de l’anaphore pronominale et de la prosodie dans la dynamique du discours ; il
semblait dès lors intéressant, étant donnée notre conception massivement interactive de
l’heuristique discursive, de tester expérimentalement l’interaction de phénomènes prosodiques
tels que l’onset avec l’anaphore dans le cadre du marquage de la (dis)continuité discursive,
tant du point de vue du locuteur (en production) que de celui de l’interlocuteur (en
perception).
En conséquence, nous avons consacré les chapitres 7 et 8 à la description et à l’analyse
de ces phénomènes en anglais britannique authentique dans le corpus Aix-MARSEC. Il
ressort principalement de cette analyse une confirmation encourageante de l’interaction de ces
deux paramètres pour certains locuteurs. Nous avons ainsi mis en évidence une valeur plus
élevée d’onset lorsque l’unité concernée était marquée par anaphore pronominale
inaccentuée ; nous avons proposé une interprétation cognitive et psycho-physiologique à ce
phénomène, liée au fait que l’anaphore pronominale inaccentuée constituait une garantie de
continuité permettant un relâchement (voire une annulation) des contraintes discursives
d’abaissement pesant sur la valeur de l’onset dans le cadre de la continuité discursive.
La contrepartie perceptive de cette hypothèse a ensuite été testée dans notre dernier
chapitre. Cette dernière analyse expérimentale a permis de confirmer globalement la
compensation cognitive de la production d’indices antagonistes (ou « compétitifs » si l’on se
place dans le cadre du Modèle de Compétition) que constituent un onset plus élevé et une
160 Nous avons aussi fait mention des aspects liés à la qualité de voix, mentionnés dans nombre d’études sur la
question.
Conclusion
439
anaphore pronominale inaccentuée : il semble en effet que l’interlocuteur perçoive, interprète
et arbitre ces différents indices, comme le suggère l’annulation de l’effet d’amorçage
sémantique trans-modal observée lorsque un onset plus élevé est perçu.
Globalement, ce travail de thèse a tenté de coupler certains aspects théoriques et
expérimentaux concernant la prosodie et le discours, plus particulièrement en relation avec
l’anaphore. Nous avons argumenté en faveur d’une conception massivement interactive de
l’heuristique discursive et avons suggéré la possibilité d’interactions concertées mais
indirectes de la prosodie et de l’anaphore.
… et perspectives
De nombreux problèmes, cependant ont été soulevés et mériteraient d’être approfondis.
Parmi ceux-ci nous noterons plus particulièrement le problème des unités dans le cadre du
discours : le discours est-il une unité ? Implique-t-il des unités supérieures à la phrase ?
Concernant la prosodie, le débat déjà ancien de la frontière entre le linguistique et le
paralinguistique semble renouvelé par l’intégration plus systématique des aspects relatifs à la
qualité de voix. Notons aussi que la représentation multi-niveau unifiée de l’ensemble des
espaces prosodiques, bien que séduisante sur un plan intellectuel, reste une piste à explorer,
tout comme la généralisation de la distinction entre dimension localisée et dimension
localisante que nous suggérons d’étendre à tous les espaces prosodiques ancrés substance.
Notre partie expérimentale, a elle aussi soulevé des difficultés importantes relatives à la
représentativité des données orales et nous encourage, étant donnée la fragilité de nos
résultats, à approfondir la thématique choisie. Les différences de seuil observées entre
production en anglais et perception en français, notamment, soulignent une fois encore le
caractère indispensable du croisement de nos méthodes expérimentales avec les langues
analysées, voire même leur extension à d’autres langues.
Autant de problèmes, de questions et de pistes qui nous poussent, malgré l’achèvement
de cette phase de notre vie d’étudiant-chercheur à envisager le futur comme un vaste horizon
d’investigation…
Index des figures
441
Index des figures Figure 1: Gradient d’indexicalité pour les « pronoms de dialogue » (Charolles 2002 : p. 213)
..........................................................................................................................................61
Figure 2 : Evolution de l’article défini anglais depuis l’indo-européen. .................................66
Figure 3 : Evolution des adjectifs démonstratifs anglais depuis l’indo-européen. ..................66
Figure 4 : Evolution des pronoms personnels de troisième personne en anglais depuis l’indo-
européen. ..........................................................................................................................66
Figure 5: Structure des systèmes déictiques personnel, spatial et temporel pour l’anglais
(la structure est identique pour le français). ....................................................................74
Figure 6 : Types de référence selon Halliday & Hasan 1976. .................................................80
Figure 7 : Classification des usages indexicaux selon Levinson 2004 (corrigé)......................82
Figure 8 : Catégories de familiarité supposée (reproduction de Prince 1981)........................99
Figure 9 : Représentation de l’état attentionnel en fonction de la structure linguistique (à
gauche) et de la hiérarchie de domination de la structure intentionnelle
(schéma 1 de Grosz & Sidner 1986, p. 181)...................................................................109
Figure 10 : Modules et formes d’organisation du MG
(d’après la figure 1 de Roulet et al. 2001 : p. 51). .........................................................116
Figure 11 : Types de référence selon Halliday & Hasan 1976. .............................................137
Figure 12 : Classification des usages indexicaux selon Levinson 2004 (corrigée)................138
Figure 13: Echelle de codage du topique selon Givón 1983. .................................................165
Figure 14: Echelle de marquage d’accessibilité selon Ariel 2000. ........................................165
Figure 15: Hiérarchie du donné selon Gundel et al. 1993
(repris de Gundel et al. 2000 : pp. 81-82)......................................................................166
Figure 16 : Distinction entre prosodie et intonation en fonction du domaine d’application
(Hirst & Di Cristo 1998 : p. 4). ......................................................................................198
Figure 17 : Distinction entre prosodie et intonation en fonction du domaine d’application
avec prise en compte des paramètres physiques (Hirst & Di Cristo 1998 : p. 5).
La prosodie est ici le concept englobant. .......................................................................199
Figure 18 : Représentation conjuguée des deux aspects de l’intonation selon
(Hirst & Di Cristo 1998 : p. 7). ......................................................................................200
Figure 19 : Schéma des niveaux de représentations de la prosodie
selon Hirst et al. 2000 : p. 55). .......................................................................................208
Index des figures
442
Figure 20 : Représentation des espaces prosodiques fréquentiel et d’intensité au sein de la
dimension temporelle commune aux domaines segmental et prosodique...................... 212
Figure 21: Espaces fréquentiels pour le locuteur M et la locutrice F. .................................. 216
Figure 22 : Niveaux de représentation de la prosodie avec intégration du niveau métrique.229
Figure 23 : Courbe de F0 modélisée à l’aide de l’algorithme MOMEL................................ 233
Figure 24 : Configurations tonales et codage INTSINT du point-cible médian. ................... 235
Figure 25 : Modélisation MOMEL et codage INTSINT d’un extrait de parole
(emprunté à Di Cristo et al. à paraître). ........................................................................ 236
Figure 26 : Symboles orthographiques et iconiques du système INTSINT
(emprunté à Hirst 2000 : p. 62). .................................................................................... 236
Figure 27 : Codage INTSINT iconique (emprunté à Hirst 1999 : p. 62). .............................. 236
Figure 28 : Schéma de l’éditeur ProZed. ............................................................................... 238
Figure 29: Schémas tonals de l’unité tonale (TU) et de l’unité intonative (IU)
selon Hirst 1998 (p. 74). ................................................................................................ 241
Figure 30 : Structure hiérarchique de l’exemple (53) selon Hirst 1998 (p. 74). ................... 241
Figure 31 : Représentation hiérarchique de l’exemple (53) avec projection des segments
tonals sur un plan unique (Hirst 1998 : p. 75). ............................................................. 242
Figure 32 : Schéma tonal de l’unité tonale (TU) en anglais britannique
(adapté de Hirst 1998 : p. 76)........................................................................................ 242
Figure 33 : Représentation hiérarchique de l’exemple (53) avec projection des segments
tonals sur un plan unique (Hirst 1998 : p. 76). ............................................................. 242
Figure 34 : Représentation phonologique de surface d’une énonciation non emphatique de
l’exemple (5) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76). ................................ 243
Figure 35 : Représentation phonologique de surface d’une énonciation emphatique de
l’exemple (53) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76). .............................. 243
Figure 36 : Représentation hiérarchique d’une réalisation emphatique de l’exemple (53) avec
projection des segments tonals sur un plan unique (Hirst 1998 : p. 76). ...................... 244
Figure 37 : Echelle de codage du topique selon Givón 1983................................................. 262
Figure 38 : Echelle de marquage d’accessibilité selon Ariel 2000........................................ 262
Figure 39 : Hiérarchie du donné selon Gundel et al. 1993
(repris de Gundel et al. 2000 : pp. 81-82). .................................................................... 262
Figure 40 : Positions relatives des représentations sémantique, syntaxique et phonologique
d'après Hirst et al. 2000. La phonologie n’accède ici qu’indirectement à la sémantique
par l’intermédiaire de la syntaxe. .................................................................................. 276
Index des figures
443
Figure 41 : Positions relatives des représentations sémantique, syntaxique et phonologique
selon Hirst et al. 2000. La phonologie accède ici à la fois à la sémantique et à la
syntaxe. ...........................................................................................................................276
Figure 42 : Positions relatives des représentations sémantique, syntaxique et prosodique. La
prosodie accède ici à la fois à la sémantique et à la syntaxe,
mais chaque sous-composante est spécialisée................................................................278
Figure 43 : Représentation graphique de la déclinaison à l'intérieur d'une unité intonative.301
Figure 44 : Marques prosodiques (TSM) utilisés dans SEC...................................................327
Figure 45 : états émetteurs des HMMs. ..................................................................................345
Figure 46 : Graphique quantile-quantile des distributions des erreurs pour les alignements
fondés sur les phonétisations sans et avec élisions. .......................................................347
Figure 47 : Histogrammes des distributions des erreurs pour les alignements fondés sur les
phonétisations sans et avec élisions. ..............................................................................348
Figure 48 : Exemple d’un TextGrid d’annotation d’Aix-MARSEC dans Praat. ....................352
Figure 49 : Distribution des unités intonatives non marquées par anaphore pronominale
par groupe d’enregistrements. .......................................................................................368
Figure 50 : Distribution des unités intonatives marquées par anaphore pronominale
inaccentuée par groupe d’enregistrements. ...................................................................369
Figure 51 : Histogramme et courbe de densité des valeurs brutes de F0
des onsets de l’échantillon élargi. ..................................................................................373
Figure 52 : Histogramme et courbe de densité des valeurs de F0 des onsets pour l’échantillon
élargi après transformation logarithmique. ...................................................................374
Figure 53 : F0 transformée des onsets pour l’échantillon élargi et pour l’échantillon strict
en fonction du sexe du locuteur. .....................................................................................375
Figure 54 : Exemple de segmentation prosodique extraite de l’enregistrement A0101. ........379
Figure 55 : Valeurs fréquentielles des onsets en fonction de l’unité intonative précédente et de
l’unité intonative en cours (échantillon élargi). .............................................................382
Figure 56 : Représentation schématique de l’allègement des contraintes discursives
d’abaissement de l’onset par l’anaphore pronominale inaccentuée (API). Les contraintes
d’élévation obtiennent un poids relatif plus important. .................................................391
Figure 57 : Jugements de différence en fonction du niveau de modification
(tous sujets confondus). ..................................................................................................415
Figure 58 : Jugements de différence en fonction du niveau de modification (an, ca, cc et cd).
........................................................................................................................................416
Index des figures
444
Figure 59 : Jugements de différence en fonction du niveau de modification (cy, im, jr et ls).
........................................................................................................................................ 416
Figure 60 : Jugements de différence en fonction du niveau de modification (mg, rl, th et tv).
........................................................................................................................................ 417
Figure 61 : Jugements de différence en fonction du niveau de modification (un sujet exclu).
........................................................................................................................................ 418
Figure 62 : Jugements de différence en fonction du niveau de modification et du type de
marqueur de continuité discursive (un sujet exclu). ...................................................... 419
Figure 63 : Temps de réponse bruts par sujet........................................................................ 423
Figure 64 : Temps de réponse normalisés par sujet. ............................................................. 424
Figure 65 : Histogramme et courbe de densité des temps de réponse normalisés................. 424
Figure 66 : Boxplots des temps de réponse normalisés par type de séquence de lettres. ...... 425
Figure 67 : Temps de réponse normalisés par niveau de modification d’onset..................... 426
Figure 68 : Temps de réponse normalisés par niveau de modification d’onset pour la
condition « mot non associé »........................................................................................ 427
Figure 69 : Temps de réponse normalisés par niveau de modification d’onset pour la
condition « mot associé »............................................................................................... 428
Figure 70 : Moyenne mobile des temps de réponse normalisés par niveau de modification
d’onset pour la condition « mot associé ». .................................................................... 430
Index des tableaux
445
Index des tableaux Tableau 1: Récapitulatif des conditions concernant l’anaphore pronominale et l’anaphore
nominale (Milner 1982 : p. 38). .......................................................................................55
Tableau 2 : Proportions (en pourcentage) des expressions utilisées pour le maintien de la
référence d’après Hickmann 1987. ..................................................................................70
Tableau 3 : Caractéristiques concrètes des espaces prosodiques..........................................212
Tableau 4 : Spécifications des valeurs des traits niveau et étendue pour les tons INTSINT..279
Tableau 5 : Résultats des analyses de Hirschberg & Nakatani 1996 présentant une double
prise en compte des pauses silencieuses. .......................................................................295
Tableau 6 : Mise en évidence du parallélisme tonal entre « rise » et « fall-rise » à l’aide d’un
codage INTSINT intégré à l’approche proposée ici.......................................................303
Tableau 7 : Résumé des valeurs impliquées dans le marquage prosodique de la discontinuité
et de la continuité discursive. .........................................................................................305
Tableau 8 : Styles de parole du SEC. .....................................................................................326
Tableau 9 : Symboles ASCII utilisés dans MARSEC. .............................................................328
Tableau 10 : Mesures d’évaluation de l’algorithme de prédiction des élisions. ....................343
Tableau 11 : Evaluation de l’alignement automatique à différents seuils. ............................346
Tableau 12 : Aplatissement et dissymétrie pour les distributions des erreurs, mis en rapport
avec une distribution normale. .......................................................................................348
Tableau 13 : Première analyse des données brutes................................................................367
Tableau 14 : Tableau partiel par ordre décroissant d’effectif d’anaphore............................370
Tableau 15 : Tableau partiel par ordre décroissant de pourcentage d’anaphore. ................371
Tableau 16 : Groupes d’enregistrements retenus après échantillonnage. .............................372
Tableau 17 : Aplatissement et dissymétrie des distributions de F0 transformée des onsets. .377
Tableau 18 : Aplatissements, dissymétries, statistiques D et P-valeurs des tests de
Kolmogorov-Smirnov effectués sur les distributions de F0 transformée des onsets......378
Tableau 19 : Prédiction des valeurs d’onset en fonction de la nature de l’unité en cours
ou de l’unité précédente. ................................................................................................380
Tableau 20 : Prédiction des valeurs d’onset en fonction de la nature de l’unité en cours
et de l’unité précédente...................................................................................................381
Tableau 21 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et srict. ....382
Tableau 22 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon élargi. ...........383
Index des tableaux
446
Tableau 23 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon strict. ............ 383
Tableau 24 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict. .. 384
Tableau 25 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict. .. 384
Tableau 26 : Moyennes et différences des valeurs normalisées
pour les échantillons élargi et strict. ............................................................................. 385
Tableau 27 : Différences de valeurs fréquentielles d’onset en Htz et en demi-tons en fonction
de la présence d’une anaphore pronominale ou pas, par locuteur
pour lequel l’effet est significatif. .................................................................................. 386
Tableau 28 : Valeurs de la statistique F et de la p-valeur pour les ANOVAs à un facteur
prenant l’onset localement absolu ou relatif comme variable dépendante. .................. 387
Tableau 29 : Statistiques F et P-valeurs de l’ANOVA croisant six mesures de la durée des UI
dans le cadre de la détermination des contraintes de durée pesant
sur la valeur fréquentielle de l’onset. ............................................................................ 390
Tableau 30 : Scores en pourcentage d’identité et écart avec le niveau précédent en fonction
du niveau de modification. ............................................................................................. 415
Tableau 31 : Niveau de modification pour le seuil de 50 % pour les 12 sujets. ................... 418
Tableau 32 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification ». ....................................................................... 426
Tableau 33 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification » pour les plages 0-4 et >5. ............................. 430
Tableau 34 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence
de lettre » et « niveau de modification » pour les plages 5-10 et >10. ......................... 431
Index des exemples
447
Index des exemples Ex (1) Pauli thinks hei shouldn’t have voted for Gerry Wallace Briar. ..................................5
Ex (2) a. Pauli told Johnj that Billk couldn’t vote for himself*i/*j/k. .........................................6
Ex (3) a. Pauli told Johnj that Billk couldn’t vote for himi/j/*k. ................................................6
Ex (4) a. Pauli told Johnj that hei/j/*k couldn’t vote for Billk....................................................6
Ex (5) a. L’étoile du matin est identique à l’étoile du soir. ..................................................24
Ex (6) I apologise. ................................................................................................................30
Ex (7) I hereby sentence you to ten years of hard labour. ....................................................30
Ex (8) I promise to come tomorrow. ....................................................................................31
Ex (9) a. Will John leave the room ? ....................................................................................35
Ex (10) a. On a coupé la chevelure de Samson et on l’a brûlée. ............................................52
Ex (11) Les voyageurs arrivèrent dans un village. L’église … ..............................................53
Ex (12) She came in and saw a child sleeping on the couch. The parents were having lunch
in the kitchen. ............................................................................................................53
Ex (13) des bœufs paissaient ; les quadrupèdes … ................................................................53
Ex (14) on vient d’envoyer des satellites dans l’espace ; les engins … .................................53
Ex (15) *ils ont engagé des secrétaires ; les jeunes filles …..................................................53
Ex (16) Mathieui est très étonné. Jeanj a bu tout soni/j rosé.....................................................77
Ex (17) [Dans une piscine découverte du Sud-Ouest de la France. Un client à l’accueil
s’adressant à F. Cornish qui partait :] ........................................................................77
Ex (18) [Chez un antiquaire : le vendeur rassure le client intéressé par un guéridon
endommagé] ..............................................................................................................78
Ex (19) The Times had every reporter cover a local athlete. ..................................................81
Ex (20) I’ve been living in San Francisco for 5 years and I love it here................................83
Ex (21) The man who gave his paycheque to his wife was wiser than the man who gave it to
his mistress. ...............................................................................................................83
Ex (22) A : I’ve never seen him. ...........................................................................................83
Ex (23) a. Mon voisin croit qu’il / *le brave homme est malade. ........................................126
Ex (24) I’ve been living in San Francisco for 5 years and I love it here..............................142
Ex (25) A : I’ve never seen him. ..........................................................................................143
Ex (26) The man who gave his paycheque to his wife was wiser than the man who gave it to
his mistress. .............................................................................................................143
Index des exemples
448
Ex (27) My brother-in-law, if that’s the right word for him, is a poet................................. 147
Ex (28) a. The cat ................................................................................................................ 150
Ex (29) Le président de la République française élu en 2002.............................................. 150
Ex (30) Kill an active, plump chicken. Prepare it for the oven, cut it into four pieces and
roast it with thyme for 1 hour.................................................................................. 153
Ex (31) Joe ate an apple last night, but it was much too acid for his liking......................... 154
Ex (32) [La compagne de l’auteur, sortant de sa chambre, agitant un livre qu’il croyait
perdu] ...................................................................................................................... 155
Ex (33) [Exemple emprunté à Cornish 1999 (p. 136) ; Chez un antiquaire : le vendeur
rassure le client intéressé par un guéridon endommagé] ........................................ 155
Ex (34) [Exemple emprunté à Cornish 1999 (p. 131) ; dans une piscine découverte du Sud-
Ouest de la France. Un client à l’accueil s’adressant à F. Cornish qui partait :] .... 155
Ex (35) Un arbre dressait ses branches tordues non loin de là. Il décida de passer la nuit près
de ce compagnon..................................................................................................... 159
Ex (36) Une voiture était rangée devant la porte. C’est cette voiture que j’ai prise et non la
tienne....................................................................................................................... 159
Ex (37) a. Paul called Jim a Republican. Then he insulted him........................................... 160
Ex (38) [Bill baille] .............................................................................................................. 162
Ex (39) (a) La vie à l’époque était une lutte, et elle devait le/*la rester. ............................. 162
Ex (40) (a) I dropped ten marbles and found all of them except for one. It’s probably under
the sofa. ................................................................................................................... 166
Ex (41) (a) Susan gave Betsy a pet hamster......................................................................... 171
Ex (42) (a) Susan gave Betsy a pet hamster......................................................................... 171
Ex (43) (a) Susan gave Betsy a pet hamster......................................................................... 172
Ex (44) (a) Susan gave Betsy a pet hamster......................................................................... 172
Ex (45) (a) Terry really gets angry sometimes.................................................................... 173
Ex (46) Théo était épuisé car il avait couru jusqu’à l’université. ........................................ 180
Ex (47) Théo était épuisé, puisqu’il était à bout de souffle. ................................................ 180
Ex (48) [Commentaire radio, BBC Radio 4, 12 juin 1984].................................................. 180
Ex (49) wón tún gbé túwó wá .............................................................................................. 214
Ex (50) omo won ni e lo fi se oko........................................................................................ 214
Ex (51) èwù ònà Àrà ò tàn ................................................................................................... 214
Ex (52) they pre | DICted his e | LECtion. ........................................................................... 240
Ex (53) It’s almost impossible. ............................................................................................ 241
Index des exemples
449
Ex (54) a. Paul called Jim a Republican. Then he insulted him. ..........................................266
Ex (55) Babar went to a bakery. {he | ??HE} pointed at a blueberry pie. ............................267
Ex (56) Jack and Mary are good friends. {he | ??HE} is from Louisiana. ...........................268
Ex (57) When the Smiths arrived, HE waited in the car and SHE rang the bell. .................268
Ex (58) (a) They all put FREUD on a pedestal ....................................................................270
Ex (59) The teacher (1) did not board the train, for the (2) simple reason that it/he (3) was
not going to the South Coast of England.................................................................406
Ex (60) Texte 1a-01..............................................................................................................413
Ex (61) Texte 1a-11..............................................................................................................414
Ex (62) Texte 1c-09..............................................................................................................421
Ex (63) Texte 1c-10..............................................................................................................421
Ex (64) Texte 1c-09 : menottes (mot associé) / sacoches (mot non associé) ......................422
Ex (65) Texte 1c-10 : lettre (mot associé) / cheval (mot non associé) ................................422
Index des auteurs
451
Index des auteurs
A
Abercrombie, D. · 240, 282, 330, 350 Adam, J.-M. · 119, 122 Adams, C. · 227 Allen, J.F. · 289, 298, 301 Anderson, A. · 401 Anderson, M.J. · 331 Anderson, S.R. · 73 André, C., · 197, 411 Anstey, M.P. · 147 Ariel, M. · 164, 165, 177, 262, 263 Armstrong, L.E. · 240 Arnauld, A. · 41 Aston, C. H. · 227 Auer, P. · 283, 285, 287 Auran, C. · 1, 235, 237, 239, 321, 337, 362, 392, 394 Austin, J.L. · 20, 21, 26, 27, 29, 30, 31, 33, 34, 35, 112,
145 Ayer, A.J. · 28 Aylett, M. · 272
B
Bakhtine, M. · 111, 112, 145 Bally, C. · 111 Bard, E. · 272, 401 Bar-Hillel, Y. · 63, 191, 194 Barwise J. · 168 Bates, E. · 392, 394 Batliner, A. · 218 Baumann, S. · 272 Beaugendre, F. · 206 Beckman, M. · 198, 209, 213, 241, 253, 286 Benveniste, E. · 71, 72, 73, 101, 123 Berinstein, A. E. · 228 Berrendonner, A. · 112, 124, 125, 402 Bertrand, R. · 25, 246, 254, 258 Blache, P. · 122, 394 Blakemore, D. · 76, 127, 130, 151 Blanche-Benveniste, C. · 123, 283 Bloor, T. · 95 Boersma, P. · 238, 323, 329 Böhner, P. · 21 Bolinger, D. L. · 226, 227, 275, 302 Bosch, P. · 139, 268 Bouzon, C. · 240, 282, 314, 316, 321, 330, 337, 345, 351 Brassac, A.. · 112, 144 Brazil, D. · 288, 289 Brennan, S., · 169, 170, 174, 176, 266 Brinker, K. · 93 Brown, G. · 20, 57, 119, 120, 153, 283, 284, 286, 288,
289, 290, 291, 292, 295, 299 Brown, P. · 58 Brown, R. · 67 Buchwald, A. · 122 Bühler, K. · 19, 91 Byron, D. · 263
C
Campbell, N. · 213, 221, 222, 224, 237, 337 Campione, E. · 233 Caplan, D. · 194, 253 Carlson, R. · 217, 219 Carnap, R. · 27 Carter Thomas, S. · 102, 118 Cavé, C. · 411 Chafe, W. · 96, 98, 166, 285 Chan, D. · 176 Charolles, M. · 19, 60, 61, 62, 63, 75, 93, 94, 101, 102,
123, 152, 154, 157, 160, 194, 265 Cherry, E.C. · 253 Choi-Jonin, I. · 283 Chomsky, N. · 4, 77, 101, 194, 275, 279 Christophe, A. · 252, 253, 324, 345 Church, A. · 24 Clark, H. · 98 Collier, R. · 202 Combettes, B. · 123 Corblin, F. · 152, 157, 158, 159 Cornish, F. · 6, 39, 57, 64, 67, 77, 78, 118, 119, 120, 121,
124, 139, 140, 141, 145, 146, 150, 152, 154, 155, 156, 157, 160, 161, 162, 163, 166, 172, 173, 176, 177, 178, 180, 181, 261, 407, 437
Cosmides L. · 216 Couper-Kuhlen, E. · 210, 217, 240, 253, 254, 255, 273,
275, 284, 288, 289, 292 Cristea, D. · 176 Cruttenden, A. · 240, 298, 338, 340 Crystal, D. · 190, 192, 196, 197, 200, 214, 215, 220, 240,
302 Culioli, A. · 9, 23, 145, 202, 203, 206, 231 Cutler, A. · 194, 253
D
Daelemans, W. · 331 Dahl, Ö. · 97 Dalsgaard, P. · 346 Damper, R.I. · 330, 331 Danon-Boileau, L, · 204, 205, 206, 207, 284, 288 Darwin, C.J. · 253 Delais-Roussarie, E. · 283 Delattre, P. · 298 Di Cristo, A. · 1, 3, 10, 123, 189, 190, 194, 195, 198, 199,
200, 201, 206, 207, 208, 209, 210, 211, 213, 216, 217, 224, 225, 227, 230, 231, 232, 234, 235, 236, 237, 238, 252, 253, 257, 258, 260, 277, 279, 282, 292, 300, 302, 305, 344, 362, 394, 437
Di Cristo, P. · 353 Di Luzio, A. · 287 Dik, S.C. · 39 Divay, M. · 331 Du Bois, J.W. · 285 Dubois, B. · 95
Index des auteurs
452
Ducrot, O. · 40, 47, 81, 111 Duez, D. · 294, 296 Dutoit, T. · 239 Dyscole, A. · 40, 42, 83
E
Eastmond, J.F.G. · 331 Ehlich, K. · 139 Errington, R. · 58 Eskenazi, M. · 10 Espesser, R. · 233 Eugenio Di, · 176
F
Fant, G. · 214, 219, 222, 224 Ferreira, F. · 253 Fillmore, C. J. · 58, 72 Firbas, J. · 94, 97 Firth, J. R. · 197 Fodor, J. · 3, 277 Fon, J. · 292 Fossard, M. · 404 Fox, A. · 283, 302 Francis, G. · 95, 121, 141, 437 Frege, G. · 21, 23, 24, 25, 26 Fretheim, T. · 94 Fries, P. · 95, 96 Fromkin, V. · 279 Fry, D. B. · 226, 227 Fujisaki, H. · 231
G
Gaiffe B. · 157, 158 Garside, R. · 326 Geach, P.T. · 83, 139, 143 Geluykens, R. · 286, 295 Ghio, A., · 411 Gibbon, D. · 226 Gimson, A. C. · 226, 338, 340, 341 Girault-Duvivier, C.-P. · 41 Gobl, C. · 221, 222, 224, 290, 292 Goldsmith, J. · 240 Gordon, P. · 176 Green, G. · 58, 59 Greenberg, S. · 227, 228 Grice, H.P. · 21, 26, 32, 35, 36, 110, 127, 194, 272 Grice, M. · 21, 26, 32, 35, 36, 110, 127, 194, 272 Grize, J.-B. · 119 Grobet, A. · 164, 284, 289, 414 Grosjean, F. · 253, 285 Grosz, B. · 88, 103, 104, 105, 106, 107, 109, 117, 118,
124, 130, 143, 145, 167, 168, 169, 170, 171, 173, 176, 178, 179, 181, 269, 283, 288, 289, 290
Gruber, J.S. · 279 Gumperz, J.J. · 119, 287 Gundel, J. K. · 94, 100, 164, 165, 166, 177, 262, 263 Gussenhoven, C. · 240, 254, 255, 289
H
Halle, M. · 214, 215, 219, 225, 279 Halliday, M.A.K. · 20, 57, 79, 83, 95, 96, 97, 100, 102,
136, 137, 138, 139, 240, 255, 264, 282, 392 Harris, Z. · 93 Hasan, R. · 57, 79, 83, 97, 102, 136, 137, 138, 139, 392 Hatekeyama, K. · 102 Haviland, S. · 98 Hawkins, J. A. · 141, 152, 157, 158 Heim, I. · 176 Hengeveld, K. · 147 Herment-Dujardin, S. · 213 Hickmann, M. · 68, 69, 70, 71 Hird, K. · 302, 389, 390 Hirschberg, J. · 264, 265, 288, 289, 290, 291, 292, 295,
296, 298, 299 Hirst, D. J. · 1, 9, 189, 196, 198, 199, 201, 202, 203, 204,
207, 209, 210, 211, 218, 222, 225, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 242, 243, 244, 245, 246, 253, 254, 255, 256, 258, 259, 260, 263, 275, 276, 279, 282, 286, 288, 289, 298, 300, 306, 314, 316, 333, 344, 345, 350, 353, 362, 363, 392, 437
Hirt, C. · 253, 285 Hobbs, J. · 110, 122, 179 Hoop De, H. · 268 Hovy, E. · 178 Huang, Y. · 166 Huffman, M.K. · 223 Hukin, R.W. · 253
I
Ide, N. · 176
J
Jakobson, R. · 19, 214, 215, 219 Jankowski, L. · 227 Jassem, W. · 226, 240, 282, 350, 351 Jensen, C. · 225 Johnson-Laird, P.N. · 37, 38 Jones, D. · 225, 226, 338, 342 Joshi, A. · 167, 168
K
Kameyama, M. · 176, 266, 267, 268, 269, 271 Kaplan, D. · 61, 62 Karmiloff-Smith, A. · 67, 68, 69, 70, 71 Kehler, A. · 173, 175, 176 Kingdon, R. · 240, 282 Klatt, D.H. · 337 Kleiber, G. · 76, 78, 154, 156, 158, 159, 194 Knott, A. · 178, 179 Knowles, G. · 291, 326, 327, 335 Konopczynski G. · 194, 252 Kripke, S. · 21 Kuno, S. · 97
Index des auteurs
453
L
Lacheret-Dujour, A. · 206 Ladd, D. R. · 190, 197, 206, 210, 214, 215, 216, 217, 218,
244, 264, 265, 300 Lakoff, G. · 160, 194, 266 Lehiste, I. · 197, 213, 214, 284, 288, 289 Levelt, W. · 275, 276, 277, 302, 437 Levinson, S. · 30, 57, 58, 59, 60, 71, 72, 73, 81, 82, 83,
138, 142, 143, 144, 190, 191, 194, 273 Lyons, J. · 20, 21, 39, 56, 57, 58, 64, 65, 71, 72, 73, 83,
119, 120, 139, 143
M
Maddieson, I. · 220, 223, 224, 279 Maingueneau, D. · 93 Mann, W.C. · 105, 110, 122, 177, 178, 179 Maratsos, M.P. · 67 Marconi, D. · 24, 25, 27, 28, 29, 36 Marr, D. · 38 Martin, J. R. · 95, 178 Martin, P. · 95, 178, 282 Martinet, A. · 193, 195, 197 Mathesius, V. · 94, 96, 263 Mertens, P. · 231, 284, 291 Milner, J.-C. · 20, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,
75, 76, 78, 84, 88, 123, 149, 152, 153 Moeschler, J. · 6, 51, 56, 59, 75, 76, 77, 91, 93, 103, 123,
124, 127, 150, 190, 401 Morel, M.-A. · 204, 205, 206, 207, 284, 288 Morris, C. · 36, 191, 192 Morton R. · 244 Munro, R. R. · 227
N
Nakajima, S. · 289, 298, 301 Nakatani L. H. · 227 Nakatani, C. · 269, 270, 271, 272 Navarro, H. · 283 Nespor, M. · 275 Nicol, J.L. · 404, 406, 407 Nicole, P. · 41 Nølke, H. · 116 Nunberg, G. · 60, 61, 62, 63, 74, 80, 81 Nwogu, K. · 95
P
Palmer, H. E. · 240, 264, 302 Partee, B.H. · 81 Patterson, D. · 216, 217 Peirce, C.S. · 23, 60 Perry, J. · 61, 168 Petöfi J. · 102 Pierrehumbert, J.B. · 209, 241, 264, 286, 291, 298 Pijper, J.R. · 253 Pike, E. · 123, 192, 193, 197, 206, 214, 226 Pike, K. · 123 Portes, C. · 216, 217, 279, 298 Price, P.J. · 253
Prince, E. · 97, 98, 99, 100, 117, 118, 119, 140, 164, 177 Pulgram, E. · 350 Pulleyblank, D. · 279
R
Rabiner L.R. · 345 Reboul, A. · 6, 51, 56, 59, 75, 76, 77, 91, 93, 103, 123,
124, 127, 150, 153, 190, 401 Reinhart, T. · 93, 164 Remijsen, B. · 244 Rietveld, T. · 253 Rips, L.J. · 38 Roach, P. · 327 Roberts, C. · 176 Rooth, M. · 267 Rossi, M. · 195, 196, 197, 198, 210, 231, 237, 294 Roulet, E. · 103, 110, 111, 112, 115, 116, 118, 123, 124,
125, 126, 144, 145, 181, 273, 288 Rumelhart, D.E. · 331 Russell, B. · 28, 36
S
Sabah, G. · 117 Salmon-Alt, S. · 152, 157, 158, 161 Sampson, G. · 279 Sanderman, A.A. · 253 Sanders, T. · 60, 178, 179, 180 Sapir, E. · 192 Schaffer, J.A. · 253 Schiffrin, D. · 93 Schlick, M. · 27 Schnedecker, C. · 154 Schubiger, M. · 240 Schuetze-Coburn, S. · 301 Scott, N. C. · 226 Searle, J. · 21, 23, 26, 33, 34, 35, 112, 121, 122, 124, 144,
145, 147, 194 Selkirk, E. · 276, 282, 286 Seriot, P. · 40 Shillcock, R. · 406 Sidner, C. · 88, 103, 104, 105, 106, 107, 109, 117, 118,
124, 130, 143, 145, 167, 178, 179, 181, 269, 283 Silipo, R. · 227, 228 Silverman, K. · 234, 289, 363 Simon, A.-C. · 116, 204, 205, 206, 283, 284, 288, 289,
291, 414 Sluitjer, A. · 212, 213 Smith H. · 67, 70, 290, 292 Sperber, D. · 30, 33, 76, 127, 264 Steele, J. · 196 Strawson, P. · 157 Streefkerk, B. M. · 227, 228 Swerts, M. · 265, 286, 289, 295, 301, 389, 390, 399 Swinney, D.A. · 404, 406, 407
T
Tasmowski-De Ryck, L. · 160, 265 Terken, J.M.B. · 227, 228, 231, 265, 301, 389 Terras, M. · 404 Teston, B. · 411
Index des auteurs
454
Thompson, S. · 110, 122, 177, 178, 179 Thorsen, N. · 301, 389 Toupin F. · 66, 151 Trognon, A. · 112, 144 Troubetzkoy, N. · 208, 234, 254 Trouilleux, F. · 76 Tyvaert, J.-E. · 194
V
Van Den Bosch, A. · 331 Vanderveken, D. · 35, 112, 144 Vergnaud, J.-R. · 225 Vernant, D. · 145, 146 Verschueren, J. · 20, 190, 194 Vion, R. · 20 Vitale, A.J. · 331 Viterbi, A. · 344, 345, 354 Vogel, I. · 275
W
Walker, M. · 167, 168, 169, 170, 176, 177 Wang, V.S.–Y. · 279 Ward, I. C. · 240
Weenink, D. · 238, 323, 329 Weinstein S. · 167, 168 Wells, J.C. · 332, 338 Wells, W.H.G. · 264 Werlich, E. · 93, 95 Wichmann, A. · 1, 253, 254, 273, 283, 284, 288, 289,
291, 292, 298, 301, 302, 303, 327, 389, 390 Widdowson, H.G. · 119 Wightman, C. · 363 Williams, B. · 326, 328, 329, 380 Williams, R. · 326, 328, 329, 380 Wittgenstein, L. · 21, 26, 27, 28, 29, 33, 35, 36, 37, 39 Wolters, M. · 263 Woo, N. · 279
Y
Yip, M. · 279 Yule, G. · 20, 57, 119, 120, 153, 154, 283, 284, 286, 288,
289, 290, 291, 292, 295, 299
Z
Ziv, Y. · 154 Zribi-Hertz, A. · 65, 153
455
Bibliographie
A ABERCROMBIE, D. (1967), Elements of General Phonetics, Edinburgh, Edinburgh
University Press.
ADAM, J.-M. (1990), Eléments de Linguistique Textuelle, Liège, Mardaga.
ADAMS, C. & MUNRO, R. R. (1978), « In search of the acoustic correlates of stress:
fundament al frequency, amplitude and duration in the connected utterance of some
native and non-native speakers of English », Phonetica 35, pp. 125-156.
ALLESSANDRO d’, C. & MERTENS, P. (1995), « Automatic pitch-contour stylisation
using a model of tonal perception», Computer Speech and Language 9, pp. 257-288.
ALMOG, J., PERRY, J. & WETTSTEIN, H. (1989), Themes from Kaplan, New York,
Oxford University Press.
ANDERSON, S.R. & KEENAN, L.K. (1985), « Deixis », in Shopen T. (ed.), Language
typology and syntactic description: Grammatical categories and the lexicon, Volume 3,
Cambridge, England, Cambridge University Press, pp. 259–308.
ANDRÉ, C., GHIO, A., CAVÉ, C. & TESTON, B. (2003), « PERCEVAL: a Computer-
Driven System for Experimentation on Auditory and Visual Perception », in
Proceedings of 15th ICPhS, Barcelona, pp. 1421-1424.
ANSTEY, M.P. (2002), « Layers and Operators Revisited », Working Papers in Functional
Grammar 77, pp. 1-37.
APOTHELOZ, D. (1995), Rôle et fonctionnement de l’anaphore dans la dynamique
textuelle, Genève, Droz.
ARIEL, M. (1994), « Interpreting anaphoric expressions: A cognitive versus a pragmatic
approach », Journal of Linguistics 30 (1), pp. 197-260.
ARIEL, M. (1996), « Referring Expressions and the +/- Coreference Distinction », in J.
Gundel and T. Fretheim (eds.), Reference and referent accessibility, Amsterdam, John
Benjamins, pp. 13-35.
ARIEL, M. (2000), « The development of person agreement markers: From pronoun to
higher accessibility markers », in M. Barlow & S. Kemmer (eds.), Usage-based models
of language, Stanford, CSLI, pp. 197-260.
ARMSTRONG, L.E. & WARD, I. C. (1926), A Handbook of English Intonation, Leipzig,
Teubner.
Bibliographie
456
ARNAULD, A. & NICOLE, P. (1970), La logique ou l’art de penser, Paris, Flammarion
(réédition du texte original de 1683)
AUER, P. (1996), « On the prosody and syntax of turn-continuations », in E. Couper-Kuhlen
& M. Selting (eds.), Prosody in conversation: interactional studies, Cambridge,
Cambridge University Press, pp. 87-100.
AUER, P. & DI LUZIO, A. (1992), The Contextualization of Language, Amsterdam et
Philadelphie, Benjamins.
AURAN, C. & BOUZON, C., (2003), « Phonotactique prédictive et alignement automatique
: application au corpus MARSEC et perspectives », TIPA 22, pp. 33-64.
AURAN, C., BOUZON, C. & HIRST, D. J. (2004a), « The Aix-MARSEC project: an
evolutionary database of spoken British English and automatic tools », Speech Prosody
2004, Nara, pp. 561-564.
AURAN, C., BOUZON, C., HIRST, D. J., LEVY, C. & NOCERA, P. (2004b),
« Algorithme de prédiction d’élisions de phonèmes et influence sur l’alignement
automatique dans le cadre du projet Aix-MARSEC », Journée d'Etude de la Parole
2004, Fès, pp. 133-136.
AURAN, C., BOUZON, C. & HIRST, D. J. (2004c), « ProZed: an Editor for the Automatic
Processing of Prosodic Variation », PAC Workshop, Toulouse. (www.lpl.univ-
aix.fr/~auran/ressources/Auran_Bouzon/Hirst_PAC_ProZEd.pps)
AURAN, C. & DI CRISTO, A. (2003), « Towards Automatic Annotation of Temporal
Features in Discourse: the Case of Syllabic Duration in Spontaneous French », in
Proceedings of 15th ICPhS, Barcelona, pp. 2957-2960.
AUSTIN, J.L. (1946), « Other Minds », Proceedings of the Aristotelian Society 20, pp. 148-
187.
AUSTIN, J. (1962), How to Do Things with Words, Oxford, Clarendon Press.
AUSTIN, J. (1970a), Quand dire, c’est faire, Paris, Seuil (traduction de Austin 1962).
AUSTIN, J.L. (1970b), Philosophical Papers, Oxford, O.U.P.
AUSTIN, J.L. (1971), «Performative-Constative » in Searle J.(ed.), Philosophy of Language,
Oxford, O.U.P, pp. 13-22.
AYER, A.J. (1936), Language, Truth and Logic, London, Victor Gollancz.
B BAKHTINE, M. (1977), Le marxisme et la philosophie du langage, Paris, Minuit.
BALLY, C. (1944), Linguistique générale et linguistique française, Berne, Francke.
Bibliographie
457
BARD, E. & AYLETT, M. (1999), « The dissociation of deaccenting, givenness, and
syntactic role in spontaneous discourse », in Proceedings of the XIVth International
Congress of Phonetic Sciences (ICPhS’99), San Francisco, pp. 1753-1756.
BARD, E., ANDERSON, A., SOTILLO, C., NEWLANDS, A., DOHERTY-SNEDDON,
G. & AYLETT, M. (2000), « Controlling the Intelligibility of Referring Expressions in
Dialogue », Journal of Memory and Language 42 (1), pp 1-22.
BAR-HILLEL, Y. (1954), « Indexical Expressions », Mind 63, pp. 359-379.
BAR-HILLEL, Y. (1971), Pragmatics of Natural Language, Dordrecht, Reidel.
BARWISE J. & PERRY J. (1983), Situations and Attitudes, Cambridge, Mass., MIT Press.
BATES, E., & MACWHINNEY, B. (1982), « Functionalist approaches to grammar », in E.
Wanner & L. Gleitman (eds.), Language acquisition the state of art, Cambridge,
Cambridge University Press, pp. 173-217.
BATLINER, A., KIEßLING, A., KOMPE, R., NIEMANN, H. & NÖTH, E. (1997),
« Tempo and its Change in Spontaneous Speech », in Proceedings of the European
Conference on Speech Communication and Technology, vol. 2, Rhodes, pp. 763-766.
BAUMANN, S. & GRICE, M. (2004), « Accenting Accessible Information », Proceedings
of Speech Prosody 2004, Nara, pp. 21-24.
BEAUGRANDE De, R. (1980), Text, Discourse and Process, London, Longman.
BEAUGRANDE De, R. & DRESSLER, W. (1981), Introduction to Text Linguistics,
London, Longman.
BECKMAN, M. (1986), Stress and non-stress accent, Netherlands Phonetic Archives 7,
Dordrecht, Foris.
BENVENISTE, E. (1966), Problèmes de linguistique générale, T. 1, Paris , Gallimard.
BERINSTEIN, A. E. (1979), « A cross-linguistic study on the perception and production of
stress », UCLA Working Papers in Phonetics 47, pp. 1-59.
BERRENDONNER, A. (1983), « Connecteurs pragmatiques et anaphores », Cahiers de
linguistique française 5, pp. 215-246.
BERRENDONNER, A. (1990), « Pour une macro-syntaxe », Travaux de Linguistique 21,
pp. 25-36.
BERTRAND, R. (1999), De l'hétérogénéité de la parole. Analyse énonciative de
phénomènes prosodiques et kinésiques dans l'interaction interindividuelle, Thèse de
Doctorat, Université de Provence.
BHÜLER, K. (1934), Sprachtheorie, Jena, Gustav Fischer.
Bibliographie
458
BLACHE, P. (2001), Les Grammaires de Propriétés : des contraintes pour le traitement
automatique des langues naturelles, Paris, Hermès Sciences.
BLACHE, P. & DI CRISTO, A. (2002), « Variabilité et dépendance des composants
linguistiques », TALN 2002, Nancy, pp.
BLAKEMORE, D. (1987), Semantic constraints on relevance, Oxford, Blackwell.
BLAKEMORE, D. (2002), Relevance and Linguistic Meaning. The Semantics and
Pragmatics of Discourse Markers, Cambridge, Cambridge University Press.
BLANCHE-BENVENISTE, C., BILGER, M., ROUGET, C. & EYNDE Van Den, K.
(1990), Le français parlé. Etudes grammaticales, Paris, Editions du CNRS.
BOERSMA, P. & WEENINK, D. (1996), Praat, a System for doing Phonetics by Computer,
version 3.4, Institute of Phonetic Sciences of the University of Amsterdam, Report 132.
BOERSMA, P. & WEENINK, D. (2000), Praat: a system for doing phonetics by computer,
htttp://www.fon.hum.uva.nl/praat/.
BÖHNER, P. (1952), Medieval Logic: An Outline of Its Development from 1250 to c. 1400,
Manchester, Manchester University Press.
BOLINGER, D. L. (1958), « A theory of pitch accent in English », Word 14 (2-3), pp.
109-149.
BOLINGER, D. L. (1972), « Accent is predictable (if you are a mind reader) », Language
48, pp. 633-644.
BOLINGER, D. L. (1989), Intonation and its Uses, London, Edward Arnold.
BOSCH, P. (1983), Agreement and Anaphora: A Study of the Role of Pronouns in Syntax and
Discourse, London, Academic Press.
BOUZON, C. (2004), Rythme et structuration prosodique en anglais britannique
contemporain, Thèse de Doctorat, Université de Provence.
BOUZON C., AURAN C. & HIRST, D. J. (2003), « Phonétisation, alignement et
association dans les grands corpus oraux en anglais », INTO 01, May 22-24 2003,
Rouen.
BRAZIL, D. (1975), Discourse intonation, Discourse analysis monographs n 1, Birmingham,
The University of Birmingham, English Language Research.
BRENNAN, S., (1995), « Centering attention in discourse », Language and Cognitive
Processes 10 (2), pp. 137-167.
BRENNAN, S., WALKER, M. & POLLARD, C. (1987), « A centering approach to
pronouns », in Proceedings of the 25th Annual Meeting of the ACL, Stanford, pp. 155-
162.
Bibliographie
459
BRINKER, K. (1973), « Zum Textbegriff in der heutigen Linguistik », IDS 30, pp. 9-41
BROWN, G. (1977), Listening to Spoken English, London, Longman.
BROWN, G., CURRIE K.L. & KENWORTHY, G. (1980), Questions of intonation,
London, Croom Helm.
BROWN, G. & YULE, G. (1983), Discourse Analysis, Cambridge, Cambridge University
Press.
BROWN, P. & LEVINSON, S. (1987), Politeness: Some universals in language usage,
Cambridge, Cambridge University Press.
BROWN, R. (1973), A First Language, London, George Allen and Unwin.
BUCHWALD, A., SCHWARTZ, O., SEIDL, A. & SMOLENSKY, P. (2002),
« Recoverability Optimality Theory: Discourse Anaphora in a Bidirectional
framework », in Bos, Foster & Matheson (eds.), Proceedings of the sixth workshop on
the semantics and pragmatics of dialogue (EDILOG 2002), pp. 37-44.
BÜHLER, K. (1934), Sprachtheorie, Jena, Fischer.
BÜHLER, K. (1982), « The deictic field of language and deictic words », extracts in English
from Bühler (1934), in Jarvella, R. & Klein, W. (eds.), Speech, Place and Action:
Studies in Deixis and Related Topics, Chichester, John Wiley, pp. 12-28.
C CAMPBELL, N. (1992), Multi-level Timing in Speech, PhD Thesis, University of Sussex.
CAMPBELL, N. (1995), « Loudness, spectral tilt, and perceived prominence in dialogues »,
in Proceedings of the XIIIth International Congress of Phonetic Sciences, Stockholm,
pp. 676-679.
CAMPBELL, N. & BECKMAN, M. (1995), « Stress, Loudness and Spectral Tilt », in
Proceedings of the Acoustical Society of Japan, Spring meeting, 3-4-3.
CAMPIONE, E. (2001), Etiquetage semi-automatique de la prosodie dans les corpus oraux :
algorithmes et méthodologie, Thèse de Doctorat, Université de Provence.
CAMPIONE, E., FLACHAIRE, E., HIRST, D.J. & VERONIS, J. (1997), « Stylisation
and symbolic coding of F0, a quantitative model », in Intonation: Theory, Models and
Applications. Proceedings of an ESCA Workshop, Athènes, pp. 71-74.
CANDEA, M. (2000), Contribution à l’étude des pauses silencieuses et des phénomènes dits
« d’hésitation » en français oral spontané, Thèse de Doctorat, Université de Paris III.
CAPLAN, D. (1987), Neurolinguistics and Linguistic Aphasiology, Cambridge, Cambridge
University Press.
Bibliographie
460
CARLSON, R., ELENIUS, K. & SWERTS M. (2004), « Perceptual Judgments of Pitch
Range », in Proceedings of Speech Prosody 2004, Nara, pp. 689-692.
CARNAP, R. (1928), Der logische Aufbau der Welt, Hambourg, Meiner.
CARTER THOMAS, S. (2000), La cohérence textuelle, Paris, L’Harmattan.
CHAFE, W. (1976), « Givenness, contrastiveness, definiteness, subjects, topics and point of
views », in C. Li (ed.), Subject and Topic, New York, Academic Press, pp. 25-55.
CHAFE, W. (1987), « Cognitive constraints on information flow », in R. Tomlin (ed.),
Coherence and Grounding in Discourse, Amsterdam, Benjamins, pp. 21-51.
CHAFE, W. (1994), Discourse, consciousness and time: the flow and displacement of
conscious experience in speaking and writing, Chicago, IL, Chicago University Press.
CHAROLLES, M. (1978), « Introduction au problème de la cohérence des textes », Langue
Française 38, pp. 7-41.
CHAROLLES, M. (1988), « Les études sur la cohérence, la cohésion et la connexité
textuelles depuis la fin des années 1960 », Modèles Linguistiques 10 (2), pp. 45-66.S
CHAROLLES, M. (2002), La référence et les expressions référentielles en français, Paris,
Ophrys.
CHERRY, E.C. (1953), « Some experiments on the recognition of speech, with one and with
two ears », Journal of the Acoustical Society of America 25, pp. 975-979.
CHOMSKY, N. (1962), « Explanatory Models in Linguistics », in E. Nagel, P. Suppes & A.
Tarski (eds), Logic, Methodology and Philosophy of Science, Stanford, Stanford
University Press, pp. 528-550.
CHOMSKY, N. (1978), « Language and Unconscious Knowledge», in J.H. Smith (ed.),
Psychoanalysis and Language, Psychiatry and the Humanities, vol. 3, New Haven, Yale
University Press, pp. 217-254.
CHOMSKY, N. (1981), Lectures on Government and Binding: The Pisa Lectures, Holland,
Foris Publications.
CHOMSKY, N. & HALLE, M. (1968), The Sound Pattern of English, New York, Harper &
Row.
CHRISTOPHE, A., GOUT, A., PEPERKAMP, S. & MORGAN, J. (2003), « Discovering
words in the continuous speech stream: the role of prosody », Journal of Phonetics 31,
pp. 585-598.
CHURCH, A. (1956), Introduction to Mathematical Logic I, Princeton, Princeton University
Press.
Bibliographie
461
CLARK, H. & HAVILAND, S. (1977), « Comprehension and the given-new contract », in
R. Freedie (ed.), Discourse Production and Comprehension, Hillsdale, N.J., Lawrence
Erlbaum Associates, pp. 1-40.
COMBETTES, B. (1986a), « Coréférence et connexité thématique dans le discours », in M.
Charolles (éd.), Research in Text Coherence, Hamburg, Helmut Buske Verlag, pp. 101-
125.
COMBETTES, B. (1986b), « Introduction et reprise des éléments d'un texte », Pratiques
49, pp. 69-84.
COMBETTES, B. (1988), Pour une grammaire textuelle, Paris-Gembloux, De
Boeck/Duculot.
CORBLIN, F. (1987), Indéfini, défini et démonstratif. Constructions linguistiques de la
référence, Genève, Droz.
CORBLIN, F. (1995), Les formes de reprise dans le discours :anaphores et chaînes de
référence, Rennes, Presses Universitaires de Rennes.
CORBLIN, F. (2002), « Les chaînes de la conversation et les autres », Institut Jean Nicod,
http://jeannicod.ccsd.cnrs.fr/documents/disk0/00/00/01/40/ijn_00000140_00/ijn_000001
40_00.PDF
CORNISH, F. (1986), Anaphoric Relations in English and French: A Discourse Perspective,
London, Croom Helm.
CORNISH, F. (1990), « Anaphore pragmatique, référence et modèles du discours », in G.
Kleiber & J. Tyvaert (eds.), L’anaphore et ses domaines, Paris, Klincksieck, pp. 81-96.
CORNISH, F. (1996), « Coherence: the lifeblood of anaphora », Belgian Journal of
Linguistics 10, pp. 37-54.
CORNISH, F. (1999), Anaphora, Discourse and Understanding, Oxford, Oxford University
Press
CORNISH, F. (2003a), « The roles of (written) text and anaphore-type distribution in the
construction of discourse », Text 23 (1), pp. 1-26.
CORNISH, F. (2003b), « Types de relations de discours entre énoncés : interaction avec
l’anaphore transphrastique », Cahiers du CRISCO 12, pp. 69-84.
COSMIDES L. (1983), « Invariances in the acoustic expression of emotion during speech »,
Journal of Experimental Psychology: Human Perception and Performance 9 (6), pp.
864-881.
COUPER-KUHLEN, E. (1986), An Introduction to English Prosody, London, Arnold.
Bibliographie
462
COUPER-KUHLEN, E. (1998), « On High Onsets and their Absence in Conversational
Interaction », InLiSt - Interaction and Linguistic Structures 8, URL: <http://inlist.uni-
konstanz.de/issues/8/index.htm>.
COUPER-KUHLEN, E. (2001), « Intonation and discourse: Current views from within », in
D. Schiffrin, D. Tannen & H. Hamilton (eds.), Handbook of Discourse Analysis,
Oxford, Blackwell, pp. 13-34.
CRAIK, K. (1943), The Nature of Explanation, Cambridge, Cambridge University Press.
CRISTEA, D., IDE, N. & ROMARY L. (1998), « Veins Theory. An Approach to Global
Cohesion and Coherence », in Proceedings of Coling/ACL, Montreal.
CRISTEA, D., IDE, N., MARCU, D. & MIHAI-VALENTIN, T. (2000), « Discourse
Structure and Co-Reference: An Empirical Study », in Proceedings of the 18th
International Conference on Computational Linguistics COLING'2000, Luxembourg.
CRUTTENDEN, A. (1981), « Falls and Rises: meanings and universals », Journal of
Linguistics 17, pp. 77-91.
CRUTTENDEN, A. (1986/1997), Intonation, Cambridge, Cambridge University Press.
CRUTTENDEN, A. (1997), Gimson’s Pronunciation of English, Fifth edition, Londonn,
Arnold.
CRUTTENDEN, A. (2001), « Mancunian Intonation and intonational Representation »,
Phonetica 58 (1-2), pp. 53-80.
CRYSTAL, D. (1969), Prosodic Systems and Intonation in English, Cambridge, Cambridge
University Press.
CRYSTAL, D. (1975), The English Tone of Voice: Essays in Intonation, Prosody and
Paralanguage, London, Arnold.
CULIOLI, A. (1990), « La linguistique : de l’empirique au formel », in Pour une linguistique
de l’énonciation : Opérations et représentations, Tome 1, Paris, Ophrys : pp. 9-46.
CUTLER, A., DAHAN, D. & DONSELAAR, W. (1997), « Prosody in the Comprehension
of Spoken Language : A Literature Review », Language and Speech 40(2), pp. 141-201.
D DAELEMANS, W., VAN DEN BOSCH, A. & WEIJTERS, T. (1997), « IGTree: Using
trees for compression and classification in lazy learning algorithms », Artificial
Intelligence Review 11, pp. 407-423.
Bibliographie
463
DAHL, Ö. (1976), « What is new information ? », in N. Enkvist & V. Kohonen, (eds.),
Report on Text Linguistics: Approaches to Word Order, Åbo, Finlande, Åbo Akademi
Foundation.
DALSGAARD, P., ANDERSEN, O & BARRY, W. (1991), « Multi-lingual alignment using
acoustic-phonetic features derived by neural-network technique », ICASSP 91, pp. 197-
200.
DAMPER, R.I. (2001), Data-Driven Techniques in Speech Synthesis, Kluwer Academic
Publishers.
DAMPER, R.I. & EASTMOND, J.F.G. (1997), « Pronunciation by analogy: impact of
implementational choices on performance », Language and Speech 40 (1), pp. 1-23.
DAMPER, R.I., MARCHAND, Y., ANDERSON, M.J. & GUSTAFSON, K. (1999),
« Evaluating the pronunciation component of text-to-speech systems for English: a
performance comparison of different approaches », Computer Speech and Language 13
(2), pp. 155-176.
DANES, F. (1964), « A Three-Level Approach to Syntax », Travaux linguistiques de
Prague 1, pp. 225-240.
DANES, F. (1974), « Functional Sentence Perspective and the Organization of the Text », in
F. Danes (ed.), Papers on Functional Sentence Perspective, Prague, Academia, pp. 106-
128.
DANES, F. (ed.) (1974), Papers on Functional Sentence Perspective, Prague, Academia.
DARWIN, C.J. & HUKIN, R.W. (2000), « Effectiveness of spatial cues, prosody and
stalker characteristics in selective attention », Journal of the Acoustical Society of
America 107 (2), pp. 970-977.
DELAIS-ROUSSARIE, E. & CHOI-JONIN I. (2004), « Existent-ils des indices intonatifs
de segmentation en unités macro-syntaxiques ? », in Actes de JEP/TALN 2004, Fez, pp.
DELATTRE, P. (1966), « Les dix intonations de base du français », The French Review 40
(1), pp. 1-14.
DE RIJK, L.M (1962), Logica Modernorum, Assen, Van Gorcum, vol. I.
DE RIJK, L.M (1967), Logica Modernorum, Assen, Van Gorcum, vol. II.
DI CRISTO, A. (1978), De la microprosodie à l’intonosyntaxe, Thèse de Doctorat d’Etat,
Université de Provence.
DI CRISTO, A. (1999), « Vers une modélisation de l’accentuation en français (première /
seconde partie) », Journal of French Language Studies 9 (2) / 10 (1), pp. 143-163 / 27-
45.
Bibliographie
464
DI CRISTO, A. (2000), « La problématique de la prosodie dans l’étude de la parole dite
spontanée », Revue Parole 15-16, pp. 189-250.
DI CRISTO, A., AURAN, C., BERTRAND, R., CHANET, C., PORTES, C. &
REGNIER, A. (2004), « Outils prosodiques et analyse du discours », CILL 28, pp. 27-
84.
DI CRISTO, A., DI CRISTO, P. & VERONIS, J. (1997), « A metrical model of rhythm
and intonation for French text-to-speech synthesis », in Intonation: Theory, Models and
Applications. Proceedings of an ESCA Workshop, Athènes, pp. 83-86.
DI CRISTO, A. & HIRST, D. J. (1986), « Modelling French Micromelody: Analysis and
Synthesis », Phonetica 43, pp. 11-30.
DI CRISTO, P. & HIRST, D.J. (1997), « Un procédé d’alignement automatique de
transcriptions phonétiques sans apprentissage préalable », 4° Congrès Français
d'Acoustique, vol. 1, Marseille.
DI CRISTO, A. & JANKOWSKI, L. (1999), « Prosodic Organisation and Phrasing after
Focus in French », in Proceedings of the XIVth International Congress of Phonetic
Sciences (ICPhS’99), San Francisco, pp. 1565-1568.
DIJK Van, T. (1972), Some Aspects of Text Grammars, La Haye, Mouton.
DIK, S.C. (1997), The Theory of Functional Grammar, i: The Structure of the Clause, Berlin,
Mouton de Gruyter.
DIVAY, M. & VITALE, A.J. (1997), « Algorithms for grapheme-phoneme translation for
English and French: Applications for databases searches and speech synthesis »,
Computational Linguistics 23, pp. 495-523.
DU BOIS, J.W., SCHUETZE-COBURN, S., PAOLINO, D. & CUMMING, S. (1992),
« Discourse Transcription », Santa Barbara Papers in Linguistics, Vol. 4, Department of
Linguistics, University of California, Santa Barbara.
DUBOIS, B. (1987), « A reformulation of thematic progression typology », Text 7 (2), pp.
89-116.
DUCROT, O. (1984), Le Dire et le dit, Paris, Minuit.
DUCROT, O. et al. (1980), Les mots du discours, Paris, Minuit.
DUEZ, D. (2001), « Caractéristiques acoustiques et phonétiques des pauses remplies dans la
conversation en français », Travaux Interdisciplinaires du Laboratoire Parole et
Langage 20, pp. 31-48.
DUTOIT, T., PAGEL, V., PIERRET, N., BATAILLE, F., VRECKEN Van Der, O.
(1996), « The MBROLA project. Towards a set of high-quality speech synthesisers free
Bibliographie
465
of use for non-commercial purposes », in Proceedings of ICSLP '96, vol. 3,
Philadelphia, pp. 1393-1396.
DYSCOLE, A. (1981), The Syntax of Apollonius Dyscolus, Amsterdam, Benjamins.
E EHLICH, K. (1982), « Anaphora and deixis: same, similar or different? », in R. Jarvella &
W. Klein (eds.), Speech, Place and Action: Studies in Deixis and related Topics,
Chichester, John Wiley, pp. 315-338.
ERRINGTON, R. (1988), Structure and style in Javanese, Philadelphia, Univ. of
Pennsylvania Press.
ESKENAZI, M. (1993), « Trends in Speaking Style Research », in Proceedings
Eurospeech’93, Berlin, pp. 501-509.
EUGENIO Di, . (1998), « Centering in Italian », in M. Walker, A. Joshi & E. Prince (eds.),
Centering in Discourse, Oxford University Press.
F FANT, G., LOLJENCRANTS, J. & LIN, Q. (1985), « A four parameter model of glottal
flow », STL-QPSR, Vol. 4, pp. 1-13.
FERREIRA, F., ANES, M.D. & HORINE, M.D. (1996), « Exploring the use of prosody
during language comprehension using the auditory moving window technique »,
Journal of Psycholinguistic Research 25, pp. 273-290.
FILLMORE, C. J. (1975), Santa Cruz lectures on deixis, Bloomington, Indiana University
Linguistics Club.
FIRBAS, J. (1964), « On defining the theme in functional sentence analysis », Travaux
linguistiques de Prague 1, pp. 267-280.
FIRBAS, J. (1976), « A study in the functional sentence perspective of the English and Slavonic
interrogative sentence », Brno Studies in English 12, pp. 9-57.
FIRTH, J. R. (1948), « Sounds and Prosodies », Transactions of the Philological Society, pp.
127-152.
FODOR, J. (1983), The modularity of mind, Cambridge, Mass., M.I.T. Press.
FON, J. (2002), A Cross-Linguistic Study on Syntactic and Discourse Boundary Cues in
Spontaneous Speech, Ph.D. Dissertation, Ohio State University.
FOSSARD, M. (1999), « Traitement anaphorique et structure du discours : étude
psycholinguistique des effets du focus de discours sur la spécificité de deux marqueurs
Bibliographie
466
référentiels : le pronom anaphorique ‘il’ et le nom propre répété », In Cognito 15, pp.
33-40.
FOX, A. (1973), « Tone sequences in English », Archivum Linguisticum 4, pp. 17-26.
FOX, A. (1984), « Subordinating and Coordinating Intonation Structures in the Articulation of
Discourse », in D. Gibbon & H. Richter (eds.), Intonation, Accent and Rhythm, Studies in
Discourse Phonology, Berlin, de Gruyter, pp. 120-133
FRANCIS, G. (1994), Labelling discourse: an aspect of nominal group lexical cohesion », in M.
Coulthard (ed.), Advances in Written Text Analysis, London, Routledge, pp. 83-101.
FREGE, G. (1892a), « Über Sinn und Bedeutung », in Zeitschrift für Philosophie und
philosophische Kritik, pp. 22-50.
FREGE, G. (1892b), « Über Begriff und Gegenstand », in Vierteljahreszeitschrift für
wissenschaftliche Philosophie, 16, 192-205.
FREGE, G. (1918), « Der Gedanke. Eine logische Untersuchung », in Beiträgezur
Philosophie des deutschen Idealismus, 143-157.
FREGE, G. (1971a), « Sens et dénotation », in Ecrits logiques et philosophiques, Paris,
Seuil, pp. 102-126 (traduction de Frege 1892a).
FREGE, G. (1971b), « Concept et objet », in Ecrits logiques et philosophiques, Paris, Seuil,
pp. 127-154 (traduction de Frege 1892b).
FREGE, G. (1971c), « La pensée », in Ecrits logiques et philosophiques, Paris, Seuil,
pp. 160-195 (traduction de Frege 1918).
FRIES, P. (1981), « On the status of theme in English: Arguments from discourse », Forum
Linguisticum 6(1), pp. 1-38.
FRIES, P. (1994), « On Theme, Rheme and discourse goals », in M. Coulthard (ed.), Advances
in Written Text Analysis, London, Routledge, pp. 229-249.
FRIES, P. (1995), « Patterns of information in initial position in English », in C. Fries & M.
Gregory (eds.) Discourse and Meaning in Society: Functional Perspectives, Norwood NJ,
Ablex Publishers, pp. 47-66.
FROMKIN, V. (1972), « Tone features and tone rules », Studies in African Linguistics 3,
pp.47-76.
FRY, D. B. (1958a), « Experiments in the perception of stress », Language and Speech 1,
pp.126-152.
FRY, D. B. (1958b), « The perception of stress », in Proceedings of the 8th International
Congress of Linguistics, Oslo, pp. 601-603.
Bibliographie
467
FUJISAKI, H. (1988), « A note on the phyiological and physical basis for the phrase and
accent components in the voice fundamental frequency contour », in O. Fujumura (ed.),
Vocal Physiology. Voice Production, Mechanisms and Findings, Raven Press, pp. 347-
355.
FUJISAKI, H. (1997), « Prosody, models and spontaneous speech », in Y. Sagisaka et al.
(eds.), pp. 27-42.
G GABELENZ von der, G. (1868), « Ideen zur einer vergleichenden Syntax: Wort-und
Satzstellung », Zeitschrift für Völkerpsychologie und Sprachwissenschaft 6, pp. 376-
384.
GAIFFE B., REBOUL A. & ROMARY L. (1997), « Les SN définis : anaphore, anaphore
associative et cohérence », in W. De Mulder, L. Tasmowski-Ryck & C. Vetters (eds.),
Relations anaphorique et (in)cohérence, Amsterdam-Atlanta, Rodopi, pp. 69-97.
GARROD, S. & TERRAS, M. (2000), « The contribution of Lexical and Situational
Knowledge to Resolving Discourse Roles: Bonding and Resolution », Journal of
Memory and Language 42, pp. 526-544.
GARSIDE, R. (1987), « The CLAWS word-tagging system », in R. Garside, G. Leech & G.
Sampson (eds.), The Computational Analysis of English : a Corpus Based Approach,
London, Longman, pp. 30-41.
GEACH, P.T. (1962), Reference and Generality, Ithaca, Cornell University Press.
GHIGIGLIONE, R. & TROGNON, A. (1993), Où va la pragmatique ?, Grenoble, Presses
Universitaires de Grenoble.
GHIO, A., ANDRÉ, C., TESTON, B. & CAVÉ, C. (2003), « PERCEVAL : une station
automatisée de tests de Perception et d’Évaluation auditive et visuelle », Travaux
Interdisciplinaires du Laboratoire Parole et Langage 22, pp. 115-133.
GIMSON, A. C. (1956), « The linguistic relevance of stress in English », Zeitschrift für
Phonetik und allgemeine Sprachwissenschaft 9, pp. 143-149.
GIRAULT-DUVIVIER, C.-P. (1827), Grammaire des grammaires, Paris, Janet et Cotelle
(sixième édition).
GIVÓN, T. (1983), Topic Continuity in Discourse: A Quantitative Cross-language Study,
Amsterdam & Philadelphia, Benjamins.
GOLDSMITH, J. (1976), Autosegmental Phonology, Ph. D. Dissertation, M.I.T.
GOLDSMITH, J. (1990), Autosegmental and metrical phonology, Oxford, Basil Blackwell.
Bibliographie
468
GORDON, P. & CHAN, D. (1995), « Pronouns, passives and discourse coherence », Journal
of Memory and Language 34, pp. 216-231.
GORDON, P., GROSZ, B. & GILLIOM L. (1993), « Pronouns, names and the centering of
attention in discourse », Cognitive Science 17, pp. 311-347.
GREEN, G. (1996), Pragmatics and Natural Language Understanding, Mahwah, Lawrence
Erlbaum Associates.
GRICE, H.P. (1957), « Meaning », Philosophical review 66, pp. 377-388.
GRICE, H.P. (1968), « Utterer’s Meaning, Sentence-Meaning, and Word-Meaning »,
Foundations of Language 4 , pp. 225-242.
GRICE, H.P. (1969), « Utterer’s Meaning and Intentions », Philosophical review 78, pp.
147-177.
GRICE, H.P. (1975), « Logic and Conversation », in Cole, P. & Morgan, J.L. (eds.), Syntax
and Semantics. Speech Acts, New York, Academic Press.
GRICE, H.P. (1989), Studies in the Ways of Words, Cambridge, Mass., Harvard University
Press.
GRIZE, J.-B. (1981), « Pour aborder l’étude des structures du discours quotidien », Langue
française 50, pp. 7-19.
GROBET, A. (2002), L’identification des topiques dans les dialogues, Bruxelles, De-Boeck-
Duculot.
GROSJEAN, F. (1983), « How long is the sentence? Prediction and prosody in the on-line
processing of language », Linguistics 21, pp. 501-529.
GROSJEAN, F. & HIRT, C. (1996), « Using prosody to predict the end of sentences in
English and French: Normal and brain damaged subjects », Language and Cognitive
Processes 11(1/2), pp. 107–134.
GROSZ, B. & SIDNER, C. (1986), « Attention, Intentions and the Structure of Discourse »,
Computational Linguistics 12, pp. 175-204.
GROSZ, B. (1977), The representation and use of focus in dialogue understanding, Technical
Report 151, SRI International, 333 Ravenswood Ave, Menlo Park, Ca. 94025.
GROSZ, B. & HIRSCHBERG J. (1992), « Some Intonational Characteristics of Discourse
Structure », in Proceedings of the International Conference on Spoken Language
Processing, Vol. 1, pp. 429-432.
GROSZ, B., JOSHI, A & WEINSTEIN S. (1986), Towards a computational theory of
discourse interpretation, Manuscrit non publié.
Bibliographie
469
GROSZ, B., JOSHI, A & WEINSTEIN S. (1995), « Centering: a framework for modelling
the local coherence of discourse », ISRC Report 95-01, pp. 1-30. (Grosz et al. 1995a)
GROSZ, B., JOSHI, A. & WEINSTEIN, S. (1983), « Providing a unified account of definite
noun phrases in discourse », in Proceedings of the 21st Annual Meeting of the AACL, pp.
44-50.
GROSZ, B., WEINSTEIN S. & JOSHI, A (1995), « Centering: a framework for modelling
the local coherence of discourse », Computational Linguistics 21 (2), pp. 203-225. (Grosz
et al. 1995b)
GRUBER, J.S., (1964), « The distinctive features of tone », article inédit cité par Fromkin
1972.
GUILLAUME DE SHERWOOD (1937), Introductiones in Logicam, in Grabmann, M.
(ed.), Die Introductiones in logicam des Wilhelm von Shyreswood, Munich,
Sitzungberichte der Akademie der Wissenschaften, Philosophisch-historische Klasse 10,
pp. 30-106
GUILLAUME DE SHERWOOD (1966), Introduction to Logic, Minneapolis, University of
Minnesota Press (traduction de William of Sherwood 1937).
GUMPERZ, J.J. (1982), Discourse Strategies, Cambridge, Mass., C.U.P.
GUNDEL, J. K. (1988), « Universals of topic-comment structure », in M. Hammond, E.
Moravczik & J. Wirth (eds.), Studies in syntactic typology, Amsterdam, John
Benjamins, pp. 209-239.
GUNDEL, J. & FRETHEIM, T. (2001), « Topic and Focus », in L. Horn & G. Ward (ed.),
The Handbook of Pragmatic Theory, Oxford, Blackwell.
GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (1993), « Cognitive status and the form of
referring expression in discourse », Language 69, pp. 274-307.
GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (2000), « Statut Cognitif et Forme des
Anaphoriques Indirects », Verbum XXII, pp. 79-102.
GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (à paraître), « Pronouns without NP
antecedents: How do we know when a pronoun is referential? », in A. Branco, T.
McEnery & R. Mitkov (eds.), Anaphora processing: Linguistic, cognitive and
computational modelling, Amsterdam, John Benjamins.
GUSSENHOVEN, C. (1984), On the Grammar and Semantics of Sentence Accents,
Dordrecht, Foris.
GUSSENHOVEN, C. (1999), « Discreteness and gradience in intonational contrasts »,
Language and Speech 42, pp. 283-305.
Bibliographie
470
GUSSENHOVEN, C. (2002), « Intonation and interpretation: Phonetics and Phonology », in
Proceedings Speech Prosody 2002, Aix-en-Provence, pp. 211-214.
H HALLE, M. & VERGNAUD, J.-R. (1987), An essay on stress, Cambridge, Ma., M.I.T.
Press.
HALLIDAY, M.A.K. (1967a), « Notes on transitivity and theme in English, Part 2 »,
Journal of Linguistics 3, pp. 177-274.
HALLIDAY, M.A.K. (1967b), Intonation and Grammar in British English, La Haye,
Mouton.
HALLIDAY, M.A.K. (1970a), « Language Structure and Language Function”, in Lyons, J.
(ed.), New Horizons in Linguistics, Harmondsworth, Middx., Penguin Books, pp. 140-
165.
HALLIDAY, M.A.K. (1970b), A Course in Spoken English:Intonation, Oxford, Oxford
University Press.
HALLIDAY, M.A.K. (1973), Explorations in the Functions of Language, London, Edward
Arnold.
HALLIDAY, M.A.K & HASAN, R. (1976), Cohesion in English, London, Longman.
HARRIS, Z. (1951), Methods in Structural Linguistics, Chicago, University of Chicago
Press.
HART t’, J., COHEN, A. & COLLIER, R. (1990), A Perceptual Study of Intonation: an
Experimental-Phonetic Approach to Speech Melody, Cambridge, Cambridge University
Press.
HATEKEYAMA, K., PETÖFI J. & SOZER E. (1984), Texte, connexité, cohesion,
coherence, Documents de travail, Centro Internazionale di semiotica e di Linguistica,
Université d’Urbino.
HAWKINS, J. A. (1977a), « The pragmatics of definiteness. Part I », Linguistische Berichte
47, pp. 1-27.
HAWKINS, J. A. (1977b), « The pragmatics of definiteness. Part II », Linguistische Berichte
48, pp. 1-27.
HEIM, I. (1982), The Semantics of Definite and Indefinite Noun Phrases, Thèse de Doctorat,
University of Massachusets, Amherst.
HENGEVELD, K. (1989), « Layers and operators in Functional Grammar », Journal of
Linguistics 25 (1), pp. 127-157.
Bibliographie
471
HENGEVELD, K. (2004), « The architecture of a Functional Discourse Grammar », in J.L.
Mackenzie & M.A. Gómez-González (eds.), A new architecture for Functional
Grammar, Berlin, Mouton de Gruyter, pp. 1-22.
HERMENT-DUJARDIN, S. (2001), L’emphase dans le discours spontané anglais :
corrélats acoustiques et prosodiques, Thèse de Doctorat, Université de Provence.
HEUSINGER von, K. (1999), Intonation and Information Structure, Habilitationsschrift,
Faculty of Philosophy, University of Konstanz.
HICKMANN, M. (1984), « Fonction et contexte dans le développement du langage », in
Deleau, M. (ed.), Langage et communication à l’âge pré-scolaire, Rennes, Presses
Universitaires de Rennes 2, pp. 27-57.
HICKMANN, M. (1987), « Ontogenèse de la cohésion dans le discours », in Piéraut-Le-
Bonniec, G. (ed.), Connaître et le dire, Bruxelles, Mardaga, pp. 239-262.
HICKMANN, M. (1991), « The development of discourse cohesion: some functional and
cross-linguistic issues », in Piéraut-Le-Bonniec, G. & Dolitski, M. (eds.), Language
Bases… Discourse Bases, Amsterdam, John Benjamins, pp. 157-185.
HIRD, K. (2002), « The Relationship between Prosody and Breathing in Spontaneous
Discourse », Brain and Language 80, pp. 536-555.
HIRSCHBERG, J. & NAKATANI, C. (1996), « A prosodic analysis of discourse segments
in direction-giving monologues », in Proceedings of the 34th Annual Meeting of the
Association for Computational Linguistics, Santa Cruz, pp. 286-293.
HIRST, D. J. (1980), « Un modèle de production de l'intonation », Travaux de l'Institut de
Phonétique d'Aix 7, pp. 297-315
HIRST, D. J. (1983), « Structures and categories in prosodic representations », in A. Cutler
& D. R. Ladd, Prosody: Models & Measurements, Berlin, Springer, pp. 93-109
HIRST, D. J. (1987), La représentation linguistique des systèmes prosodiques : une
approche cognitive, Thèse de Doctorat d’Etat, Université de Provence.
HIRST, D. J. (1989), « Relevance: Communication and Cognition », Review, Mind &
Language 4 (1-2), pp. 138-146.
HIRST, D. J. (1998), « Intonation in British English », in D. J. Hirst & A. Di Cristo (eds.),
Intonation Systems: A Survey of Twenty Languages, Cambridge, Cambridge University
Press, pp. 56-77.
HIRST, D. J. (1999), « The symbolic coding of duration and timing: an extension to the
INTSINT system », in Proceedings Eurospeech '99, Budapest (www.lpl.univ-
aix.fr/~hirst/articles/1999 Hirst.pdf ).
Bibliographie
472
HIRST, D. J. (2000), « ProZed: a multilingual prosody editor for speech synthesis », in
Proceedings, IEE Workshop State of the Art in Speech Synthesis, London
(www.lpl.univ-aix.fr/~hirst/articles/2000 Hirstb.pdf).
HIRST, D. J. (2001), « Automatic analysis of prosody for multilingual speech corpora », in
E.Keller, G.Bailly, J.Terken & M.Huckvale (eds), Improvements in Speech Synthesis,
Wiley (www.lpl.univ-aix.fr/~hirst/articles/2001 Hirst.pdf).
HIRST, D. J., DI CRISTO, A., BESNERAIS Le, M., NAJIM, Z. & NICOLAS, P. (1993),
« Multi-lingual modelling of intonation patterns », in Proceedings ESCA Workshop on
Prosody, Lund, pp. 204-207.
HIRST, D. J. & DI CRISTO, A. (1996), « Y a-t-il des unités tonales en français ? », in Actes
des XXIèmes Journées d’Etude sue la Parole, pp. 223-226.
HIRST, D. J. & DI CRISTO, A. (1998), Intonation Systems: A Survey of Twenty
Languages, Cambridge, Cambridge University Press.
HIRST, D. J. & DI CRISTO, A. (1998), « A Survey of Intonation Systems », in D. J. Hirst
& A. Di Cristo (eds.), Intonation Systems: A Survey of Twenty Languages, Cambridge,
Cambridge University Press, pp. 1-44.
HIRST, D. J., DI CRISTO A. & ESPESSER, R. (2000), « Levels of representation and
levels of analysis for the description of intonation systems », in M. Horne (ed.),
Prosody: Theory and Experiement, Dordrecht, Kluwer, pp. 51-87.
HIRST, D. J. & ESPESSER, R. (1993), « Automatic modelling of fundamental frequency
using a quadratic spline function », Travaux de l'Institut de Phonétique d'Aix 15, pp. 71-
85.
HOBBS, J (1990), Literature and cognition, Menlo Park, CA, CSLI.
HOCKETT, C. F. (1942), « A system of descriptive phonology », Language 18, pp. 3-21.
HOOP de, H. (2003), « On the interpretation of stressed pronouns », in Proceedings of
Conference “sub7 – Sinn und Bedeutung”, Arbeitspapier 114, FB Sprachwissenschaft,
Universität Konstanz, URL : http://ling.uni-konstanz.de/pages/conferences/sub7/.
HOVY, E. (1990), « Parsimonious and profligate approaches to the question of discourse
structure relations », in Proceedings of the 5th International Workshop on Natural
Language Generation, pp. 128-134.
HUANG, Y. (2000), « Discourse anaphora: Four theoretical models », Journal of Pragmatics
32, pp. 151-176.
HUFFMAN, M.K. (1987), « Measures of phonation type in Hmong »,Journal of the
Acoustical Society of America 81, pp. 495-504.
Bibliographie
473
I IDE, N. & CRISTEA, D. (2000), « A Hierarchical Account of Referential Accessibility », in
Proceedings of the 38th Annual Meeting of the Association for Computational
Linguistics, ACL'2000, Hong Kong.
J JAKOBSON, R. (1960), « Closing Statements : Linguistics and Poetics », in Sebeok, T.
(ed.), Style in Language, Cambridge, Mass., MIT Press, pp. 350–377.
JAKOBSON, R., FANT, G. & HALLE, M. (1952), Fundamentals of Language, La Hague,
Mouton.
JAKOBSON, R., & HALLE, M. (1971), Preliminaries to Speech Analysis, Cambridge,
Mass., MIT Press.
JASSEM, W. (1952), « Stress in modern English », Bulletin de la Société Linguistique
Polonaise 11, pp. 23-49.
JASSEM, W. & GIBBON, D. (1980), « Re-defining English accent and stress », Journal of
the International Phonetic Association 10 (1), pp. 2-16.
JENSEN, C. (2004), Stress and Accent. Prominence relations in Southern Standard British
English, Ph.D. Dissertation, University of Copenhagen.
JIANFEN, C. & MADDIESON, I. (1989), « An exploration of phonation types in Wu
dialects of Chinese », UCLA Working Papers in Phonetics 72, pp. 139-160.
JOHNSON-LAIRD, P.N. (1983), Mental Models: Towards a Cognitive Science of
Language, Inference and Consciousness, Cambridge, Mass., Harvard University Press.
JOHNSON-LAIRD, P.N. (1989), « Mental Models », in Posner, M.I. (ed.), Foundations of
Cognitive Science, Cambridge, Mass., MIT Press, pp. 469-499.
JONES, D. (1909), The pronunciation of English, Cambridge, Cambridge University Press.
JONES, D. (1918), An outline of English phonetics, Cambridge, Heffer.
JONES, D. (1991), English Pronouncing Dictionary, London, Longman.
JOSHI, A. & KUN, S. (1979), « Centered logic: The role of entity centered sentence
representation in natural language inferencing », in Proceedings of the 6th International
Joint Conference on Artificial Intelligence, Tokyo, pp. 435-439.
JOSHI, A. & WEINSTEIN, S. (1981), « Control of inference: Role of some aspects of
discourse structure – centering », in Proceedings of the 7th International Joint Conference
on Artificial Intelligence, Vancouver, pp. 385-387.
Bibliographie
474
K KAPLAN, D. (1989), « Demonstratives », in Almog, J., Perry J. & Wettstein, H. (eds.),
Themes from Kaplan, New York, Oxford University Press, pp.481-563.
KAMEYAMA, M. (1994), « Stressed and unstressed pronouns: Complementary
Preferences », in P. Bosch & R. van der Sandt (eds.), Focus and Natural Language
Processing, Institute for Logic and Linguistics, IBM, Heidelberg, pp. 475-484.
KAMEYAMA, M. (1997), « Stressed and unstressed pronouns: Complementary
Preferences », in P. Bosch & R. van der Sandt (eds.), Focus. Linguistic, Cognitive, and
Computational Perspectives, Cambridge, Cambridge University Press, pp. 306-321.
KARCEVSKIJ, S. (1931), « Sur la phonologie de la phrase », Travaux du Cercle
Linguistique de Prague IV, pp. 188-227.
KARMILOFF-SMITH, A. (1979), A Functional Approach to Child Language. A Study of
Determiners and reference, Cambridge, Cambridge University Press.
KARMILOFF-SMITH, A. (1980), « Psychological processes underlying pronominalization
and non-pronominalization in children’s connected discourse », in Kreiman, J. &
Ojeda, A.E. (eds.), Papers from the Parasession on Pronouns and Anaphora, Chicago,
Chicago Linguistic Society, pp. 231-250.
KARMILOFF-SMITH, A. (1985), « Language and cognitive processes from a
developmental perspective», Language and Cognitive Processes 1 (1), pp. 61-85.
KEHLER, A. (1997), « Current Theories of Centering for Pronoun Interpretation: A Critical
Evaluation », Computational Linguistics (Squibs and Discussions) 23 (3).
KINGDON, R. (1958), Groundwork of English Intonation, London, Longman.
KLATT, D.H. (1979), « Synthesis by rule of segmental durations in English sentences », in
B. Lindblom & S. Öhmann (eds.), Frontiers of Speech Communication Research,
London, New York, San Francisco, Academic Press, pp. 287-299.
KLEIBER, G. (1990), « Marqueurs référentiels et processus interprétatif : pour une approche
plus sémantique », Cahiers de linguistique française 11, pp. 241-258.
KLEIBER, G. (1994a), « Lexique et cognition : y a-t-il des termes de base ? », in Rivista di
Linguistica 6(2), pp. 237-266.
KLEIBER, G. (1994b), Anaphores et pronoms, Louvain-la-Neuve, Duculot.
KLEIBER, G. (1997), « Anaphore pronominale et référents évolutifs, ou Comment faire
recette avec un pronom », in De Mulder W., Tasmowski-De Ryck L & Vetters C. (eds.),
Relations anaphoriques et (in)cohérence, Amsterdam-Atlanta, Rodopi, pp. 1-29.
Bibliographie
475
KLEIBER, G., SCHNEDECKER, C. & UJMA, L. (1994), « L’anaphore associative, d’une
conception à l’autre », in Schnedecker C., Charolles M., Kleiber G. & David J. (eds.),
L’anaphore associative (Aspects linguistiques, psycholinguistiques et automatiques),
Université de Metz : Centre d’Analyse Syntaxique, Paris, Klincksieck, pp. 5-64.
KNOTT, A. & SANDERS, T. (1998), « The classification of coherence relations and their
linguistic markers: an exploration of two languages », Journal of Pragmatics 30, pp.
135-175.
KNOWLES, G. (1987),
KNOWLES, G. (1993), « From text to waveform: converting the Lancaster/IBM Spoken
English Corpus into a speech database », in C.Souter & E. Atwell (eds.), Corpus-based
Computational Linguistics: Proceedings of the 12th ICAME conference, Amsterdam,
Rodopi, pp 47-58.
KNOWLES, G. (1994), « Annotating large speech corpora: building on the experience of
Marsec », Hermes - Journal of Linguistics 13, pp 87-99.
KONOPCZYNSKI G. (1991), Du prélangage au langage : acquisition de la structuration
prosodique, Thèse d’Etat Strasbourg II, Hambourg, Buske Verlag.
KONOPCZYNSKI G. (1998), « Interactive Developmental Intonology (IDI): Theory and
Application to French », Parole 7-8, pp. 177-202.
KONOPCZYNSKI G. (1999), « L’acquisition du système prosodique de la langue
maternelle et ses implications pour l’apprentissage d’une L2 », in Proceedings of
Eurocall’99, Besançon.
KOOPMANS-VAN BEINUM, F.J.& DONZEL van, M.E. (1996), « Relationship between
discourse structure and dynamic speech rate », in Proceedings ICSLP96, Fourth
International Conference on Spoken Language Processing, Vol 3, Philadelphia, pp.
1724-1727.
KRIPKE, S. (1982), La logique des noms propres, Paris, Minuit.
KUNO, S. (1972), « Functional sentence perspective », Linguistic Inquiry 3, pp. 269-320.
KUNO, S. (1978), « Generative discourse analysis in America », in W. Dressler (ed .),
Current Trends in Texilinguistics, Berlin & New York, de Gruyter, pp. 275-294.
L LACHERET-DUJOUR, A. & BEAUGENDRE, F. (1999), La prosodie du français, Paris,
CNRS Langage.
Bibliographie
476
LACHERET-DUJOUR, A. & VICTORRI, B. (2002), « La période intonative comme unité
d’analyse du français parlé : modélisation prosodique et enjeux linguistiques », Verbum
XXIV(1-2), pp. 55-72.
LADD, D. R. (1980), The structure of intonational meaning: evidence from English,
Bloomington, Indiana University Press.
LADD, D. R. (1996), Intonational Phonology, Cambridge, Cambridge University Press.
LADD, D. R. & MORTON R (1997), « The perception of intonational emphasis: continuous
or categorical », Journal of Phonetics 25, pp. 313-342.
LAKOFF, G. (1971), « Pronouns and Reference », in J. McCawley (ed.), Syntax and
Semantics, Vol. 7, New York, Academic Press, pp. 275-335.
LAKOFF, G. (1989), « The way we were », Journal of Pragmatics 13 (6), pp. 939-988.
LAMBERT D’AUXERRE (1971), Logica (Summa Lamberti), F. Alessio (ed.), Florence, La
nuova Italia Editrice.
LAMBERT D’AUXERRE (1988), « Logica (Summa Lamberti) », in N. Kretzmann & E.
Stump (eds.), Cambridge Translations of Medieval Philosophical Texts, Cambridge,
Cambridge University Press, pp. 102-162 (traduction de Lambert d’Auxerre 1971).
LEHISTE, I. (1970), Suprasegmentals, Cambridge, Mass., M.I.T. Press
LEHISTE, I. (1975), « The phonetic structure of paragraph », in A; Cohen & S.G.
Nooteboom (eds.), Structure and Process in Speech Perception, New York, Springer
Verlag, pp. 195-206.
LEVELT, W. (1989), Speaking: from intension to articulation, Cambridge, Mass., M.I.T.
Press.
LEVINSON, S. (1983), Pragmatics, Cambridge, Cambridge University Press.
LEVINSON, S. (2004), « Deixis and pragmatics », in Horn L. & Ward G. (eds.), The
Handbook of pragmatics, Oxford, Blackwell, pp. 97-121.
LOUIS, M. (2003), Etude longitudinale de la dysprosodie d’un cas d’Aphasie Progressive
Primaire, Thèse de Doctorat, Université de Provence.
LYONS, J. (1968), An Introduction to Theoretical Linguistics, Cambridge, Cambridge
University Press.
LYONS, J. (1975), « Deixis as the Source of Reference », in Keenan, E. (ed.), Formal
Semantics of Natural Language, Cambridge, Cambridge University Press, pp. 61-83.
LYONS, J. (1977), Semantics I, Cambridge, Cambridge University Press
LYONS, J. (1978a), Semantics II, Cambridge, Cambridge University Press
LYONS, J. (1978b), Eléments de sémantique, Paris, Larousse (traduction de Lyons 1977).
Bibliographie
477
LYONS, J. (1980), Sémantique linguistique, Paris, Larousse (traduction de Lyons 1978a).
M MACWHINNEY, B., & BATES, E. (1989), The crosslinguistic study of sentence
processing, New York, Cambridge University Press.
MACWHINNEY, B., & BATES, E. (1994), « The Competition Model and UG »,
http://psyling.psy.cmu.edu/papers/gibson.pdf.
MADDIESON, I. (1971), « The inventory of features », Research Notes 3, pp. 3-18.
MAINGUENEAU, D. (1976), Initiation aux méthodes de l’analyse du discours, Paris,
Hachette.
MANN, W.C., MOORE, M.A. LEVIN, J.A. & CARLISLE, J.H. (1975), Observation
Methods for Human Dialogue, Technical Report RR/75/33, Information Sciences
Institute, Marina del Rey, CA.
MANN, W. & THOMPSON, S. (1988), « Rhetorical structure theory: A theory of text
organization », Text 8 (3), pp. 243-281.
MARATSOS, M.P. (1976), The Use of Definite and Indefinite Reference in Young Children,
Cambridge, Cambridge University Press.
MARCONI, D. (1995), « Filosofia del linguaggio », in Rossi, P. (ed.), La filosofia, Turin,
UTET, pp. 365-460.
MARCONI, D. (1997), La philosophie du langage au XXème siècle, Paris, L’éclat
(traduction de Marconi 1995).
MARR, D. (1982), Vision: A computational Inverstigation in the Human Representation of
Visual Information, San Francisco, Freeman.
MARTIN, J. R. (1992), English Text: system and structure, Philadelphia, Benjamins.
MARTINET, A. (1960), Eléments de linguistique générale, Paris, Armand Colin.
MARTINET, A. (1962), A functional view of language, The Waynflete Lectures, Oxford,
Clarendon Press.
MARTINET, A. (1964), Elements of general linguistics, London, Faber & Faber (traduction de
Martinet 1960).
MATHESIUS, V. (1929/1975), A Functional Analysis of Present-Day English on a General
Linguistic Basis, (traduit par L. Dusková), La Haye, Mouton.
McILROY, M. (1973), Synthetic English Speech by Rule, Bell Telephone Laboratories
Memo.
Bibliographie
478
MENARD, L. (2002), Production et perception des voyelles au cours de la croissance du
conduit vocal : variabilité, invariance et normalisation, thèse de Doctorat, Université
Stendhal, Grenoble.
MERTENS, P. (1987), L’intonation du français. De la description à la reconnaissance
automatique, Doctorale dissertatie, K.U. Leuven.
MERTENS, P. (1997), « De la chaîne linéaire à la séquence de tons », TAL 38 (1), pp. 27-51.
MILNER, J.-C. (1976), « Réflexions sur la référence », Langue française 30, pp. 61-71.
MILNER, J.-C. (1978), De la syntaxe à l’interprétation. Quantité, insultes, exclamation,
Paris, Seuil.
MILNER, J.-C. (1982), Ordres et raisons de langue, Paris, Seuil.
MILNER, J.-C. (1989), Introduction à une science du langage, Paris, Seuil.
MITCHELL, J.E. (1986), The Formal Semantics of Point of View, Thèse de doctorat,
University of Massachusetts.
MOESCHLER, J. & REBOUL, A. (1994), Dictionnaire encyclopédique de pragmatique,
Paris, Seuil.
MOREL, M.-A. (2000), « Intonation/ Coénonciation/ Colocution/ Formulation », in A.-C.
Berthoud & L ; Mondada (ed.), Modèle du discours en confrontation, Berne, Peter
Lang : pp. 53-78.
MOREL, M.-A. & DANON-BOILEAU, L. (1998), Grammaire de l'intonation, l'exemple du
français oral, Paris, Ophrys.
MORRIS, C. (1938), « Foundations of a Theory of Signs », in Neurath, O., Carnap, R. &
Morris, C. (eds), International Encyclopedia of Unified Science, Chicago, University of
Chicago Press, pp. 77-138.
MULDER DE, W. & TASMOWSKI-DE RYCK, L. (1997), « Référents évolutifs,
syntagmes nominaux et pronoms », VERBUM XIX (1-2), pp. 121-137.
N NAKAJIMA, S. & ALLEN, J.F. (1993), « A Study on Prosody and Discourse Structure in
Cooperative Dialogues », Phonetica 50, pp. 197-210.
NAKATANI L. H. & SCHAFFER , J.A. (1978), « Hearing ‘words’ without words:
Prosodic cues for word perception », Journal of the Acoustical Society of America 63,
pp. 234-245.
NAKATANI L. H. & ASTON, C. H. (1978), Acoustic and linguistic factors in stress
perception, Unpublished manuscript, Murray Hill, New Jersey, Bell Laboratories.
Bibliographie
479
NAKATANI, C. (1997a), The Computational Processing of Intonational Prominence: A
Functional Prosody Perspective, PhD thesis, Harvard University.
NAKATANI, C. (1997b), « Integrating Prosodic and Discourse Modelling », in Y. Sagisaka,
N. Campbell & N. Higuchi (eds.), Computing Prosody - Computational Models for
Processing Spontaneous Speech, New York, Springer-Verlag, pp. 67-80.
NAVARRO, H. (1997), La entonación colloquial. Functión demarcativa y unidades de
habla, Quaderns de Filologia, ANEJO XXI, Université de Valence.
NESPOR, M. & VOGEL, I. (1986), Prosodic Phonology, Dordrecht, Foris.
NI CHASAIDE, A. & GOBL, C. (2004), « Voice Quality and f0 in Prosody: Towards a
Holistic Account », in Proceedings of Speech Prosody 2004, Nara, pp. 189-196.
NICOL, J.L. (1988), Coreference processing during sentence comprehension, Ph.D.
Dissertation, M.I.T.
NICOL, J.L. & SWINNEY, D.A (2003), « The Psycholinguistics of Anaphora », in A.
Barrs, (ed.), Anaphora. A reference guide, Oxford, Blackwell, pp. 72-104.
NØLKE, H. (1994), Linguistique modulaire : de la forme au sens, Louvain, Peeters.
NUNBERG, G. (1993), « Indexicality and Deixis », Linguistics and Philosophy 16 (1), pp. 1-
43.
NWOGU, K. & BLOOR, T. (1991), « Thematic progression in professional and popular
medical texts », in E. Ventola (ed.), Functional and Systemic Linguistics: Approaches and
Uses, Berlin, Mouton de Gruyter, pp. 369-384.
O OHALA, J. (1984), « An ethological perspective on common cross-language utilization of F0
in voice », Phonetica 41, pp. 1-16.
P PALMER, H. E. (1922), English intonation with systematic exercises, Cambridge, Heffer.
PARTEE, B.H. (1989), « Binding Implicit Variables in Quantified Contexts », in Papers
from the 25th Regional Meeting, Chicago Linguistics Society: Parasession on Language
in Context, Chicago, Chicago Linguistics Society, pp. 342-365.
PATTERSON, D. (2000), A linguistic approach to pitch range modelling, PhD dissertation,
University of Edinburgh.
PATTERSON, D. & LADD, D. R. (1999), « Range Modelling: Linguistic Dimensions of
Variation », in Proceedings of the 13th International Congress of Phonetic Sciences,
San Francisco, pp. 1169-1172.
Bibliographie
480
PEIRCE, C. (1955), « Logic as Semiotic: The Theory of Signs », in Buchler J. (ed.),
Philosophical Writings of Peirce, New York, Dover.
PERRY, J. (1993), The Problem of the Essential Indexical and Other Essays, New York,
Oxford University Press,
PIERRE D’ESPAGNE (1962), « Tractatus », in De Rijk, L.M. (ed.), Assen, Van Gorcum.
PIERREHUMBERT, J.B. (1989), « A preliminary study of the consequences of intonation
for the voice source », STLQPSR, Speech, Music and Hearing 4, pp. 23-36.
PIERREHUMBERT, J.B. & BECKMAN, M. (1988), « Japanese Tone Structure »,
Linguistic Inquiry Monograph Series 15, MIT Press.
PIJPER, J.R. & SANDERMAN, A.A. (1994), « On the perceptual strength of prosodic
boundaries and its relation to suprasegmental cues », Journal of the Acoustical Society of
America 96, pp. 2037-2047.
PIKE, K. (1943), Phonetics, Ann Arbor, University of Michigan Press.
PIKE, K. (1945), The intonation of American English, Ann Arbor, University of Michigan
Press.
PIKE, K. (1948), Tone languages: a technique for determining the number and type of pitch
contrast in a language, with studies in tonemic substitution and fusion, Ann Arbor,
University of Michigan Press.
PIKE, K. & PIKE, E. (1983), Text and tagmeme, London, Francis Pinter.
PORTES, C. & DI CRISTO, A., (2003), « Pitch range in spontaneous speech: Semi-
automatic approach vs. subjective judgement », in Proceedings of the 15th ICPhS,
Barcelona, pp. 583-586.
PRICE, P.J., OSTENDORF, M., SCHATTUCK-HUFNAGEL, S. & FONG, C. (1991), «
The use of prosody in syntactic disambiguation », Journal of the Acoustical Society of
America 90, pp. 2956-2970.
PRINCE, E. (1981), « Toward a taxonomy of given-new information », in Cole, P. (ed.),
Radical Pragmatics, NY, Academic Press, pp. 223-56.
PULGRAM, E. (1970), Syllable, Word, Nexus, Cursus, The Hague, Mouton.
PULLEYBLANK, D. (1986), Tone in Lexical Phonology, Dordrecht, Reidel.
R RABINER L.R. (1984), « A tutorial on hidden Markov Models and selected applications in
speech recognition », IEEE transactions on Speech Audio Processing, vol. 2.
Bibliographie
481
REBOUL, A. & MOESCHLER, J. (1998), Pragmatique du discours. De l’interprétation de
l’énoncé à l’interprétation du discours, Paris, Armand Colin.
RECANATI, F. (1979), La transparence et l’énonciation. Pour introduire à la pragmatique,
Paris, Minuit.
RECANATI, F. (1981), Les énoncés performatifs, Paris, Minuit.
RECANATI, F. (2002), « Deixis and anaphora », in Z. Szabo (ed.), Semantics vs.
Pragmatics, Oxford University Press
REINHART, T. (1980), « Conditions for text coherence », Poetics Today, Vol. I, No. 4, pp.
l6l-l80.
REINHART, T. (1981), « Pragmatics and linguistics: An analysis of sentence topics »,
Philosophica 27 (1), Special issue on pragmatic theory, pp. 53-94.
REMIJSEN, B. & HEUVEN van, V. (1999), « Gradient and categorical pitch dimensions in
Dutch: diagnostic test », in Proceedings of the XIVth International Congress of Phonetic
Sciences (ICPhS’99), San Francisco, pp. 1865-1868.
RIPS, L.J. (1986), Mental muddles, in Brand, R. & Harnish, R.M. (eds.), Problems in the
Representations of Knowledge and Belief, Tucson, University of Arizona.
RIJSBERGEN van, C.J. (1979), Information Retrieval, 2nd edition, Glasgow, University of
Glasgow.
RITVELD, A.C.M (1980), « Word boundaries in the French language », Language and
Speech 23, pp. 289-296.
ROACH, P. (1994), « Conversion between prosodic transcription systems: “Standard
British” and ToBI », Speech Communication 15, pp. 91-99.
ROBERTS, C. (1998), « The Place of Centering in a General Theory of Anaphora
Resolution », in M. Walker, A. Joshi & E. Prince (eds.), Centering Theory in Discourse,
Oxford, Clarendon Press.
ROOTH, M. (1992), « A Theory of Focus Interpretation », Natural Language Semantics 1
(1), pp. 75–116.
ROSSI, M. (1981), « Intonation, énonciation, syntaxe », in M. Rossi, A. Di Cristo, D. J.
Hirst, Ph. Martin & Y. Nishinuma (eds.), L’intonation, de l’acoustique à la sémantique,
Paris, Klincksieck, pp. 184-234.
ROSSI, M. (1999), L’intonation, le système du français, Paris, Ophrys.
ROSSI, M., DI CRISTO, A., HIRST, D. J., MARTIN, P. & NISHINUMA, Y. (1981),
L’intonation, de l’acoustique à la sémantique, Paris, Klincksieck.
Bibliographie
482
ROULET, E. et al. (1985), L’articulation du discours en français contemporain, Berne, Peter
Lang.
ROULET, E., FILLIETAZ, L. & GROBET, A. (2001), Un modèle et un instrument
d’analyse de l’organisation du discours, Berne, Peter Lang.
RUMELHART, D.E., HINTON, G.E. & WILLIAMS, R. (1986), « Learning
representations by back-propagating errors », Nature 323, pp. 533-536.
RUSSELL, B. (1905), « On denoting », Mind 14, pp. 479-493.
RUSSELL, B. (1989), « De la dénotation », in Ecrits de logique philosophique, Paris, PUF,
pp. 201-218 (traduction de Russell 1905).
S SABAH, G. (1989), L’intelligence artificielle et le langage, vol. 2, Processus de
compréhension, Paris, Hermès.
SACKS, H., SCHEGLOFF, E. & JEFFERSON, G. (1974), « A simplest systematics for
the organization of turn-taking in conversation », Language 50, pp. 696-735.
SACKS, H., SCHEGLOFF, E. & JEFFERSON, G. (1978), « A simplest systematics for
the organization of turn taking for conversation », in J. Schenkein (ed.), Studies in the
organization of conversational interaction, New York, Academic Press, pp. 1-55.
SAGISAKA, Y., CAMPBELL, N. & HIGUCHI, N. (1997), Computing Prosody.
Computational Models for Processing Spontaneous Speech, New York, Springer.
SAMPSON, G. (1969), « A note on Wang’s phonological features of tone », International
Journal of American Linguistics 35, pp. 62-66.
SANDERS, T. (1997), « Coherence relations in context. On the categorization of positive
causal relaTions », Discourse Processes 24, pp. 119-147.
SANDERS, T., SPOOREN, W. & NOORDMAN, L. (1992), « Towards a taxonomy of
coherence relations », Discourse Processes 15, pp. 1-35.
SANDERS, T., SPOOREN, W. & NOORDMAN, L. (1993), « Coherence relations in a
cognitive theory of discourse representation », Cognitive Linguistics 4, pp. 93-133.
SALMON-ALT, S. (2001), Référence et dialogue finalisé : de la linguistique à un modèle
opérationnel, Thèse d'informatique, Université H.Poincaré - Nancy 1, France.
SAPIR, E. (1921), Language, New York, Harcourt, Brace & World.
SCHIFFRIN, D. (1994), Approaches to discourse, Oxford, Blackwell.
SCHLICK, M. (1936), « Meaning and Verification », Philosophical Review 45, pp. 339-369.
Bibliographie
483
SCHNEDECKER, C. & CHAROLLES, M. (1993), « Les référents évolutifs : points de vue
ontologique et phénoménologique », Cahiers de linguistique française 14, pp. 197-227.
SCHUBIGER, M. (1935), The Role of Intonation in Spoken English, St. Gall, Fehr’sche
Buchhandlung.
SCHUBIGER, M. (1958), English Intonation: its Form and Function, Tübingen, Max
Niemeyer Verlag.
SCHUETZE-COBURN, S., SHAPLEY, M. & WEBER, E.G. (1991), « Units of intonation
in discourse: A comparison of acoustic and auditory analyses », Language and Speech
34 (3), pp. 207-234.
SCOTT, N. C. (1939), « An experiment on stress perception », Le maître Phonétique 67, pp.
44-45.
SEARLE, J. (1965), « What is a Speech Act? », in M. Black (ed.), Philosophy in America,
Ithaca, N.Y., Cornell University Press, pp. 221-239.
SEARLE, J. (1969), Speech Acts: An Essay in the Philosophy of Language, Cambridge,
Cambridge University Press.
SEARLE, J. (1972), Les Actes de langage, Paris, Hermann (traduction de Searle 1969).
SEARLE, J. (1975), « Indirect Speech Acts », in Cole, P. & Morgan, J.L. (eds.), Syntax and
Semantics. Speech Acts, New York, Academic Press.
SEARLE, J. (1979), Expression and Meaning, Cambridge, Cambridge University Press.
SEARLE, J. (1982), Sens et expression, Paris, Minuit (traduction de Searle 1979).
SEARLE, J. (1983), Intentionality: An Essay in the Philosophy of Mind, New York,
Cambridge University Press.
SEARLE, J. (1985), L’intentionnalité. Essai de philosophie de l’esprit, Paris, Minuit
(traduction de Searle 1983).
SEARLE, J. & VANDERVEKEN, D. (1985), Foundations of Illocutionary Logic,
Cambridge, Cambridge University Press.
SELKIRK, E. (1984), Phonology and Syntax. The Relation between Sound and Structure.
Cambridge, Mass., M.I.T. Press.
SELKIRK, E. (1986), « On derived domains in sentence phonology », Phonology Yearbook
3, pp. 371-405.
SERIOT, P. (1987), « L'anaphore et le fil du discours (sur l'interprétation des
nominalisations en français et en russe)», IVe Colloque international de linguistique
slavo-romane, Copenhague, 27-29 août 1987, in Opérateurs syntaxiques et cohésion
discursive, Copenhague, Nyt Nordisk Forlag Arnold Busck, pp. 147-160.
Bibliographie
484
SHILLCOCK, R. (1982), « The on-line resolution of pronominal anaphora », Language and
Speech 25, pp. 385-401.
SIDNER, C. (1979), Toward a computational theory of definite anaphora comprehension in
English, Technical Report AI-TR-537, MIT.
SILIPO, R. & GREENBERG, S. (1999), « Automatic transcription of prosodic stress for
spont aneous English discourse », in Proceedings of the 14th International Congress of
Phonetic Sciences, San Francisco, pp. 2351-2354.
SILIPO, R. & GREENBERG, S. (2000), « Prosodic stress revisited: reassessing the role of
fundament al frequency », in Proceedings of the NIST Speech Transcription Workshop.
SILVERMAN, K., BECKMAN, M., PITRELLI, J., OSTENDORF, M., WIGHTMAN,
C., PRICE, P., PIERREHUMBERT, J. & HIRSCHBERG, J. (1992), « ToBI: a
system for labeling English prosody », in Proceedings of the 2nd ICSL, vol. 2, Banff, pp.
867-870.
SIMON, A.-C. (2004), La structuration prosodique du discours en français, Berne, Peter
Lang.
SIMON, A.-C. & GROBET A. (2001), « Réinitialisations (resetting) et unites prosodiques
maximales : une evidence ? », in Actes des Journées Prosodie 2001, Grenoble, pp. 79-
83.
SLUITJER, A. & HEUVEN van, V. (1993), « Perceptual clues of linguistic stress: intensity
revisited », Working Papers 41, Proceedings of the ESCA Workshop on Prosody, Lund
University, Sweden, pp. 246-249.
SLUITJER, A. & TERKEN, J.M.B. (1993), « Beyond sentence prosody: Paragraph
intonation in Dutch », Phonetica 50, pp. 180-188.
SLUITJER, A. & HEUVEN van, V. (1996), « Spectral balance as an acoustic correlate of
linguistic stress », Journal of the Acoustical Society of America 100 (4), pp. 2471-2485.
SMITH, C. (2004), « Topic transitions and durational prosody in reading aloud: production
and modeling », Speech Communication 42, pp. 247-270.
SPERBER, D. & WILSON, D. (1986), Relevance: Communication and Cognition, Oxford,
Blackwell.
SPERBER, D. & WILSON, D. (1995), Relevance: Communication and Cognition, Postface
to the second edition, Oxford, Blackwell.
SPERBER, D. & WILSON, D. (2002), « Pragmatics, Modularity and Mind Reading », Mind
and Language 17, pp. 3-23.
Bibliographie
485
STEELE, J. (1779/1965), Prosodia Rationalis: Or, An Essay towards Establishing the
Melody and Measure of Speech, to be Expressed and Perpetuated by Peculiar Symbols,
2nd edition, London, Nichols / Menston, Scholar Press.
STRAWSON, P. (1977), « De l'acte de référence », in Etudes de logique et de linguistique,
Paris, Seuil, pp. 9-38.
STREEFKERK, B. M., POLS, L. C. & BOSCH ten, L. F. (2001), « Acoustical and lexical/
syntactic features to predict prominence », Proceedings 24, pp. 155-166.
SWERTS, M., (1997), « Prosodic features at discourse boundaries of different strength »,
Journal of Acoustical Society of America 101, pp. 514-521.
SWERTS, M. & GELUYKENS, R. (1994), « Prosody as a marker of information flow in
spoken discourse », Language and Speech 37 (1), pp. 24-43.
SWERTS, M., STRANGERT, E. & HELDNER, M. (1996), « F0 declination in
spontaneous and read-aloud speech », TMH-QPSR 2, pp. 23-24.
SWERTS, M., KRAHMER, E. & AVESANI, C. (2002), « Prosodic marking of information
status in Dutch and Italian: a comparative analysis », Journal of Phonetics 30, pp. 629-
654. T TERKEN, J. (1991), « Fundamental frequency and perceived prominence of accented
syllables », Journal of the Acoustical Society of America 89 (4), pp. 1768-1776.
TERKEN, J. & HIRSCHBERG, J. (1994), « Deaccentuation of words representing ‘given’
information: Effects of persistence of grammatical function and surface position »,
Language and Speech 37 (2), pp. 125-145.
THORSEN, N. (1985), « Intonation in text in standard Danish », Journal of the Acoustical
Society of America 77 : pp. 1205-1216.
TOUPIN F. (1998), « Réference et deixis : le cas de this et that adverbes », in N. Le Querler
& E. Gilbert, La référence -1- Statut et processus, Travaux linguistiques du CERLICO
11, pp. 65-84.
TRAGER, G. & SMITH H. (1951), An outline of English structure, Norman, Ok.,
Battenburg Press.
TROGNON, A. & BRASSAC, A. (1992), « L’enchaînement conversationnel », Cahiers de
linguistique française 13, pp. 76-107.
Bibliographie
486
TROGNON, A. & BRASSAC, A. (1993), « La logique des actes de discours en tant que
grammaire universelle de l’intercompréhension », in Procceings of the 4th International
Pragmatics Conference, Kobe, Japon.
TROGNON, A. & BRASSAC, A. (1988), « Actes de langage et conversation », Intellectica
6 (2), pp. 211-232.
TROUILLEUX, F. (2001), Identification des reprises et interprétation automatiques des
expressions pronominales dans des textes en français, Thèse de doctorat, Université de
Blaise Pascal, Clermont-Ferrand.
TROUBETZKOY, N. (1939), Grundzüge der Phonologie, TCLP 7.
TROUBETZKOY, N. (1949), Principes de phonologie, Paris, Klincksieck (traduction de
Troubetskoy 1939).
TYVAERT, J.-E. (1994), « L'exclusivité de la disjonction en langue et l'élucidation
pragmatique du glissement de l'implication à l'équivalence », Intellectica 19 (2), pp.167-186.
V VERNANT, D. (1998), « Du dire au faire, les niveaux d'analyse des phénomènes
communicationnels », Revue d'interaction homme-machine 1 (1), pp. 11-32.
VERONIS, J., HIRST, D.J., ESPESSER, R. & IDE, N. (1994), « NL and speech in
MULTEXT », in Proceedings AAAI-94 Workshop of the Integration of Speech and
Natural Language Processing, Seattle.
VERSCHUEREN, J. (1995), « The Pragmatic Perspective », in J. Verschueren, J-O.
Östman, J. Blommaert & C. Bulcaen (eds.), Handbook of Pragmatics,
Amsterdam/Philadelphia, John Benjamins, pp. 1-19.
VERSCHUEREN, J. (1999), Understanding pragmatics, London, Arnold.
VION, M. & COLAS, A. (1999), Maintaining and Reintroducing Referents in French:
Cognitive Constraints and Development of Narrative Skills », Journal of Experimental
Child Psychology 72, pp. 32-50.
VION, R. (1992), La communication verbale. Analyses des interactions, Paris, Hachette.
VITERBI, A. (1967), « Error bounds for convolutional Codes and an asymptotically
optimum decoding algorithm », IEEE Transactions on Information Theory, vol. 2, pp.
260-269.
W WALKER, M. (1996), « Limited attention and discourse structure », Computational
Linguistics 22 (2), pp. 255-264.
Bibliographie
487
WALKER, M. (1998), « Centering, anaphora resolution and discourse structure », in M.
Walker, A. Joshi & E. Prince (eds.), Centering in Discourse, Oxford University Press,
pp. 401-435.
WALKER, M., JOSHI, A. & PRINCE, E. (1998a), Centering in Discourse, Oxford
University Press.
WALKER, M., JOSHI, A. & PRINCE, E. (1998b), Centering Theory in Discourse,
Oxford, Clarendon Press.
WALKER, M., JOSHI, A. & PRINCE, E. (1998c), « Centering in Naturally-Occuring
Discourse: An Overview », in M. Walker, A. Joshi & E. Prince (eds.), Centering Theory
in Discourse, Oxford, Clarendon Press, pp. 1-26.
WANG, V.S.–Y., (1967), « Phonological features of tone », International Journal of
American Linguistics 33 (2), pp. 93-105.
WELLS, J.C. (1990), Pronunciation Dictionary, London, Longman.
WELLS, W.H.G. (1986), « An experimental approach to the interpretation of focus in
spoken English », in C. Johns-Lewis (ed.), Intonation in Discourse, London, Croom
Helm.
WERLICH, E. (1976), A Text Grammar of English, Heidelberg, Quelle & Meyer.
WICHMANN, A. (1991), Beginnings, middles and ends: intonation in text and discourse,
PhD. Dissertation, Lancaster University.
WICHMANN, A., HOUSE, J. & RIETVELD, T. (1997), « Peak displacement and topic
structure », in A. Botinis (ed.), Intonation: Theory, Models and Applications,
Proceedings of ESCA workshop on Intonation, Athens.
WICHMANN, A. (2000), Intonation in Text and Discourse: Beginnings, Middles and Ends,
Pearson Education, London, Longman.
WICHMANN, A. (2002), « Attitudinal intonation and the Inferential Process », in
Proceedings of Speech Prosody 2002, Aix-en-Provence, pp.
WICHMANN, A., HOUSE, J. & RIETVELD, T. (2000), « Discourse Constraints on F0
Peak Timing in English », in A. Botinis (ed.), Intonation: Analysis, Modelling and
Technology, Dordrecht, Kluwer Academic Press, pp. 163-184.
WIDDOWSON, H.G. (1979), « Rules and procedures in discourse analysis », in T. Myers
(ed.), The Development of Conversation and Discourse, Edinbourg, Edinburgh
University Press, pp. 61-71.
WIGHTMAN, C. (2002), « ToBI or not ToBI? », in Proceedings of Speech Prosody 2002,
Aix-en-Provence.
Bibliographie
488
WILLIAMS, B. (1996), « The formulation of an intonation transcription system for British
English », in G. Knowles, A. Wichamnn & P. Alderson (eds.), Working with Speech,
London, Longman, pp. 38-57.
WILSON, D. (1998), « Discourse, coherence and relevance: A reply to Rachel Giora »,
Journal of Pragmatics 29, pp. 57-74.
WILSON, D. & SPERBER, D. (1990), « Forme linguistique et pertinence », Cahiers de
linguistique française 11, pp. 13-53.
WILSON, D. & SPERBER, D. (2002), « Relevance Theory », UCL Working Papers in
Linguistics 14, pp. 249-287.
WITTGENSTEIN, L. (1922), Tractatus logico-philosophicus, London, Routledge & Kegan
Paul.
WITTGENSTEIN, L. (1929-1932), Wittgenstein und der Wiener Kreis, notes rédigées par
Waissmann, F., Oxford, Blackwell.
WITTGENSTEIN, L. (1958), Philosophical Investigations, Oxford, Blackwell.
WITTGENSTEIN, L. (1961), Tagebücher 1914-1916, Oxford, Blackwell.
WITTGENSTEIN, L. (1991), Wittgenstein et le Cercle de Vienne, notes rédigées par
Waissmann, F., Mauvezin, TER (traduction de Wittgenstein 1929-1932).
WITTGENSTEIN, L. (1994), Tractatus logico-philosophicus, Paris, Gallimard (traduction
de Wittgenstein 1922).
WOLTERS, M. & BYRON, D. (2000), « Prosody and the Resolution of Pronominal
Anaphora », in Proceedings of the International Conference on Computational
Linguistics (COLING 2000), Saarbrück, Allemagne, pp. 919-925.
WOO, N. (1969), Prosody and Phonology, Thèse de doctorat, M.I.T., Cambridge, Mass.,
Bloomington, Indiana University Linguistics Club.
Y YIP, M. (1980), The Tonal Phonology of Chinese, Thèse de doctorat, M.I.T., Cambridge,
Mass., Bloomington, Indiana University Linguistics Club.
YULE, G. (1980), « Speaker’s topic and major paratones », Lingua 52, pp. 33-47.
YULE, G. (1982), « Interpreting anaphora without identifying reference », Journal of
Semantics 1, pp. 315-323.
Z ZIV, Y. (1996), « Inferred antecedents and epithets: Clues in anaphor resolution », IndiAna
Workshop, Lancaster, July 19, 1996.
Bibliographie
489
ZRIBI-HERTZ, A. (1992), « De la deixis à l’anaphore : quelques jalons », in M.-A. Morel &
L. Danon-Boileau (eds.), La Deixis (Colloque en Sorbonne, 8-9 juin 1990), Paris,
Presses Universitaires de France, pp. 603-612.