Download - Utiliser des traces de la dimension globale d’un corpus pour l’accès au contenu des documents
Utiliser des traces de la dimension globale d’un corpus pour l’accès au
contenu des documents
Pierre Beust & Thibault Roy
GREYC CNRS UMR 6072 – ISLanDPôle ModeSCoS (MRSH Caen)
Université de Caen Basse Normandie{pierre.beust, troy}@info.unicaen.fr
13e journées de Rochebrune, 22-27 janvier 2006« Traces, Enigmes, Problèmes : Emergence et construction du sens »
Trace de l’exposé …
1. Introduction– Les méthodes d’accès au contenu – Quelles traces ?
2. Ancrage épistémologique– Le local / le global
3. La cartographie de corpus– Objectifs, Outil logiciel
4. Expériences réalisées5. Perspectives6. Conclusions
13e journées de Rochebrune
1. Introduction
Cadre de nos recherches :
- Informatique & Linguistique Traitement Automatique des Langues
- Sémantique des textes Linguistique de corpus
- Interactions Homme-Machines centrées utilisateur
13e journées de Rochebrune
1. Introduction
• Traces en Informatique– fichiers de log, cookies, fichiers temporaires, balises XML Principalement vues sous l’angle de la génération
• Traces en Linguistique– phrases, énoncés, textes, dialogues Principalement vues sous l’angle de l’identification (surtout dans
le cas des approches endogènes)
• Traces pour la Linguistique de corpus– Annotation de corpus, visualisation, traitements statistiques, accès au
contenu Besoin des 2 angles d’approches : génération / identification
13e journées de Rochebrune
1. Introduction
• Les méthodes d’accès au contenu en TAL :– Extraction d’information
Remplissage de formulaires préconstruits, de bases de données On recherche les traces d’un contenu qu’on connaît déjà
– Questions/RéponsesExtraire une zone où peut se trouver la réponse à une question On localise une trace plus ou moins proche de la question
– Résumé automatique« condensation » de textes Garder les phrases où on a des traces de ce qui semble important
– Aide à la navigation– Indexation, extraction de terminologies, visualisation Exploiter des traces pour savoir de quoi traite un ensemble de documents
13e journées de Rochebrune
Tracesrhématiques
Tracesthématiques
2. Ancrage épistémologique
• Sémantique Interprétative (François Rastier)– perception sémantique individuelle– dynamique sémique (notions d’isotopies, d’afférences,
d’opérations interprétatives) – principe de la détermination du local par le global (alternative à
la compositionnalité)
13e journées de Rochebrune
13e journées de Rochebrune
principe de contextualité : deux signes ou deux passages d’un même texte mis côte à côte sélectionnent réciproquement des éléments de signification (sèmes).
principe d’intertextualité : deux passages de textes différentssélectionnent réciproquement, dès qu’ils sont mis côte à côte, des élémentsde signification (sèmes).
principe d’architextualité : tout texte placé dans un corpus en reçoit desdéterminations sémantiques et modifie potentiellement le sens de chacundes textes qui le composent
Global
Local
2. Ancrage épistémologique
2. Ancrage épistémologique
• Sémantique Interprétative (François Rastier)– perception sémantique– dynamique sémique (notions d’isotopies, d’afférences,
d’opérations interprétatives) – principe de la détermination du local par le global (alternative à
la compositionnalité)
• Approche interactionniste et expérimentale :– des logiciels d’étude pour expérimenter la sémantique des
langues– des interactions, des traitements et ressources avant tout
centrés sur l’utilisateur
13e journées de Rochebrune
2. Ancrage épistémologique
Il en découle que :
– le sens ne peut pas être objectivé– Il est préférable de viser une instrumentation du sens plutôt que la
construction du sens– on distingue donc des interprétations humaines et des interprétations
calculatoires. Elles sont complémentaires (l’une n’est pas le pâle reflet de l’autre).
on recherche dans les interprétations calculatoires des traces pour compléter, aider, assister des interprétations humaines.
on recherche dans les rapports d’intertextualité des traces pour enrichir les interprétations calculatoires
13e journées de Rochebrune
3. La cartographie de corpus
13e journées de Rochebrune
Notre objectif :Visualiser un ensemble de documents pour donner à un interprétant une vision globale de la thématique de cet ensemble
Visualisation sous forme de cartes représentations graphiques topologiques (personnelles) objets support d’interactions pour l’aide à la lecture rapide
3. La cartographie de corpus
13e journées de Rochebrune
L’outil ProxiDocs : un logiciel d’étude de la dimension globale d’une collection (corpus, flux, listes d’URL)
Ressourcesterminologiquespersonnelles
(liste de graphiesoudispositifsdifférentiels)
VuesglobalesPersonnelles
(cartes de documents, cartes degroupes, …)
4. Expériences réalisées
Plusieurs expérimentations avec différents types de corpus, différents types de ressources terminologiques
13e journées de Rochebrune
Corpus Ressources Observations
Exp. n°1 800 articles d’actualité 18 classes thématique généralistes
Thématiques majoritaires dans le corpus
Exp. n°2 Forum de discussion (env. 200 messages)
5 classes thématiques spécialisées
Evolution des thématiques dans le temps
Exp. n°3 articles scientifiques médicaux
Classes de termes et de méta-termes (89)
Aide à l’indexation
Exp. n°4 303 articles d’actualité boursière
3 dispositifs différentiels (64+112+111 lexies)
Caractérisation de 3 métaphores conceptuelles en synchro/diachronie
Bourse,Économie,Finances,Politique,
Etc.Météo
Santé
Guerre
4. Expériences réalisées : Exp. n°4
Etude simultanée de trois métaphores conceptuelles :
• La « météorologie boursière »• La « santé financière » • La « guerre économique »
4. Expériences réalisées : Exp. n°4
Analyses des cartes :
13e journées de Rochebrune
Plutôt desdépêches
Plutôt desbilans
Emplois surtout thématiques
Emplois surtout métaphoriques
Cartes d’évolution : fenêtre d’un mois, déplacement d’un jour
13e journées de Rochebrune
4. Expériences réalisées : Exp. n°4
Extrait 1 Extrait 2 Extrait 3
Quelques observations : • la métaphore guerrière a été très utilisée lors du minikrach boursier fin 1987• la métaphore météorologique est plus employée lors de conditions climatiques remarquables, hiver rude, forte chaleur…
5. Perspectives
• Dynamique sémique et prise en compte du global :
13e journées de Rochebrune
Extrait de l’article n°153Ce krach était dû (…) à la chute vertigineuse et incontrôlée du dollar, signe que la tempête affecte dorénavant les marchés financiers.
Isotopie 1 (générique) : bourse et économieIsotopie 2 (spécifique) : danger
Comment rendre compte de l’importance relative locale de ces isotopies ?
Pondérations des isotopies en fonction de :- nb de répétitions (trace locale)- variétés des lexies dans une même isotopie (trace locale)- rapport aux redondances principales du corpus (trace globale) - rapport aux candidats index du groupe (trace globale)- …
6. Conclusions
13e journées de Rochebrune
La prise en compte de la dimension globale met en évidence :• Le besoin d’identifier des traces pour des d’analyses multi-échelles
(paragraphe, document, groupe de documents, corpus …). • L’importance des études en synchro diachronie (là aussi quelles
traces utiliser ?)
Maintenant, il faut continuer à :• Contribuer à mieux appréhender les rapports entre local et global en
linguistique de corpus• Contribuer à des approches interactionnistes où les interprétations
des utilisateurs et des machines sont complémentaires• Affirmer une scientificité des TAL, spécialement dans un rapport à la
sémiotique (et plus précisément la sémiotique des traces)
13e journées de Rochebrune
Pour plus de traces sur ce que je viens de dire …
http://www.info.unicaen.fr/~troy/proxidocs/