thibault roy université de caen / basse-normandie laboratoire greyc / Équipe island
DESCRIPTION
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD. Analyses cartographiques personnalisées de collections de documents électroniques. Analyses cartographiques personnalisées de collections de documents électroniques. Plan de la présentation. - PowerPoint PPT PresentationTRANSCRIPT
Thibault ROY
Université de Caen / Basse-NormandieLaboratoire GREYC / Équipe ISLanD
Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC 2
Plan de la présentation
1. Cadre de travail et propositions1. Fondements et hypothèses
2. Moyens logiciels mis en œuvre
2. Analyses réalisées1. Gestion Électronique de Documents
2. Analyse d’expressions métaphoriques
3. Perspectives de recherche
Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC 3
Constat
De plus en plus : De documents électroniques textuels De moyens logiciels, de ressources et de puissance de
calcul utilisées
Pourtant : Grande difficulté d’accès au contenu de textes Peu (pas ?) de réelle prise en compte du point de vue de
l’utilisateur sur la tâche visée Peu (pas ?) d’interactions lui sont proposées Peu (pas ?) de réelle prise en considération de la
dimension temporelle
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 4
Travail de thèse
Prendre en compte la globalité d’ensembles documentaires Dans le cadre d’analyses automatiques de contenu Centrées sur l’utilisateur ou le groupe d’utilisateurs Interactives et légères Synchroniques et diachroniques
La globalité d’un ensemble documentaire… Le regroupement de documents par des utilisateurs au sein
de collections ou de corpus implique le partage de certaines propriétés
Nécessité d’une véritable analyse au niveau de la collection Et non d’une somme d’analyses indépendantes au niveau
du document
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 5
Piste choisie
Proposer des modèles d’analyse au niveau global Production de représentations graphiques globales du
corpus et de rapports d’analyse Représentations globales du corpus
supports d’interactions entre l’utilisateur et
l’ensemble documentaire analysé
Basées sur des représentations des domaines d’intérêt de l’utilisateur Représentation de ces domaines par des ressources
lexicales personnalisées
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 6
Visées applicatives
Accès au contenu de corpus et de collections de documents textuels Gestion Électronique de Documents
Accès amélioré au contenu de collections (e.g. consultations thématiques)
Analyses linguistiques de corpus Étude d’expressions métaphoriques
Analyse de l’influence de la dimension « corpus » dans la présence de certains phénomènes langagiers
Finalités dépendantes de la tâche visée !
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 7
Hypothèses et principes adoptés
Hypothèse 1 : L’interprétation d’un texte dépend de l’individu
Hypothèse 2 : Double détermination du sens local global global local
Principe d’architextualité (Rastier, 2001) : « Tout texte placé dans un corpus en reçoit des déterminations sémantiques, et modifie potentiellement le sens de chacun des textes qui le composent. »
Principe de contextualisation (Rastier, 1994) :Nécessité de faire intervenir les trois notions suivantes afin de donner du sens à un énoncé :
Co-texte / Contexte extralinguistique / Intertexte
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 8
Notions d’isotopies intra- et inter-textuelles
Sémantique Componentielle : Décrire des significations en contexte à l'aide de sèmes Exemple : « Le facteur m'a donné une lettre »
"facteur" /poste/, /courrier/, … "lettre" /alphabet/, /courrier/, …
Isotopie intra-textuelle (Rastier, 1987) : Récurrence d'un même sème dans un texte Exemple : Isotopie (intra-textuelle) : /courrier/
Isotopie inter-textuelle (Thlivitis, 1998) : Récurrence d'un même sème dans un corpus
Cadre de travail et propositions
Texte 1 :
« (…) Le facteur m'a donné une lettre (…) »
Texte 2 :
« (…) Ta lettre est arrivée hier soir (…) »
Isotopie inter-textuelle :
/courier/
Thibault ROY – Université de Caen – Laboratoire GREYC 9
Propositions
Quelles données ? Modélisation du contexte : ressources lexicales sémiques Modélisation de l’intertexte : ensembles de textes
Quelles analyses ? Analyser les collections / corpus et les documents à l’aide
des isotopies intra et inter-textuelles
Quels résultats ? Différentes vues cartographiques globales et temporelles
sur la collection, interactives, permettant de changer de niveau granularité, …
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 10
Quels résultats ?
Cartes de collections de documents Construites à partir des domaines de l’utilisateur Permettant d’observer des proximités entre :
• documents
• groupes de documents
Interactions Navigation sur les cartes Visualisation interactive d’informations sur les cartes Passage interactif d’un niveau de granularité à un autre
• collection complète groupe … document
• document groupe … collection complète
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 11
Quels résultats ?
Carte des documents en 2D
Carte des groupes de documents en 2D
Cartes des documents et des groupes en 3D
Carte animée en 2D mettant en évidence la dimension temporelle de la
collection
tps : t tps : t+1
Cadre de travail et propositions
Carte des documents en 2DCarte des groupes de documents en 2DCartes des documents et des groupes en 3DCarte animée en 2D mettant en évidence la dimension
temporelle de la collection
tps : t tps : t+1
Thibault ROY – Université de Caen – Laboratoire GREYC 12
Quelles données ? Modélisation du contexte
Représentation des domaines pertinents pour l’utilisateur dans le cadre de sa tâche
Deux représentations : « Bags of Words »
• Santé : médecin, soigner, aspirine, hôpital, etc.• Guerre : combattre, bombe, capituler, soldat, etc.
Modèle LUCIA (Perlerin, 2004)• Catégorisation lexicale plus fine• Description sémique différentielle (Beust, 1998)
Dans tout les cas : c’est l’utilisateur (ou le groupe d’utilisateurs) qui construit les ressources Avec son propre vocabulaire Selon les domaines de son intérêt
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 13
Exemple de table dans le domaine de la santé
Modèle différentiel du sème (Beust, 98) Attribut : « Type de pathologie » Valeurs d’attribut opposées :
• Maladie, infection vs. Conséquence d’infection vs. Trouble psychologique vs. Trouble physique
Cadre de travail et propositions
Modèle Lucia
Thibault ROY – Université de Caen – Laboratoire GREYC 14
Quelles données ? Modélisation de l’intertexte
Corpus de textes (Pincemin, 1999) Articles journalistiques et scientifiques
Collections de pages Web Obtenues à l’aide de moteur de recherche
Flux documentaires Forums de discussion et courriers électroniques
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 15
Quelles analyses ?
Travail au niveau du co-texte : Comptage des mots de ressources lexicales
• Mise en évidence des isotopies intra-textuelles Représentation vectorielle de chaque texte Projection et catégorisation des vecteurs
Travail au niveau de l’intertexte : Détermination des isotopies inter-textuelles Rapports d’analyse des groupes et des textes
• Utilisation des isotopies inter-textuelles pour positionner le groupe ou le texte par rapport à son intertexte
Prise en considération de la dimension temporelle en « localisant » les analyses sur une période donnée
Analyses mises en œuvre avec la plate-forme logicielle ProxiDocs…
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 16
Plate-forme ProxiDocs (1 / 2)
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 17
Plate-forme ProxiDocs (2 / 2)
Cartographie et catégorisation de corpus de textes
Interactive et centrée utilisateur
Traitements statistiques :
ACP, CHA, KMeans, etc.
Java, SVG, Open-source, http://www.info.unicaen.fr/~troy/proxidocs
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 18
Entrées de la plate-forme ProxiDocs
Ensembles de documents électroniques textuels (format texte, HTML)
Ressources lexicales (format XML) de 2 types : Simple : 1 ensemble de mots 1 domaine Avancé : 1 dispositif Lucia 1 domaine Aides logicielles à la constitution des ressources :
• MemLabor (Perlerin, 2002)• ThemeEditor (Beust, 2002)• LuciaBuilder (Perlerin, 2004)• Etc.
Cadre de travail et propositions
Thibault ROY – Université de Caen – Laboratoire GREYC 19
Plan de la présentation
1. Cadre de travail et propositions1. Fondements et hypothèses
2. Moyens logiciels mis en œuvre
2. Analyses réalisées1. Gestion Électronique de Documents
2. Analyse d’expressions métaphoriques
3. Perspectives de recherche
Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC 20
Différentes expérimentations
Besoin d’experts et de tâches précises Mise en place d’un méta-moteur de recherche
cartographique basé sur la plate-forme ProxiDocs Projet IsoMeta : étude en corpus d’expressions
métaphoriques Projet CISMeF : recherche d’informations dans des
documents médicaux Groupe de travail sur les forums de discussion
Expérimentations toutes en cours !!!
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 21
Méta-moteur de recherche cartographique (1 / 4)
Objectifs : Avoir un regard global sur le contenu des « principales »
pages Web traitant de la Constitution Européenne
Contexte : 12 domaines généraux choisis (approche « bags of words ») :
• justice, violence, éducation, sécurité routière, agriculture, économie, informatique, etc.
Taille moyenne des domaines : 40 lexies
Expérience : Requête : « constitution européenne » sur Yahoo 100 pages provenant de sites francophones Cartographie avec ACP et catégorisation CHA en 8
groupes
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 22
Méta-moteur de recherche cartographique (2 / 4)
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 23
Pages Web décrivant des enseignements universitaires en économie et en sciences politiques
4 – Éducation
Pages Web contenant des discussions sur la problématique du transport routier en Europe
3 – Circulation
Pages Web traitant des enjeux économiques de la constitution2 – Économie
Pages Web proposant des versions électroniques de la constitution ainsi que des outils informatiques de consultations
1 – Informatique
Commentaires sur les pages Web contenus dans le groupe
Numéro du groupe – domaine majoritaire
Méta-moteur de recherche cartographique (3 / 4)
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 24
Méta-moteur de recherche cartographique (4 / 4)
Analyses réalisées
Cartographie utile pour : Visualiser la répartition des domaines sur l’ensemble
documentaire Accéder plus facilement au contenu
Première mise en évidence des isotopies inter-textuelles : Ressources utilisées :
• Informatique : logiciel, web, etc. logiciel : /informatique/, web : /informatique/, etc.
Principales isotopies intertextuelles obtenues dans l’expérience :
• Informatique, Économie, etc.
Utilisation du lien : local global, mais pas vraiment du lien global local…
Thibault ROY – Université de Caen – Laboratoire GREYC 25
Projet IsoMeta (1 / 6)
Étude simultanée de trois métaphores conceptuelles dans un corpus de 600 articles boursiers du Monde entre 1987 et 1989 : La « météorologie boursière » La « santé financière » La « guerre économique »
Bourse,Économie,Finances,Politique,
Etc.Météo
Santé
Guerre
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 26
Projet IsoMeta (2 / 6)
Cartographie de corpus à partir des trois domaines sources : météo, santé, guerre
Représentation des domaines par des dispositifs Lucia Construction des dispositifs par une étude lexicale
du corpus (dispositif guerre : ~60 lexies, dispositifs météo et santé : ~110 lexies)
Filtrage des documents contenant au moins 2 occurrences de lexies des domaines : 303 documents restants
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 27
Analyses réalisées
Projet IsoMeta (3 / 6)Emplois non métaphoriques : « Pour se déplacer (..), des officiers de la guérilla utilisent les motos récupérées pendant les attaques. »
Emplois figés : « Selon le SNUI, qui rappelle que le conflit des impôts dure depuis sept mois, (…) »
Emplois figés : « En neuf mois, six firmes sur les trente-trois OPA ont été l'objet de véritables batailles boursières. »
Emplois variés : « (…) après avoir contaminé New York et Londres, la fièvre des OPA s'est mise (…) à ronger la Bourse. » 08/02/1988
Emplois variés : « Porteur du terrible virus de la défiance, il se propage à la vitesse de l'éclair et les tentatives désespérées de réanimation (…) sont inopérantes. »
Emplois variés : « Un petit vent frisquet a soufflé, ces derniers jours rue Vivienne, qui (…) s'est soudain éclipsé à la dernière minute pour laisser la place à une brise nettement plus chaude. »
Emploisnon métaphoriques
Emploismétaphoriques
figés
Emploismétaphoriques
variés
Thibault ROY – Université de Caen – Laboratoire GREYC 28
Analyses réalisées
Projet IsoMeta (4 / 6)
Thibault ROY – Université de Caen – Laboratoire GREYC 29
Projet IsoMeta (5 / 6)
Analyses précédentes réalisées à l’aide des différents rapports de groupes et de textes Intra et inter-isotopies mises en évidence dans les
rapports de groupe Réflexions en cours sur le classement de ces isotopies :
• Singulariser le local (texte ou groupe) à l’aide de son global (resp. groupe ou corpus)
Groupe Corpus
1. Violence – 10 1. Violence – 10
2. Pathologie – 9 2. Pathologie – 5
… …
Analyses réalisées
……
2. Pathologie – 52. Violence – 0 (10-10)
1. Violence – 101. Pathologie – 4 (9-5)
CorpusGroupe
Pondération des isotopies à l’aide du global
Thibault ROY – Université de Caen – Laboratoire GREYC 30
Projet IsoMeta (6 / 6)
Bilan Intérêt de vues globales
• Mise en évidence de proximités entre articles• Regroupement de textes en sous-ensembles
Influence du temps
Perspectives Aller plus finement vers une caractérisation des
isotopies dans le cadre de l’étude des trois métaphores
Analyses réalisées
Thibault ROY – Université de Caen – Laboratoire GREYC 31
Plan de la présentation
1. Cadre de travail et propositions1. Fondements et hypothèses
2. Moyens logiciels mis en œuvre
2. Analyses réalisées1. Gestion Électronique de Documents
2. Analyse d’expressions métaphoriques
3. Perspectives de recherche
Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC 32
Premier bilan
Intérêt de prendre en considération la globalité d’un ensemble documentaire pour : des tâches d’accès au contenu de collections une étude en corpus d’expressions
métaphoriques
Intérêt de prendre en considération les domaines pertinents du point de vue de l’utilisateur
Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC 33
Réflexions théoriques
Projection pertinente du global sur le local Mise en œuvre de différentes pondérations des
isotopies intra et inter-textuelles selon le contexte
Mise en œuvre d’une évaluation de la plate-forme ProxiDocs Protocole Échantillon représentatif d’utilisateurs
Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC 34
Évaluation
• Évaluation des ressources :• Le modèle structurel des ressources est-il clair ?• L'aide à la construction des ressources est-elle suffisante ?• Le temps nécessaire à la construction des ressources est-il raisonnable ?• Les ressources sont-elles susceptibles d'évoluer facilement ?• Les ressources personnelles sont-elles a priori facilement partageables ?• Aucune compétence particulière est-elle nécessaire pour la construction
des ressources ?
• Évaluation de la plate-forme :• Le but applicatif vous semble-t-il clair ?• La prise en main est-elle facile ?• Est-ce que l'outil donne un retour intéressant sur les ressources ?• Les résultats du logiciel sont-ils facilement exploitables ?• Est-ce que l'outil est agréable à utiliser ?• Les traitements sont-ils adaptés à la tâche ?• Est-ce que l'outils permet d'envisager d'autres applications ?• L'outil permet-il plus facilement un travail à plusieurs sur la tâche ?• Est-ce que l'outil peut changer la façon d'accomplir la tâche ?
Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC 35
Développement
Besoin de nouvelles possibilités d’interactions et de visualisation : Ajout, suppression, déplacement dynamique d’un
document ou d’un groupe de documents Aller plus loin dans la prise en considération de la
dimension temporelle des documents (déplacements de documents selon l’axe du temps)
Développer des supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé
Perspectives de recherche
Thibault ROY – Université de Caen – Laboratoire GREYC 36
Merci de votre attention
Pour plus d’information :
http://www.info.unicaen.fr/~troy
Analyses cartographiques personnalisées de collections de documents électroniques
Thibault ROY – Université de Caen – Laboratoire GREYC 37
Thibault ROY – Université de Caen – Laboratoire GREYC 38
Thibault ROY – Université de Caen – Laboratoire GREYC 39
Métaphores conceptuelles « Météo Boursière »
« Une véritable tempête de hausses, alimentée par une marée de capitaux, étrangers pour partie, en quête de placement. » Le Monde 03/08/87
« L'excédent de mars n'aura été qu'une embellie, et le sombre tableau brossé par le premier ministre, (…) » Le Monde 06/06/88
« Rafraîchie durant les quinze derniers jours, la température est très largement remontée cette semaine rue Vivienne, avant de redescendre un peu à la veille du week-end. » Le Monde 28/11/88
Thibault ROY – Université de Caen – Laboratoire GREYC 40
Métaphores conceptuelles «Guerre Économique»
« (…) après avoir opposé une assez vive résistance à la baisse avec des replis limités à 1,47% lundi, (…), elle s'est progressivement mise en devoir de regagner le terrain perdu » Le Monde 06/04/87
« Le dénouement dans la bataille autour de la première banque commerciale privée du pays a eu peu d'effet sur les cours. » Le Monde 27/02/89
« La firme du groupe de la Caisse des dépôts développements pourrait dans les jours prochains lancer une contre-offensive. » Le Monde 11/07/88
Thibault ROY – Université de Caen – Laboratoire GREYC 41
Métaphores conceptuelles « Santé Financière »
« Le syndrome du 15 août ? Comme tous les ans la Bourse de Paris n'a pas échappé à cet indéfinissable malaise (…) » Le Monde 17/08/87
« Une bonne partie du malaise ressenti sous la verrière était due à l'état de santé déplorable du marché obligataire, (…) » Le Monde 17/08/87
« La pente fut longue à remonter, et il fallut bien douze mois pour panser les plaies du sinistre et à commencer à croire à de nouveaux records d'altitude pour le CAC. » Le Monde 01/08/89
Thibault ROY – Université de Caen – Laboratoire GREYC 42
Thibault ROY – Université de Caen – Laboratoire GREYC 43
La GED
Domaine dynamique, ancré dans une certaine tradition logico grammaticale
Accent mis aujourd’hui sur les techniques de visualisation et les interactions
Les principales limites : Indexation et consultation des collections très souvent à
l’aide de termes termes-clés Visualisations complexes et traitements peu
« transparents » Et surtout, peu de prise en compte des utilisateurs et du
contexte global
Thibault ROY – Université de Caen – Laboratoire GREYC 44
Quelques outils de GED
Lecture rapide d’ensembles documentaires Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC 45
Cone Tree (Robertson et al., 1991)
Thibault ROY – Université de Caen – Laboratoire GREYC 46
3D XV (Jacquemin et Jardino, 2002)
Thibault ROY – Université de Caen – Laboratoire GREYC 47
Lexica (Société Le Sphinx)
Thibault ROY – Université de Caen – Laboratoire GREYC 48
Quelques outils de GED
Lecture rapide d’ensembles documentaires Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC 49
Google (http://www.google.com)
Thibault ROY – Université de Caen – Laboratoire GREYC 50
KartOO (Chung et al., 2001)
Thibault ROY – Université de Caen – Laboratoire GREYC 51
Le Nébuloscope (Veronis, http://aixtal.blogspot.com/)
Thibault ROY – Université de Caen – Laboratoire GREYC 52
Quelques outils de GED
GED en général Recherche d’information sur le Web Veille documentaire
Thibault ROY – Université de Caen – Laboratoire GREYC 53
Yahoo! News (http://fr.news.yahoo.com/)
Thibault ROY – Université de Caen – Laboratoire GREYC 54
NewsMap (http://marumushi.com/)
Thibault ROY – Université de Caen – Laboratoire GREYC 55
Big Picture (http://news.com.com/)
Thibault ROY – Université de Caen – Laboratoire GREYC 56
Méta-moteur de recherche : interface
Configuration de la collecte
Thibault ROY – Université de Caen – Laboratoire GREYC 57
Méta-moteur de recherche : fonctionnement
Parcours en parallèle des pages
Thibault ROY – Université de Caen – Laboratoire GREYC 58
Pour chaque document du corpus, déterminer le nombre de mots de chaque domaine qu’il contient.
Document 1 : « Le ministère des finances a désigné la liste des banques conseils du gouvernement pour le retour au secteur privé de la BIMP et de la banque du BTP. »
Première étape : Comptage des mots
………Document n
…
…
232Document 1
PolitiqueEconomieTravailMatrice absolue :
Thibault ROY – Université de Caen – Laboratoire GREYC 59
Deuxième étape : Projection
Travail Economie Politique
Doc 1 2 3 2
Doc 2 1 0 3
…
Doc n 0 2 4
-1.12.3Doc n
…
1.30.5Doc 2
-11.5Doc 1
OrdonnéeAbscisse
Coordonnées des documents dans
l’espace à 2-dimensions
Thibault ROY – Université de Caen – Laboratoire GREYC 60
Deuxième étape : Projection
ProxiDocs nous permet de comparer plusieurs méthodes : L’analyse en composantes principales (ACP) ; La méthode de Sammon ; L’analyse factorielle des correspondances (AFC) ; Et d’autres méthodes que nous avons conçues en se
basant sur des principes simples.
Thibault ROY – Université de Caen – Laboratoire GREYC 61
Troisième étape : Catégorisation
-1.12.3Doc n
…
1.30.5Doc 2
-11.5Doc 1
OrdonnéeAbscisse
Application de la Catégorisation Hiérarchique
AscendanteLe nombre de
groupes de documents à
construire choisi par l’utilisateur ou
déterminer automatiquement
Thibault ROY – Université de Caen – Laboratoire GREYC 62
Quatrième étape : Construction de la carte
-1.12.3Doc n
…
1.30.5Doc 2
-11.5Doc 1
OrdonnéeAbscisse Fichiers SVG contenant les cartes
Thibault ROY – Université de Caen – Laboratoire GREYC 63
1 dispositif 1 ensemble de tables liées entre elles
Cadre de travail et propositions
Modèle Lucia