collaboratoires & shs lyon ens
DESCRIPTION
TRANSCRIPT
Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon 1
Principes de caractérisation des collaboratoires en SHS et apport du web socio-sémantique
Manuel Zacklad(et équipe web socio-sémantique
J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune)
Université de Technologie de Troyes
Equipe Tech-CICO (Technologie de la Coopération pour l’Innovation et le Changement Organisationnel)
UTT ICD/Tech-CICO - FRE CNRS 2848
Disciplines sollicitées par les collaboratoires
• La gestion des collaboratoires en SHS (projet Adonis?) implique de croiser plusieurs perspectives disciplinaires:– Linguistique de corpus (importance des corpus abordés
dans une perspective élargie)– Sciences de l’information et de la communication (gestion
et diffusion des documents) – CSCW (Computer Supported Cooperative Work)– Ingénierie des Connaissances (approche technique et
épistémologique des SOC)– Sociologie des sciences et épistémologie
• Atout de l’équipe Tech-CICO dans cette perspective pluridisciplinaire
Objectif de l’exposé
• Proposer une description « originale » des collaboratoires en SHS
• Introduire la vision du web socio-sémantique et HyperTopic qui permet l’association de plusieurs logiciels open source
• On parlera d’avantage des collaboratoires que du web socio-sémantique -> pour une autre fois ;-)
• Dimension méthodologique et programmatique
Projets de Tech-CICO sur les collaboratoires• Initiateur de l’approche web socio-sémantique et
recherche ouverte d’information • Initiateur de la méta-sémiotique (langage de représentation
des connaissances) et du protocole HyperTopic permettant l’intégration de plusieurs serveurs et client (avec application dans des disciplines SHS) :– Agorae : gestion participative et multipoint de vue de ressources
documentaires (Cahier, Zaher) : recherche en sociologie des sciences
– Porphyry : gestion multipoints de vue d’images (Bénel -anciennement projet dirigé par A. Iacovella) : recherche en archéologie
– En lien avec liège : Cassandre - gestion de corpus textuels (C. Lejeune): recherche en sociologie
• Thèse sur une méthodologie transdisciplinaire de gestion de corpus dans les disciplines de l’interaction (Atifi, Ninova)
Les collaboratoires des sciences expérimentales aux SHS
Origine des collaboratoires
• Origine dans le domaine des sciences de la nature et de la vie pour la mutualisation des données issues d’équipements lourds : – consécutive à la généralisation de l’informatisation de ces
équipements,– et à la généralisation de leur mise en réseau via internet
• Objectif initial : partage des équipements et des données qu’ils produisent avec d’autres chercheurs « distants » (collaboratory = collaborative laboratory)
• Elargissement à la problématique du travail coopératif entre les chercheurs à partir de ces données -> CSCW (Computer Supported Cooperative Work)
Collaboratoires en SHS : numérisation des archives, des bibliothèques, des productions
intermédiaires de la recherche
• Les équipements lourds des SHS sont les archives et les bibliothèques
• Leur numérisation massive et la diffusion d’internet offre les mêmes opportunités que celles qui avaient été offertes aux sciences dures
• Ces opportunités sont encore renforcées par les facilités de circulation et de partage des documents en cours d’élaboration (résultats intermédiaire, rapport, pré-diffusion…) : – Problématique des documents pour l’action, des archives
ouvertes, du rôle des bibliothèques dans la gestion des archives courantes et intermédiaires des chercheurs
Trois hypothèses de travail
Première hypothèse de travail : mutation méthodologique et épistémologique
• La généralisation des collaboratoires en SHS induit une mutation plus profonde que dans les sciences de la vie et de la nature– Le travail coopératif et la mise en commun des
sources était une pratique courante
• Dans les SHS, la généralisation des collaboratoiresest susceptible produire une renouvellement profond des méthodes de travail et à terme des fondements épistémologiques de plusieurs disciplines
• Hypothèse semble-t-il partagée avec Adonis (?)
Justification
• Les difficultés de recueil et de partage des corpus en SHS explique le biais quantitatif de plusieurs disciplines (préférence pour les « données »)– la numérisation est susceptible d’y remédier largement
• Quand les méthodes qualitatives sont mises en œuvre elles souffrent de plusieurs faiblesses notamment en terme de partage des sources et d’objectivation des méthodes de « codage » dans le cadre du processus d’interprétation– la numérisation est également susceptible de contribuer à
pallier à ce défaut
Deuxième hypothèse de travail : nécessité d’élargir les acceptions du « corpus »
• La problématique des collaboratoires en SHS excède les questions posées par la linguistique de corpus tout en repositionnant la linguistique comme une discipline pivot à plusieurs titres
• Les acceptions du corpus doivent être plus large et inclure également des problématiques associées aux environnement documentaires facilitant la génération de nouvelles productions sémiotiques (atelier d’écriture)
Troisième hypothèse de travail : importance des approches relevant du web
socio-sémantique
• La conception des collaboratoires implique elle-même des méthodes et une méthode et une épistémologie renouvelé de la gestion de l’information qui combine les apports de la recherche d’information et des systèmes d’organisation des connaissances formels et heuristiques
• Importance des recherches conduites dans le champ du web socio-sémantique et des modèles et outils « Hypertopic »
Définitions du corpus
A propos des définitions
• « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue » (Habert 2000). »
• « Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. » (Rastier 2002)
Préférence pour l’approche documentaire renouvellée
• Aux « données langagières » et aux « textes » nous préférons la référence au document
• Renouvellement des réflexions sur le document :– Le document définit comme une production sémiotique inscrite
dans un projet transactionnel délibéré (cf. le discours), enregistrée ou retranscrite sur un support pérenne et explicitement « documentarisé » par ses créateurs ou ses utilisateurs
– Elargissement de la notion de corpus à d’autres modalités d’expression (image, film, enregistrement audio…)
– Le document implique la prise en considération des supports des « production sémiotique » qui les véhiculent et qui déterminent les conditions de leur création et de leur réception (approche suivie dans le système « Prospero » -Chateauraynaud)
Définition d’un corpus documentaire
• Un corpus documentaire est une archive structurée de documents sélectionnés et/ou produits de manière systématique(1) pour permettre le déroulement d’une enquête(2).
• La pertinence du corpus est virtuelle (corpus virtuel) tant que la justification de la sélection n’aura pas été produite par une analyse comparative explicitant les formes d’association entre les documents et les fragments documentaires rassemblés. Cette explicitation, produisant le corpus effectif, est réalisée à partir de systèmes d’organisation des connaissances (permettant l’annotation ou l’étiquetage).
• En toute rigueur le corpus doit être conçu comme une collection documentaire mouvante soumise à un processus d’articulation progressif justifiant l’appartenance des documents à la collection.
(1) Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre)(2) Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique
Caractérisation des corpus et des fonctionnalités des collaboratoires
Différentes dimensions pour la caractérisation des corpus
• La classification des corpus permet la définition des fonctionnalités des collaboratoires– Statut des corpus selon les disciplines
– Approche du corpus selon la mise en œuvre de la recherche : primaire, secondaire, tertiaire
– Approche du corpus par affinage successif : potentiel/effectif , virtuel/attesté, global/de travail
– Caractérisation des corpus primaires selon les méthodes de constitution
– Approche des collaboratoires (et de l’articulation entre les corpus) selon les formes de coopération (mono-acteur, coopération active, coopération passive)
Rappel sur les opérations de base portant sur un corpus
documentaire
Constitution et exploitation d’un corpus documentaire dans un contexte de
collaboratoire
• Recherche / production des documents pertinents
• Stockage / organisation de l’accès
• Organisation / classement / indexation
• Lecture / analyse / codage / annotation
• Synthèse / mise en forme / rédaction des analyses
• Diffusion / partage
Exemple dans le cadre d’une enquête sociologique (corpus primaire)
• Recherche / production des documents pertinents : réalisation d’entretiens semi-directifs par enregistrement et retranscription
• Stockage / organisation de l’accès : stockage dans un répertoire ou dans une base de donnée documentaire
• Organisation / classement / indexation [articulation externe] : utilisation de différents critères permettant de classer les document (caractéristiques des personnes interviewés, contexte, faits marquants…)
• Lecture / analyse / codage / annotation [articulation interne] : lecture des entretiens, éventuellement utilisation d’un outil d’aide au repérage automatique de certaines régularités (cf. Cassandre) et indexation selon des catégories pertinentes, codage interprétatif (manuel) des expressions, ajouts d’annotations…
• Synthèse / mise en forme / rédaction des analyses [articulation externe/interne] : extraction semi-automatique des extraits codés et comparaisons selon les critère d’articulation interne, rédaction des analyses…
• Diffusion / partage : partage avec d’autres analystes des documents primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans d’autres institutions, etc.
Approche des corpus selon les disciplines
Caractérisation des corpus dans les disciplines de l’interaction(Atifi, Lejeune, Ninova, Zacklad)
• Trois exemples : sociologie qualitative, psychologie ergonomique linguistique interactionnelle
• Disciplines qui constituent souvent des corpus « ad hoc » par entretien, questionnaire, observation… (cf. infra)
• Différences en termes de modalités d’enregistrement et de retranscription
• Différence en termes de représentativité des échantillons constitués
• Différence en termes de modalité de découpage des morphèmes ou des ennoncés pertinent
• Importance variable du « saut interprétatif » dans les opérations de codage
• Etc.
La gestion des corpus ne concerne pas uniquement la linguistique de corpus
• …mais celle-ci dispose d’un statut instrumental privilégié eu égard aux autres disciplines :
– Toutes les SHS en tant qu’elle participent des sciences de la culture impliquent la gestion d’un « corpus primaire » qui peut être constitué de différentes manières
– L’analyse des régularités à l’intérieur du corpus par le processus de codage revient à une identification de genres
– Ces genres correspondent bien aux normes (Rastier) gouvernant la production des « œuvres » réalisées par les acteurs ou gouvernant les situations d’interaction
• Le champ de notre réflexion sur les collaboratoires ne couvre pas que les disciplines de l’interaction : histoire, littérature, archéologie…
Vision du corpus selon les étapes de mise en œuvre
Trois types de corpus selon la mise en œuvre
• Les corpus primaires sont ceux qui constituent la base « empirique » de la recherche et à partir desquels seront élaborées les conclusions de l’enquête
• Les corpus secondaires sont constitués par des documents qui contribuent à l’étude des sources primaires : documents produits à l’issue d’autres enquêtes similaires, ouvrages méthodologiques, plan de codage. • Etat de l’art• Document méthodologiques • Outils de traitement logiciel
• Les corpus tertiaires sont constitués par les productions originales de l’enquête, dans un état intermédiaire ou final
Corpus Primaire Corpus Tertiaire
Corpus Secondaire
Analyse différentielle interne Analyse différentielle interne
Analyse différentielle interne
Mise en relation externe
Vision du corpus par affinage
Affinage progressif du corpus selon Rastier (2002)
– « 1/ L’archive contient l’ensemble des documents accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas constituée pour une recherche déterminée.
– 2/ Le corpus de référence est constitué par ensemble de textes sur lequel on va contraster les corpus d’étude.
– 3/ Le corpus d’étude est délimité par les besoins de l’application.
– 4/ Enfin le sous-corpus de travail en cours varie selon les phases de l’étude et peut ne contenir que des passages pertinents du texte ou des textes étudiés »
– [Pour certaines applications informatiques, il faut encore distinguer, au cours de leur développement, le corpus d’apprentissage, le corpus de test, le corpus de validation]
Selon notre approche : trois axes d’affinage
• L’axe qui va du potentiel à l’effectif par sélection/génération des documents pertinents: corpus potentiel/corpus effectif
• L’axe qui va du global au local par sélection de certains documents dans un ensemble ou de certains extraits d’un document par le document global : corpus global/corpus de travail
• L’axe qui va du virtuel à l’explicite, en explicitant les catégories de mise en relation et en justifiant la cohérence du corpus : corpus virtuel/corpus attesté (articulé, explicité)
Corpus potentiel (et virtuel)
Corpus effectif global & virtuel (on ne sait pas encore s’il permettra
d’éprouver les hypothèses de l’enquête)
Corpus de travail (virtuel)
Corpus global attesté (articulation des fragments documentaires et des documents à l’aide d’un SOC servant à l’annotation et l’étiquetage et permettant
de tirer des conclusions)
Corpus de travail
(attesté)
Corpus de travail (virtuel)
Corpus de travail (virtuel)
Corpus de travail
(attesté)
Corpus de travail
(attesté)
Caractérisation des corpus primaires selon les méthodes de
constitution
Rappel sur la notion d’archive en sciences de l’information
• Archive d’un organisme : courante, intermédiaire, définitive
• Le corpus est une archive documentaire constituée par le chercheur à fin d’enquête – Le corpus passe lui-même par ces différentes étapes selon
la progression de la recherche (courante, intermédiaire, définitive)
• Les corpus primaires peuvent être :– Constituées par des documents produits par les
organismes ou acteurs enquêtés eux-mêmes « archive vernaculaire » à caractère public ou privé
– Constituée par des documents faisant l’objet d’une création répondant besoin de l’enquête : archive constituée par des document ad hoc ou « archive ad hoc »
Constitution des corpus primaires à partir d’archives vernaculaires
Archive définitive Archive intermédiaire Archive courante
Accèspublic
Bibliothèque et fond d’archive papier,archive web
Recueil de documents administratifs, prélèvement sur des sites web d’archive intermédiaire, forum archivés, etc.
Prélèvement par échantillonnage des documents produits sous forme papier ou numérique par les organismes et acteurs notamment sur le web
Accès privé Fond d’archive privé Recueil de fonds d’archive au sein d’entreprises ou chez des particuliers (intranets, collections privées…)
Prélèvement par échantillonnage des documents produits par les entreprises et particuliers
Constitution des corpus primaires à partir d’archives ad hoc
• On peut établir une distinction :
– Selon le caractère plus ou moins libre ou contraint des productions sémiotiques (qualitatifs vs quantitatif)
– Selon le mode de constitution plus ou moins « participatif » des productions sémiotiques (langagière, filmique…)
Enregistrementavec interaction verbale directe du chercheur avec les sujets
Enregistrement en « situation naturelle »sans interaction verbale provoquée avec le chercheur (ou avec peu d’interaction verbale)
Enregistrement du comportement à partir de situations provoquées par le chercheur mais sans interaction verbale avec lui (ou peu)
Productions sémiotique libres (qualitatives )
Entretien semi ou non directif, observation participantes
Méthodesethnographiques non participantes (à partir de situations naturelles)
Psychologie sociale expérimentale
Production sémiotique contraintes (données)
Questionnaires Enregistrement partiel d’indice comportementaux (à partir de situations naturelles)
Expérience de type psychophysique
Caractéristiques de l’accès au corpus selon les formes de coopération
Formes de coopération
• Le chercheur dans des phases de travail individuelles
• Coopération active : un collectif de chercheurs appartenant à un même projet dans le cadre d’une division du travail organisée
• Coopération passive : un collectif de chercheurs n’appartenant pas au même projet mais mettant à disposition des ressources au bénéfice de la communauté.
Approche mono-acteur
Approche multi-acteurs et coordination active
Approche multi-acteurs& coopération passive
Articulation intra-documentaire
Un acteur engagé dans le ttmt d’un document
Plusieurs acteurs travaillant sur le même document dans le cadre d’un projet
Plusieurs acteurs mettant à disposition sur le web un document partiellement travaillé
Articulation inter-documentairehomogène
Un acteur engagé dans le ttmt comparatif de plusieurs documents du même type de corpus (p.e. primaire)
Plusieurs acteurs engagés dans le ttmtcomparatif de plusieurs document du même type de corpus dans le cadre d’un projet
Plusieurs acteurs mettant à disposition sur le web des documents appartenant à un corpus
Articulation inter-documentaire hétérogène
Un acteur engagé dans le ttmt de documents appartenant à plusieurs types de corpus
Plusieurs acteurs mettant en relation des documents appartenant à plusieurs types de corpus dans le cadre d’un projet
Plusieurs acteurs mettant à disposition sur le web des documents appartenant à plusieurs types de corpus
Exemple des problématiques posées par la mise en relation des différents
types de corpus
Exemple de l’articulation d’un corpus primaire et secondaire
• Les frontières du corpus primaire peuvent évoluer au cours de la recherche : cette évolution peut entrainer un élargissement du corpus secondaire (référence bibliographique associées, autres monographies…)
• Inversement les associations réalisées à l’intérieur du corpus secondaire peuvent elles-mêmes influencer la définition des contours du corpus primaire : recherche de sources nouvelles
Evolutions des corpus primaires et secondaires
Ensemble fermé de documents secondaires
Ensemble ouvert de documents secondaires
Ensemble fermé de documents primaires
Base fixe (stade final de la recherche)
Le traitement des documents primaires suscite la recherche de nouveaux documents secondaires (formulation de nouvelles hypothèses)
Ensemble ouvert de documents primaires
L’exploitation des documents secondaires suscite la recherche de nouveaux documents primaires (recherche de nouveaux observables)
Coévolution du corpus primaire et du corpus secondaire (coévolution des hypothèses et des observables)
Quelles technologies documentaires et informationnelles pour les
collaboratoires ?
Différentes approches du sens renvoyant à différentes technologies
• Les différents types de traitement requis dans le cadre de l’usage des collaboratoires impliquent le recours à différents types de technologies informatique
• Ces technologies reposent elles-mêmes sur des Systèmes d’Organisation des Connaissances qui permettent de réaliser des associations entre des fragments documentaires et des documents d’un ou plusieurs corpus
• Ces associations sont rendues possibles par des opérations de description préalable plus ou moins systématiques des documents et de leur fragments qui se réalise de manière différente selon qu’il s’agit d’un texte, d’une image, d’un son, d’un film
Diversité des formes d’expression documentaires
• Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y. Prié), textes -> un très grand nombre de chercheurs dans les domaines de l’ingénierie des connaissances, de la linguistique de corpus et de la recherche d’information (Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet, Chateauraynaud, Lejeune… etc.)
• Dans le cadre d’un texte le codage automatique peut porter sur chaque morphème (terme ou mot) !
• Mais même dans le cas d’un texte, le découpage de la séquence de caractères pertinents et son étiquetage relève d’une opération de description exogène basée sur une théorie linguistique plus ou moins explicite.
A
B
C
A
Etiquetage ou
annotation
automatique, semi-
automatique ou
manuelle d’un
document
Processus d’étiquetage et d’annotation des fragments documentaires
C
X1 Y2Etiquette ou annotation
concernant l’ensemble
du document
Etiquette ou annotation
concernant des
fragments du
document
C
A
A
B
B
B
B
A
C
C
C
A
Association
intradocumentaire
Association
interdocumentaire
Première Indexation du document basée sur des
fragments - SOC élémentaire = une liste de
descripteurs de bas niveau ancrée dans une zone du
document = termes, suite de caractères,
M
P
S
SOC élaboré = organisation des termes
élémentaire dans des réseaux de « concept
formels (ontologie), concepts
sémiotiques (ontologie sémiotique), descripteurs
(thésaurus)…
Un cadre pluri-sémantique pour les collaboratoires : l’approche du web
socio-sémantique
Informations diverses sur le Web socio sémantique (W2S)
• Origine au sein de l’Ingénierie des Connaissances mais ouverture vers les sciences de l’information et de la communication et les sciences du langage
• Issu de Tech-CICO mais en cours de diffusion dans d’autres équipes ;-) (contact pris avec les communauté « pragmatic web » et « topic map »)
• A la fois un cadre conceptuel et méthodologique et des outils opérationnels : méta-sémiotique et protocole Hypertopic et plusieurs logiciels open source
• Contributeurs principaux : • Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel
Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)
Web socio-sémantique : une vision du web
• Le web socio-sémantique (W2S) est un système documentaire ouvert facilitant des transactions coopératives interpersonnelles éventuellement très asynchrones et distribuées entre des acteurs individuels et collectifs engagés dans des échanges, débats, controverses, relevant de domaines très variés.
• Deux conséquences pour l’instrumentation du W2S : • Les modalités et les outils de gestion des documents
doivent être pour partie conçus par les acteurs eux-mêmes selon leur processus de coopération.
• Il est nécessaire de combiner plusieurs paradigmes d’accès à l’information complémentaires.
Web socio-sémantique et Recherche Ouverte d’Information
• Cette multiplicité des modes d’accès est elle-même associée à une vision originale de la recherche d’information « la recherche ouverte d’information » [information seeking vs information retrieval cf. L’hédi Zaher]
• La RI est en fait de la « récupération d’information » la ROI, qui inclut l’usage de la RI, correspond effectivement à l’assistance à la de la « recherche »
Trois paradigmes d’accès à l’information selon le web socio-sémantique
• Paradigme de la requête basée sur des attributs standardisés– monde clos en partie analogue au monde réel, sémantique
référentielle, schéma de base de donnée relationnelle ou objet, ontologies formelles
• Paradigme de la navigation heuristique en utilisant des attributs heuristiques (thèmes)– cartes de thèmes , sémantique rhétorico/herméneutique, réseau
sémantique, ontologie sémiotique, hypertextes, premiers systèmes experts
• Paradigme de la fouille dans des ressources documentaires– moteurs de recherche, la sémantique dépend elle-même de la nature
du document.
– Mais le moteur peut utiliser lui-même deux types de sémantiques :
• référentielle sur des expressions dans la recherche de séquences,
• probabiliste (utilisation de la théorie de l’information)
Requêtes (web sémantique, bases
de données…) –sémantique formelle ou
référentielle
Navigation (hypertexte, web socio
sémantique…) –sémantique rhétorico-
herméneutique
Fouille (recherche de séquences, TAL,
recherche statistiques…) -
sémantique variable
Recherche Ouverte d’Information
Les trois paradigmes du W2S
Requête (attribut standard)
NomAge
Adresse
Navigation (attributs
heuristiques) : Goût
OpinionCompétence
Fouille (document) Photo
CV
Exemple de la recherche d’une personne
Le web Socio Sémantique : donne une place aux techniques relevant du paradigme de la
navigation
• Les systèmes d’organisation des connaissances évolutifs requièrent une sémantique différente de la sémantique référentielle -> pas exclusivement des ontologies formelles ni de la fouille et ouverture vers d’autres SOC
• Accent mis d’avantage dans nos travaux sur le « web visible » que sur le « web invisible » (les bases de données)
Les systèmes d’organisation des connaissances qui relèvent du paradigme de
la navigation heuristique • Classification documentaires, thésaurus,
ontologies sémiotiques… (structure hypertexte, annuaire internet, index…) construites par des gestionnaires de sites, des documentalistes, des ingénieurs de la connaissance avec la collaboration plus ou moins actives des usagers (folksonomies)
• Exemple d’ontologie sémiotique : des cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) [niveau des ontologies différentielles définies de la méthodologie Archonte de Bachimont]
HyperTopic : système pivot pour le W2S et la RIO
RIO, web socio sémantique & sémantique, IC
• Les méthodes de l’IC contribuent à la recherche ouverte d’information et devraient combiner les trois approches : navigation, requêtes formelles, fouille
• La recherche ouverte d’information vise à caractériser une situation, une entité, un projet : nous parlerons dans la métasémiotique HyperTopic d’un ITEM
Thèmes :
thématisation heuristique
de l’item
Ressources :
documentation de l’item
Attributs standards :
spécification référentielle
de l’Item
Item : identifiant de la situation ou
de l’artefact objet de d’enquête
Point de vue : caractérisations
concurrentes de l’item
Corrélation A
Corrélation B
Corrélation C
Association entre différentes formes de caractérisation de l’ITEM correspondant à
différents types de corrélation
NAVIGATION
REQUETEFOUILLE
Système expert
Système de gestion documentaire
Système hypertexte
HyperTopic : système d’organisation des connaissances pour la recherche
ouverte d’information
Manuel Zacklad - Tech-CICO/UTT - ACSI-CAIS
61
Ressources
Point de vue
Thème
Item
Attributs standards
Ressources
Spécification référentielle : objets et concepts (requêtes logiques)
Thématisation heuristique (liens hypertextes)
Documentation de l’item (fouille de texte)
HyperTopic : trois approches de l’item
Ontologies sémiotiques(thèmes ou attributs heuristiques)
Notion de point de vue
• C’est la diversité des formes de caractérisation de l’item selon les communautés professionnelles, d’intérêt, de pratiques ou les hypothèses en cours d’examen qui justifie le recours à plusieurs thématisations potentiellement concurrentes de l’item (Bénel, 2003 et Cahier 2005).
• C’est également la multiplicité des points de vue qui structure le raisonnement heuristique en permettant selon les tâches de faire varier les caractérisations de l’item.
• Dans les exemples canoniques du raisonnement diagnostic en médecine, un problème médical peut être décrit selon le point de vue des symptômes (point de vue des patients) ou selon celui des processus physiopathologiques en cause (point de vue des médecins).
Hypertopic : le protocole, dispositif pivot pour la recherche ouverte
d’information
Inférences pragmatiques au cours de la navigation
• La métasémiotique Hypertopic, est opérationnalisée à l’aide de XML
• Le protocole HT V 1.0 développé en REST permet de naviguer dans les ressources documentaires selon une logique hypertextuelle et facilite la recherche ouverte d’information au sein des corpus.
• En assistant la navigation, le protocole Hypertopicpermet de réaliser des associations entre thèmes, ressources documentaires et attributs standardisés, dont on peut considérer qu’elles relèvent d’inférences pragmatiques correspondant à l’exploitation d’association heuristiques entre divers éléments.
Argos
Agorae Porphyry
Cassandre
Sfqs*Qsdf sdqf
Sfqs*Qsdf sdqf
Protocole HyperTopic basé sur REST
Sfqs*Qsdf sdqf
Sfqs*Qsdf sdqf
Sfqs*Qsdf sdqf
Webdav
Bdd Postgress SQL
PhP, Ajax…Java
Exemples d’applications
Agorae FT (Cahier
2005)
Porphyry Paestum
(Bénel, 2006)
DKN-SEQXAM (Zaher,
2006b)
Cassandre (Erpicum
& Lejeune 2005)
Item Projet de R&D
dans le domaine des
télécoms
Item Vase /Scène figurée
/Élément figuratif
Item Article scientifique Item Entretien
sociologique
Points de vue
technologique; d’usage;
de l’offre commerciale;
du client ; etc.
Points de vue Projets de
recherche en archéologie
et en histoire de l’art
Points de vue Ceux des
différents membres du
projet
Points de vue Analyse
sociologique des
facteurs de
mobilisation
Attribut standard Date
de début; statut du
projet; etc.
Attribut standard Musée
ou collection privée,
Numéro d’inventaire
Attribut standard
Attributs
bibliographiques standard
Attribut standard Nom
de l'acteur, date et lieu
de l'entretien
Thèmes IPV6; Services
Web; voyages; santé;
économies de bande
passante, etc. (1500
thèmes)
Thèmes Analyse de la
forme du vase, des scènes
figurées, de la technique
de fabrication…
Thèmes bacteria;
bordetella spp; genome
sequence; compartment,
etc. (400 thèmes)
Thèmes défi
technique, distinction
sociale, engagement
politique,
socialisation…
Ressources Sites Web
ou Pièces Jointes
descriptifs du détail des
projets
Ressources Un dossier
photo par vase, une photo
par scène figurée, un
fragment photo par
élément figuratif
Ressources Textes des
articles, et fragments de
ces textes
Ressources Passages
(textuel) de l'entretien
Le client Agorae pour la gestion participative de ressources
documentaires (Zaher, Cahier et al.)
Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT (a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des noms d’UV et leurs problématiques),
(c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e)ressource documentaire (ici des transparents). Les « Tags » permettent aux utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ». Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux points de vue.
La même utilisation d’Hypertopic avec un autre client dédié à la gestion des images
Porphyry (Bénel et al.)
Fenêtre d’annotation
Fenêtre de confrontation de points de vue
Mise en relation des annotations textuelles effectuées sur un objet
Merci de votre attention