collaboratoires & shs lyon ens

Manuel Zacklad - Tech-CICO/UTT – Séminaire Lyon 1

Principes de caractérisation des collaboratoires en SHS et apport du web socio-sémantique

Manuel Zacklad(et équipe web socio-sémantique

J.P. Cahier, A. Bénel, H. Zaher, C. Zhou, C. Lejeune)

Université de Technologie de Troyes

Equipe Tech-CICO (Technologie de la Coopération pour l’Innovation et le Changement Organisationnel)

UTT ICD/Tech-CICO - FRE CNRS 2848

Disciplines sollicitées par les collaboratoires

• La gestion des collaboratoires en SHS (projet Adonis?) implique de croiser plusieurs perspectives disciplinaires:– Linguistique de corpus (importance des corpus abordés

dans une perspective élargie)– Sciences de l’information et de la communication (gestion

et diffusion des documents) – CSCW (Computer Supported Cooperative Work)– Ingénierie des Connaissances (approche technique et

épistémologique des SOC)– Sociologie des sciences et épistémologie

• Atout de l’équipe Tech-CICO dans cette perspective pluridisciplinaire

Objectif de l’exposé

• Proposer une description « originale » des collaboratoires en SHS

• Introduire la vision du web socio-sémantique et HyperTopic qui permet l’association de plusieurs logiciels open source

• On parlera d’avantage des collaboratoires que du web socio-sémantique -> pour une autre fois ;-)

• Dimension méthodologique et programmatique

Projets de Tech-CICO sur les collaboratoires• Initiateur de l’approche web socio-sémantique et

recherche ouverte d’information • Initiateur de la méta-sémiotique (langage de représentation

des connaissances) et du protocole HyperTopic permettant l’intégration de plusieurs serveurs et client (avec application dans des disciplines SHS) :– Agorae : gestion participative et multipoint de vue de ressources

documentaires (Cahier, Zaher) : recherche en sociologie des sciences

– Porphyry : gestion multipoints de vue d’images (Bénel -anciennement projet dirigé par A. Iacovella) : recherche en archéologie

– En lien avec liège : Cassandre - gestion de corpus textuels (C. Lejeune): recherche en sociologie

• Thèse sur une méthodologie transdisciplinaire de gestion de corpus dans les disciplines de l’interaction (Atifi, Ninova)

Les collaboratoires des sciences expérimentales aux SHS

Origine des collaboratoires

• Origine dans le domaine des sciences de la nature et de la vie pour la mutualisation des données issues d’équipements lourds : – consécutive à la généralisation de l’informatisation de ces

équipements,– et à la généralisation de leur mise en réseau via internet

• Objectif initial : partage des équipements et des données qu’ils produisent avec d’autres chercheurs « distants » (collaboratory = collaborative laboratory)

• Elargissement à la problématique du travail coopératif entre les chercheurs à partir de ces données -> CSCW (Computer Supported Cooperative Work)

Collaboratoires en SHS : numérisation des archives, des bibliothèques, des productions

intermédiaires de la recherche

• Les équipements lourds des SHS sont les archives et les bibliothèques

• Leur numérisation massive et la diffusion d’internet offre les mêmes opportunités que celles qui avaient été offertes aux sciences dures

• Ces opportunités sont encore renforcées par les facilités de circulation et de partage des documents en cours d’élaboration (résultats intermédiaire, rapport, pré-diffusion…) : – Problématique des documents pour l’action, des archives

ouvertes, du rôle des bibliothèques dans la gestion des archives courantes et intermédiaires des chercheurs

Trois hypothèses de travail

Première hypothèse de travail : mutation méthodologique et épistémologique

• La généralisation des collaboratoires en SHS induit une mutation plus profonde que dans les sciences de la vie et de la nature– Le travail coopératif et la mise en commun des

sources était une pratique courante

• Dans les SHS, la généralisation des collaboratoiresest susceptible produire une renouvellement profond des méthodes de travail et à terme des fondements épistémologiques de plusieurs disciplines

• Hypothèse semble-t-il partagée avec Adonis (?)

Justification

• Les difficultés de recueil et de partage des corpus en SHS explique le biais quantitatif de plusieurs disciplines (préférence pour les « données »)– la numérisation est susceptible d’y remédier largement

• Quand les méthodes qualitatives sont mises en œuvre elles souffrent de plusieurs faiblesses notamment en terme de partage des sources et d’objectivation des méthodes de « codage » dans le cadre du processus d’interprétation– la numérisation est également susceptible de contribuer à

pallier à ce défaut

Deuxième hypothèse de travail : nécessité d’élargir les acceptions du « corpus »

• La problématique des collaboratoires en SHS excède les questions posées par la linguistique de corpus tout en repositionnant la linguistique comme une discipline pivot à plusieurs titres

• Les acceptions du corpus doivent être plus large et inclure également des problématiques associées aux environnement documentaires facilitant la génération de nouvelles productions sémiotiques (atelier d’écriture)

Troisième hypothèse de travail : importance des approches relevant du web

socio-sémantique

• La conception des collaboratoires implique elle-même des méthodes et une méthode et une épistémologie renouvelé de la gestion de l’information qui combine les apports de la recherche d’information et des systèmes d’organisation des connaissances formels et heuristiques

• Importance des recherches conduites dans le champ du web socio-sémantique et des modèles et outils « Hypertopic »

Définitions du corpus

A propos des définitions

• « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue » (Habert 2000). »

• « Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. » (Rastier 2002)

Préférence pour l’approche documentaire renouvellée

• Aux « données langagières » et aux « textes » nous préférons la référence au document

• Renouvellement des réflexions sur le document :– Le document définit comme une production sémiotique inscrite

dans un projet transactionnel délibéré (cf. le discours), enregistrée ou retranscrite sur un support pérenne et explicitement « documentarisé » par ses créateurs ou ses utilisateurs

– Elargissement de la notion de corpus à d’autres modalités d’expression (image, film, enregistrement audio…)

– Le document implique la prise en considération des supports des « production sémiotique » qui les véhiculent et qui déterminent les conditions de leur création et de leur réception (approche suivie dans le système « Prospero » -Chateauraynaud)

Définition d’un corpus documentaire

• Un corpus documentaire est une archive structurée de documents sélectionnés et/ou produits de manière systématique(1) pour permettre le déroulement d’une enquête(2).

• La pertinence du corpus est virtuelle (corpus virtuel) tant que la justification de la sélection n’aura pas été produite par une analyse comparative explicitant les formes d’association entre les documents et les fragments documentaires rassemblés. Cette explicitation, produisant le corpus effectif, est réalisée à partir de systèmes d’organisation des connaissances (permettant l’annotation ou l’étiquetage).

• En toute rigueur le corpus doit être conçu comme une collection documentaire mouvante soumise à un processus d’articulation progressif justifiant l’appartenance des documents à la collection.

(1) Dans un contexte de « rationalité limité » ou de « réflexivité » (cf. Damon Mayaffre)(2) Au sens générique du pragmatisme et pas au sens restreint d’enquête sociologique

Caractérisation des corpus et des fonctionnalités des collaboratoires

Différentes dimensions pour la caractérisation des corpus

• La classification des corpus permet la définition des fonctionnalités des collaboratoires– Statut des corpus selon les disciplines

– Approche du corpus selon la mise en œuvre de la recherche : primaire, secondaire, tertiaire

– Approche du corpus par affinage successif : potentiel/effectif , virtuel/attesté, global/de travail

– Caractérisation des corpus primaires selon les méthodes de constitution

– Approche des collaboratoires (et de l’articulation entre les corpus) selon les formes de coopération (mono-acteur, coopération active, coopération passive)

Rappel sur les opérations de base portant sur un corpus

documentaire

Constitution et exploitation d’un corpus documentaire dans un contexte de

collaboratoire

• Recherche / production des documents pertinents

• Stockage / organisation de l’accès

• Organisation / classement / indexation

• Lecture / analyse / codage / annotation

• Synthèse / mise en forme / rédaction des analyses

• Diffusion / partage

Exemple dans le cadre d’une enquête sociologique (corpus primaire)

• Recherche / production des documents pertinents : réalisation d’entretiens semi-directifs par enregistrement et retranscription

• Stockage / organisation de l’accès : stockage dans un répertoire ou dans une base de donnée documentaire

• Organisation / classement / indexation [articulation externe] : utilisation de différents critères permettant de classer les document (caractéristiques des personnes interviewés, contexte, faits marquants…)

• Lecture / analyse / codage / annotation [articulation interne] : lecture des entretiens, éventuellement utilisation d’un outil d’aide au repérage automatique de certaines régularités (cf. Cassandre) et indexation selon des catégories pertinentes, codage interprétatif (manuel) des expressions, ajouts d’annotations…

• Synthèse / mise en forme / rédaction des analyses [articulation externe/interne] : extraction semi-automatique des extraits codés et comparaisons selon les critère d’articulation interne, rédaction des analyses…

• Diffusion / partage : partage avec d’autres analystes des documents primaires (entretiens) des extraits d’entretiens codé, pré-diffusion à d’autres chercheurs à l’intérieur de « l’équipe projet » ou situés dans d’autres institutions, etc.

Approche des corpus selon les disciplines

Caractérisation des corpus dans les disciplines de l’interaction(Atifi, Lejeune, Ninova, Zacklad)

• Trois exemples : sociologie qualitative, psychologie ergonomique linguistique interactionnelle

• Disciplines qui constituent souvent des corpus « ad hoc » par entretien, questionnaire, observation… (cf. infra)

• Différences en termes de modalités d’enregistrement et de retranscription

• Différence en termes de représentativité des échantillons constitués

• Différence en termes de modalité de découpage des morphèmes ou des ennoncés pertinent

• Importance variable du « saut interprétatif » dans les opérations de codage

• Etc.

La gestion des corpus ne concerne pas uniquement la linguistique de corpus

• …mais celle-ci dispose d’un statut instrumental privilégié eu égard aux autres disciplines :

– Toutes les SHS en tant qu’elle participent des sciences de la culture impliquent la gestion d’un « corpus primaire » qui peut être constitué de différentes manières

– L’analyse des régularités à l’intérieur du corpus par le processus de codage revient à une identification de genres

– Ces genres correspondent bien aux normes (Rastier) gouvernant la production des « œuvres » réalisées par les acteurs ou gouvernant les situations d’interaction

• Le champ de notre réflexion sur les collaboratoires ne couvre pas que les disciplines de l’interaction : histoire, littérature, archéologie…

Vision du corpus selon les étapes de mise en œuvre

Trois types de corpus selon la mise en œuvre

• Les corpus primaires sont ceux qui constituent la base « empirique » de la recherche et à partir desquels seront élaborées les conclusions de l’enquête

• Les corpus secondaires sont constitués par des documents qui contribuent à l’étude des sources primaires : documents produits à l’issue d’autres enquêtes similaires, ouvrages méthodologiques, plan de codage. • Etat de l’art• Document méthodologiques • Outils de traitement logiciel

• Les corpus tertiaires sont constitués par les productions originales de l’enquête, dans un état intermédiaire ou final

Corpus Primaire Corpus Tertiaire

Corpus Secondaire

Analyse différentielle interne Analyse différentielle interne

Analyse différentielle interne

Mise en relation externe

Vision du corpus par affinage

Affinage progressif du corpus selon Rastier (2002)

– « 1/ L’archive contient l’ensemble des documents accessibles. Elle n’est pas un corpus, parce qu’elle n’est pas constituée pour une recherche déterminée.

– 2/ Le corpus de référence est constitué par ensemble de textes sur lequel on va contraster les corpus d’étude.

– 3/ Le corpus d’étude est délimité par les besoins de l’application.

– 4/ Enfin le sous-corpus de travail en cours varie selon les phases de l’étude et peut ne contenir que des passages pertinents du texte ou des textes étudiés »

– [Pour certaines applications informatiques, il faut encore distinguer, au cours de leur développement, le corpus d’apprentissage, le corpus de test, le corpus de validation]

http://www.revue-texto.net/Inedits/Rastier/Rastier_Enjeux.html

Selon notre approche : trois axes d’affinage

• L’axe qui va du potentiel à l’effectif par sélection/génération des documents pertinents: corpus potentiel/corpus effectif

• L’axe qui va du global au local par sélection de certains documents dans un ensemble ou de certains extraits d’un document par le document global : corpus global/corpus de travail

• L’axe qui va du virtuel à l’explicite, en explicitant les catégories de mise en relation et en justifiant la cohérence du corpus : corpus virtuel/corpus attesté (articulé, explicité)

Corpus potentiel (et virtuel)

Corpus effectif global & virtuel (on ne sait pas encore s’il permettra

d’éprouver les hypothèses de l’enquête)

Corpus de travail (virtuel)

Corpus global attesté (articulation des fragments documentaires et des documents à l’aide d’un SOC servant à l’annotation et l’étiquetage et permettant

de tirer des conclusions)

Corpus de travail

(attesté)



Corpus de travail

(attesté)

Corpus de travail

(attesté)

Caractérisation des corpus primaires selon les méthodes de

constitution

Rappel sur la notion d’archive en sciences de l’information

• Archive d’un organisme : courante, intermédiaire, définitive

• Le corpus est une archive documentaire constituée par le chercheur à fin d’enquête – Le corpus passe lui-même par ces différentes étapes selon

la progression de la recherche (courante, intermédiaire, définitive)

• Les corpus primaires peuvent être :– Constituées par des documents produits par les

organismes ou acteurs enquêtés eux-mêmes « archive vernaculaire » à caractère public ou privé

– Constituée par des documents faisant l’objet d’une création répondant besoin de l’enquête : archive constituée par des document ad hoc ou « archive ad hoc »

Constitution des corpus primaires à partir d’archives vernaculaires

Archive définitive Archive intermédiaire Archive courante

Accèspublic

Bibliothèque et fond d’archive papier,archive web

Recueil de documents administratifs, prélèvement sur des sites web d’archive intermédiaire, forum archivés, etc.

Prélèvement par échantillonnage des documents produits sous forme papier ou numérique par les organismes et acteurs notamment sur le web

Accès privé Fond d’archive privé Recueil de fonds d’archive au sein d’entreprises ou chez des particuliers (intranets, collections privées…)

Prélèvement par échantillonnage des documents produits par les entreprises et particuliers

Constitution des corpus primaires à partir d’archives ad hoc

• On peut établir une distinction :

– Selon le caractère plus ou moins libre ou contraint des productions sémiotiques (qualitatifs vs quantitatif)

– Selon le mode de constitution plus ou moins « participatif » des productions sémiotiques (langagière, filmique…)

Enregistrementavec interaction verbale directe du chercheur avec les sujets

Enregistrement en « situation naturelle »sans interaction verbale provoquée avec le chercheur (ou avec peu d’interaction verbale)

Enregistrement du comportement à partir de situations provoquées par le chercheur mais sans interaction verbale avec lui (ou peu)

Productions sémiotique libres (qualitatives )

Entretien semi ou non directif, observation participantes

Méthodesethnographiques non participantes (à partir de situations naturelles)

Psychologie sociale expérimentale

Production sémiotique contraintes (données)

Questionnaires Enregistrement partiel d’indice comportementaux (à partir de situations naturelles)

Expérience de type psychophysique

Caractéristiques de l’accès au corpus selon les formes de coopération

Formes de coopération

• Le chercheur dans des phases de travail individuelles

• Coopération active : un collectif de chercheurs appartenant à un même projet dans le cadre d’une division du travail organisée

• Coopération passive : un collectif de chercheurs n’appartenant pas au même projet mais mettant à disposition des ressources au bénéfice de la communauté.

Approche mono-acteur

Approche multi-acteurs et coordination active

Approche multi-acteurs& coopération passive

Articulation intra-documentaire

Un acteur engagé dans le ttmt d’un document

Plusieurs acteurs travaillant sur le même document dans le cadre d’un projet

Plusieurs acteurs mettant à disposition sur le web un document partiellement travaillé

Articulation inter-documentairehomogène

Un acteur engagé dans le ttmt comparatif de plusieurs documents du même type de corpus (p.e. primaire)

Plusieurs acteurs engagés dans le ttmtcomparatif de plusieurs document du même type de corpus dans le cadre d’un projet

Plusieurs acteurs mettant à disposition sur le web des documents appartenant à un corpus

Articulation inter-documentaire hétérogène

Un acteur engagé dans le ttmt de documents appartenant à plusieurs types de corpus

Plusieurs acteurs mettant en relation des documents appartenant à plusieurs types de corpus dans le cadre d’un projet

Plusieurs acteurs mettant à disposition sur le web des documents appartenant à plusieurs types de corpus

Exemple des problématiques posées par la mise en relation des différents

types de corpus

Exemple de l’articulation d’un corpus primaire et secondaire

• Les frontières du corpus primaire peuvent évoluer au cours de la recherche : cette évolution peut entrainer un élargissement du corpus secondaire (référence bibliographique associées, autres monographies…)

• Inversement les associations réalisées à l’intérieur du corpus secondaire peuvent elles-mêmes influencer la définition des contours du corpus primaire : recherche de sources nouvelles

Evolutions des corpus primaires et secondaires

Ensemble fermé de documents secondaires

Ensemble ouvert de documents secondaires

Ensemble fermé de documents primaires

Base fixe (stade final de la recherche)

Le traitement des documents primaires suscite la recherche de nouveaux documents secondaires (formulation de nouvelles hypothèses)

Ensemble ouvert de documents primaires

L’exploitation des documents secondaires suscite la recherche de nouveaux documents primaires (recherche de nouveaux observables)

Coévolution du corpus primaire et du corpus secondaire (coévolution des hypothèses et des observables)

Quelles technologies documentaires et informationnelles pour les

collaboratoires ?

Différentes approches du sens renvoyant à différentes technologies

• Les différents types de traitement requis dans le cadre de l’usage des collaboratoires impliquent le recours à différents types de technologies informatique

• Ces technologies reposent elles-mêmes sur des Systèmes d’Organisation des Connaissances qui permettent de réaliser des associations entre des fragments documentaires et des documents d’un ou plusieurs corpus

• Ces associations sont rendues possibles par des opérations de description préalable plus ou moins systématiques des documents et de leur fragments qui se réalise de manière différente selon qu’il s’agit d’un texte, d’une image, d’un son, d’un film

Diversité des formes d’expression documentaires

• Image fixes (p.e. A. Bénel et al.), film (p.e B. Bachimont, Y. Prié), textes -> un très grand nombre de chercheurs dans les domaines de l’ingénierie des connaissances, de la linguistique de corpus et de la recherche d’information (Aussenac, Bourrigault, Habert, Zweigenbaum, Charlet, Chateauraynaud, Lejeune… etc.)

• Dans le cadre d’un texte le codage automatique peut porter sur chaque morphème (terme ou mot) !

• Mais même dans le cas d’un texte, le découpage de la séquence de caractères pertinents et son étiquetage relève d’une opération de description exogène basée sur une théorie linguistique plus ou moins explicite.

A

B

C

A

Etiquetage ou

annotation

automatique, semi-

automatique ou

manuelle d’un

document

Processus d’étiquetage et d’annotation des fragments documentaires

C

X1 Y2Etiquette ou annotation

concernant l’ensemble

du document

Etiquette ou annotation

concernant des

fragments du

document

C

A

A

B

B

B

B

A

C

C

C

A

Association

intradocumentaire

Association

interdocumentaire

Première Indexation du document basée sur des

fragments - SOC élémentaire = une liste de

descripteurs de bas niveau ancrée dans une zone du

document = termes, suite de caractères,

M

P

S

SOC élaboré = organisation des termes

élémentaire dans des réseaux de « concept

formels (ontologie), concepts

sémiotiques (ontologie sémiotique), descripteurs

(thésaurus)…

Un cadre pluri-sémantique pour les collaboratoires : l’approche du web

socio-sémantique

Informations diverses sur le Web socio sémantique (W2S)

• Origine au sein de l’Ingénierie des Connaissances mais ouverture vers les sciences de l’information et de la communication et les sciences du langage

• Issu de Tech-CICO mais en cours de diffusion dans d’autres équipes ;-) (contact pris avec les communauté « pragmatic web » et « topic map »)

• A la fois un cadre conceptuel et méthodologique et des outils opérationnels : méta-sémiotique et protocole Hypertopic et plusieurs logiciels open source

• Contributeurs principaux : • Aurélien Bénel, Jean-Pierre Cahier, L’Hédi Zaher, Manuel

Zacklad (UTT – Tech-CICO) & Christophe Lejeune (Liège)

Web socio-sémantique : une vision du web

• Le web socio-sémantique (W2S) est un système documentaire ouvert facilitant des transactions coopératives interpersonnelles éventuellement très asynchrones et distribuées entre des acteurs individuels et collectifs engagés dans des échanges, débats, controverses, relevant de domaines très variés.

• Deux conséquences pour l’instrumentation du W2S : • Les modalités et les outils de gestion des documents

doivent être pour partie conçus par les acteurs eux-mêmes selon leur processus de coopération.

• Il est nécessaire de combiner plusieurs paradigmes d’accès à l’information complémentaires.

Web socio-sémantique et Recherche Ouverte d’Information

• Cette multiplicité des modes d’accès est elle-même associée à une vision originale de la recherche d’information « la recherche ouverte d’information » [information seeking vs information retrieval cf. L’hédi Zaher]

• La RI est en fait de la « récupération d’information » la ROI, qui inclut l’usage de la RI, correspond effectivement à l’assistance à la de la « recherche »

Trois paradigmes d’accès à l’information selon le web socio-sémantique

• Paradigme de la requête basée sur des attributs standardisés– monde clos en partie analogue au monde réel, sémantique

référentielle, schéma de base de donnée relationnelle ou objet, ontologies formelles

• Paradigme de la navigation heuristique en utilisant des attributs heuristiques (thèmes)– cartes de thèmes , sémantique rhétorico/herméneutique, réseau

sémantique, ontologie sémiotique, hypertextes, premiers systèmes experts

• Paradigme de la fouille dans des ressources documentaires– moteurs de recherche, la sémantique dépend elle-même de la nature

du document.

– Mais le moteur peut utiliser lui-même deux types de sémantiques :

• référentielle sur des expressions dans la recherche de séquences,

• probabiliste (utilisation de la théorie de l’information)

Requêtes (web sémantique, bases

de données…) –sémantique formelle ou

référentielle

Navigation (hypertexte, web socio

sémantique…) –sémantique rhétorico-

herméneutique

Fouille (recherche de séquences, TAL,

recherche statistiques…) -

sémantique variable

Recherche Ouverte d’Information

Les trois paradigmes du W2S

Requête (attribut standard)

NomAge

Adresse

Navigation (attributs

heuristiques) : Goût

OpinionCompétence

Fouille (document) Photo

CV

Exemple de la recherche d’une personne

Le web Socio Sémantique : donne une place aux techniques relevant du paradigme de la

navigation

• Les systèmes d’organisation des connaissances évolutifs requièrent une sémantique différente de la sémantique référentielle -> pas exclusivement des ontologies formelles ni de la fouille et ouverture vers d’autres SOC

• Accent mis d’avantage dans nos travaux sur le « web visible » que sur le « web invisible » (les bases de données)

Les systèmes d’organisation des connaissances qui relèvent du paradigme de

la navigation heuristique • Classification documentaires, thésaurus,

ontologies sémiotiques… (structure hypertexte, annuaire internet, index…) construites par des gestionnaires de sites, des documentalistes, des ingénieurs de la connaissance avec la collaboration plus ou moins actives des usagers (folksonomies)

• Exemple d’ontologie sémiotique : des cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) [niveau des ontologies différentielles définies de la méthodologie Archonte de Bachimont]

HyperTopic : système pivot pour le W2S et la RIO

RIO, web socio sémantique & sémantique, IC

• Les méthodes de l’IC contribuent à la recherche ouverte d’information et devraient combiner les trois approches : navigation, requêtes formelles, fouille

• La recherche ouverte d’information vise à caractériser une situation, une entité, un projet : nous parlerons dans la métasémiotique HyperTopic d’un ITEM

Thèmes :

thématisation heuristique

de l’item

Ressources :

documentation de l’item

Attributs standards :

spécification référentielle

de l’Item

Item : identifiant de la situation ou

de l’artefact objet de d’enquête

Point de vue : caractérisations

concurrentes de l’item

Corrélation A

Corrélation B

Corrélation C

Association entre différentes formes de caractérisation de l’ITEM correspondant à

différents types de corrélation

NAVIGATION

REQUETEFOUILLE

Système expert

Système de gestion documentaire

Système hypertexte

HyperTopic : système d’organisation des connaissances pour la recherche

ouverte d’information

Manuel Zacklad - Tech-CICO/UTT - ACSI-CAIS

61

Ressources

Point de vue

Thème

Item

Attributs standards

Ressources

Spécification référentielle : objets et concepts (requêtes logiques)

Thématisation heuristique (liens hypertextes)

Documentation de l’item (fouille de texte)

HyperTopic : trois approches de l’item

Ontologies sémiotiques(thèmes ou attributs heuristiques)

Notion de point de vue

• C’est la diversité des formes de caractérisation de l’item selon les communautés professionnelles, d’intérêt, de pratiques ou les hypothèses en cours d’examen qui justifie le recours à plusieurs thématisations potentiellement concurrentes de l’item (Bénel, 2003 et Cahier 2005).

• C’est également la multiplicité des points de vue qui structure le raisonnement heuristique en permettant selon les tâches de faire varier les caractérisations de l’item.

• Dans les exemples canoniques du raisonnement diagnostic en médecine, un problème médical peut être décrit selon le point de vue des symptômes (point de vue des patients) ou selon celui des processus physiopathologiques en cause (point de vue des médecins).

Hypertopic : le protocole, dispositif pivot pour la recherche ouverte

d’information

Inférences pragmatiques au cours de la navigation

• La métasémiotique Hypertopic, est opérationnalisée à l’aide de XML

• Le protocole HT V 1.0 développé en REST permet de naviguer dans les ressources documentaires selon une logique hypertextuelle et facilite la recherche ouverte d’information au sein des corpus.

• En assistant la navigation, le protocole Hypertopicpermet de réaliser des associations entre thèmes, ressources documentaires et attributs standardisés, dont on peut considérer qu’elles relèvent d’inférences pragmatiques correspondant à l’exploitation d’association heuristiques entre divers éléments.

Argos

Agorae Porphyry

Cassandre

Sfqs*Qsdf sdqf

Sfqs*Qsdf sdqf

Protocole HyperTopic basé sur REST

Sfqs*Qsdf sdqf

Sfqs*Qsdf sdqf

Sfqs*Qsdf sdqf

Webdav

Bdd Postgress SQL

PhP, Ajax…Java

Exemples d’applications

Agorae FT (Cahier

2005)

Porphyry Paestum

(Bénel, 2006)

DKN-SEQXAM (Zaher,

2006b)

Cassandre (Erpicum

& Lejeune 2005)

Item Projet de R&D

dans le domaine des

télécoms

Item Vase /Scène figurée

/Élément figuratif

Item Article scientifique Item Entretien

sociologique

Points de vue

technologique; d’usage;

de l’offre commerciale;

du client ; etc.

Points de vue Projets de

recherche en archéologie

et en histoire de l’art

Points de vue Ceux des

différents membres du

projet

Points de vue Analyse

sociologique des

facteurs de

mobilisation

Attribut standard Date

de début; statut du

projet; etc.

Attribut standard Musée

ou collection privée,

Numéro d’inventaire

Attribut standard

Attributs

bibliographiques standard

Attribut standard Nom

de l'acteur, date et lieu

de l'entretien

Thèmes IPV6; Services

Web; voyages; santé;

économies de bande

passante, etc. (1500

thèmes)

Thèmes Analyse de la

forme du vase, des scènes

figurées, de la technique

de fabrication…

Thèmes bacteria;

bordetella spp; genome

sequence; compartment,

etc. (400 thèmes)

Thèmes défi

technique, distinction

sociale, engagement

politique,

socialisation…

Ressources Sites Web

ou Pièces Jointes

descriptifs du détail des

projets

Ressources Un dossier

photo par vase, une photo

par scène figurée, un

fragment photo par

élément figuratif

Ressources Textes des

articles, et fragments de

ces textes

Ressources Passages

(textuel) de l'entretien

Le client Agorae pour la gestion participative de ressources

documentaires (Zaher, Cahier et al.)

Le client HyperTopic Agoræ : exploration selon le point de vue des cursus de l’UTT (a) point de vue (un établissement) (b) thème (un cursus) (b’) sous-thèmes (des noms d’UV et leurs problématiques),

(c) item (un cours), (d) attribut standard/valeur (auteur, dernière modification…) (e)ressource documentaire (ici des transparents). Les « Tags » permettent aux utilisateurs de proposer d’autres sous-thèmes selon une méthode « ascendante ». Ceux-ci peuvent ensuite être intégrés aux ontologies sémiotiques associées aux points de vue.

La même utilisation d’Hypertopic avec un autre client dédié à la gestion des images

Porphyry (Bénel et al.)

Fenêtre d’annotation

Fenêtre de confrontation de points de vue

Mise en relation des annotations textuelles effectuées sur un objet

Merci de votre attention

collaboratoires & shs lyon ens

Documents