métadonnées de thèse

Post on 04-Dec-2014

1.015 Views

Category:

Education

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Présentation (2 h) donnée lors d'un stage enssib sur la valorisation des thèses.2 décembre 2010.Neige.

TRANSCRIPT

1

Métadonnées de thèse

nicolas@abes.fr

stage enssib | Valorisation des thèses | 2 décembre 2010

2

Plan

Introduction – de quoi parle-t-on ? Des métadonnées dans tous les états TEF Identifiants IdRef RDF Les métadonnées dans les thèses

3

INTRODUCTIONDe quoi parle-t-on ?

4

Introduction

De quoi parle-t-on ?

• Métadonnées = ?• Thèse = ?

5

Métadonnées = ?

• Information structurée et réutilisable sur (…)

• Exemples– Une page de titre papier est structurée, mais n’est

pas réutilisable– Une notice MARC = un ensemble de

métadonnées

6

• Cette thèse a pour directeur Untel

7

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire

8

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise

9

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’

10

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

11

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue

12

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

13

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

• Etc.

Où s’arrêter ?

14

Métadonnées

Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière

Web de données (RDF) cf. + loin

• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à

l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues, administratives,

normes…)

15

16

Les métadonnées de thèse,c’est…

• toute information structurée …• … qui concerne de près ou de loin la thèse

» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :

• Document• Personne• Organisme• Concept

17

Thèse = ?

• En apparence, c’est un objet précis• En fait, différentes entités derrière le mot

« Thèse »» Et chacune a ses propres métadonnées

18

http://thesedemerde.fr

19

• Thèse comme Texte (« rédaction »)• Thèse comme Edition (« quatre fois plus de

pages »)

20

• Thèse comme Œuvre • Thèse comme Texte (« version »)• Thèse comme Edition/Format (« manuscrit »)

21

• Thèse comme Période, Processus administratif (« moitié »)

22

• Thèse comme Diplôme (« inscription »)

23

LES MÉTADONNÉES DE THÈSE DANS TOUS LES ÉTATS

Circulation et recyclage

24

• Différentes phases• Différents formats• Circulation & recyclage• Pas de multiple saisie

25

Où sont les métadonnées ? Sous quelle forme ?

Applications de gestion (APOGEE) Bases de données

Bureautique Excel

Exports d’applications CSV

Web services d’application (APOGEE) XML

Processus d’échange avec STAR TEF

Catalogage MARC

Diffusion du document HTML HTML (page de titre)

Diffusion du document PDF Métadonnées embarquées XML

Page Web de présentation HTML

Moteurs de recherche ?

Serveurs OAI-PMH XML (différents vocabulaires XML)

… …

26

• Il n’existe pas un format canonique pour les métadonnées de thèse

• Il n’existe pas un état de complétude (géométrie variable, selon contexte)

• Il n’existe pas qu’un circuit linéaire (workflow à la carte)

• Mais il existe des conditions favorables à la circulation et au recyclage des métadonnées

27

Conditions favorables

• Information la plus découpée possible » nom et prénom séparés

• Information la plus homogène possible» Peu importe la structure des dates, mais ne pas varier

• Information la plus précise possible» Pas de majuscules non ACCENTUEES !» Utiliser des listes fermées (diplômes, disciplines..)» Garder le maximum de précision et de richesse au fil des

conversions

• Avoir des outils qui permettent de maîtriser les flux entrants et sortants

• Disposer de compétences XSLT

28

TEFUne forme parmi d’autres pour les métadonnées de thèse

29

TEF

• Format XML• Pour les thèses numériques natives• Recommandation AFNOR (2006) ?

<chut>Obligation ABES</chut>» TEF, fait sur mesure pour STAR» Pour répondre aux missions de STAR» Format d’import de STAR

30

Missions de STAR > Aspects de TEF

• Signalement Sudoc• TEF : méta biblio, autorités…

• Archivage pérenne• TEF : gestion d’éditions différentes, avec métadonnées de

fichiers associées

• Respect du droit de la PI et des restrictions de diffusion

• TEF : gestion fine des droits

• Respect de la validation Jury• TEF : différentes versions possibles

31

32

TEF et les FRBR

• FRBR : modélisation de l’information bibliographique par l’iFLA (1998)

• Clarification conceptuelle– A chaque niveau ses métadonnées• Œuvre• Expression (= Version selon TEF)• Manifestation (= Edition selon TEF)• Exemplaire (Pas dans TEF)

33

Le cas simple

34

Un cas plus complexe

35

Un autre cas plus

complexe

36

Générer du TEF pour importer dans STAR

• Partir de n’importe quelles données structurées

• Convertir en TEF, complet ou non» STAR : pas tout ou rien

37

IDENTIFIANTS

38

http://www.theses.fr/2009TOUR3802

• URL pérenne de la description HTML de la thèse comme œuvre

• Point de départ vers documents, métadonnées, ressources liées…

39

http://www.theses.fr/2009TOUR3802/document

• URL pérenne de document (s)• Renvoie vers une des éditions sur un des

serveurs de diffusion• Selon un ordre défini

• Action : Get it !

40

http://www.theses.fr/2009TOUR3802/id

• Identifiant de la thèse comme œuvre• Aujourd’hui pur identifiant pour le RDF• Demain, identifiant et URL

• Même si l’œuvre n’est pas un document accessible sur le Web. Seules ses éditions (manifestations) y sont.

41

• Avec le portail des thèses (2011) :– http://www.theses.fr/2009TOUR3802.rdf– http://www.theses.fr/2009TOUR3802.xml– http://www.theses.fr/2009TOUR3802/dc.xml– http://www.theses.fr/2009TOUR3802/marc.xml– …

42

IDENTIFIER LES ENTITÉS LIÉES AUX THÈSES

IdRef www.idref.fr

43

Besoin de référentiels

• Identifier les personnes, organismes, concepts…

• Autorités Sudoc >> IdRef

• D’autres entités > d’autres référentiels• Laboratoires ?• Entreprises ?• Contrat CIFRE ?• Projets ANR ?

44

IdRef

• Nouvelle application ABES (octobre 2010)• Objectifs :– Interroger, modifier, créer les autorités Sudoc• À partir du site Web www.idref.fr• A partir d’une autre application « branchée » sur IdRef

» STAR (oct. 2010), Calames (aujourd’hui !), ORI-OAI (2011) et d’autres applications de l’ens. sup. & rech. fr.

45

46

Politique des URL

• http://www.idref.fr/026690276» URL des métadonnées de la personne (HTML ou RDF)

• http://www.idref.fr/026690276/id» URL de la personne» Redirige (303) vers les métadonnées

• http://www.idref.fr/026690276.rdf» URL des métadonnées RDF de la personne

• http://www.idref.fr/026690276.html» URL des métadonnées HTML de la personne

• http://www.idref.fr/026690276.xml» URL des métadonnées UNIMARC/XML de la personne

47

Prière

Faîtes le maximum de liens vers des référentiels et leurs identifiants !

» Membres du jury» Entreprises» Entreprises» Projets ANR

Le Web vous le rendra…

48

VERS UN WEB DE MÉTADONNÉESRDF

49

RDF

• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui

• Resource Description Framework• Cadre général pour décrire n’importe quoi

» Tout peut être « resource » à décrire

• RDF, modèle universel pour intégrer toute information au Web de données

50

http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id

Cette thèse …… a pour auteur …… untel.

51

http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id

La relation creator est également identifiée par une URL

52

Démo

53

Comment publier ses métadonnées en RDF ?

• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :

www.theses.fr/{Numéro_national_de_Thèse}

• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef

54

Et si je veux voir ce RDF ?

- Mais le RDF est pour les machines !- Mais je veux voir !

Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa

55

Nos métadonnées et les moteurs

• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…

• Sindice» Moteur spécialisé dans les données sémantiques

• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…

56

Diffuser les métadonnées sur le Web de données, c’est …

• Valoriser les thèses• Valoriser les personnes et les organismes liées

aux thèses• Enrichir nos propres métadonnées• Enrichir les métadonnées des autres• Découvrir de nouveaux usages et utilisateurs

de nos données• Publier à la cantonade ≠ échanger entre partenaires

57

LES MÉTADONNÉES DANS LA THÈSE

58

Les métadonnées dans la thèse

• La thèse contient des informations structurées• Page de titre• Table des matières• Autres tables• Plan de la thèse• Bibliographie

• Ces métadonnées ne sont – pas explicites– pas caractérisées de manière sémantique

59

Les métadonnées dans la thèse

• La thèse contient des informations précises mais non structurées de manière sémantique :

= la prose scientifique

• RDFa montre la possibilité de truffer la prose de métadonnées

– Au moins, structurer le résumé en RDF ?

60

61

Quels outils pour une écriture sémantique ?

• Styles Word ?» Mais pour baliser le sens, pas la forme !

• Plugin Bureautique ?» Ex : Word Add-in For Ontology Recognition» Ex: Extension sémantique pour Open Office

• Editeur HTML 5 ?» Microdata

• Rival de RDFa

top related