oai-pmh et métadonnées dublin core et quelques autres mutualiser les ressources documentaires en...
TRANSCRIPT
OAI-PMH et métadonnées Dublin Core et quelques autres
“Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009
Catherine Morel-PairINIST-CNRS, Département Edition et Publications
?
Protocole OAI-PMHFournisseurs de données
Fournisseur de services
?
Protocole OAI-PMHet métadonnées
• Un entrepôt OAI-PMH répond en XML aux 6 verbes de requête du protocole “ListRecords” et ”GetRecord” rendent des “enregistrements”
(records) de métadonnées décrivant les documents de l’archive• Minimum obligatoire : enregistrement Dublin Core simple,
“oai_dc”• Autres possibles, en parallèle, selon objectifs
– MARC-XML, MODS– METS , DIDL– … tout jeu d’éléments en XML …
• http://gita.grainger.uiuc.edu/registry/ListSchemas.asp
Item = ensemble d’enregistrements décrivant une ressource
•
4
Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf, trouvaille du Comité de pilotage FRéDoc
Métadonnées en XML ? …
Généraliste, Web, échanges
Dublin Core
Formats de ressources
Image : XMP, MIXMultimédia : MPEG 7, 21
Documents TEI …
Métiers
Bib-doc : *MARC MODS
BiblioMLChaîne du livre : ONIX
Archivistique : EAD…
Types de ressources
Thèses : ETDMS, TEFRessources pédagogiques, géospatiales, linguistiques
…
Containers
METSMPEG 21 (DIDL)
OAI-ORE Objectifs
Droits : CC, ODRLVeille : RSS
Préservation : PREMIS
Métadonnées et XML ? Un tiercé en 1 heure
• Dublin Core simple – généricité, universalité – Socle d’interopérabilité de l’OAI-PMH (2400 entrepôts)– Nombreux autres usages …
• MODS - description bibliographique– OAI-PMH - 100 entrepôts– Autres usages …
• METS - “container” , collections – OAI-PMH - 130 entrepôts – Autres usages …
… En bonne place aussi dans l’OAI-PMH : MARC-XML* (580), RFC1807 (308),
… ETDMS (117), DIDL (79) … DC qualifié (60)
1 - Dublin Core
• DCMI, Dublin Core Metadata Initiative, 1995 – “Pallier les insuffisances des
métadonnées HTML […] pour donner une sémantique au Web” […] et améliorer la “resource discovery”
– Par un standard généraliste pour le Web • “description bibliographique simplifiée”• … pour tout type de ressource
– http://dublincore.org
Dublin Core, des modules
• DC simple : généricité, universalité– 15 éléments caractérisés par 10 propriétés norme ISO 15836-2003 Ex : title, relation
• DC qualifié : de la précision– + “qualificatifs” plus spécifiques– Ex: alternative, hasFormat …
• DC étendu : des compléments– + éléments issus d’autres standards (Learning Object Metadata IEEE-
LOM), ex : audience– + éléments récents : provenance, accroissement de collections …
• “Encoding schemes” : homogénéiser les valeurs des éléments et qualificatifs
– Pour homogénéiser les valeurs des éléments– ex. thésaurus, codes ISO langues et pays …
Dublin Core simpleen une page
• Les éléments descriptifs du contenu de la ressource– title, description, subject, coverage, type, language, relation
• Les éléments “administratifs”– Des éléments descriptifs des droits
• creator, contributor, publisher, rights, source– Des éléments techniques
• format, date, identifier
• Un élément de structure (parfois) : relation
• Des recommandations pour homogénéiser les contenus des valeurs
– Utiliser des ressources reconnues : thésaurus, codes langues, pays … et des modèles de valeur
Dublin Core qualifiéexemple 1
Element Qualificatif Qualificatif
titleNom donné à la ressource
alternative : autre titre (traduction, abréviation…)
descriptionDescription du contenu de la ressource
abstract :résumé
tableOfContent :liste des sous-unités du contenu de la ressource
Dublin Core qualifiéexemple 2
Relation
Référence à une ressource liée ...
Il est recommandé d'utiliser une dénomination formelle des ressources (URI)
Qualificatifs
isFormatOf / hasFormat
isVersionOf / hasVersion
isReplacedBy / replaces
isRequiredBy / requires
isPartOf / hasPart
isReferencedBy / references
conformsTo
Dublin Core en XML
• Dublin Core simple
• Dublin Core qualifié
Plus professionnel • Description plus fine• Attributs xml:lang, xsi:type plus fréquents• Valeurs contrôlées plus souvent
<dc:title>Métadonnées et XML</dc:title> <dc:relation>Ingénierie des systèmes d’information, 2005, no 2</dc:relation> <dc:type>Text</dc:type> … ex : enregistrement oai_dc
<dcterms:alternative xml:lang=“en”>Metadata and XML </dcterms:alternative>
<dcterms:isPartOf>Ingénierie des systèmes d’information, 2005, no 2</dcterms:isPartOf>
Moissonneurs et DC, exemple OAISTER
Dublin Coreintérêt … et limites
• Consensus international et interprofessionnel• Sémantique “commune” interdisciplinaire ; multilinguisme• Simplicité – 2 niveaux d’usage• Flexibilité• Normalisation et évolutivité
largement adopté aujourd’hui
• Description généraliste pour la recherche d’informations– Pour des ressources plutôt électroniques et “isolées”
• Métadonnées techniques et administratives limitées• Implémentation peu contraignante
… dans des “profils d’application” … ou à côté d’autres
descriptions
DC : “le pouvoir de la simplicité” …
Archives ouvertes et protocole OAI-PMH
Bibliothèques numériques
EBooks : standard ePUB
Corpus Recherche (OLAC …)
Thèses Electroniques Fr
“Informations publiques”
Annuaires et portails
XMP et images
Web 2Web sémantique
Profils d’applications
Z39.50, SRWOpenURL
Outils logiciels …
2008 : DCAMDublin Core Abstract Model
• “Web sémantique” : d’un Web de “documents” à un Web de “données” interopérables
– compréhensibles par les machines – Indépendantes du contexte applicatif, interconnectables– … pour créer de nouvelles données / “raisonnement machine” Standards !
• Ecriture structurée : triplets RDF• Propriétés et valeurs issues d’espaces de noms et ontologies autant que
possible : connaissances scientifiques, savoir-faire, personnes, objets (numériques ou non), droits …
DC devient une “ontologie”, pour décrire des objets de l’activité intellectuelle et artistique
– Via une modélisation abstraite des entités Dublin Core et de leurs relations, sur le modèle RDF
• http://purl.org/dc/terms
– Utilisée avec d’autres ontologies – Voir DBPedia, Libris … Sindice
LIBRIS, catalogue collectif suédoisRDF, DC et autres …
Source : http://blog.libris.kb.se/semweb/?p=7
MODS Metadata Object Description standard
• Sous-ensemble d’éléments MARC verbalisés, “suffisant pour créer un enregistrement bibliographique complet”
– Finesse supérieure à Dublin Core, + convivial que *MARC
• Né et stabilisé en 2003, Library of Congress– http://www.loc.gov/standards/mods/
Descriptions de ressources très diverses– Textes, images, audio-visuel, partitions, sites Web, bâtiments
… implémentés avec des suites d’outils variés– France : base de données DAPHNE, http://daphne.cnrs.fr
• 3 partenaires : BAHR, FRANCIS, Frantiq– 100 entrepôts OAI-PMH
MODS et OAI-PMHExtrait …
"
<name type="personal"> <namePart type="family"> Wheatley</namePart> <namePart type="given"> Phillis</namePart> …</name>
MODS et moissonneurs “généralistes”Un début …
MODS, pivot de DAPHNE
BiblioML versus MODS ? (5 blocs, 224 éléments) http://90plan.ovh.net/~adnx/biblioml/doku.php
MODS, Libr of Congress
3 - METSMetadata Encoding and Transmission Standard
• Né en 2001, projet MOA “Making of America” II– Collections numériques sur l’histoire des Etats-Unis
• Créé et maintenu par la Library of Congress, http://www.loc.gov/standards/mets/– Pour décrire / créer, et partager / échanger des “objet
numériques complexes”
• “Enveloppe” comprenant tous les types de métadonnées “bien rangés” dans des sections, avec liens explicites entre composants …
METS, structure
Carte(s) de structure
Section des fichiers
Descriptioncontenu
Administration Juridiques
Techniques Préservation *
metsHdr
Liens structureSection
comportements
DC, MODS EAD
ONIX …
DC, MODS EAD
ONIX …
Creat. Com. METSRights
PREMISMIX..
Creat. Com. METSRights
PREMISMIX..
METS, fonctions
Transferts de gros paquets de (méta)données organisés de manière standard et structurée Utilisation facile / implémentation plus complexe
Pérennisation des collections et métadonnées Permet l’implémentation des “paquets de soumission”
conformes à la norme OAIS
Pré-organise les diffusions Prépare les interfaces de navigation dérivées(sections : carte de structure, comportement, administrative …)
METS aujourd’hui
• Des applications, des outils … – http://www.loc.gov/standards/mets/mets-registry.html– FEDORA, Greenstone … DSpace– 130 entrepôts OAI-PMH
• … en France– Entrepôts OAI-PMH : Revues.org, Persée, Cairn – Thèses électroniques françaises
• un seul fichiers METS encapsulant DC, MODS, ETDMS … pour chaque thèse et toutes ses versions http://www.abes.fr/abes/documents/tef/exemples.html
– Editions Electroniques de l’Ecole des Chartes (+ TEI)– BNF : SPAR, archivage pérenne des collections numériques– Archivage pérenne des archives visuelles du CN2SV
• entrepôt “OAIS”, Data Center … … ?
METS, Library of Congress
Conclusion : un exemple, la plateforme du CN2SV pour les fonds d’archives des sciences
• http:/www.arch.cn2sv.cnrs.fr/
La plateforme du CN2SV : XML et métadonnées standard à tous les étages
METS
Data centerModèle OAIS Entrepôt OAI-PMH
DC- XML
AjoutMétas IPTC
embarquées
(XMP)
…
Création fichier EAD
extraction
MoteursAnnuaires
Web
Source : présentations de Stéphane Pouyllau