janvier 2007 1 les archives ouvertes larchive hal daniel.charnay@ © ccsd - cette présentation...
TRANSCRIPT
Janvier 2007 1
Les archives ouvertesL’archive HAL
daniel.charnay@
© ccsd - Cette présentation contient des animations ; elle doit être consultée en mode « diaporama », hors de ce
mode, un certain nombre d’informations ne sera pas visible. Pour les mêmes raisons l’impression est déconseillée.
Janvier 2007 2
En un mot
Mettre à disposition sur Internet la littérature scientifique produite par les chercheurs
Donner aux chercheurs du monde entier mais aussi au grand public la possibilité d’accéder gratuitement aux résultats de la recherche
Faire de l’archive ouverte un outil de travail pour le chercheur
Une archive ouverte n’est donc rien d’autre qu’un site Web permettant : Aux chercheurs de déposer leurs publications Aux internautes de les lire en téléchargeant directement le document
sur leur ordinateur
Janvier 2007 3
Phrases clés, mots clés
Libre accès aux résultats de la recherche
Réappropriation de la communication scientifique par les scientifiques Revendication « humaniste » : le libre accès à la connaissance, gratuité,
accessibilité Revendication pragmatique : les budgets documentaires des organismes n’arrivent
plus à suivre les tarifs des éditeurs
Communication scientifique directe (CSD) Un circuit court et rapide entre les chercheurs pour faire connaître leur résultats (et
prendre date pour leur recherche)
Auto archivage Les chercheurs déposent eux-mêmes leurs articles sur des bases ouvertes
Interopérabilité On met en œuvre des moyens pour « favoriser » l’interconnexion des bases
d’articles scientifiques
Archivage à long terme
Les archives ouvertes nous font revenir à une vieille tradition, celle de l’échange direct de correspondances scientifiques entre savants.
Janvier 2007 4
L’impact du Web sur l’édition scientifique ou comment convaincre les chercheurs …
Visibilité et accessibilité L’impact d’une publication est accru de manière substantielle si celle-ci est
accessible librement sur le Web « On line or invisible » ? S. Lawrence, NEC Research Institute
Dans les domaines de mathématiques (Odlyzko A., 2001), astrophysique (Kurtz
MJ, 2003), physique, avec un échantillonnage de 14 millions d’articles de la BdD ISI sur 10 ans, le taux de citation serait de 2.5 à 5 fois supérieur pour les articles en libre accès (S. Harnad, 2004)
Depuis fin novembre 2004, on peut consulter http://scholar.google.com qui indexe les articles en ligne et traite toutes leurs références
Janvier 2007 5
Disponibilité sur Internet ?
Pérennité des documents en ligne : un objectif des archives ouvertes Différentes études sur les liens figurant en notes de bas de page et
références des publications révèlent une inquiétante «dégénérescence» avec le temps : 4% des liens cités dans les articles de 3 journaux scientifiques (Nature,
Science et The New England Journal of Medecine) sont inaccessibles 3 mois après leur publication; ce taux monte à 10% après 15 mois, 13% après 27 mois …
40% des liens référencés par les articles de deux journaux informatiques sont inaccessibles 4 ans après la publication
« Je pense à l’incendie de la bibliothèque d’Alexandrie »
Robert Delavalle, physicien à l’université du Colorado
Janvier 2007 6
Un mouvement mondial en faveur du libre accès
Au-delà des accords de Budapest (2002), Bethesda et Berlin (2003)
25 prix Nobel soutiennent le Libre Accès (lettre ouverte au congrès, septembre 2004)
En France L’Académie des Sciences, l’INRIA, l’INSERM, le CA de l’ANR, le CNRS, l’Institut
Pasteur, etc. recommandent le dépôt en archives ouvertes Signature d’un accord inter-établissements :
CEMAGREF, CIRAD, CNRS, CPU, INRA, INRIA, INSERM, Institut PASTEUR, IRD, Conférence des Grandes Ecoles
De nouvelles institutions rejoignent l’accord (CEA, etc.)
Janvier 2007 7
Naissance de HAL, la mission du CCSD
Une initiative pour des archives scientifiques multidisciplinaires
Une approche internationale : Ne construire ni une archive nationale, ni une archive institutionnelle mais
s’intégrer dans le mouvement « open archives »
Une approche essentiellement « chercheur » Des archives alimentées directement par les chercheurs avec, comme
vocation première, la réalisation d’un outil scientifique offrant l’accès au texte intégral du document
Un outil institutionnel « indirect » grâce à la collecte de méta données suffisantes (association auteur -> laboratoires -> institutions)
Un devoir d’archivage à long terme, et de maintient de la disponibilité des documents dans le temps
Janvier 2007 8
ArXiv, un modèle en physique et mathématiques depuis plus de 12 ans
Initiative de Paul Ginsparg à Los Alamos (xxx) 4 000 manuscrits déposés par mois 500 000 manuscrits déposés à ce jour 300 000 consultations journalières Des sites miroirs dans le monde entier
Australie, Brésil, Chine, Allemagne, Inde, IsraëlItalie, Japon, Russie, Afrique du Sud, FranceCorée du Sud, Espagne, Taiwan, Angleterre,…
Janvier 2007 9
L’archive ouverte HAL
Développée par le CCSD
Partenariat avec l’INRIA
Technologies « libres » LAMP (Linux, Apache, MySQL, PHP)
Environnement sécurisé Hébergé par le Centre de Calcul de l’IN2P3 Réplication des données au CINES
Un futur placé sous le pilotage par l’ensemble des établissements signataires
Janvier 2007 10
HAL, centralisation apparente, mutualisation certaine !
une plate forme commune centralisée pour, Garantir l’accessibilité au texte intégral
Permettre l’indexation global du texte intégral contenu dans la base
Préserver un niveau scientifique homogène et de qualité
Offrir une meilleure visibilité à l’international
Interconnecter avec les bases mondiales de référence
Fournir des URL pérennes et ainsi permettre la citation numérique
« Horodater » les dépôts et ainsi valider une antériorité scientifique C'est le dépôt de la création auprès d'un tiers (on ne peut être témoin pour soi-
même) qui va permettre de façon irréfutable de prouver cette antériorité, élément clé de la preuve.
Enrichir automatiquement les référentiels institutionnels
Limiter la saisie des références à un seul système
Effectuer l’archivage à long terme
Et … limiter l’effort à une seule unité spécialisée
Janvier 2007 11
HAL Quels documents ?
Pré publications, publications, post publications, notices bibliographiques :o((
Typologie des notices bibliographiques associées Publications dans des revues à comité de lecture Conférences invitées dans des congrès Proceedings à comité de lecture Publications dans des revues sans comité Communications à des congrès, symposiums Séminaires, workshops Chapitres dans les ouvrages Livres et ouvrages Brevets Thèses
II.2 - Bilan quantitatif sur les quatre dernières années concernant :
II.2.1 Articles dans des revues avec comité de lecture (ACL) - internationales - nationales II.2.2 Articles dans des revues sans comité de lecture (SCL) II.2.3 Conférences invitées (INV) II.2.4 Communications avec actes (ACT) - internationales - nationales II.2.5 Communications sans actes (COM) II.2.6 Ouvrages scientifiques (ou chapitres) (OS) II.2.7 Ouvrages de vulgarisation (ou chapitres) (OV) II.2.8 Directions d'ouvrages (DO) II.2.9 Autres publications (AP) II.2.10 Autres activités internationales (AI) II.2.11 Information et culture scientifique et technique II.2.12 Valorisation : contrats de recherche, partenariat industriel, créations d'entreprises
Pour les brevets, certificats d'obtention végétale et logiciels.
Normalisation en cours sur la liste du ministère
Janvier 2007 12
Déposer dans HAL
Modalités de dépôt
Identification simplifiée Compte auto validé (possibilité d’authentification institutionnelle) Contributeurs : auteurs, documentalistes, etc.
Niveau scientifique requis « Tout article qui, soumis à une revue à comité de lecture, serait
envoyé à un rapporteur » Vérification avant mise en ligne
Vérification technique Validation scientifique sommaire par domaine scientifique
Format des documents libre Format visualisable obligatoire (PDF, PS) Fichiers sources recommandés
Janvier 2007 13
Dépôt sans retrait ?
L’absence de retrait depuis l’interface assure la responsabilisation des dépôts, et donc le niveau scientifique de l’archive ouverte (ce n’est pas un blog…). C’est absolument essentiel pour l’existence même de l’archive.
Cela évite des utilisations scientifiques frauduleuses : dépôt de résultats contradictoires pour prendre date avec retrait postérieur
des dépôts faux, etc.
On ne peut pas citer dans une publication scientifique un texte qui risque à tout moment d’être retiré par son auteur ! La stabilité des dépôts et des adresses est donc cruciale
L’alternative au dépôt sans retrait est la possibilité de déposer de nouvelles versions La dernière version est proposée par défaut au lecteur, mais celui-ci peut toujours
accéder aux versions antérieurs
Janvier 2007 14
Déposer dans HAL, responsabilités
La responsabilité éditoriale des éditeurs scientifiques et comités de lecture est remplacée par la responsabilité individuelle de l’auteur qui présente son travail à la communauté internationale.
Comme pour une publication traditionnelle, un dépôt engage la responsabilité du laboratoire et des institutions dont il dépend.
Le travail décrit doit être un travail achevé, bien rédigé, comparable à un manuscrit soumis à une revue scientifique. Une archive ouverte n’est pas un blog ou un cahier de laboratoire !
Janvier 2007 15
Politique des éditeurs
Les éditeurs, sont de plus en plus nombreux à permettre le dépôt en archives ouverte de la version auteur.
Depuis mai 2004 : Elsevier
« An author may post his version of the final paper on his personal web site and on his institution’s web site (including his institutional repository). Each posting should include the article’s citation and link to the journal homepage (or the article DOI). The author does not need our permission to do this, but any other posting (e.g to a repository elsewhere) would require our permission. By his version we are referring to his word or tex file, not a pdf or HTML download from science direct, but the author can update his version to reflect changes made during the refereeing and editing process. »
K. Hunter senior vice president strategy Elsevier, may 2004
Janvier 2007 16
Respect des éditeurs
Certaines conditions doivent être respectées pour déposer sur une archive ouverte comme Hal : On déposera généralement les «fichiers auteur», produits au sein du
laboratoire, sauf deux exceptions : il est légal de déposer le « fichier éditeur » ou un scan d’un article publié de
certaines revues en « open access » on peut le faire également au coup par coup avec l’autorisation explicite de
l’éditeur (qui est très souvent accordée). De même un « fichier auteur » ne doit pas être déposé si l’auteur a cédé les
droits exclusifs (y compris de diffusion électronique) à un éditeur par un contrat explicite qu’il a signé.
De plus, dès qu’un document est publié, il est recommandé d’ajouter dans l’archive ouverte les références de publication, et le lien DOI vers la publication commerciale
Utiliser le dépôt différé de HAL pour respecter la période d’embargo de l’éditeur
N’oublions pas : les éditeurs commerciaux n’ont que les droits qui leur sont cédés par les auteurs ! À ceux-ci de ne signer que ce qui est
strictement nécessaire!
Janvier 2007 17
HAL, usages
Scénario Le chercheur dépose sa pré publication dans l’archive Des retours rapides de sa communauté scientifique vont peut être initier
de sa part le dépôt d’une nouvelle version C’est « presque » avec l’assentiment de sa communauté qu’il dépose sa «
pré publication » chez un éditeur L’article est publié, le chercheur met à jour les références bibliographique
dans la base, l’article devient une publication Le chercheur souhaite faire de nouvelles mise à jour de cet article ?
Il en dépose une nouvelle version ! post publication Le cycle de vie d’un article va donc au-delà de sa publication dans une
revue : e-publication ? Les archives ouvertes bouleversent la publication : post publications et pré publications deviennent des notions plus floues, voir différentes !
Janvier 2007 18
Déposer ou que vais-je devoir faire ?
1. Renseigner une fiche de méta données Auteurs et leurs appartenances, titre de l’article, journal dans lequel il est
paru, domaine scientifique auquel se réfère l’article, etc.
2. Déposer le ou les fichiers composant le texte intégral de l’article (full text) Selon les disciplines le fichiers peut être
Un fichier Word assorti éventuellement de fichiers d’images, un fichier PDF, …
Un fichier TeX ou Latex assorti éventuellement de fichiers contenant des figures
Si plusieurs fichiers sont nécessaire on pourra les envoyer séparément ou en une seule fois (archive ZIP par exemple)
Sans texte intégral le dépôt n’est que la notice d’un article
publié
Janvier 2007 19
HAL, le choix des méta données « à l’œil »
Lorsque l’on regarde un article scientifique, on identifie facilement les méta données essentielles à préserver Titre Résumé Auteurs et affiliation Date Références de publication (si l’article est
publié)
Si l’on ajoute quelques méta données évidentes Classification thématique Mots clés …
On obtient un cœur de méta données qui devrait être commun à toute archive
Janvier 2007 20
Méta données disciplinaires
HAL générique recueille un cœur de métas données identique pour toutes les disciplines scientifiques
Certains portails exploitent des méta données ou des fonctionnalités institutionnelles et disciplinaires ! Exemple HAL-INSERM permet de télécharger les méta données d’une
notice via le « pubmed_id »
HAL générique intègre toutes méta données ou fonctionnalités disciplinaires Toutes les notices d’une même discipline sont ainsi homogènes quel que
soit le portail utilisé pour le dépôt
Janvier 2007 21
Cohérence des méta données
Chaque fois que cela est possible les méta données Seront issues de listes d’autorité pouvant provenir
Des référentiels institutionnels Listes de laboratoires, d’universités, base LDAP, etc.
De listes normalisées Listes des pays, des langues
De listes constituées au « fur et à mesure » Listes de journaux
S’il existe un référentiel L’alimentation de la liste d’autorité devrait être le résultat d’un
automatisme Mise à jour tous les …
Janvier 2007 22
Méta données techniques
Ce sont des méta données « non scientifiques » mais nécessaires ; elles sont généralement attribuées automatiquement Identifiant unique (et URLs associées) Identité du déposant Horodatage du dépôt Historique des modifications des méta données Liens entre les versions Etc.
Janvier 2007 23
Stabilité
Stabilité des identifiants La référence d’un article en base d’archives ouvertes doit
pouvoir être consigné dans le texte. Il doit être possible de citer un article en donnant son
adresse dans une archive ouverte
Des URL courtes et pratiques sont fournies http://hal.ccsd.cnrs.fr/LAAS http://hal.ccsd.cnrs.fr/autlab/nomauteur/nomlabo/
Il importe que l’URL de l’archive donc des documents contenus soit préservée coûte que coûte !
Janvier 2007 24
Interopérabilité, interconnexions, imports/exports
OAI-PMH multi formats dont OAI_DC (Dublin core non qualifié)
REDIF pour le moissonnage par RePeC (économistes)
RSS
Connexions arXiv dans les domaines de physique et mathématiques (biologie),
uniquement de HAL vers arXiv Pubmed (HAL-INSERM)
Depuis février 2006 facilité d’import de la notice depuis Pubmed Transfert vers Pubmed Central en cours d’étude
Imports Fichiers XML, méta données et texte intégral Web services
Exports Listes selon critères de recherches dans tous les formats informatiques usuels « Home page » chercheur Exports institutionnels (Crac, Labintel, Graal, etc.) Web services
Janvier 2007 25
Fichiers
texte intégral
Méta données
Arc
hiv
e o
uve
rte
Fichiers
texte intégral
Méta données
Arc
hiv
e o
uve
rte
Fichiers
texte intégral
Méta donnéesA
rch
ive
ou
vert
e
harvester
Fo
urn
isse
ur
de
serv
ices
Méta données
Index,…
Fournisseurs de données – Data providers
Fournisseur de service – Service providerOAI-PMH en un mot !
Janvier 2007 26
Structure de HAL
Quels services peut-on attendre de l’archive ?
Janvier 2007 27
Portails de dépôts
Texte intégralTexte intégral
Noticebibliographique
Noticebibliographique
HALINRIA HAL-SHS
AUTRESUNIV
INRA
PubMed Central(2006)
PubMed Central(2006)
ArXivArXivMéta données communes
Méta données disciplinaires
Méta données institutionnelles
haLEXPORTSIMPORTSXML, WS
TEL
générique
disciplinaire
typologiqueinstitutionnel
OAI-PMHREDIFRSSEtc.
Janvier 2007 28
haLEXPORTSIMPORTSXML, WS
OAI-PMHREDIFRSSEtc.
Collections personnalisables, extractions, tampons
Janvier 2007 29
référentiel
laboratoires
référentiel
titres de revues
Les principaux référentiels de HAL
référentiel
classification
scientifique
La classification scientifique est faite par les chercheurs et pour les chercheurs.
Le but recherché est d’avoir un maximum de 2 niveaux arborescents contenant une trentaine d’item au maximum pour une discipline.
Janvier 2007 30
Services WEB : interconnexion d’applications
Utilisation du protocole SOAP (Simple Object Application Protocol) Échange de données au format XML Encapsulation du texte intégral en base64 pour son transfert
Fournir des méthodes pour qu’une application informatique extérieure puisse utiliser HAL Lecture des référentiels (laboratoires, thématiques, listes des journaux, etc.)
Nécessaire pour préparer l’envoi d’un document Dépôt d’un document Modification des méta données d’un document, ajout des références, etc. Dépôt d’une nouvelle version Recherche et lecture dans la base
En adhérant au schéma de données de HAL, il devient possible de connecter son propre système documentaire de créer sa propre interface de dépôt
Janvier 2007 31
Services Web, premiers projets
Développé par EVER-EZIDA pour le compte de la MISHA Le logiciel FLORA permet de déposer sur HAL
sur demande de l’utilisateur, le dépôt d’un article « pertinent » pour HAL sera automatiquement effectué
Disponible depuis novembre 2006
Intégration de HAL dans les ENT des universités Travail en cours avec les universités de Nancy-Metz, l’AMUE,… Projets GRAAL, ORI, etc.
Utilisation dans un portail de recherche fédéré En cours de réalisation au CIRAD, en étude à l’université de Lyon 1
Janvier 2007 32
Statistiques de dépôt
Janvier 2007 33
PHYS21%
SHS 23%
MATH 10%
INFO 29%
SDU 5%
SPI 4%
SDV 4%
NLIN 0%
STIC 1%
CHIM 1%
SCCO 2%
Répartition par domaines scientifiques des dépôts avec texte intégral
Janvier 2007 34
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Nombre de dépôts en texte intégral sur l’ensemble de l’archive
68076807
Janvier 2007 35
Evolution des dépôts
Janvier 2007 36
Questions ? Questions ?
http://hal.archives-ouvertes.fr
http://ccsd.cnrs.frDocumentations utilisateurs et développeursTutoriels (vidéos)ManuelsAccès aux différents portails (SHS, …)etc.
Support [email protected] (mail)http://support.ccsd.cnrs.fr
Janvier 2007 37
Compléments
Janvier 2007 38
Service Web, la publication de STAR dans TEL
Au terme du circuit d’une thèse dans STAR sa diffusion sera faite dans TEL Si le doctorant avait déjà déposé sa thèse dans TEL (circuit plus court et
plus rapide), l’arrivée de la version STAR produira une version 2 (ou une version n+1) de la thèse dans TEL
La thèse déposée par STAR sera labellisée « version officielle » Des différences notables pourront exister :
La thèse déposée par le doctorant dans TEL n’aura peut être pas les corrections demandées par le jury ?
La thèse produite par STAR sera peut être expurgée de certain documents (photos, cartes, …) non libres de droit et remplacés par des «fantômes »
Mais le lecteur pourra toujours accéder à l’ensemble des versions
Le protocole de dépôt de STAR dans TEL utilisera les web services
Janvier 2007 39
Méta portail
Principe Regrouper les portails d’une fédération d’établissements ou de
laboratoires dans un portail unique Proposer une navigation élémentaire
Lorsque l’on s’échappe dans un des portails, on trouve un onglet de retour vers le méta portail
En projet pour Le PUL (Pôle Universitaire Lyonnais) Agropolis L’Institut fédératif des neurosciences Etc.