les archives de la recherche : diffusion et structuration des inventaires en ead
DESCRIPTION
Auteur : Matthieu Andréani Mémoire professionnel Master 2 (spécialité documentation sonore et audiovisuelle) AMU Aix-en-Provence Titre complet : Les archives de la recherche : diffusion et structuration des inventaires en EAD. Le cas des archives sonores de la phonothèque de la MMSH Directeurs de recherche : Maryline Crivello, Professeur des Universités, AMU Véronique Ginouvès Responsable de la phonothèque de la MMSH Année universitaire 2013-2014TRANSCRIPT
Les archives de la recherche :
diffusion et structuration des inventaires en EAD
Le cas des archives sonores de la phonothèque de la MMSH
Mémoire professionnel
Matthieu Andreani
Directeurs de recherche :
Maryline Crivello
Professeur des UniversitésAix-Marseille I
Véronique Ginouvès
Responsable de laphonothèque de la MMSH
Master II : métiers des archives, parcours 3 documentation sonore et audiovisuelle
Année universitaire 2013-2014
Table des matières
Introduction.......................................................................................................................4
I. Les archives de la recherche...........................................................................................6
1.1. Délimitation du champs des archives de la recherche...........................................6
1.2. Statut juridique.......................................................................................................8
1.3. Intérêts et enjeux..................................................................................................10
II. Les normes et standards de description archivistique.................................................14
2.1. Définition et typologie.........................................................................................14
2.2. Enjeux..................................................................................................................15
2.3. Histoire.................................................................................................................16
2.3.1. Émergence de la normalisation du langage de description..........................16
2.3.2. Développements des échanges inter-établissements....................................18
2.4. Le standard EAD.................................................................................................20
2.4.1. Création........................................................................................................20
2.4.2. Nature et statut normatif...............................................................................21
2.4.3. Substrat technique : la syntaxe XML...........................................................21
2.4.4. La DTD EAD...............................................................................................24
III. La construction d'un espace en ligne pour les archives de la recherche....................27
3.1. Vue d’ensemble....................................................................................................27
3.2. Calames................................................................................................................28
3.2.1. Création et missions de l’ABES...................................................................28
3.2.2. Le projet Calames........................................................................................29
IV. Le standard EAD appliqué aux archives sonores de la recherche.............................33
4.1. Cadre de l'expérience...........................................................................................33
4.1.1. L’intégration de la phonothèque de la MMSH au réseau Calames..............33
4.1.2. Le projet de catalogage................................................................................34
4.1.2.1. Le fonds Marceau Gast.........................................................................34
4.1.2.2. Le fonds Jean-Noël Pelen.....................................................................34
4.1.3. L’outil de catalogage....................................................................................35
4.2. L’opération d'encodage........................................................................................37
2
4.2.1. La mise en correspondance des structures...................................................37
4.2.2. La mise en correspondance des éléments de données..................................39
4.2.2.1. Les métadonnées du catalogue.............................................................39
4.2.2.2. La description du fonds........................................................................40
4.2.2.3. La description du corpus et des documents..........................................41
a. Identification et description <did>............................................................42
Intitulé de l'unité documentaire................................................................42
b. Les éléments de description contextuelle.................................................45
c. Les éléments d’indexation du document...................................................51
V. Bilan, perspectives et conclusion................................................................................58
5.1. Apports et limites de l'EAD et de Calames..........................................................58
5.2. De nouveaux défis pour les archives de la recherche..........................................60
Conclusion.......................................................................................................................64
Bibliographie...................................................................................................................65
Liste des tableaux et des figures......................................................................................68
3
Introduction
En août 2013, la section des universités et institutions de recherche du
Conseil international des archives (ICA/SUV) lance un appel à communication autour
du thème « Archiver la recherche – Pourquoi ? Comment ? ». Le colloque qui se
déroulera en 2014 aura pour thème central les modalités et les enjeux de la
valorisation des archives de la recherche. La problématique annoncée (« pourquoi
archiver la recherche ? ») révèle bien la nouveauté de ce champ de réflexion, tandis
que sa seule présence au programme d’un événement de cette importance
témoigne de sa vitalité. La publication, en juin 2014, de l'ouvrage de Jean-François
Bert, Qu'est-ce qu'une archive de chercheur ?1, alimente encore cette dynamique.
Depuis la fin des années 1990, on observe le développement de
préoccupations nouvelles à l’égard des archives de la recherche. Les débats portent
sur leur définition, et mettent en avant leurs multiples enjeux. Ceux-ci pointent
également un certain retard concernant leur signalement sur le web. En effet, si le
web est aujourd'hui l'un des vecteurs principaux de la diffusion des résultats de la
recherche, les corpus documentaires et données brutes de la recherche ne
connaissent pas toujours le même traitement.
Dans ce mémoire, nous tentons d'apporter des réponses aux
problématiques suivantes : Quels sont les enjeux liés à l'archivage et la diffusion des
archives de la recherche ? Comment améliorer leur signalement ? Comment rendre
ses données utilisables pour d'autres chercheurs ? Sur quelles technologies appuyer
cette diffusion ? Au sein de quel réseau ?
1 Jean-François Bert, Qu’est-ce qu’une archive de chercheur ?, Marseille, OpenEdition Press, 2014, 84 p. URL : http://books.openedition.org/oep/438. Consulté en juin 2014.,3
6+69+9*
4
Dans cet objectif, nous étudions le standard EAD (Encoded Archival
Description) comme solution à la diffusion en ligne des inventaires d’archives de la
recherche. Nous analysons les démarches, avantages et défis liés à cette opération
d'encodage.
Ce travail se compose de cinq parties :
La première est consacrée à la délimitation du champ des archives de la
recherche et la définition des enjeux qui leurs sont liés. Nous mettons en lumière
l’intérêt et la nécessité de leur mise en accessibilité auprès des historiens et autres
communautés scientifiques.
Ensuite, nous étudions les possibilités de mise en œuvre de cet accès, en
montrant l’évolution de la standardisation archivistique au niveau international. Le
format EAD est alors présenté, ainsi que les outils informatiques et la
documentation nécessaires à son implémentation.
Dans une troisième partie, nous décrivons l'émergence de projets
numériques autours des données de la recherche, en particulier le Catalogue
collectif des archives et manuscrits de l'enseignement supérieur (Calames).
La quatrième partie commente le test d'encodage en EAD qui a été effectué
sur un inventaire de deux fonds d’archives sonores de la phonothèque de la Maison
Méditerranéenne des Sciences de l’Homme.
Finalement l'application du standard EAD aux archives sonores de la
recherche est évaluée. Le bilan du catalogue collectif d’archives sonores Calames
5
est établi et les perspectives de l’EAD sont analysées en fonction des besoins des
archives de la recherche.
I. Les archives de la recherche
Dans cette première partie, nous nous attachons tout d’abord à délimiter
notre champ d’étude en proposant une définition des archives de la recherche.
Nous nous intéressons ensuite aux enjeux propres à ces archives. Nous discutons à
cette occasion de leur statut juridique.
1.1. Délimitation du champs des archives de la recherche
Au sein de la communauté archivistique, la reconnaissance de la nature
propre des archives de la recherche n’est pas acquise. En effet, les principaux
référentiels ne leur consacre pas d’entrée2. De plus, la variété des dénominations
(archives de la recherche, archives de chercheurs, archives scientifiques, archives des
sciences, données de la recherche) et des définitions témoignent de l’absence de
consensus.
En apparence synonymes, ces termes ne désignent pas toujours des
documents de même provenance. Suivant l’un des principes fondamentaux de la
pratique archivistique, la définition d'un type d'archive passe pourtant par la
définition de la provenance. Le dossier de l’Agence de mutualisation des universités
et établissements (AMUE) sur la gestion des archives au sein d’un établissement de
l’enseignement supérieur et de recherche distingue ainsi deux types de provenance
2 Danièle Neirinck, La pratique archivistique francaise, éd. Jean Favier, Archives nationales, Paris, 2008, 630 p.
6
des archives de la recherche : les archives de laboratoire et de centre de recherche
et les archives des chercheurs3. Thérèse Charmasson distingue quant à elle trois
grandes catégories : « les archives de tutelles des établissements de recherche et
d’enseignement scientifiques, les archives propres des établissements eux-mêmes
et les archives personnelles des scientifiques4 ».
Ces typologies étendent le champ des archives de la recherche au-delà des
archives de chercheurs. La grande hétérogénéité des producteurs rend difficile
l'analyse. Dans le cadre de ce mémoire, nous nous concentrerons sur les archives
provenant des chercheurs.
Nous désignerons sous le terme d'archives de la recherche « celles sur la
base desquelles [le chercheur] mène son travail d’investigation et d’étude et celles
qu’il produit au cours de son activité de recherche »5 .
De la même façon, Goulven Le Brech s'appuie sur le circuit de la recherche
afin d’établir une tripartition, riche de détails sur la nature des ressources.
- les archives issues du travail de recherche (en laboratoire, sur le terrain, en
bibliothèque, Archives…) : cahiers de laboratoire, correspondance, comptes
rendus de réunions, notes, rapports, fiches de travail, notes de travail,
carnets de terrain, documentation diverse (revues, tirés-à-part, plaquettes,
fascicules), littérature grise (rapports, études), documents relatifs à la
participation à des colloques et conférences (programmes, compte-rendu,
liste de chercheurs…), rapports d’expertise.
3 AURORE, « La gestion des archives au sein d’un établissement de recherche », Dossiers de l’agence,AMUE, 2010, p. 27.
4 Thérèse Charmasson, Les archives personnelles des scientifiques : classement et conservation, Archives nationales, Paris, 1995, p. 7.
5 Serge Wolikow, « Les archives du savoir en sciences sociales », Archives et sciences sociales : aspects juridiques et coopération scientifique, L'Harmattan, Paris, 2006, p.23.
7
- les archives consignant les résultats de la recherche : rapports, comptes
rendus de recherches, manuscrits et tapuscrits d’articles et/ou d’ouvrages,
épreuves, preprints, ouvrages, articles, tirés à part.
- les archives relatives à la réception des résultats de la recherche :
correspondance, coupures de presse, dossiers de traduction et de réédition
d’articles et d’ouvrages.
La définition de G. Le Brech est ancrée dans la réalité des documents
produits ou collectés par un chercheur au cours de sa carrière, quels que soient
leurs supports matériels, et prend en compte l’organisation et le suivi du processus
scientifique. Ce socle lui confère une grande homogénéité, tous ces documents
étant concernés par le même ensemble de problématiques.
Il est possible d'ajouter d'autres types de documents aux catégories
proposées plus haut, en particulier les bibliographies, les bases de données, les
enregistrements de terrain. Toutefois, aucune liste définitive ne saurait être établie
car les archives produites par les chercheurs sont en constante évolution
intellectuelle (suivant les méthodes et paradigmes scientifiques) et technologique
(langages informatiques, formats).
Enfin, il est nécessaire de circonscrire un champs disciplinaire, car les
produits de la recherche peuvent être très différents selon les domaines de
recherche. Dans le cadre de ce mémoire, nous étudierons le cas des archives de la
recherche en sciences humaines et sociales.
1.2. Statut juridique
Au premier abord, le statut juridique des archives est clairement défini par
les textes de lois sur les archives publiques. Ces documents sont en effet les
8
produits de l’activité d’un fonctionnaire chercheur ou enseignant-chercheur
exerçant son activité dans un établissement publique. À ce titre, elles sont des
archives publiques, définis par l’article L 211-4 du Code du Patrimoine :
Les archives publiques sont : les documents qui procèdent de l'activité, dans
le cadre de leur mission de service public, de l'État, des collectivités
territoriales, des établissements publics et des autres personnes morales de
droit public ou des personnes de droit privé chargées d'une telle
mission […]6
Cependant, la communauté scientifique, et d'une façon particulière en
Sciences Humaines et Sociales, doit faire face à des problématiques impliquant la
propriété intellectuelle et la protection des données. En effet, l’analyse de la
spécificité des contenus fragilise l’énoncé de ce statut juridique.
Les cas suivant mènent ainsi à des situations complexes de gestion des
droits :
Tout d'abord, l'existence du couple enquêteur-informateur crée une
« mosaïque juridique […] indémêlable : droit d’auteur, droit des témoins, droit des
interprètes, droit des sociétés où ont été produits les documents, droit à l’image,
droit des bases de données, droit des données publiques »7.
La présence d’informations et de données personnelles est un volet
important dans les difficultés qui s’appliquent au statut juridique des archives de la
6 Article L211-4 du Code du Patrimoine.7 Judith Hannoun, Véronique Ginouvès, « La diffusion des données en SHS : des questions juridiques
et éthiques à poser au niveau européen », Journée de présentation de l'infrastructure de recherche Dariah (Digital Research Infrastructure for the Arts and Humanities), Paris, 30 janvier 2013. URL : http://www.huma-num.fr/sites/default/files/ressourcesdoc/jh-vg-archives-des-ethnologues-30-01-13.pdf. Consulté en mai 2014.
9
recherche. Le préjudice peut également s'appliquer à la société où l'information a
été produite, ou au collecteur. Au cours des dernières années, des chercheurs et
groupes de réflexion se sont formés autour de cette problématique, avec pour but
la définition et la diffusion d’un véritable cadre éthique et juridique pour ces
documents8.
L’organisation de la recherche rend l’identification des producteurs
complexe. En effet, les co-financements, les cotutelles font que les documents sont
souvent produits par unités mixtes. En conséquence, il s’agit d’œuvres collectives.
D'une manière générale, les archivistes sont souvent confrontés, sans réelle
capacité d'intervention, à la décision personnelle des chercheurs de garder ou
détruire leurs archives, sans conscience du cadre juridique.
1.3. Intérêts et enjeux
L'archiviste doit être conscient des utilisations potentielles de ces
documents. Chacune de ces utilisations doit être connue et pleinement comprise
par le documentaliste afin de mener un traitement documentaire pertinent. De la
précision de la compréhension de ces utilisations dépend la précision et la
pertinence de la documentation.
- Les archives de la recherche nourrissent un large faisceau de disciplines9
composé de l'histoire de l'enseignement10, l'histoire des sciences (évolution des
disciplines, des objets et des méthodes, évolution de la structuration
8 Comme le projet Éthique et Droit en SHS. URL : http://ethiquedroit.hypotheses.org/. Consulté en janvier 2014.
9 Véronique Fillieux, « De la pluralité des exploitations du patrimoine scientifique d’une université d’aujourd’hui », Archives des savoirs, problèmes et enjeux, Genève, juin 2014.
10 Archives et sources pour l’histoire de l’enseignement, éd. Thérèse Charmasson, Comité des travaux historiques et scientifiques, Paris, 2005, 391 p.
10
institutionnelle11), de la sociologie, l'anthropologie du travail scientifique et la vie de
la recherche12, le patrimoine des établissements13, l'étude de la construction des
savoirs14, la sociologie de la connaissance15.
- Les archives de la recherche contiennent des données qualitatives ou
quantitatives qui ont statut de preuves scientifiques16. La publication de ces données
est inclus dans le processus de validation scientifique des résultats. La publication
des données favorise ainsi l'accroissement de la crédibilité et de la scientificité des
travaux.
- La mise à disposition des archives de la recherche facilite leur réexploitation
scientifique. Tout d'abord, pour des raisons scientifiques : afin d'en tirer des
résultats autres, la réutilisation consiste dans le réexamen d un ou plusieursʼ
ensembles de données avec un angle de recherche distinct de celui de l enquêteʼ
initiale. Mais aussi pour des raisons d'ordre « pratique » : parce que certaines
informations et données sont non-reproductibles (mémoire individuelle et
collective, savoir issu de tradition orale, événements uniques ou rares - activité
humaine ou phénomène naturel17-, ou pour des raisons d'ordre socio-économique18
(coût des missions).
- La publication des archives équivaut à un double référencement, ce qui a
11 Thérèse Charmasson, « Archives scientifiques ou archives des sciences : des sources pour l’histoire »,La revue pour l’histoire du CNRS, n°14, 2006. URL : http://histoire-cnrs.revues.org/1790. Consulté en janvier 2014.
12 Bruno Latour et Steve Woolgar, La vie de laboratoire: la production des faits scientifiques, trad. Michel Biezunski, Paris, France, la Découverte, 2006, 299 p.
13 Christian Hottin, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005.
14 Muriel Lefebvre, « Projet ECRITO », Projet ECRITO, 2012. URL : http://ecrito.hypotheses.org/le-projet/description-du-projet. Consulté en janvier 2014.
15 Ouvrage collectif, Lieux de savoir, éd. Christian Jacob, Albin Michel, Paris, 2010, 985 p.16 Emmanuel Ranc, « Les archives de recherche en Sciences Humaines et Sociales : Enjeux et Projets ».
URL : http://culture.univ-lille1.fr/fileadmin/documents/patrimoine/txt/38ranc.pdf. Consulté en janvier2014.
17 Christian Gaspin, Dominique Pontier, Laurence Colinet [et al.], « Rapport du groupe de travail sur la gestion et le partage des données », INRA, 2012. URL : http://www.pfl-cepia.inra.fr/uploads/gdp_docs/Rapport-GestionDonnees-web.pdf. Consulté en février 2014.
18 Sylvie Fayet, « “Données” de la recherche, les mal-nommées », URFIST Info, 2013. URL : http://urfistinfo.hypotheses.org/2581. Consulté en février 2014.
11
pour effet d'augmenter la visibilité du travail de recherche, valorise le chercheur et
son cadre institutionnel.
- Permettre la reproduction et la revisite19. En sciences humaines, les
principales variables des revisites sont la position sur le terrain (i. e. sociale), la
position scientifique, et le temps (i.e. l'éloignement).
A ces enjeux « directs » s'ajoute l'enjeu mémoriel du contenu, conséquence
fortuite de l'enquête ethnologique. Les populations enquêtées expriment un désir
légitime de réappropriation de ces archives20, qui renferment parfois la dernière
trace d'un savoir perdu. Cet aspect de l'archive de la recherche n'est pas négligeable
et donne à l'archiviste une responsabilité éthique envers les dépositaires d'un savoir
ou d'une mémoire. Les règles d'une recherche éthique en science humaine, dont
l'activité de l'archiviste est le prolongement, veulent que l'on considère le bénéfice
des participants à l'étude21.
Le tableau suivant reprend les informations précédentes en offrant une vue
schématique des interactions possibles avec l'archive de la recherche en fonction de
ses caractéristiques :
Tableau 1 : Les propriétés de l'archive de la recherche et les usages qu'elles provoquent
19 Gilles Laferté, « Des archives d’enquêtes ethnographiques pour quoi faire ? Les conditions d’une revisite », Genèses, no 63, juillet 2006, p. 25-45.
20 « De la numérisation des sources à leur diffusion auprès des populations enquêtées. Le cas des archives sonores et audiovisuelles des enquêtes interdisciplinaires de Plozévet (1961-1965) », Pôle Image-Son, 2010. URL : http://imageson.hypotheses.org/1174. Consulté en février 2014.
21 « Ethical research in social science », Wikipedia, the free encyclopedia, 2014.
12
Propriété Cadre scientifique Cadre publique
Trace de l'activité scientifique
Analyseanthropologique
Patrimonialisation
Non-reproductible Réutilisation Réappropriation
Trace méthodologique Revisite / reproduction -
Source de données Vérification -
Externe Publication -
Nous pouvons déduire de ces utilisations potentielles les utilisateurs : il s'agit
majoritairement des chercheurs dépositaires des archives, des chercheurs
provenant de la même discipline, des chercheurs provenant d'autres disciplines, les
établissements de recherche, les musées, les populations enquêtées.
13
II. Les normes et standards de description archivistique
2.1. Définition et typologie
Le terme de description archivistique renvoie à « la présentation
intellectuelle et matérielle d’une unité archivistique, faite pour en donner une
identification exacte et unique, en expliquer le contexte d’origine et en permettre
l’exploitation administrative ou historique »22.
Quatre types de normes nécessaires à la mise en œuvre de la normalisation
de la description archivistique se distinguent23. Tout d’abord, il doit exister une
norme « sémantique » structurant la description archivistique : une standardisation
des composants ou des catégories de description essentiels, et les relations entre
ces catégories. Deuxièmement, il doit exister une norme de contenu, qui spécifie les
catégories obligatoires et facultatives, les informations à inclure dans chaque
catégorie et la façon de les composer. Troisièmement, la description doit s’appuyer
sur des autorités et des référentiels communs (géographique, code de langue,
noms, sujets). Enfin, il est besoin d’un format de communication standardisé
établissant la syntaxe et fournissant la structure d’expression de la description.
22 Dictionnaire de terminologie archivistique, Direction des Archives de France, Paris, 2002. URL : http://www.archivesdefrance.culture.gouv.fr/static/3226 - Page archivée.
23 Daniel Pitti, « Encoded Archival Description: An Introduction and Overview », D-Lib Magazine, 5 (11), novembre 1999. URL : http://www.dlib.org/dlib/november99/11pitti.html. Consulté en mars 2014.
14
2.2. Enjeux
En constant développement depuis les années 1980, la standardisation de la
description archivistique répond à deux principaux manques.
D’une part, la standardisation est un enjeu pour la technique archivistique
même. Dans le but de la perfectionner, les archivistes ont ressenti la nécessité
d’uniformiser les pratiques archivistiques, et d’apporter une cohérence à leur savoir-
faire. Au cours du temps ont été établis, à l’échelle nationale puis internationale, des
terminologies, des dictionnaires, des glossaires, des guides de bonnes pratiques, et
enfin des normes de description. Par la diffusion de bonnes pratiques notamment,
chaque professionnel peut ainsi bénéficier de ce savoir-faire commun. En
normalisant, on évite à tous les efforts de « réinvention » de la théorie et des
bonnes pratiques. Les outils normatifs participent ainsi à la professionnalisation des
activités archivistiques.
D’autre part, la standardisation est un élément essentiel à l’optimisation du
signalement et de la mise à disposition des ressources pour les utilisateurs-
chercheurs. En 1999, Daniel Pitti note en effet que la difficulté majeure à laquelle les
chercheurs sont confrontés dans leur recherche procède de l’éclatement, de la
distribution géographique des centres de ressources24. Il observe donc une
nécessité de fournir un accès facilité aux collections : un accès intellectuel dans un
premier temps, et un accès au contenu dans un second temps. Ce besoin des
utilisateurs est également relayé par Claire Sibille : celui-ci souhaite « disposer
d’instruments de recherche plus homogènes et mieux structurés, et obtenir pour
une seule requête des réponses signalant des ressources localisées dans plusieurs
services, sans avoir à naviguer d’un site web à un autre »25. Or l’accès intellectuel
24 Daniel Pitti, Op. Cit.25 Claire Sibille, « Description archivistique : nouvelles technologies, nouvelles compétences »,
Direction des Archives de France, mai 2006. URL : http://www.archiwa.gov.pl/repository/wz/VII%20Konferencja/Papers/C_Sibille_Description%20archivistique....pdf
15
n’est pas possible sans la diffusion et le partage des instruments de recherche,
exprimés dans un langage commun. Dans la perspective de rompre l’isolement des
collections, la standardisation des langages de description et de structuration est
donc cruciale. Ces échanges s'effectuant via internet, les standards d’échanges de
données s’appuient sur les standards du web développés indépendamment des
réflexions archivistiques.
2.3. Histoire
2.3.1. Émergence de la normalisation du langage de description
L’expression du besoin de normalisation de la terminologie des termes
archivistiques apparaît d’abord isolément, chez certains archivistes, avant de
prendre des proportions nationales. En France, certains auteurs situent les
premières tentatives au XIXe siècle. Suite à l’établissement, à la Révolution, d’une
organisation centralisée des services d’archives, se développent des « circulaires
ministérielles très précises applicables à tous les services et qui peuvent être
considérées comme des normes »26. En Grande-Bretagne, la nécessité de normaliser
le vocabulaire est pressentie par l’archiviste Hilary Jenkinson qui note, en 1937, le
besoin de standardiser la terminologie à l’échelle nationale27.
26 Denise Ogilvie, « De Daunou à Natalis de Wailly : le cadre de classement à l’épreuve du principe du respect des fonds », in Martine Aubry, Isabelle Chave et Vincent Doom (dir.), Archives, archivistes, archivistique dans l'Europe du Nord-Ouest du Moyen Âge à nos jours, Villeneuve d'Ascq, IRHiS (« Histoire et littérature de l'Europe du Nord-Ouest », n° 36), 2007 [En ligne], mis en ligne le 13 octobre 2012, consulté le 20 juin 2014. URL : http://hleno.revues.org/187. Consulté en janvier 2014.
27 Paul Delsalle, Une histoire de l'archivistique, Presse de l'Université du Quebec, Sainte-Foy, 2000, p. 190.
16
A l’échelle internationale, la création du Conseil international des archives
(1948) permet aux archivistes d’entrevoir la possibilité d’une « véritable coopération
international archivistique ». Le Conseil oriente ses efforts vers l’établissement d’un
vocabulaire technique international via son comité de terminologie constitué en 1953
(au congrès de La Haye, Herman Hardenberg appelle à une « uniformisation du
langage archivistique »28). Fruit de ses efforts, le Lexicon of archival terminology est
publié en 1964. Le Dictionnaire international de terminologie archivistique (1984,
1988) qui lui succède, réalisé avec le concours de l’UNESCO, est encore le signe
d’une volonté croissante de standardisation du vocabulaire.
De véritables normes de description apparaissent au cours des années 1980
suite à des efforts de conceptualisation fournis au niveau national29: aux Etats-Unis,
au Canada, et en Grande-Bretagne, en France. Durant cette période, la communauté
archivistique se nourrit fortement de l’expérience des bibliothécaires, dont la
technique est plus avancée dans ce domaine. En 1986, le Bureau canadien des
archivistes exprime la nécessité de fonder une norme de description archivistique
qui aboutira à la création d’un ensemble de règles connues sous le sigle RDDA. Un
Manuel de description archivistique était publié au Royaume-Uni sous la direction
de Michael Cook et Margaret Procter (Manual of archival description). La Société
des Archivistes Américains proposait une norme pour la description des Archives,
papiers personnels et manuscrits (APPM)30.
La période des années 1990 est marquée par l’internationalisation des
efforts nationaux cités précédemment. En 1990, le Conseil international des
archives nomme une commission chargée d’élaborer une norme de description
archivistique. Deux ans plus tard, l’Enoncé des principes relatifs à la description des
28 Bruno Galland, « La normalisation au secours de l'archivistique ? », L’erreur archivistique. De la compréhension de l’erreur à la perception et à la gestion des incertitudes, sous la dir. de Cathy Schoukens et Paul Servais, Publications des archives de l’université catholique de Louvain, Louvain-la-Neuve, 2009, p. 220.
29 Claire Sibille, « Les normes internationales de description archivistique : origines, développements, perspectives », La Gazette des archives, n° 228, 2012-4, p. 167.
30 Claire Sibille, Ibid, p. 167.
17
documents d’archives, qui contient les éléments fondateurs de la norme ISAD (G),
est adopté au Congrès international de Montréal. La norme ISAD (G) est publiée en
1994, puis révisée en 2000.
Cette publication comporte les règles et principes d’application de la norme
ISAD (G) devant être respectés : la description doit être réalisée du général au
particulier, les informations concernent uniquement le niveau décrit, chaque unité
de description doit être mise en lien avec l’unité de description immédiatement
supérieure. Enfin, la norme proscrit la répétition d’informations (redondance) dans
les descriptions reliées hiérarchiquement.
Six éléments composent l’essentiel de toute description respectant ISAD
(G) : la référence, l’intitulé, les dates extrêmes, le niveau de description,
l’importance matérielle et le nom du producteur. N’étant pas conditionnée par la
forme, le support matériel, ou les moyens utilisés pour présenter les éléments de
données, la norme autorise la description d’un grand nombre de niveaux.
2.3.2. Développements des échanges inter-établissements
La Bibliothèque du Congrès de Washington envisage très tôt le partage
d’informations puisqu’elle projette en 1909 de partager ses cartes de catalogues. En
1951, elle établit un répertoire national des dépôts d’archives, publié sur papier en
1962, jusqu’en 1994. Un projet similaire de recensement des centres de ressources
en vue d’un partage d’informations est mené par la commission nationale NHPRC
(National Historical Publications & Records Comission).
18
Le monde des bibliothèques ressent également le besoin de créer des
catalogues collectifs. Cette profession développe plus tôt les outils techniques
nécessaires. Avec l’avènement du numérique, un format d’échange de données
bibliographiques est créé et largement adopté dans le monde des bibliothèques : le
format MARC (MAchine-Readable Cataloging). L’objectif de MARC est de permettre
la diffusion et l’échange de l’information bibliographique. MARC permet une
structure uniforme dans laquelle est organisée de l’information sur des données
bibliographiques, permettant l’échange de ces données entre bibliothèques via des
systèmes automatisés.
Au cours de la fin des années 1960 et du début des années 1970, la
Bibliothèque du Congrès publie une série de formats MARC pour différents type de
documents : livres, périodiques, cartes géographiques. Un format dédié aux
manuscrits, publié en 1973, n’a jamais été véritablement adopté par la communauté
des archives. Son orientation vers une description de la pièce a échoué à refléter de
façon adéquate la description dont les archives ont besoin.
L’idée est donc apparue de créer un format d’échange de données défini par
les archivistes. Suivant le principe de MARC, la NISTF (National Information System
Task Force) de la Society of American Archivist défini en 1980 le MARC Archives and
Manuscript Control (MARC-AMC), une version de MARC adaptée aux besoins en
description archivistique.
Les archivistes ont notamment adopté le format MARC-AMC dans le but de
mettre leurs collections dans des catalogues communs. Au début des années 1990,
les notices archivistiques utilisent largement ce format pour l’échange de données.
19
S’il est bien adopté par la communauté pour la description des dépôts et des
collections, ce format n’est cependant pas adapté aux instruments de recherche. En
effet, le format MARC autorise une longueur maximale de 100 000 caractères, cadre
dans lequel les inventaires détaillés d’archives et de catalogues de manuscrit ne
peuvent être contenus. L’autre faiblesse fréquemment mise en cause dans
l’abandon de MARC-AMC est son incapacité à traiter les descriptions hiérarchiques.
De plus, le format MARC ne correspond pas aux standards du web et il est donc
nécessaire, pour sa mise en ligne, de le « réencoder ».
2.4. Le standard EAD
2.4.1. Création
En réponse à l’insuffisance des formats MARC naît l’EAD (Encoded Archival
Description) en 1993 à l’université de Berkeley. L’EAD naît, dans l’optique de
l’échange de données, de la double nécessité de pratiquer une description adaptée
aux principes archivistiques (éléments de données, organisation hiérarchique,
longueur des instruments de recherche) et d’accorder sa mise en forme avec les
standards du web en vue.
Le projet EAD débute en 1993, dans le cadre d’un projet mené par le Berkeley
Finding Aid Projet (BFAP) de l’Université de Berkeley en Californie. Ce groupe
d’étude identifie le SGML en remplacement de MARC comme syntaxe de base pour
une norme de description des instruments de recherche. L’avantage de SGML est
qu’il permet de représenter une structure hiérarchique par imbrication d’éléments.
Le BFAP défini ainsi un vocabulaire SGML (Standard Generalized Markup Langage)
nommé FindAid. En juillet 1995, suite à une rencontre à Ann Arbor, il est rebaptisé
Encoded Archival Description (EAD).
20
L’EAD version 1.0 est publié en 1998, et adopte XML en remplacement de
SGML. L’EAD version 2.0, plus aligné sur ISADG v2, est publié en 2002.
2.4.2. Nature et statut normatif
L’EAD est un standard pour la communication ou l’expression de
descriptions de fonds d’archives (i.e. instrument de recherche). Il est le reflet de la
norme de description existante (ISAD (G)) sans être une stricte application de celle-
ci. Le standard EAD spécifie un vocabulaire (ou DTD) XML.
L’EAD est une norme maintenue par le Network Development and Marc
Standard Office, département de la Bibliothèque du Congrès. La Society of
American Archivist assure, quant à elle, son développement intellectuel.
Tout comme un instrument traditionnel, le format EAD permet de décrire
des fonds. La différence principale et sa forme (numérique) et sa destination (le
web). Il respecte pour cela des règles qui facilitent son échange et son traitement
informatique : il est notamment basé sur XML.
2.4.3. Substrat technique : la syntaxe XML
Le XML (pour eXtensible Markup Language ou langage extensible de
balisage) est un standard d’encodage informatique de texte. Il a été élaboré par le
groupe de travail XML formé par le W3C en 1996 sous l’égide de Jon Bosak de Sun
Microsystems, avec le concours de spécialistes du SGML Working Group.
Malgré son nom, XML ne peut pas être considéré comme un langage dans la
mesure où son vocabulaire n’est pas fixé. Les règles qui lui sont attachées sont
plutôt celles d’une grammaire ou d’une syntaxe.
21
Afin de comprendre le fonctionnement de XML, il est besoin de définir un
certain nombre de concepts : les éléments, les attributs, les DTD ou schémas, la
séparation du contenu et de la forme, les feuilles de style, l’extensibilité.
L’élément XML
XML est basé sur un système de balisage descriptif de texte. Chaque élément
de donnée est délimité par deux balises : une balise fermante et une balise
ouvrante. Ces balises permettent une forme de sémantisation des éléments.
Comme l’illustre cet exemple, c’est le nom de balise qui donne la nature de
l’élément. Le texte contenu entre ces balises, appelé valeur de l’élément, est donc
un titre :
<titre>Romeo i Dzhul'etta</titre>
Figure 1 : Élément XML simple
Dans certains cas, l’attribut vient spécifier la nature de l’élément. Le nom
d’attribut fourni la nature de cette spécification (ici « genre » et « type ») ; la
spécification même est nommée valeur de l’attribut (ici « ouverture » et
« compositeur »).
<titre genre= “ouverture”>Romeo i Dzhul'etta</titre>
<auteur type=“compositeur”>Piotr Ilitch Tchaikovsky</auteur>
Figure 2 : Éléments XML avec attributs
Structuration des éléments XML
Tout comme SGML, XML répond au besoin de représentation de
l’organisation hiérarchique. En effet, un document XML est composé d’éléments
22
imbriqués les uns dans les autres. Il est toujours constitué d’un élément qui englobe
tous les autres, et chaque élément peut contenir un ou plusieurs sous-éléments. Un
document XML est donc un fichier texte parfaitement structuré et hiérarchisé.
Dissociation du contenu et de l’affichage
Un document XML est destiné à décrire une structure et du contenu, mais ne
gère pas leur affichage. Il est totalement indépendant de toute idée de
représentation. L’affichage dans un navigateur internet est nécessairement traité
par une feuille de style (CSS Cascading Style Sheets, XSL-FO) ou des programmes de
transformation (XSL-T, eXtensible Stylesheet Languages-Transformation). Ainsi, un
même document XML peut faire l’objet de restitutions multiples. À partir d’un
fichier XML, il est possible de générer des documents HTML, PDF, WORD, d’éditer
un catalogue, etc. Cette dissociation du contenu et de la mise en forme permet
d’éviter la « re-saisie » des données en fonction de leur support de présentation.
Cela permet d'assurer l'interopérabilité entre les différents outils et plate-formes
permettant de l'exploiter et de le traiter.
Pérennité des documents XML
XML est un format non-propriétaire, donc indépendant de la plate-forme
matérielle (PC, MAC, Linux, Unix), des systèmes d’exploitation et de l’offre logiciel.
Cela permet notamment à n’importe quelle organisation de l’utiliser pour le partage
d’information. De plus, il est toujours lisible par l’humain. Bien qu’un document XML
ne soit pas un texte destiné à être lu par l’humain, le fait qu’il soit lisible en permet
la modification, la correction à l’aide d’un simple éditeur de texte. L’ensemble de
ces propriétés du format XML assure la pérennité des informations qu'il contient.
23
Un langage « extensible »
Le langage HTML définit un ensemble d’éléments et d’attributs fixes, cette
fixité ne permet donc pas d’adapter le langage, de créer de nouveaux éléments
s’adaptant aux besoins spécifiques de chaque domaine.
XML n’étant pas un langage, il ne définit aucune balise a priori et laisse la
liberté à chacun de créer son propre langage à balises. XML permet de concevoir un
langage de balisage personnalisé, et d’inventer des balises pour répondre à un
besoin spécifique.
Les schémas et DTD
La personnalisation des balises permet ainsi la création d’un langage
commun au sein, par exemple, d’une communauté professionnelle. En effet, il est
intéressant de partager avec ses confrères un même vocabulaire pour permettre
facilement d'échanger et d'exploiter des fichiers XML. Ce langage personnalisé,
créé, est généralement défini par une définition de type de document ou DTD : elle
définit les éléments qui composeront le vocabulaire, les attributs de tous les
éléments, ainsi que les entités. Le type de DTD ou de schéma est déclaré à chaque
début de document XML. Le document XML est dit valide lorsqu’il respecte cette
DTD.
Dans le cas des archives, la DTD utilisée internationalement porte donc le
nom de EAD (Encoded Archives Description).
2.4.4. La DTD EAD
S’appuyant sur ISAD (G), la DTD EAD souligne le caractère hiérarchique de la
description archivistique et de l'héritage de la description. Un riche ensemble
24
d'éléments descriptifs est disponible pour décrire l'ensemble d'une collection ou
fonds. Suite à la description de l'ensemble, les mêmes éléments sont disponibles
pour la description de chaque niveau : des composants, des sous-
composants. Chaque composant dit « enfant » hérite de la description du niveau
contenant « parent » et encore supérieur « grand-parent ». Par exemple, le nom du
producteur du fonds sera indiqué dans la description de l'ensemble et ne sera pas
répété dans la description de la « fratrie » de sous-composants.
Au plus haut niveau de la hiérarchie, la DTD EAD contient trois éléments qu’il
est indispensable de renseigner : dans la « tête » EAD <eadheader>, il s’agit de
fournir des informations sur la description archivistique et l’instrument de recherche
lui-même. L’élément <frontmatter> permet de définir le titre de l’instrument de
recherche et d’autres informations liminaires. Le <archdesc> contient la description
archivistique elle-même, et constitue donc le noyau de l’instrument de recherche en
EAD.
Le <archdesc> contient plusieurs catégories descriptives de haut niveau
contenant elles-mêmes des catégories descriptives plus détaillées. Le plus
important des éléments de haut niveau est le <did> (pour « identification »). Le but
de cet élément est de fournir l'essentiel de l'information à l'utilisateur afin que celui-
ci puisse identifier le document et juger de sa pertinence. Le <did> contient donc
des éléments tels que le titre, la date de création, l’auteur, des éléments de
description physique (support, volume), ainsi que des éléments fournissant un
résumé de la portée et le contenu des matières et une courte biographie ou
l'histoire du créateur.
Après l’élément <did> se trouve des éléments permettant d’exprimer des
informations sur le statut juridique, les restrictions d’accès et les conditions
d’exploitation, les informations administratives (date du dépôt et nom du
25
dépositaire). Une description détaillée du contenu se trouve dans l’élément
<scopecontent>.
L’EAD profite du support numérique pour relier la description des ressources
aux documents d’archives numérisés ou nativement numériques. L’EAD peut donc
être utilisé pour fournir un accès direct à des manuscrits, de la correspondance, des
illustrations, des enregistrements audio, des matériaux audio-visuels, des
cartes. Cette liaison peut être utilisée pour améliorer la description en fournissant
des exemples représentatifs des matériaux décrits, ou pour donner accès à
l’intégralité du fonds.
26
III. La construction d'un espace en ligne pour les
archives de la recherche
3.1. Vue d’ensemble
Si les thèses, publications et d’une manière générale les résultats de la
recherche ont fait l’objet de plusieurs projets numériques (HAL SHS, Theses.fr,
Couperin), il existe en revanche peu d’initiatives concernant les fonds d’archives31.
Or, comme nous l’avons vu, il est essentiel de fournir un accès intellectuel aux
données brutes, notamment parce qu’elles sont les sources sur lesquelles ces
publications s’appuient.
Certains projets ont toutefois vu le jour depuis 2000. Ceux-ci n’ont pas tous
les mêmes fonctions (réservoirs de corpus brut, diffusion d’instrument de
recherche, catalogue collectif), ils ne couvrent pas le même périmètre (objets,
documents iconographiques, archives et manuscrits, documents audiovisuels) mais
poursuivent un but similaire de signalement et mise à disposition des données
brutes ou archives de la recherche. Par exemple, l’objectif de TELMA (Traitement
Électronique des Manuscrits et des Archives) est la mise en ligne à la disposition de
la communauté scientifique des « corpus de sources primaires et les instruments de
recherche nécessaires à leur exploitation ». La base TELMA est exclusive puisqu’elle
est consacrée aux répertoires de manuscrits et aux « éditions critiques de sources
manuscrites associées ou non à des images numérisées et des documents ». L’un
des projets les plus adaptés aux spécificités des archives de la recherche est la plate-
forme AOMS (Archive numérique d’Objets et de Matériaux iconographiques)
31 Shadia Kilouchi, Stéphane Pouyllau, « Construire le web de données pour les sciences humaines et socialese », TGE Adonis – C2NSV, note informationnelle en ligne, septembre 2010, p. 2. URL : http://archivesic.ccsd.cnrs.fr/sic_00494227. Consulté en janvier 2014.
27
développée par le C2NSV (Centre National pour la Numérisation de Sources
Visuelles) et soutenue par la Très Grande Infrastructure Huma-Num (anciennement
TGE ADONIS). A l’origine de sa construction se trouve le projet de donner un accès à
des corpus, soit numérisés, soit nativement numériques de textes, cartographiques
ou iconographiques (photographies, plans, schémas, carnets de terrain, manuscrits
complexes comportant des formules mathématiques, des notes ou des croquis)
issus de la recherche. Les instruments de recherche publiés sur cette plate-forme
sont réalisés en EAD-XML.
Parmi les réalisations numériques françaises en matière de signalement et
diffusion des archives de la recherche, le projet Calames (Catalogue des archives et
manuscrits de l'enseignement supérieur), mené par l’Agence Bibliographique de
l’Enseignement Supérieur, présente de nombreuses garanties concernant la
pérennité des instruments de recherche et la pertinence des options choisies vis-à-
vis des enjeux propres aux archives de la recherche.
3.2. Calames
3.2.1. Création et missions de l’ABES
L’Agence Bibliographique de l’Enseignement Supérieur, créée en 1994, est
un établissement public national à caractère administratif, placé sous la tutelle du
Ministère de l’Enseignement supérieur et de la Recherche. Son siège est à
Montpellier. Elle a pour mission le recensement et la localisation des fonds
documentaires des bibliothèques de l’enseignement supérieur et de la recherche
dans le but de faciliter l’accès aux documents, et d’apporter son concours aux
établissements dans ces domaines.
28
Dans le champ d’activité confié à l’ABES en 1994, un certain nombre d’outils
au réseau préexistaient, et, au début des années 1990, le paysage documentaire
français est même caractérisé par l’existence d’applications et de réseaux multiples,
avec, déjà, quelques tentatives de fédération. L’ABES reprend ainsi en 1994
l’administration de deux applications antérieurs : la banque de données Téléthèses
créée en 1985, et le Pancatalogue, catalogue collectif des ouvrages des
bibliothèques universitaires créé en 199132.
Entre 1992 et 1993, un schéma directeur concernant l'informatique dans ls
bibliothèques universitaires insiste sur la nécessité de remanier l’ensemble des
différentes applications par la modernisation des outils collectifs du réseau des
bibliothèques et la constitution d’un catalogue unique permettant un accès direct et
élargi.
3.2.2. Le projet Calames
La création de Calames provient du besoin de donner une visibilité aux
inventaires des fonds de manuscrits, peu décrits jusqu’alors. Dans le meilleur des
cas, les collections sont signalées dans le format MARC, peu adapté à la structure
des données d’archives comme nous l’avons vu, dans les catalogues de
bibliothèques. Mais le constat est fait que beaucoup d’inventaires ne respectent pas
de formats standardisés, ne sont pas informatisés (manuscrits ou dactylographiés)
ou sont tout juste inventoriés.
32 Katie Brzustowski, « L'ABES, coordinatrice et animatrice de réseaux », Bulletin des Bibliothèques deFrance, 2003, n°2. URL : http://bbf.enssib.fr/consulter/bbf-2003-02-0032-007. Consulté en décembre2014.
29
Deux projets apparus en 2001 et 2007 ont forgé un contexte particulier,
favorable au lancement d’une politique globale des archives de l’enseignement
supérieur :
- Le premier de ces facteurs est le projet interministériel (mené par le
Ministère de la Culture et le Ministère de l’Enseignement Supérieur entre 2001 et
2006) d’informatisation du Catalogue Général des Manuscrits des bibliothèques
publiques de France. A l’occasion de cette informatisation ou rétroconversion, on
choisit de structurer les inventaires en XML selon le standard EAD. La supervision de
l’encodage en EAD des volumes de l’enseignement supérieur est déléguée à l’ABES,
ainsi que l’animation d’un groupe de travail spécifique composé de neuf
établissements. Au cours de ce projet, on formule l’idée d’un portail national des
manuscrits, et l’on crée un groupe « Bonnes pratiques EAD en bibliothèques ».
- La base Palme, constituée entre 1995 et 2006, a répertorié les manuscrits
littéraires français contemporains déposés dans les bibliothèques françaises. En
2007, alors que la plateforme de la BnF Bn-Opaline (catalogue informatisé des
collections spécialisées de la BnF ne peut plus les héberger pour cause de
fermeture, les données du Répertoire sont converties du format INTERMARC au
format EAD.
Depuis la création du SUDOC, définitivement déployé en 2001, la politique de
l’enseignement supérieur mise en œuvre par son Agence Bibliographique
encourage les pratiques de catalogage en réseau et en ligne pour des raisons de
sécurité des données, d’homogénéité des pratiques, et de simplicité dans la mise en
place de l’environnement technique. Dans cette même logique de partage, l’ABES
promeut le développement de catalogue collectif en ligne, autorisant également
des personnalisations pour les institutions, des exports vers des outils propres aux
établissements tels que Pleade et permettant la réutilisation des données.
30
La phase de projet de Calames s’est déroulée de 2006 à 2009. Début 2006, le
SIGB passe commande à l’ABES d’outils de publication et de production en EAD.
L’année 2006 est consacrée à la conception et à la spécification de ces outils.
L’année suivante, Calames est développé, testé et ajusté en retour. Le chargement
des données s’effectue d’octobre 2007 à février 2008. L’interface publique est
lancée le 1er décembre 2007, l’interface de catalogage en avril 2008. Enfin, le
lancement de la nouvelle version de l’outil de catalogage en 2009 marque la fin de la
phase de projet.
La phase de développement suivante a notamment nécessité de la part de
l’ABES une mise à jour régulière des bonnes pratiques EAD et une adaptation au
traitement des « non-manuscrits ». L’équipe de Calames s’est également attachée à
rendre possible les exports en MARC, en pdf et de visio-contrôle pour les
catalogeurs. Le tournant 2.0 de Calames, Calames plus, offrait quant à lui la
possibilité de créer un compte personnel ou institutionnel, de déposer des
commentaires et d’utiliser une visionneuse d’images.
Les documents entrant dans le périmètre de Calames sont hétérogènes
puisqu’il s’agit de tout type de manuscrits et d’archives : manuscrits médiévaux,
papiers de chercheurs ou d’érudits, manuscrits littéraires contemporains,
correspondances, archives audiovisuelles. Les établissements intégrés à Calames
sont des établissements d’enseignement supérieur, en majorité des bibliothèques.
Plusieurs fois par an, l’ABES organise des sessions de formation au
catalogage dans Calames. Ces formations sont exclusivement réservées au
personnel des établissements membres du réseau Calames. La formation que j’ai
suivi s’est déroulée du 8 au 10 avril 2013 dans les locaux de l’ABES à Montpellier.
31
Celle-ci consiste en une initiation aux principes de l’EAD, une présentation des
bonnes pratiques propres à Calames, suivi d’un apprentissage pratique au bon
usage de l’outil de catalogage.
Les “j.e-cours” sont des formations dispensées en ligne qui complètent les
connaissances des catalogueurs sur des points précis choisis par les formateurs. Ils
nécessitent une inscription préalable et permettent un contact régulier avec les
formateurs Calames.
L’Abes, suivant les recommandations du Groupe national des bonnes
pratiques EAD en bibliothèque, a également mis en ligne un Manuel de catalogage à
partir de 2009.
32
IV. Le standard EAD appliqué aux archives sonores de
la recherche
Dans cette partie, nous présentons le travail technique et intellectuel
nécessaire à l’encodage d’un fonds d’archives sonores issues d’un travail de
recherche en EAD-XML. L’objectif est, dans un premier temps, de déterminer les
conditions de réalisation d’un inventaire d’enquêtes orales respectant le standard
EAD. Dans cette perspective, nous établissons tout d’abord le cadre dans lequel ce
travail s’est déroulé. Puis, nous faisons état de l’ensemble des étapes nécessaires à
l’encodage, en mettant l’accent sur les difficultés rencontrées accompagnées des
réflexions analytiques qu’elles ont provoquées et des solutions ou éléments de
réponses apportées.
4.1. Cadre de l'expérience
4.1.1. L’intégration de la phonothèque de la MMSH au réseau Calames
La Maison Méditerranéenne des Sciences de l’Homme est membre du réseau
Calames depuis 2011. L’établissement qui souhaite publier ses collections sur
Calames doit faire face à de nouveaux enjeux techniques et financiers mais il peut
compter sur un soutien de l’ABES. Chaque année depuis 2010, l’ABES lance un appel
à projet dont le but est de favoriser la publication des inventaires des
établissements du réseau Calames. En répondant à l’appel à projet 2013, la
phonothèque de la MMSH a bénéficié d’un co-financement de l’ABES lui permettant
d’engager un travail de catalogage durant 5 mois à compter du mois d’août 2013.
33
4.1.2. Le projet de catalogage
Pour cette campagne de catalogage, le fonds Jean-Noël Pelen et le fonds
Marceau Gast ont été sélectionnés parmi les collections de la phonothèque. Les
trois principaux critères de sélection étaient la valeur scientifique, l’importance
matérielle et l’avancement du traitement documentaire.
4.1.2.1. Le fonds Marceau Gast
Ethnologue, directeur de recherche au CNRS, ancien directeur du LAPMO
(Laboratoire d’Anthropologie et de préhistoire des pays de la Méditerranée
occidentale) et membre de l’IREMAM (Institut de recherches et d’études sur le
monde arabe et musulman), Marceau Gast (1927-2010) a déposé à la phonothèque
de la MMSH, de son vivant, les sources orales de sa recherche. Celles-ci ont été le
support de ses travaux effectués entre les années 1960 et 2000 dans le sud algérien,
au Yémen et pour la France, dans le Queyras. Quatre grands thèmes parcourent ce
fonds : l’artisanat, les pratiques agricoles, les techniques de conservation des
aliments et les traditions orales. A cela s’ajoute des colloques enregistrés et une
série de neuf entretiens biographiques préparatoires menés en 1997 et 1998 par
Hélène Claudot-Hawad. Le traitement du fonds Marceau Gast a bénéficié du
financement de la TGIR Huma-Num « Consortium des ethnologues » qui a permis de
numériser, cataloguer et mettre en ligne les archives du Sahara de Marceau Gast en
2012 et 2013.
4.1.2.2. Le fonds Jean-Noël Pelen
34
Jean-Noël Pelen (né en 1949) a été chercheur au CNRS jusqu’en 2011. Il a
dirigé le CREHOP – Centre de recherches sur les ethnotextes, l’histoire orale et les
parlers régionaux (Université de Provence – CNRS) entre 1987 et 1993 puis a été
chercheur au sein du laboratoire TELEMME – Temps, espace langage Europe
méridionale, Méditerranée (AMU – CNRS). Le fonds Pelen est composé de neuf
corpus d’enquêtes orales menées par, sous la direction, ou sous l’impulsion de Jean-
Noël Pelen et de l’enregistrement d’une série de séminaire ayant pour thème la
production du récit collectif. Les enquêtes de terrain combinent des
enregistrements de contes, de chansons populaires et de récits de vies en Provence
(Cévennes, Pays d’Arles, Bouches-du-Rhône).
4.1.3. L’outil de catalogage
La production et la publication des inventaires s’effectuent par les
établissements du réseau Calames dans une interface commune accessible en ligne
via un navigateur. L’outil de catalogage Calames repose sur l’éditeur XML XMETAL
adapté par l’ABES afin notamment d’assurer la cohérence du catalogage (ajout de
listes fermées de valeurs d’attributs) ou de normaliser l’indexation (interaction de
l’éditeur avec le référentiel IdRef - Identifiants et référentiels SUDOC pour
l’enseignement supérieur et la recherche). L’éditeur présente une interface
graphique facilitant l’encodage XML.
L’abonnement annuel à Calames intègre le coût de la licence pour
l’utilisation de l’éditeur XML XMETAL, dans sa forme plugin nommée XMAX. Cette
licence n’étant pas associée à un poste de travail, l’usage de l’interface de
catalogage est possible sur différents ordinateurs de l’établissement. A travers
l’éditeur, il est permis à chaque établissement de visualiser sans éditer les instances
EAD de l’ensemble du réseau Calames.
35
Figure 3 : l’interface de catalogage Calames
A gauche de l’éditeur se trouve l’arborescence EAD permettant de visualiser
et d’organiser les instances EAD et les composants. Cette zone, spécialement créée
par l’ABES, propose également d’autres fonctionnalités : elle permet la publication
et dé-publication des instances, le contrôle des doublons et l’exportation XSLT
(pour le diagnostic et le contrôle de conformité au format XML) et la gestion des
liaisons d’inclusions entre documents EAD. En haut à droite, une fenêtre permet
l’édition des attributs à l’aide de formulaires de saisies. Pour faire apparaître ce
formulaire, il suffit de se placer sur l’élément à éditer. En bas à droite figurent
systématiquement les éléments dont l’usage est autorisé par l’EAD en fonction du
contexte que l’éditeur repère automatiquement. Au centre enfin se trouve l’éditeur
qui permet la saisie du texte entre balises XML.
36
4.2. L’opération d'encodage
4.2.1. La mise en correspondance des structures
La base de données de la phonothèque est structurée hiérarchiquement
suivant les principes de ISAD (G). Il préexiste donc une cohérence de structure entre
le standard EAD et la base de données de la phonothèque qui facilite l’organisation
de la conversion.
Si cette organisation permet bien d’opérer une conversion vers un langage
structuré tel que XML, quelques raisons s’opposent toutefois à la mise en place
d’une conversion automatique par exportation des données. Tout d’abord, le
logiciel documentaire Alexandrie en usage à la phonothèque de la MMSH ne
propose pas de fonction d’exportation de la base au format EAD-XML.
L’exploitation de l’export XML proposé par Alexandrie nécessiterait une étape
supplémentaire de « traduction » des balises vers le standard EAD. D’autre part, la
migration « manuelle » des données en EAD permet un contrôle permanent de la
qualité et de l’intégrité des notices encodées.
Les différents niveaux de description définis à la phonothèque de la MMSH
sont le fonds, le corpus, le document (ou « niveau général ») et l’item. Les fonds
Gast et Pelen renferment tous les niveaux possibles. Pour l’encodage en EAD, le
niveau de description a notamment été déterminé en fonction du temps par
rapport à la somme de travail. Ainsi, ce sont les trois premiers niveaux (fonds,
corpus, niveau général) qui ont pu faire l’objet d’une conversion en EAD. Afin que
celui-ci apparaisse malgré tout, le niveau item figure dans la description du contenu
de ses composants supérieurs.
37
Grâce aux valeurs de l’attribut LEVEL : « fonds », « series », « subseries », il est
possible de préciser le niveau des composants. Cependant, ces valeurs ne sont pas
encore exploitées par Calames. Le tableau suivant présente les correspondances
des niveaux de description :
Niveau de la base
de données
Elément EAD-XML Valeur de l’attribut LEVEL
Page d’accueil <eadheader> -
Fonds <archdesc> « fonds »
Corpus <c> « series »
Niveau général <c> « subseries »
Tableau 2 : Correspondance des niveaux de description
38
4.2.2. La mise en correspondance des éléments de données
L’étude des éléments de la structure source (base de données de la
phonothèque) en comparaison avec les éléments de la structure cible (inventaire en
EAD-XML) nous permet d’établir une correspondance dans la fonction des
éléments. Dans les paragraphes qui suivent, nous exposons et justifions chacun de
ces choix en détail.
La continuité du catalogue repose sur la bonne réalisation de cette mise en
cohérence. Pour garantir cette continuité, lors de l’établissement de cette
correspondance, il est primordial de s’assurer que les informations ne sont ni
modifiées ni perdues. Dans ce but, et hormis l’en-tête EAD qui concerne
exclusivement l’instrument de recherche en EAD, on raisonnera de la structure
source vers la structure cible.
La phonothèque travaille sur un modèle de traitement documentaire qu'elle
partage avec les centres de ressources Dastum, le Conservatoire occitant, Métive et
la MMSH, édité dans le Guide d’analyse documentaire du son inédit33.
4.2.2.1. Les métadonnées du catalogue
Les premières informations à renseigner sont les métadonnées de
l’institution et de l’instrument de recherche lui-même, présentes sur la page
d’accueil de la base de données, et contenues en EAD dans l’élément En tête EAD
<eadheader> et ses sous-éléments. Cette catégorie de données recouvre l’ensemble
des informations sur l’instrument de recherche lui-même (langage, standard,
33 Bénédicte Bonnemasson, Véronique Ginouvès, Véronique Perennou, Guide d'analyse documentaire du son inédit, éditions Modal, Parthenay, 2001.
39
auteurs, financements ayant permis sa réalisation). Il s’agit donc de données
nouvelles par rapport à la base de données source. Les informations préexistantes
(présentation de l’institution, de sa mission, de sa fonction, contacts) doivent
également y figurer. On trouve dans <eadheader> l’élément <eadid> qui fournit un
identifiant unique pour l’instrument de recherche attribué de façon automatique,
dans <filedesc> des informations de type bibliographiques (titre et auteur de
l’instrument de recherche), ainsi que des métadonnées sur la nature de l’encodage
(version du standard EAD, respect des normes ISAD (G)) dans <profiledesc>,
l’élément Organisme responsable <repository> où s’affiche les coordonnées de
l’institution. Le cadre juridique générale concernant l’accès est également indiqué à
ce niveau.
Cette étape de description est aussi l’occasion de mettre en lien les deux
catalogues. L’utilisation de l’élément <altformavail> (pour alternative form available
ou « autre forme disponible ») permet de signaler l’existence d’un document
pouvant se substituer au document décrit, présenté sous une autre forme. Dans le
cas de la description de l’inventaire EAD, l’utilisation de cet élément peut être utile
pour faire référence à la base de données préexistante, décrivant les mêmes
documents. L’inscription de l’URL de la base de données dans cet élément se
présente ainsi comme un moyen efficace d’interconnexion des deux inventaires.
4.2.2.2. La description du fonds
Après les informations de métadonnées de l’instrument de recherche,
l’élément <archdesc> permet de décrire le contexte de création, l’importance
matérielle et le contenu d’un fonds. Pour caractériser un fonds d’archives sonores
de la recherche, on fournit une biographie du producteur (dans l’élément
<bioghist>), on spécifie le type de documents. L’élément Organisme responsable
doit également être rappelé.
40
Figure 4 : Notice du fonds Jean-Noël Pelen dans Calames
Les éléments d’identification (titre), de contexte (auteurs), et d’indexation,
que la description du fonds partage avec la description du corpus et des documents,
sont détaillés dans les paragraphes concernant l’encodage d’une notice de niveau
général.
4.2.2.3. La description du corpus et des documents
Dans la base de données de la phonothèque de la MMSH, les éléments de
données qui s’appliquent aux corpus sont similaires à ceux qui s’appliquent aux
documents, à de rares exceptions.
41
a. Identification et description <did>
Comme nous l’avons vu dans le chapitre concernant la présentation des
principes de l’EAD, l’élément <did> regroupe les données principales d’identification
et de description matérielle. L’élément <did> peut se trouver dans chaque
composant et sous-composant <c>, ainsi que dans l’élément <archdesc> soit au
niveau de description du fonds, du corpus, du document. Plusieurs éléments de
données en usage à la phonothèque peuvent être encodés dans cet élément : le
titre, les identifiants alphanumériques (cote du support, n° d’inventaire), la
description des caractéristiques physiques, les dates, langues et lieux
d’enregistrement. Pour commencer, l’élément <did> doit contenir au moins l’intitulé
de l’unité documentaire <unittitle> ou au moins l’identifiant de l’unité documentaire
<unitid>, deux éléments essentiels à l’identification des documents.
➢ Intitulé de l'unité documentaire
Chaque notice (fonds, corpus, document ou item) de la base de données de
la phonothèque possède un intitulé forgé dans la plupart des cas par l’analyste
documentaire. Le contenu du champ « titre » correspond donc sans ambiguïté à
l’élément <unittitle>.
➢ Identifiant de l'unité documentaire
La phonothèque utilise couramment deux types d’éléments alpha-
numériques pour l’identification de ces unités documentaires : la cote du support
physique et le numéro d’inventaire. La possibilité de répéter l’élément <unitid>
42
permet d’encoder ces deux numéros d’identification dans deux éléments <unitid>
distincts. Lorsqu’un élément <unitid> est utilisé, il est obligatoire de renseigner la
valeur de son attribut TYPE. Les trois valeurs possibles de l’attribut sont « cote »,
« ancienne_cote » et « division ». Les numéros d’inventaires ont donc été encodés
dans un élément <unitid> ayant pour valeur d’attribut TYPE « cote ». Les cotes de
supports, quant à elles, ont été encodées dans un élément <unitid> ayant pour
valeur d’attribut TYPE « ancienne_cote ». Ce choix se justifie par le processus de
traitement documentaire. En effet, la cotation du support correspond à une
première étape de cotation permettant l’archivage du support d’identification avant
analyse, alors que le numéro d’inventaire prend le pas sur l’identification de ce
document au sein de la base de données.
Les collections de la phonothèque étant préparées pour leur intégration
dans un catalogue collectif, regroupant donc des identifiants provenant de diverses
institutions, le caractère unique des identifiants de la phonothèque, qu’il est
convenu d’exiger, devient incertain. Afin de préserver cette singularité, il a ainsi été
décidé, aux premiers stades de la réflexion sur la migration en EAD, de caractériser
chaque numéro d’inventaire avec le préfixe « phono ». Cette modification
systématique, mise en œuvre dans un premier temps, n’a finalement pas été
poursuivie. En effet, celle-ci ne s’accordait pas avec le principe de continuité du
catalogue. De plus, chaque composant <c> de Calames possède son propre
identifiant alphanumérique, attribué de façon automatique lors de sa création dans
l’interface de catalogage, évitant ainsi les conflits dus à la mutualisation des
inventaires.
➢ La description physique
La description physique <physdesc> contenue dans l’élément <did> ne peut
contenir de texte libre et se subdivise en plusieurs éléments. La base de données de
43
la phonothèque contient également plusieurs éléments de données concernant la
description matérielle du support : « description technique de l’original »,
« caractéristiques techniques », « supports », « durée », « minutage ». A nouveau, le
vocabulaire EAD n’est pas au premier abord adapté au catalogage d’archives
sonores. L’élément <physdesc> est susceptible de contenir les éléments
Particularité physique <physfacet> (avec différentes valeurs pour son attribut
TYPE), Dimensions <dimensions>, Importance matérielle <extent>. Il peut
également accueillir du texte libre si les éléments ne correspondent pas au besoin
en description. La durée d’un enregistrement peut être encodée dans l’élément
Importance matérielle.
➢ Le genre et la nature du document
Plusieurs champs documentaires sont dédiés à la caractérisation du type, du
genre et de la nature du document. En EAD, les différentes catégories sont la
technique, le type de document, et le « genre, forme et fonction ». Toutes ces
informations sont contenues dans une balise <genreform>. Le groupe de travail
Calames a développé un ensemble de listes fermées adaptées aux besoins des
utilisateurs. Grâce aux éléments Technique et Type de document, il est possible de
donner les informations permettant d'identifier un enregistrement sonore,
analogique ou numérique. L'attribut « genre, forme et fonction », quant à lui,
propose un choix de genre de documents axé sur l'archive « papier ». Le terme
d'enquête orale par exemple n'est pas présent. Les genres « contes », « chants » et
« entretien » permettent de caractériser, d'une manière plus ou moins précise, les
enquêtes des fonds Pelen et Gast.
44
b. Les éléments de description contextuelle
➢ Les responsabilités : le choix des rôles
L’enquête orale met en jeu des rôles spécifiques à ce type d’archives, en
particulier ceux d’enquêteurs et d’informateurs. En EAD, l’indexation des
responsabilités du document est possible à l’aide de l’attribut ROLE de l’élément
Nom de personnes <persname>. L’attribut ROLE permet donc de préciser la relation
existante entre un nom de personne et le document dans lequel ce nom est indexé.
Or la liste close des valeurs de l’attribut ROLE établi par Calames ne contient pas ces
types de responsabilités. Chacun de ces rôles provient en fait du format d’échange
de données UNIMARC, après sélection par le groupe de travail Calames. Par
exemple, le code 460 crée pour la fonction « personne interviewée » n’a pas été
intégré par Calames à la liste fermée de valeurs. D’après le Manuel de Catalogage
Calames, la notion d’auteur (code 070 en UNIMARC) doit être utilisée pour exprimer
« toute responsabilité intellectuelle directe dans la réalisation du document
concerné ». Calames estime de plus que cette fonction « comprend et remplace »34,
parmi d’autres, celle de personne interviewée.
Malgré son caractère général, le rôle d’« auteur » est le rôle disponible qui
caractérise avec le plus de justesse les responsabilités de type « informateur » et
« enquêteur ». Un informateur et un enquêteur peuvent en effet être considérés
comme les deux co-auteurs d’une enquête orale. Cette valeur a donc été adoptée
pour expliciter le rôle des informateurs comme celui des enquêteurs. Cependant,
l’indifférenciation de ces deux fonctions dans l’inventaire EAD constitue une perte
d’information considérable par rapport aux données de la source. En l’absence de
statuts normalisés appropriés, la seule solution consiste à faire figurer cette donnée
34 Agence Bibliographique de l'Enseignement Supérieur – Réseau Calames, Manuel de Catalogage, p. 90. URL : http://documentation.abes.fr/aidecalames/ManuelDeCatalogage.pdf. Consulté en février 2014.
45
contextuelle essentielle en texte libre sans indexation. L’inconvénient de cette
solution est l’alourdissement de l’instrument de recherche.
➢ Décision de création de notices d'autorité
Au cours de leur recherche, Marceau Gast et Jean-Noël Pelen ont mené des
enquêtes auprès de nombreux informateurs. Certains de ces informateurs sont
connus des travaux de recherche, ou ont été enquêtés plusieurs fois comme
Laurent Merlo. D’autres sont connus des bases de données bibliographiques en tant
qu’auteur de poésie par exemple. Ce type d’informateur a nécessité la création de
notices dans IdRef.
Dans certains cas, la création d’une autorité Sudoc ne se justifie pas, comme
le précise le Manuel de catalogage35. Certains informateurs sont en effet peu
susceptibles d’apparaître dans d’autres enquêtes et d’autres fonds d’archive, c’est
le cas notamment de personnes âgées enquêtées ponctuellement sur un sujet
spécifique. D’autre part, on dispose souvent de peu de renseignements sur ces
personnes, ceux-ci étant pourtant nécessaires à la création d’une autorité (notes
d'applications). La décision de création de notices d’autorité a donc été guidée par
ces critères.
➢ Date de l'unité documentaire
L’élément <did> peut également contenir la date de création de l’unité
documentaire dans le sous-élément <unitdate>. L’élément de données
correspondant dans la base de données de la phonothèque est la « date de
l’enregistrement ». L’affichage public de cette date est libre, mais l’attribut
35 ABES-Réseau Calames, Op. Cit., p. 86.
46
NORMAL nécessite l’encodage de la date au format AAAA-MM-JJ (et AAAA-MM-
JJ/AAA-MM-JJ pour les fourchettes de dates) selon la norme ISO 8601.
➢ Le lieu d'enregistrement
Pour la description d’enquêtes orales, le lieu d’enregistrement est une
information contextuelle particulièrement importante. Dans la base de données de
la phonothèque, un champ est consacré à cette information. Aucun élément de la
DTD EAD n’est explicitement conscaré à l’encodage du lieu d’enregistrement. En
EAD, tous les noms géographiques sont encodés dans l’élément Nom
géographiques <geogname>. L’attribut ROLE permet de spécifier le rôle du lieu
géographique. La liste fermée établie par le groupe de travail Calames pour
l’attribut ROLE est composée de deux rôles : « sujet » et « lieu de production ». Si le
terme de « lieu de production » n’est pas adapté au vocabulaire de l’enquête orale, il
est cependant assez général pour que le catalogueur d’archives sonores puisse y
consigner la donnée portant sur le lieu de réalisation des enquêtes.
➢ Les langues
Trois champs de la base de données de la phonothèque servent à fournir
l’ensemble des informations sur les langues parlées dans l’enregistrement.
L’élément de données « langue » permet de consigner le nom des langues parlées,
l’élément « commentaires sur la langue » permet de spécifier l’usage de ces langues
dans l’enregistrement, de caractériser l’accent, le rapport du locuteur à la langue ou
de fournir une information complémentaire sur sa pratique. Enfin, le champ « code
langue » accueille l’identifiant de chacune des langues selon la norme ISO 639-3.
47
En EAD, l’indexation de la langue du contenu du document n’est possible
qu’à l’aide de la combinaison de l’élément XML <langmaterial> combiné au sous-
élément <language>. Concernant la normalisation, les bonnes pratiques
mentionnées dans le Manuel de Catalogage Calames recommandent d’ « utiliser dans
<language> l'attribut LANGCODE pour donner le code ISO 639-2b de la langue »36. A
la différence de l’écrit, les langues parlées sont moins bien référencées. Leur
diversité, leur rapide évolution, leur caractère local fait qu’elles échappent dans
certains cas aux normes internationales telles que ISO 639-2b.
Si la liste close des valeurs de l’attribut LANGCODE ne permet pas de donner
à ces langues une forme normalisée, l’encodage en EAD permet malgré tout de les
inclure à la description en tant que simple texte non indexé. En effet, l’élément XML
<langmaterial> admet le texte libre.
➢ Documents en lien avec l'enregistrement
Les documents comme les transcriptions et les notes directement liées à
l’enregistrement de terrain (permettant par exemple de détailler le contexte de
production de l’enquête) ont été encodés dans l’élément Documents en relation
<relatedmaterial>. Cet élément sert en effet à signaler des archives annexes qui
pourront aider le chercheur dans sa compréhension des documents décrits.
➢ Exploitation-publication
Le catalogage d’un fonds d’archives de la recherche requiert une attention
toute particulière à faire figurer les ouvrages ou articles ayant exploité les unités
36 ABES-Réseau Calames, Op. Cit., p. 37.
48
documentaires décrites. Ainsi, un champ documentaire (« Exploitation-
publication ») est consacré à cette information dans la base de données de la
phonothèque de la MMSH. Y sont consignées des références bibliographiques plus
ou moins précises (jusqu’au numéro de page). Sur Calames et en EAD, c’est
l’élément <bibliography> qui permet de signaler les éditions, ou les œuvres qui ont
pour source ou sujet les unités documentaires décrites.
Au-delà de cette opération de simple signalement, il paraît également
important de relier cet élément de bibliographie à une véritable base
bibliographique, délivrant, au même titre que IdRef pour les autorités, un identifiant
unique et les précisions d’informations nécessaires. Pourtant, l’élément
<bibliography> ne possède pas d’attribut dédié à la forme normalisée ou au numéro
d’identification. Seule existe une recommandation Calames de saisir, en texte libre,
la référence sous une forme normalisée. Soucieux d’établir un lien direct entre les
notices archivistiques Calames des fonds de chercheurs et les notices
bibliographiques Sudoc des publications liées, nous avons choisi d’utiliser l’attribut
HREF, qui accepte en valeur une adresse de destination (URL) externe à la
plateforme Calames. A l’affichage public, le résultat est un titre de publication
cliquable, renvoyant à la notice bibliographique correspondante dans le Sudoc.
➢ Qualité sonore de l'enregistrement
Aucun élément EAD n’est exclusivement pensé pour rendre compte de la
qualité sonore d’un enregistrement. Toutefois, le Manuel de catalogage Calames
recense les informations sur les qualités physiques de l’unité documentaire parmi
les « éléments sur les conditions de communication et d’utilisation ». L’élément
autorisant un type d’information proche de la qualité sonore de l’enregistrement
est <phystech>. Nos échanges avec l’équipe du groupe de travail Calames ont
49
permis à ce dernier d’inclure cette utilisation de <phystech> parmi les bonnes
pratiques.
➢ Montage
Un montage sonore compilant plusieurs enregistrements, même réalisé par
le chercheur lui-même et déposé sous cette forme, peut être considéré comme un
classement. De ce fait, les informations relatives à la structure d’un montage sonore
sont indiquées dans un élément Classement <arrangement>.
Exemple : <arrangement><p>Les contes sont montés par ordre chronologique
d'enregistrement.</p></arrangement>
➢ Résumé
Dans la base de données de la phonothèque, un résumé est présent à tous
les niveaux de description : fonds, corpus, niveau général, item. Il est le résultat de
l’étape d’analyse, précédant l’indexation. Il s’agit d’un texte libre résumant le
contenu du document sonore. Ce texte analytique a été systématiquement
transposé en EAD en utilisant l’élément homologue <scopecontent> destiné à
porter une présentation du contenu et une liste des sujets évoqués dans le
document.
50
➢ Représentation numérique des ressources décrites
Des éléments de lien permettent un accès aux représentations numériques
ressources décrites. Les versions de consultation des enquêtes orales des fonds
Gast et Pelen sont diffusées en streaming via le serveur de la MMSH. Il s’agit donc
de créer des liens externes pointant vers des ressources extérieures. Par soucis de
simplicité, nous avons décidé de laisser ces éléments vides de texte, uniquement
qualifiés par leurs attributs HREF. Par défaut, l’affichage public sur Calames indique
en hyperlien « document numérisé disponible en ligne.
➢ Conditions d'acquisition
Pour chaque document, le champ « permet d’indiquer le nom du dépositaire.
En EAD, cette information est à consigner dans l’élément <acqinfo> qui concerne les
conditions d’acquisition des documents. Dans certains cas, cette information est
identique pour l’ensemble des pièces du corpus. L’élément <acqinfo> est donc
inséré dans le composant correspondant à la notice corpus, et ses informations sont
attribuées par héritage à ses sous-composants. Dans le cas où les dépôts ont été
effectués de façon successive par différents dépositaires, dans chaque composant
doit figurer cet élément sur les modalités d’entrée.
c. Les éléments d’indexation du document
On appelle indexation du contenu l’opération qui consiste à décrire et à
caractériser un document à l’aide de représentations des concepts évoqués dans
ce document, c’est-à-dire à transcrire en langage documentaire les concepts
après les avoir extraits du document par une analyse (suivant la définition de la
51
norme Afnor, 1993). Le contenu peut être de différents types : sujets, noms, lieux,
dates, titres d’œuvres. Ces termes ou noms peuvent être thématiques, cités, ou
simplement évoqués.
A la phonothèque de la MMSH, ce travail de description s’appuie sur un
Thesaurus, présentant donc des relations hiérarchiques, d’association et
d’équivalence. L’objectif est donc ici de transposer en EAD-XML cette indexation
déjà présente dans la base de données de la phonothèque.
Le catalogueur dispose de plusieurs éléments distincts permettant
l’indexation du contenu de l’unité documentaire, aussi nommés points d’accès :
l’élément <subject> pour les sujets, l’élément <persname> pour les noms de
personnes, l’élément <corpname> pour les noms de collectivités, l’élément <title>
pour les titres d’œuvres, l’élément <geogname> pour les noms géographiques,
l’élément <famname> pour les noms de familles. Chacun de ces éléments XML peut
recevoir une valeur dans ses attributs NORMAL, AUTHFILENUMBER et SOURCE.
L’attribut AUTHFILENUMBER est disposé à accueillir un identifiant issu d’un
référentiel. L’attribut SOURCE doit contenir un nom permettant l’identification du
référentiel lui-même. Enfin, la valeur de l’attribut NORMAL est la forme normalisée,
soumise par le référentiel, du terme ou du nom indexé.
Pour renseigner ces champs, l’ABES et Calames recommandent au
catalogueur EAD l’utilisation du vocabulaire Rameau, via IdRef. Ce référentiel
associe à chacune de ses entités les informations nécessaires au renseignement des
attributs mentionnés plus haut : il propose des formes normalisées et un identifiant
unique (numéro « PPN »). Afin de faciliter la réutilisation de ces données l’ABES a
mis en service l’application IdRef. L’interface de catalogage Calames étant une
application cliente d’IdRef, le catalogueur bénéficie d’une importation directe
d’informations provenant d’IdRef (identifiant, forme normalisée, et nom du
52
référentiel), vers le champ de saisie des valeurs des attributs correspondants de
l’élément XML en cours d’édition.
A cause des différences, notamment structurelles, entre les langages
documentaires source et cible (Thesaurus de la phonothèque de la MMSH et
langage Rameau), cette opération présente un risque de perte d’information. Mais
elle est également une opportunité pour l’enrichissement des données. Pour
chaque termes ou noms devait être recherché son équivalent dans IdRef.
Deux méthodes d’indexation sont possibles durant l’encodage :
- La première méthode consiste à baliser dans le texte même de la
description les éléments que l’on cherche à indexer : nom de personne ou de
collectivité, titre, descripteur. Cette méthode dite de balisage « au fil du texte »
présente de multiples avantages : elle permet d’éclairer le sens de l’élément indexé
en le situant dans son contexte, d’autre part de prévenir la surindexation (les
termes indexés sont ceux qui apparaissent effectivement dans la description
originale). Pour ces raisons, le guide français des bonnes pratiques EAD
« recommande de procéder à une indexation au fil du texte chaque fois que cela est
possible, c’est-à-dire lorsque cela est permis par le format EAD et que le terme à
indexer figure dans le texte de l’instrument de recherche »37.
- La deuxième méthode consiste à encoder l’indexation en dehors des
éléments de description préexistants, en utilisant l’élément Vedettes et accès
contrôlé <controlaccess>. Cette solution prévaut dans le cas où l’index d’un
document va au-delà des éléments contenus dans sa description, que ce soit dans le
37 Bonnes pratiques EAD [En ligne]. URL : http://bonnespratiques-ead.net/guide/indexation. Consulté en février 2014.
53
titre ou dans le résumé. Elle est aussi utile à l’association de deux points d’accès,
construction appelant un tête de vedette à laquelle on joint une subdivision. Enfin,
lorsqu’un même élément possède plusieurs valeurs d’attributs, il doit être répété.
➢ Noms cités et lieux cités
Pour les noms cités la valeur de l’attribut ROLE de l’élément <persname> est
« subject ».
Le Thesaurus de la phonothèque est composé de plusieurs catégories de
« noms de personnes et collectivités » parmi lesquels les noms de collectivité noms
de forces politiques, les noms d’entreprises, les noms d’éditeur, les noms de
mouvements de libération et les noms de manade, les noms d’armées ou de force
armée. Toutes ces catégories doivent être encodées en EAD dans l’élément
<corpname>.
Pour les lieux cités dans l’unité documentaire, la valeur de l’attribut ROLE de
l’élément <geogname> est « subject ».
Dans certains cas, le nom géographique à indexer n’est pas référencé par
IdRef. Dans ce cas, une notice est créée.
54
➢ Descripteurs
Dans les éléments <subject> sont exprimés les descripteurs issus du
thésaurus thématique de la phonothèque. Parmi ces descripteurs, certains
expriment des concepts, des objets ou des pratiques dont les dénominations ont la
spécificité de varier en fonction des disciplines qui les décrivent par exemple. Ainsi,
la recherche de l’équivalent de ces descripteurs dans le référentiel IdRef a parfois
nécessité l’utilisation de formes alternatives.
Par exemple, le terme « savoir-faire agricole » du Thesaurus de la
phonothèque n’a pas d’équivalent direct dans IdRef. Après recherche, il est apparu
que l’entrée correspondante au concept de « savoir-faire agricole » dans IdRef était
« génie rural ». L’entrée « technique agricole » présente dans IdRef ne suffisait pas à
exprimer l’idée de « savoir ». Au contraire, le terme « génie » renvoie bien à cette
notion. D’autre part, les applications respectives de ce descripteur aux documents
de la base de données de la phonothèque et aux documents du Sudoc présentent la
même logique. Dans ce cas, rien ne justifie la création d’une nouvelle autorité.
Cependant, afin d’enrichir IdRef du terme « savoir-faire agricole », celui-ci a été
ajouté à la liste des formes rejetées de l’entrée « génie rural ».
Lors de leur traduction en langage Rameau, certains termes nécessitent
d’être décomposés en plusieurs entrées. Ainsi, en langage Rameau, le descripteur
« culture des oliviers » s’exprime ainsi : Olivier -- Cultures. Pour le catalogage sur
Calames, il est nécessaire de respecter cette syntaxe pour la construction de
vedettes en combinant plusieurs éléments point d’accès, comme dans l’exemple qui
suit :
55
<controlaccess>
<subjectnormal="Olivier"source="Sudoc"authfilenumber="02738957X">Olivier</subject>
<subjectnormal="Cultures"source="Sudoc"authfilenumber="028662172">Olivier</subject>
</controlaccess>
➢ L'indexation des titres de contes
Une réflexion spécifique a été menée lors de l’encodage des
enregistrements de contes traditionnels cévenols contenus dans le fonds Jean-Noël
Pelen. Les enregistrements du corpus Recherches de terrains en Cévennes ont fait
l’objet d’une analyse approfondie par Jean-Noël Pelen, ayant abouti à la rédaction
d’un ouvrage. Dans cet ouvrage, l’auteur a transcrit chacun des contes enregistrés
en l’accompagnant d’un identifiant renvoyant à la classification Aarne-Thompson.
Au cours du XXe siècle, les contes traditionnels ont fait l’objet de plusieurs
classifications. Dans ce domaine, la classification Aarne-Thompson fait autorité au
niveau international. A la base de ces référentiels se trouvait l’idée qu’un classement
des contes traditionnels est possible en s’appuyant sur des critères de structure du
récit et de relation entre les personnages, au-delà de la diversité des versions
(provoquée par variations de détails tels que les objets, les intitulés, les noms,
l’espèce animale mise en scène).
Dans un second temps, ce travail de relevé de l’occurrence de contes-types
mené par Jean-Noël Pelen sur ses enquêtes orales a été reporté par l’analyste
documentaire du fonds dans les notes d’applications de chacune des entrées de
titres de contes du Thesaurus de la phonothèque. Lors de l’encodage en EAD de ce
corpus, la difficulté consistait donc à conserver cette richesse d’information
obtenue par « dérivation », qui fait indirectement partie de la description.
56
Le référentiel IdRef sur lequel le groupe de travail Calames recommande de
s’appuyer pour l’indexation des documents ne contenant pas d’entrées pour les
contes enregistrés par Jean-Noël Pelen, l’occasion de présentait également
d’enrichir IdRef de ces références.
Avant d’engager ce travail dans un référentiel à dimension nationale, nous
nous sommes renseignés sur les normes de présentation des références à la
classification Aarne et Thompson auprès de Josiane Bru, spécialiste française du
conte de tradition orale. Après cette expertise, parmi les multiples combinaisons
possibles (« Aa-Th + n° », « AT + n° », « T. + n° », « ATU + n° », « T + n° (ATU) », …), c’est
la forme « ATU + n° » qui a été retenue.
57
V. Bilan, perspectives et conclusion
5.1. Apports et limites de l'EAD et de Calames
En travaillant sur la problématique posée en introduction de ce mémoire,
nous avons pu constater que le standard de description EAD, qui s'appuie
initialement sur un langage de structuration pour le web, et les outils de catalogage
Calames forment une combinaison offrant de bonnes solutions à la diffusion en
ligne des descriptions de collections d’archives de la recherche.
Le principal atout du catalogue Calames est l’originalité et la pertinence de
son périmètre. Les archives de l’enseignement supérieur forment en effet un
ensemble cohérent qui se prête à la réalisation d’un catalogue collectif. A l’issu de
l’opération d'encodage des fonds Gast et Pelen, certains tests de recherche comme
sur le nom Henri Lhote donnent la mesure de cette pertinence. En effet, une
recherche dans Calames a montré la présence de documents d'archives de ce
chercheur dans plusieurs centres membres du réseau Calames (Muséum d'Histoire
Naturelle de Paris, Institut de France, Phonothèque de la MMSH).
Dans la base de données de la phonothèque de la MMSH l'autorité « Henri
Lhote » est isolée et ne permet aucun rebond vers d’autres archives ou documents
produits par ce chercheur ou dont il est un sujet. Grâce à la publication sur Calames
et l’indexation des autorités, ces documents côtoient des productions du chercheur
déposées dans d’autres établissements de recherche.
58
Cependant, à l’issu de ce mémoire, ainsi qu’à la lecture de la littérature
spécialisée, nous sommes en mesure de rapporter certaines faiblesses de l’EAD ou
de l’outil Calames.
L’utilisation de l’EAD peut provoquer un formalisme pouvant nuire à la
qualité de l’inventaire. En effet, à cause de l’importance de la structuration, il existe
une tendance à donner la priorité au respect de la syntaxe, aux dépens du contenu.
Plus encore, la structure peut guider le contenu. Dans notre étude, nous avons
tenté de mener le travail de la structure source vers la structure cible. Cependant,
lorsque la structure source n'est pas elle-même formalisée, l’EAD peut être pris
comme base alors qu’il ne correspond pas au besoin initial propre aux archives à
cataloguer. Comme le remarque Bruno Bachimont, les formats comme l’EAD-XML
« sont en eux-mêmes structurants et contraignants : leur choix préconfigure le
projet documentaire en imposant une manière de structurer les contenus et de
penser leur accès et leur manipulation »38. L'archiviste court alors le risque de
concevoir ses pratiques documentaires pour les rendre compatibles avec les
formats et standards. À travers cette remarque, on constate que l’EAD n’a pas
vocation à être un format « natif » de travail, et doit être vu comme un format
d’échange, permettant de rendre lisibles par différentes applications les mêmes
données.
La grande permissivité de l’EAD et le très grand nombre d’éléments
disponibles nécessitent l’établissement de pratiques locales et de recommandations
telles que celles du groupe de travail Calames. Ceci rend très difficile le traitement
automatique (l’utilisation d’un export EAD d’un logiciel sera difficilement conforme
aux recommandations Calames par exemple) et oblige le post-traitement. De plus,
un même inventaire ne peut finalement pas être diffusé sur deux plate-formes
38 Bruno Bachimont, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents, Lavoisier, 2007, p. 42.
59
différentes à cause de ces écarts de pratiques (certains éléments EAD sont par
exemple « proscrits » par le groupe de travail Calames).
L’expérience décrite dans le chapitre précédent montre enfin les
inconvénients de l’utilisation d’un référentiel commun. Le bilan de l’alignement du
Thesaurus de la phonothèque de la MMSH sur les autorités du Sudoc et le langage
Rameau est en effet relativement négatif. Cette opération provoque un
appauvrissement notable de l’information, le référentiel IdRef n’étant pas adapté
aux besoins en description des archives de terrains des ethnologues. Les
professionnels de l’information doivent veiller à ce que la normalisation du langage
documentaire ne soit pas synonyme d’appauvrissement et gomme les spécificités
des objets et contenus décrits.
5.2. De nouveaux défis pour les archives de la recherche
Malgré ces faiblesses de l'EAD, les réalisations de Calames répondent bien
aux besoins exprimés par Daniel Pitti, qui appelait à une « co-figuration » des
instruments de recherche dans un même espace en ligne. Mais un nouveau défi se
présente aujourd’hui pour les professionnels de l’information : il s’agit, non plus de
juxtaposer des informations en ligne, mais de relier ces informations entre elles, en
s'appuyant sur les technologies du web de données39.
L’objectif du web de données est de passer du web comme collection de
base de données, au web comme base de données. Le but est donc de décloisonner
les réservoirs documentaires en les interconnectant. Il vise à rendre les données
indépendantes des structures spécifiques à chaque base de données. Pour cela, il
39 Stéphane Pouyllau, « Web de données, big data, open data, quels rôles pour les documentalistes ? », Documentaliste - Sciences de l'Information, Vol. 50 (2013), p. 32-33.
60
propose de formaliser les descriptions en atomisant chaque élément qui compose
une description : Ressource (URI) – Relation (URI) – Ressource. Afin de permettre
l'interprétation de ces éléments de façon non ambiguë, il propose de s'appuyer sur
des vocabulaires partagés et d'identifier chaque élément ou « atome » par un URI.
On passe ainsi de cette structure :
<objet><auteur>Marceau Gast</auteur><date>1950</date></objet>
À cette structure :
<objet><a pour créateur><Marceau Gast>
<objet><a pour date><1950>
Ou chaque élément peut provenir d'une ontologie différente :
<objet:ressource de la phonotheque><a pour date = vocabulaire X><date=Wikipedia>
<objet:ressource de la phonotheque><a pour sujet=vocabulaire X><sujet=Idref>
En principe, il est possible de faire référence à n'importe quelle page internet
si celle-ci est citable sous forme d'URI. Ainsi, la description n'est plus limitée à
l'utilisation d'IdRef comme c'est le cas dans Calames, mais elle peut s'étendre aux
données de l'INSEE, de la BnF, ou de Geonames dans le même inventaire.
61
Concernant les archives de la recherche, la liaison d'information concerne
notamment :
- Le lien entre les corpus documentaires décrits et les publications qui les
exploitent : comme nous l’avons vu, le catalogue Calames ne développe pas
spécifiquement ce lien. Ainsi, la simplification de la possibilité de liens entre des
bases hétérogènes que propose le web de données constitue une solution.
- La contextualisation : cette contextualisation doit être plus large que les
outils actuels ne le permettent et doit représenter plus fidèlement la réalité de
l'environnement du chercheur (ne plus limiter la contextualisation à l'évocation de
la mission et du projet de recherche). L'expression de cet environnement se prête
mal à la structuration plane et hiérarchique proposée par les outils tels que l'EAD et
Calames. L'ensemble des concepts manipulés par le chercheur, sa proximité avec
d'autres disciplines, ses relations avec les chercheurs, etc. Cet ensemble
d'informations est plus adapté à une structuration en réseau, tel que l'envisage le
web de données.
- L'indexation est facilitée. Les ressources étant particulièrement
hétérogènes, il est possible de faire appel à des descripteurs de référentiels
spécialisés (géographiques, d'autorités).
Le modèle SKOS (Simple Knowledge Organization System) participe
pleinement à la mise en place d’un web des données liées.
Afin que la description des collections de la phonothèque s’appuie toujours
sur son propre Thesaurus tout en intégrant le web de données, il faut que celui-ci
soit structuré de façon à ce qu’il puisse être lié à et « compris » d’IdRef par exemple,
en somme qu’il soit interopérable. Pour cela, l’utilisation des technologies du web
62
sémantique semble appropriée. Une solution est aujourd’hui apportée par le format
SKOS, dans lequel les Thesaurus locaux comme celui de la phonothèque peuvent
être converti. Ce format permet le mapping inter-thesaurus. Les représentations
conceptuelles réalisées à l'aide de SKOS peuvent être utilisées par des systèmes
d'information fermés, mais aussi, dans la perspective du Web sémantique, être
publiés sur le web et alignées avec d'autres systèmes d'organisation de
connaissances40.
40 « Simple Knowledge Organization System », Wikipédia, 2014.
63
Conclusion
De nouvelles problématiques émergent alors face à l’atomisation des
données, inhérente au linked data. Cette atomisation constitue une rupture avec les
principes archivistiques traditionnels de structuration des fonds, puisque l'arbre
céderait sa place au graphe. Pour les archivistes de la recherche, le défi sera de
parvenir à placer leurs documents dans le web de données en organisant
judicieusement l'enrichissement des données qu'il traite, par la construction et le
maintien d’un réseau spécialisé.
Le défi actuel de l’ingénieur documentaire ou de l’archiviste de la recherche
est également d’accompagner le chercheur dans cette sa participation au web de
données. Il doit, par exemple, accompagner les chercheurs dans la mise en place de
référentiels de laboratoire dont la structuration technique garantit leur
interopérabilité avec les référentiels nationaux ancrés dans le web de données.
Parmi les perspectives d’interopérabilité entre les pratiques de la recherche et des
archives, le projet de Système modulaire de gestion de l’information historique
(SyMoGIH) développé au sein du LAHRA est particulièrement intéressant. En effet,
ce projet a notamment pour conséquence de rendre possible le partage et
l’échange de données d’autorité entre archivistes et historiens41.
41 Claire Sibille, « les potentialités du Web sémantique pour le partage du travail des historiens et des archivistes », Modernisation et Archives. Réflexion sur la gestion et la collecte des archives contemporaines [Carnet de recherche], 3 juin 2014. URL : http://siaf.hypotheses.org/170. Consulté en juin 2014.
64
Bibliographie
Agence Bibliographique de l'Enseignement Supérieur – Réseau Calames, Manuel de Catalogage, p. 90. URL : http://documentation.abes.fr/aidecalames/ManuelDeCatalogage.pdf. Consulté en février 2014.
Archives et sources pour l’histoire de l’enseignement, éd. Thérèse Charmasson, Comité des travaux historiques et scientifiques, Paris, 2005, 391 p.
AURORE, « La gestion des archives au sein d’un établissement de recherche », Dossiers de l’agence, AMUE, 2010, p. 27.
BACHIMONT Bruno, Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents, Lavoisier, 2007, p. 42.
BERT, Jean-François, Qu’est-ce qu’une archive de chercheur ? , Marseille, OpenEdition Press, 2014, 84 p. URL : http://books.openedition.org/oep/438. Consulté en juin 2014.
BONNEMASSON Bénédicte, GINOUVES, Véronique, PERENNOU, Véronique, Guide d'analyse documentaire du son inédit, éditions Modal, Parthenay, 2001.
BRZUSTOWSKI, Katie, « L'ABES, coordinatrice et animatrice de réseaux », Bulletin des Bibliothèques de France, 2003, n°2. URL : http://bbf.enssib.fr/consulter/bbf-2003-02-0032-007. Consulté en décembre 2014.
CHARMASSON, Thérèse, Les archives personnelles des scientifiques : classement et conservation, Archives nationales, Paris, 1995.
CHARMASSON, Thérèse, « Archives scientifiques ou archives des sciences : des sources pour l’histoire », La revue pour l’histoire du CNRS, n°14, 2006. URL : http://histoire-cnrs.revues.org/1790. Consulté en janvier 2014.
« De la numérisation des sources à leur diffusion auprès des populations enquêtées. Le cas des archives sonores et audiovisuelles des enquêtes interdisciplinaires de Plozévet (1961-1965) », Pôle Image-Son, 2010. URL : http://imageson.hypotheses.org/1174. Consulté en février 2014.
DELSALLE, Paul, Une histoire de l'archivistique, Presse de l'Université du Quebec, Sainte-Foy, 2000, p. 190.
« Ethical research in social science », Wikipedia, the free encyclopedia, 2014, [En ligne : http://en.wikipedia.org/w/index.php?
65
title=Ethical_research_in_social_science&oldid=610154050].
FAYET, Sylvie, « “Données” de la recherche, les mal-nommées », URFIST Info, 2013. URL : http://urfistinfo.hypotheses.org/2581. Consulté en février 2014.
FILLIEUX, Véronique, « De la pluralité des exploitations du patrimoine scientifique d’une université d’aujourd’hui », Archives des savoirs, problèmes et enjeux, Genève, juin 2014.
GALLAND, Bruno, « La normalisation au secours de l'archivistique ? », L’erreur archivistique. De la compréhension de l’erreur à la perception et à la gestion des incertitudes, sous la dir. de Cathy Schoukens et Paul Servais, Publications des archives de l’université catholique de Louvain, Louvain-la-Neuve, 2009, p. 220.
GARRET, Pascal, « A propos d’éthique et de droit », A propos d'éthique et de droit, 2011, [En ligne : http://ethiquedroit.hypotheses.org/1].
GASPIN, Christian, PONTIER, Dominique, COLINET, Laurence [et al.], « Rapport du groupe de travail sur la gestion et le partage des données », INRA, 2012. URL : http://www.pfl-cepia.inra.fr/uploads/gdp_docs/Rapport-GestionDonnees-web.pdf. Consulté en février 2014.
HANNOUN, Judith, GINOUVES, Véronique, « La diffusion des données en SHS : des questions juridiques et éthiques à poser au niveau européen », Journée de présentation de l'infrastructure de recherche Dariah (Digital Research Infrastructure for the Arts and Humanities), 30 janvier 2013, Paris. URL : http://www.huma-num.fr/sites/default/files/ressourcesdoc/jh-vg-archives-des-ethnologues-30-01-13.pdf. Consulté en mai 2014.
HOTTIN, Christian, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005., àvenir, 2005, [En ligne : http://halshs.archives-ouvertes.fr/halshs-00087771].
HOTTIN, Christian, « Création du patrimoine et construction identitaire au sein des établissements d’enseignement supérieur parisiens », Actes de : Mémoire et culture matérielle de l’Université, journée d’études organisée par le LASMAS (EHESS), le GREE, le LPHS-AHP et l’ERAEF (Université Nancy II), Nancy, 8 avril 2005.
LAFERTÉ, Gilles, « Des archives d’enquêtes ethnographiques pour quoi faire ? Les conditions d’une revisite », Genèses, no 63, juillet 2006, p. 25-45.
LATOUR, Bruno et WOOLGAR, Steve, La vie de laboratoire: la production des faits scientifiques, trad. Michel Biezunski, Paris, France, la Découverte, 2006, 299 p.
66
LEFEBVRE, Muriel, « Projet ECRITO », Projet ECRITO, 2012. URL : http://ecrito.hypotheses.org/le-projet/description-du-projet. Consulté en janvier 2014.
Lieux de savoir, éd. Christian Jacob, Paris, France, Albin Michel, impr. 2010, 2010, 985 p.
NEIRINCK, Danièle, La pratique archivistique francaise, éd. Jean Favier, Archives nationales, Paris, 2008, 630 p.
PITTI, Daniel, « Encoded Archival Description: An Introduction and Overview », D-Lib Magazine, 5 (11), novembre 1999. URL : http://www.dlib.org/dlib/november99/11pitti.html. Consulté en mars 2014.
POUYLLAU, Stéphane, « Web de données, big data, open data, quels rôles pour les documentalistes ? », Documentaliste - Sciences de l'Information, Vol. 50 (2013), p. 32-33.
POUYLLAU, Stéphane, KILOUCHI, Shadia, « Construire le web de données pour les sciences humaines et sociales », TGE Adonis – C2NSV, note informationnelle en ligne, septembre 2010, p. 2. URL : http://archivesic.ccsd.cnrs.fr/sic_00494227. Consulté en janvier 2014.
RANC, Emmanuel, « Les archives de recherche en Sciences Humaines et Sociales : Enjeux et Projets ». URL : http://culture.univ-lille1.fr/fileadmin/documents/patrimoine/txt/38ranc.pdf. Consulté en janvier 2014.
SIBILLE, Claire, « les potentialités du Web sémantique pour le partage du travail des historiens et des archivistes », Modernisation et Archives. Réflexion sur la gestion et la collecte des archives contemporaines [carnet de recherche], 3 juin 2014.
SIBILLE, Claire, « Les normes internationales de description archivistique : origines, développements, perspectives », La Gazette des archives, n° 228, 2012-4, p. 167.
WOLIKOW, Serge « Les archives du savoir en sciences sociales », Archives et sciencessociales : aspects juridiques et coopération scientifique, L'Harmattan, Paris, 2006, p.23.
67
Liste des tableaux et des figures
Tableau 1 : Les propriétés de l'archive de la recherche
Tableau 2 : Correspondance des niveaux de description
Figure 1 : Élément XML simple
Figure 2 : Éléments XML avec attributs
Figure 3 : L’interface de catalogage Calames
Figure 4 : Notice du fonds Jean-Noël Pelen dans Calames
68