pac – plate-forme d’archivage du cines revue de projet 24 ... · la plateforme d’arhivage du...
TRANSCRIPT
L’archivage pérenne du document numérique au CINES
Mireille Gay (CINES) [email protected]
Journées STAR 02/10/2015
Sommaire
I. Le CINES.
La mission d’archivage au CINES
II. La problématique de l’archivage numérique pérenne
III. La plateforme d’archivage du CINES: PAC
Architecture; Principe de fonctionnement
Implémentation des procédures d’assurance qualités (techniques et organisationnelles)
Les données archivées; Volumétrie
Journées STAR 02/10/2015–
2
Le Centre Informatique National de l’Enseignement Supérieur
Centre Informatique National de l’Enseignement Supérieur
• Basé à Montpellier (Hérault, France)
• EPA créé en 1999, succédant au CNUSC – créé en 1980
• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) et de la DGESIP (Direction Générale pour l’Enseignement Supérieur et l’Insertion Professionnelle) du Ministère de l’Enseignement Supérieur et de la Recherche
• Missions
– Calcul numérique intensif
– Archivage pérenne de documents électroniques
Activité transverse : hébergement d'environnements informatiques
• Plus d’informations : http://www.cines.fr/ La machine " Occigen" du
CINES
Journées STAR 02/10/2015
3
La sécurisation de l’information : un ensemble de moyens, une même finalité
10 MW
2.5 MW
Onduleurs
CINES : site sécurisé
Groupe Electrogène
Equipements
d’archivage :
PAC, ISAAC,
EUDAT@CINES
Salles
machines
Monitoring + Astreinte
24/24 – 7/7
Pare-feu + système
d’authentification
Service
Versant
4
Tous les projets d’archives à long terme partagent la même plateforme
Mutualisation de l’infrastructure matérielle d’archivage ;
Protocole de versement générique ;
Diminution des coûts de mise en place et d’exploitation.
→ Le service d’archivage bénéficie des infrastructures et de l’équipe d’experts d’un Centre Informatique National
La Plateforme d’archivage pérenne au CINES – PAC v2.0
Capacité actuelle 40 To + 20 To en reserve
En exploitation depuis Mai 2008
Logiciel d’archivage Arcsys (Infotel)
Serveurs applicatifs et baie de stockage SUN – Oracle
Librairie de bandes IBM (2 x 1Po)
PAC: Les infrastructures, supports et moyens de PAC
Journées STAR 02/10/2015– 5
La mission d’archivage du CINES
Depuis 2004, le CINES a une mission nationale d’archivage du patrimoine scientifique.
– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat
– Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée
– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne
– Mars 2014 : modification des statuts du CINES, l’archivage devient officiellement la deuxième mission
Pour la remplir, le CINES a mis en place le projet PAC, qui a doté le CINES d’une plate-forme et d’un service d’archivage numérique pérenne
L’équipe : 1 chef de projet, 9 ingénieurs, 2 archivistes, 2 techniciens
Journées STAR 02/10/2015–
6
Projet
d’archivage
électronique
Informaticiens Archivistes
Producteurs
des
documents
Chef de projet
JuristesUtilisateurs
Experts
formats
Développeurs
Adminis-
trateurs
système
Profils / domaines de compétences
7
7
Problématique de l’archivage pérenne
Journées STAR 02/10/2015–
8
Le contexte, la problématique et les constats
Qu’est-ce que l’archivage électronique pérenne ?
L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :
Dans son aspect physique comme dans son aspect intellectuel,
Sur le très long terme …et au-delà,
De manière à ce qu’il soit en permanence accessible et compréhensible.
Journées STAR 02/10/2015–
9
Perte compréhensionet accessibilité ?
4 risques inéluctables :
– Connaissance perdue du contenu des fichiers ;
– Format de fichier inconnu ;
– Support physique détérioré ;
– Logiciel ou matériel de lecture disparu.
Archivage pérenne = Mise en place de procédures d’assurance qualité pour atténuer l’impact des risques lorsqu’ils se réalisent
La problématique de l’archivage numérique
Journées STAR 02/10/2015–
10
Voici un document
que j’ai créé en
1998…
De quoi s’agit-il
déjà ? Est-ce bien
ce qui est indiqué
sur la disquette ?
La disquette est-
elle toujours en bon
état ?
Mon portable,
acheté en 2006, n’a
pas de lecteur de
disquette…
J’ai créé ce document avec
Claris Works. Comment
retrouver ce logiciel ? Quel
est le format du document ?
J’ai trouvé le
logiciel, mais puis-
je l’installer et
l’utiliser sous
Windows XP ?
Ça marche ! Mais
j’ai perdu toute ma
mise en forme…
Les défis, orientations et choix pour l’archivage au CINES
11
Objectifs : la mise en place d’une solution
Performante pour la conservation à long terme du patrimoine numérique des établissements
Economique et sécurisée
Contraintes
Besoin d’une solution générique, basée sur les normes du domaine
Facilité de veille technologique et de migration
Les données concernées sont :
Les données scientifiques – résultats d’observations ou de calcul
Les données patrimoniales – pédagogiques, publications, etc.
Les données administratives – archives intermédiaires
Dans le respect du contexte législatif archivistique français
Le service d’archivage pérenne du CINES
Journées STAR 02/10/2015– 12
L’initiation d’un projet d’archives
Qui ? Tout organisme
Produisant ou collectant en grande quantité des documents électroniques dont le contenu possède une valeur patrimoniale scientifique ou technique
Doté d’un système informatique pouvant être interfacé avec la plateforme PAC
Comment ? Deux phases
1. Phase préliminaire durant laquelle les points suivants sont abordés :
L’identification des informations à pérenniser La liste des données et métadonnées transmises au CINES (format, taille, nombre…) L’analyse de faisabilité (sécurité, aspects légaux, coûts et risques…) L’évaluation de la volumétrie et des ressources requises.
2. Phase dite de définition La définition précise des objets à transférer Les termes et conditions du protocole de transfert (restrictions d’accès,
communicabilité au public) Le niveau de préservation attendu La planification des transferts physiques La formation du personnel du service versant à l’utilisation du système PAC
Les accords trouvés pendant cette seconde phase sont matérialisés dans la convention passée entre l’organisme et le CINES
Journées STAR 02/10/2015– 13
1. La qualité technique
Qualité des métadonnées = capacité à garder la connaissance des contenus ;
Qualité des formats de fichiers = capacité à convertir à de nouveaux formats ;
Qualité du stockage = capacité à conserver le train de bits constituant les fichiers.
→Tous ces points sont contrôlés au moment du versement et à intervalles réguliers
2. La qualité organisationnelle
Documentation des processus métiers = répétabilité, autoévaluation et amélioration des mécanismes de conservation, publication ;
Gestion des risques = maintient d’un niveau de qualité acceptable en identifiant de façon proactive les évènements pouvant impacter la conservation et les plans d’actions à mettre en place ;
Démarche de certification = validation des actions entreprises, confiance des utilisateurs et des tutelles.
Les procédures d’assurance qualité
Journées STAR 02/10/2015– 14
Les acteurs
Le producteur – Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé
des archives dans l’exercice de son activité.
Le service versant – Organisation qui transfère une archive à un service d’archives
Le service de contrôle – Personne physique ou morale qui effectue le contrôle scientifique, juridique et
technique des documents archivés, et éventuellement valide les demandes de communication d’archives
Le service d’archives – Organisation recevant le document à archiver transféré et chargée de la conserver
pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser
L’utilisateur – Toute personne ou système client en relation avec le service d’archives pour
trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives.
Journées STAR 02/10/2015–
15
Les échanges
Transfert d’archives
– Transmission physique d’une archive ou d’un ensemble d’archives par un service versant à un service d’archives
Modification d’archives
– Modification des métadonnées et/ou du document pour en assurer la préservation
Elimination d’archives
– Elimination des métadonnées et/ou du document à la demande du services d’archives, du service versant ou du service de contrôle
Restitution d’archives
– Transmission de documents par le service d’archives au service versant ou au producteur afin de leur en restituer la garde
Communication d’archives
– Transmission de copie de document à un utilisateur ayant l’autorisation du service versant et /ou du service de contrôle
Journées STAR 02/10/2015–
16
Les principes de fonctionnement
Serveurs Fonctions
Transfert réception des SIP
détection d’un nouveau transfert
envoi d’un accusé de réception
contrôle des SIP structure informatique
conformité des métadonnées sip.xml par rapport au schéma sip.xsd
correspondance entre la description sip.xml et les fichiers qui
composent le document
contrôle et validation du format des fichiers
calcul de l’empreinte numérique de chaque fichier
création des AIP
création de l’identifiant du document archivé
mise à jour des métadonnées : sip.xml > aip.xml
transfert de l’AIP au serveur de stockage
Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports
envoi du certificat d’archivage
vérification périodique de l’intégrité des AIP archivés
migration technologique
fourniture d’états et de statistiques
Accès contrôle de l’authentification de l’utilisateur
consultation du catalogue des AIP archivés
communication d’une copie d’un document archivé
Journées STAR 02/10/2015–
17
PAC : architecture fonctionnelle
Journées STAR 02/10/2015–
18
Les normes et standards utilisés
• OAIS - ISO 14721 : Reference model for an Open Archival Information System – Modèle purement conceptuel, ne fait aucune recommandation technique
• P2A Politique et pratiques d’archivage (sphère publique) – Recommandations en termes d’architecture, moyens, sécurité, etc.
• Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination
• Normes internationales de description archivistique – ISAAR-CPF – Norme Internationale sur les notices d’autorité utilisées pour les
Archives relatives aux collectivités, aux personnes ou aux familles – ISAD-G – Norme générale et internationale de description archivistique
• Métadonnées descriptives de l’archive – DCMI – Dublin Core Metadata Initiative
• Identifiant unique et pérenne – Interne, séquentiel, basé sur le principe URI – Couplé à un identifiant persistant externe de type ARK
• Empreintes numériques – Algorithmes MD5, SHA-256
Journées STAR 02/10/2015–
19
Les formats
Journées STAR 02/10/2015–
20
Comment choisir un format pour l’archivage ?
Condition n°1 pour qu’un format soit archivable : le format doit être
exploitable dans son intégralité et sur une durée indéterminée
Il doit donc être :
– Publié
– Largement utilisé (ou promis à l’être)
– Normalisé (si possible)
Ceci est nécessaire pour :
– Le contrôle de la validité d’un format
– La migration (transformation vers un autre format)
– La lecture et la compréhension du format
Journées STAR 02/10/2015– 21
A l’étude
Potentiellement
archivable
Archivable
Obsolète
REJETE
En voie
d’obsolescence
Comment organiser la veille sur les formats ?
Le CINES s’est doté d’une expertise formats chargée d’étudier l’existant et
d’émettre des alertes
Gestion de 5 listes de formats :
22 Journées STAR 02/10/2015–
• Présentant une valeur patrimoniale scientifique ou technique
• De préférence des objets dits « primaires »
– Documents originaux,
– Bruts de scan, etc.
• Dans un format identifié et vérifiable :
Les types de documents à archiver de façon pérenne
– Format publié
– Format largement utilisé (ou promis à l’être)
– Format normalisé si possible
Les formats doivent respecter les spécifications de leur format
• Le système PAC est interfacé avec les outils Jhove, ImageMagick, DROID, ODF Validator, MPlayer pour
– Identifier, Valider, Caractériser le format des fichiers transférés
Type Format
Texte PDF, TXT, XML, ODT
Image GIF, JPEG2000, JPEG, TIFF, PNG,
SVG, GEOTIFF
Audio WAV, AIFF, AAC, VORBIS, OGG
Vidéo MJPEG2000, MPEG4, THEORA,
MKV 23 Journées STAR 02/10/2015
Un outil en ligne pour valider les formats de fichier
• Outil en ligne permettant de valider les fichiers par rapport aux spécifications de leur format
Evolution du Validateur de Format
Evolution de l’application Facile
• Intègre les mêmes outils (Jhove, Imagemagick, DROID, Mplayer) que la plateforme d’archivage PAC
• Permet une validation des fichiers avant dépôt de la part du producteur
http://facile.cines.fr
FACILE – validation du Format d’Archivage du CInes par anaLyse et Expertise
Journées STAR 02/10/2015–
24
Les métadonnées
Journées STAR 02/10/2015–
25
Fonds ou
Projet d’archives
Qualité des métadonnées : Les niveaux de MD dans PAC
PPDI.XML Document
BIR (Bibliothèque d’Informations de Représentation)
BIR Formats
BIR DocPac
Métadonnees_métier.XML
SIP.XML / AIP.XML
BIR Projet
Journées STAR 02/10/2015–
• L’ensemble de ces informations est regroupé au sein d’une Bibliothèque
d’Informations de Représentation (BIR). Elle contient :
BIR Formats
Spécifications des formats des fichiers archivés,
Schémas XSD ou DTD des fichiers XML archivés
BIR Projets
PPDI, Profils d’archivages, Conventions d’archivage, Demandes d’éliminations, Normes utilisées pour la description des archives
BIR DocPac
Spécifications techniques, Documentation du système d’archivage PAC
• Elle garantit la lisibilité ou la recouvrabilité d’un fichier à un format donné
grâce à la compréhension de la manière dont se constitue ce format
La bibliothèque d’information et de représentation
Journées STAR 02/10/2015– 27
La structure du document à archiver
Document à archiver composé de deux pièces :
La description de l’archive
– Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd), 3 sections décrivant :
Le document dans son projet d’archives (DocDC)
Le document proprement dit (DocMeta)
Les fichiers du document (FichMeta)
Le dossier contenant les documents électroniques à archiver
– Répertoire « DEPOT »
• Sous arborescences autorisées : répertoire « DESC » contenant les fichiers métiers
• Tout fichier présent doit être décrit dans le fichier sip.xml
Journées STAR 02/10/2015–
28
Les métadonnées de PAC
www.cines.fr/pac/sip.xsd (aip.xsd)
– 14 métadonnées officielles du Dublin Core (DocDC)
– des métadonnées de « gestion » au niveau du document et du fichier, spécifiques à PAC (DocMeta et FichMeta)
http://www.cines.fr/pac/ppdi.xsd
– Et les métadonnées « projet » pour documenter les informations relatives au projet lui-même et à la manière de remplir les métadonnées (PPDI)
Volonté d’avoir un jeu de métadonnées génériques modulable en partie selon les projets d’archives…
– définitions des champs volontairement très larges
– aip.xml sert d’enveloppe générale pour uniformiser les différents projets d’archives dans PAC
– les métadonnées « métier » sont regroupées dans un fichier XML distinct qui est versé en même temps que le document qu’elles décrivent
Le choix des métadonnées
Journées STAR 02/10/2015– 29
Etat des lieux de la réflexion sur les métadonnées
Problèmes rencontrés Solutions apportées / envisagées
Les définitions des champs ne sont pas
toujours très explicites
Donner des exemples du contenu attendu
Les services versants peuvent largement
adapter les métadonnées pour y mettre ce
qu’ils veulent
Accompagner les services versants pour
remplir les champs en fonction des données
qu’ils possèdent
Consigner dans un fichier spécifique la
manière dont le service versant remplit les
métadonnées, et archiver ce fichier
Effectuer un contrôle sur le contenu de
l’ensemble des champs
Certaines métadonnées sont obligatoires
mais ne sont pas toujours utilisées
Revoir la cardinalité des métadonnées
Manque d’informations générales de
contexte sur les projets d’archives, les fonds
archivés, les services versants,…
Noter dans un même document toutes les
informations de contexte relatives au projet
d’archives, et archiver ce document dans le
système d’archivage
…mais qui a ses limites !
Journées STAR 02/10/2015– 22 30
Le stockage
Journées STAR 02/10/2015–
31
PAC: Qualité du stockage
La qualité du stockage garantit la conservation du train de bits composant les fichiers de données
Copies multiples:
2 copies sur disques
1 réplication sur un site distant CC-IN2P3
1 copie sur bandes
Indépendance des supports de copies (mélange disques/bandes, localisation géographique)
Audit fréquent de l’intégrité des copies (Arkchec module de supervision qui détecte les corruptions silencieuses)
Le contrôle de l’intégrité des fichiers permet d’anticiper la corruption de l’information
• Au niveau matériel : vérification des contrôleurs de disques, contrôleurs réseau etc.
Migration physique (remplacement de disques vieillissants ou abimés)
• Au niveau logiciel : vérification des sommes de contrôle (en anglais checksum)
Calcul des empreintes numériques par échantillonnage et comparaison avec l’empreinte initiale
Utilisation d’algorithme de hachage (MD5, SHA-256), etc.
Journées STAR 02/10/2015– 22
La stratégie de préservation des documents
• La stratégie de préservation des documents archivés repose sur la migration (pas d’émulation)
• Migration physique
– Changement du support de stockage
– Effectuée en tâche de fond par l’application d’archivage, pas d’arrêt de service
• Migration logique
– Conversion de formats
– Expertise et veille technologique pour la détection de l’obsolescence d’un format de fichier pris en charge sur la plateforme
– Identification d’un format offrant de meilleures garanties de pérennité
– Migration après accord des services versants concernés
– Pas de modification pour le service versant de l’identifiant unique attribué lors de l’archivage
– Conservation des versions 1 (initiale), n-1 et n d’un document migré
Journées STAR 02/10/2015– 22
33
Les perspectives
Le CINES est maintenant un acteur reconnu du domaine de la préservation
à long terme des documents numériques.
• Il joue un rôle clé dans la réussite au niveau national d’une stratégie pour
l’archivage pérenne des documents électroniques produits par la
communauté Université-Recherche.
– Aide et conseil à la construction de projets d’archivage à long terme
– Retour d’expérience
– Mise en place de nouveaux projets d’archives
Objectifs 2016:
• La poursuite et le développement de tous ces projets: Université de Lorraine
Atilf (linguistique), Paris 7 Diderot, INRAP(archéologie urbaine), IRSTEA(cemagref)…
• PAC V3 : passage en production de nouveaux matériels, plus de stockage, différents
niveaux de services (bandes/disques)
Journées STAR 02/10/2015–
L’archivage au CINES en quelques dates…
2004 2008 2006
• 1ères réflexions sur
l’archivage
numérique
• Prestation de
conseil en AE
(2005)
• Arrêté du 7 août
2006 (Thèses)
• 1ères thèses versées
dans PAC_V1, une
plateforme
d’archivage
« maison » (arrêté du
07/08/2006)
• Convention pour
l’archivage du portail
Persée (02/05/2007)
• Recadrage des
activités du CINES
(lettre du
12/02/2008)
• Mise en production
de PAC_V2 (basée
sur la solution
Arcsys d’Infotel et
un client spécifique)
« migration de
plateforme »
Journées STAR 02/10/2015–
35
L’archivage au CINES en quelques dates…
2012 2014 2010
• Publication de guides
méthodologiques sur
les formats de fichiers
audio et vidéo (2010-
2012) + Bases de
données (2013) + PDF
(en cours)
• Archivage des
données de la Cour
des Comptes
conformément au
SEDA (2013)
• Archivage des
données de l’INSERM
(2013)
• Fin 2013 / début
2014 : Archivage de
données
scientifiques dans
le nœud
EUDAT@CINES
(projet européen
FP7)
• Début 2014 :
Renouvellement
agrément SIAF
• Mars 2014
modification des
statuts du CINES
• Archivage de HAL
(Hyper Articles en
Ligne), des données
orales du CRDO
(TGE-Adonis), de
livres numérisés
(Cujas, BIUS,
BSG…)
• 2009 : 1er To archivé
• Agrément SIAF
(14/12/2010)
• Projet APARSEN :
évaluation norme
ISO 16363 (2011)
2015
36
• 500 000ème
archive déposée
• 40 To archivés
Journées STAR 02/10/2015–
PAC : Les données archivées
Les utilisateurs de PAC
Journées STAR 02/10/2015–
37
Quelques statistiques
38
PDF Autresformats
Requêtes FACILE : répartition formats
84 mai-15 696 648 39283 976 603
85 juin-15 710 661 40264 981 616
86 juil.-15 725 675 41195 931 629
87 août-15 728 678 41399 204 642
Mois Volumétrie réelle (en
G o)
Volumétrie réelle (en
G i o)
Cumul dépôts Dépôts mensuels Volumétrie
prévisionnelle
Evolution de la volumétrie
Version nnombre
PDF 1.2 157 0,3%
PDF 1.3 761 1,5%
PDF 1.4 26967 52,1%
PDF 1.5 9051 17,5%
PDF 1.6 3637 7,0%
PDF 1.7 3276 6,3%
XML 1.0 164 0,3%
WAV 1423 2,7%
TXT 110 0,2%
PNG 1.0 3242 6,3%
PNG 1.1 21 0,0%
AAC 2137 4,1%
MPEG-4 183 0,4%
JPEG NA 97 0,2%
JPEG 1.01 286 0,6%
JPEG 1.02 34 0,1%
GIF 89a 29 0,1%
OGG 27 0,1%
FLAC NA 53 0,1%
FLAC 1,2,1 79 0,2%
TIFF 5.0 5 0,0%
TIFF 6.0 38 0,1%
Quelques statistiques
39 Total 51777 100,0%
Quelques statistiques
40
0
100
200
300
400
500
600
700
800
juin-08 juin-09 juin-10 juin-11 juin-12 juin-13 juin-14 juin-15
Volumétrie réelle (en Go) Volumétrie prévisionnelle
Evolution de la volumétrie
Vo
lum
étr
ie (
en
Go
)
Alfresco
http://Alfresco.cines.fr
Les documents de références : spécifications techniques …
Web
http://www.cines.fr
http://www.cines.fr/pac/
Description des schémas :sip.xsd, aip.xsd, ppdi.xsd….
La documentation
41 Journées STAR 02/10/2015–
Questions & Réponses
Plus d’information à l’adresse : http://www.cines.fr/spip.php?rubrique219
Journées STAR 02/10/2015– 22
42