Management digitaler Sammlungen
2. Treffen: „Sammlungen an der Universität Wien“30.11.2007
[email protected]/about/lza
Bettina Kann
Überblick
1. Was ist eine „digitale Sammlung“?2. Sammelrichtlinien3. Metadaten4. Langzeitarchivierung5. Dokumentenserver / Digitales Archiv6. OAIS-Modell
Was ist eine „digitale Sammlung“ ? | 1
Aspekte: organisierte Sammlung digitaler Objekte bestehend aus z.B. digitalen Text-, Bild-, Ton-, Video- und Multimediaobjekten Die digitalen Objekte werden nach definierten Richtlinien erstellt (z.B. durch Digitalisierung) und/ oder gesammelt. Die (digitalen) Objekte werden nach Standards erschlossen Metadaten Die digitalen Objekte werden über digitale Services einheitlich zugänglich gemacht. Die digitalen Objekte werden langfristig bewahrt.
Was ist eine „digitale Sammlung“ ? | 2
Besteht aus 3 Kategorien digitaler Objekte:
Digitales Originalobjekt Digitalisat
- als Dokumentation zu Original- als Ersatz für (z.B. gefährdetes) Original (Bsp.: analoge Tonträger)- als Servicekopie mit Mehrwert
Digitale Dokumentation: Metadaten
Analoges Original + digitale Dokumentation alleine ist keine digitale Sammlung!
Management digitaler Sammlungen
Wie bei analogen Sammlungen
Sammeln Sammelrichtlinien Erschließen Metadaten Bewahren Langzeitarchivierung Zugänglichmachen Services
Elektronische Hochschulschriften
Sammelrichtlinien | 1 Typen digitaler Objekte
Eprints: Pre-Prints, Post-Prints, Aufsätze, Working Papers, Monographien und Reihen, Tagungsbände,Newsletter und Mitteilungsblätter, Forschungsberichte, Vorlesungsmanuskripte, Retrodigitalisierte Texte
Elektronische Publikationen: Elektronische Zeitschriften,E-Books
Digitalisate: Bilder, Text, Audio, Video
GISE-Learning-Materialien
Digitale Kunst
Wissenschaftliche Primärdaten: Daten aus
Experimenten (z.B. physikalische
Versuchreihen), Beobachtungen (z.B.
Klima-Daten), statistischen Untersuchungen (z.B.
soziologische Erhebungen) uswSoftware
Internet
Sammelrichtlinien | 2
Aufgrund der Vielzahl an digitalen Objekten MUSS eine Auswahl getroffen werden!
Sammelpolitik ergibt sich aus:
Allgemeine Strategie der Institution Bereits bestehender (analoger) Sammlung Zielgruppe Ressourcen (personelle und budgetäre) zusätzlich bei digitalen Objekten: aus technischer Machbarkeit
Metadaten | 1
grundlegender Bestandteil digitaler Sammlungen Ermöglichen Beschreibung, Organisation, Austausch und Gewinnung von Information Einfachste Definition von Metadaten: „Daten über Daten“ „neuer“ Begriff, aber „altes“ Konzept Kataloge in Bibliotheken, Findbücher in Archiven, Inventare in Museen ...
Metadaten | 2 ermöglichen die Beschreibung von Objekten:Vgl. traditionelle Katalogisierung, formale Beschreibung, Beschlagwortung, Erstellung von Indizes, Verwendung von kontrollierten Vokabularen, Thesauri, Normdaten etc. bieten Sucheinstiege für Benutzer
verzeichnen die „Geschichte“ digitaler Objekte („Information Lifecycle“):
– Autorschaft– Herkunft– Änderungen– Nutzung– Verwaltung von Rechten
Metadaten | 3 Sicherstellung der Authentizität digitaler Objekte: (Prüfsummen, digitale Signaturen etc.) Eindeutige und persistente Identifizierung von digitalen Objekten (Beispiele: DOI, URN, PURL) Sicherung der langfristigen Verfügbarkeit digitaler Objekte
– Langfristige Archivierung erfordert Metadaten, die die physischen Charakteristiken der Objekte beschreiben (technische Eigenschaften, erforderliche technische Umgebung etc.)– Dokumentation des Verhaltens digitaler Objekte („Was muss erhalten bleiben?“)– Dokumentation der Veränderungen an digitalen Objekten (z.B. bei Formatmigrationen)
Metadaten | 4: Typen von Metadaten
Deskriptive Metadaten
Administrative Metadaten: Rechtliche Metadaten
Technische MetadatenMetadaten zur
LangzeitarchivierungMetadaten zur Geschichte des
Objekts („Object History Metadata“)
Identifikatoren
Strukturelle Metadaten: Geben an, wie mehrteilige Objekte zusammenhängen (z.B. Seiten bzw. Kapitel eines Buch), bzw. in welcher Beziehung Objekte zueinander stehen
Interoperabilität - Transferschnittstellen
Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)
http://www.openarchives.org/ OAI-PMH ermöglicht effizienten Austausch von
Metadaten Minimalstandard für Metadaten: Dublin Core Austausch von beliebigen Metadaten möglich, sofern
sie über ein XML-Schema definiert sind
Langzeitarchivierung | 1: WOZU? Zunehmend ausschließlich digital produziert,
verbreitet, genutzt („born digital“, Aufsätze, Working Papers, Conference Proceedings, Projektberichte, …)
Digitalisierung analoger Ressourcen- Bessere Zugänglichkeit- Dokumentation analoger Bestände- Erhaltung fragiler Dokumente (z.B. Audio- und
Videodokumente auf instabilen Datenträgern) Komplexe Herauforderung für
Gedächtnisinstitutionen: Sicherung dieses „digitalen Erbes“ für die Zukunft
Langzeitarchivierung | 2
Strategien zur Langzeitarchivierung stellen sicher, dass eine integre und authentische Version einer digitaler Ressource auch mit zukünftigen technischen Umgebungen zugänglich und benutzbar ist.
Backup Migration (Umkopieren und Formatkonvertierung) Emulation
Langzeitarchivierung | 3
Herausforderung:
Vielfalt der Formate (Text, Bild, Audio, Video, Multimedia, Datenbanken, Websites ...)
Vielfalt der Transferwege ( unterschiedliche Workflows)
Vielfalt der benötigten Hard- und Software
Ergibt in SummeViele unterschiedliche Migrations- und Konversionsverfahren bei Langzeitarchivierung (evtl. plus Emulation)
Dokumentenserver oder Digitales Archiv ?
Versorgung meiner Zielgruppe mit aktuellen Medien Dokumentenserver
Prämisse: Dokumente dürfen „verloren“ gehen! Mindestens jedoch 5 Jahre verfügbar.
Langfristige Bewahrung für zukünftige Generationen Digitales Archiv, digital repository
Prämisse: Dokumente müssen erhalten werden!
Variante: Dokumente aus Dokumentenservern werden von einer oder mehreren Institutionen, die ein digitales Archiv betreiben, zur langfristigen Erhaltung übernommen.
[Institutionelle] Dokumentenserver | 1 Service meist für Mitglieder der eigenen Institution Meist freier Zugang zu den Dokumenten, Unterstützung
der Open Access Bewegung (Zugangsbeschränkungen mgl.)
Tw. Beschränkungen bezüglicher akzeptierter Dokumenttypen, Formate etc.
OAI-Funktionalität (Metadata Harvesting) „Best Practices“ erst im Entstehen Fokus zunächst auf Technologie erst in jüngster Zeit
treten Fragen wie Planung, Langzeitarchivierung etc. in den Vordergrund
Tw. OAIS-konform
Gute Ressource über Dokumentenserver:SHERPA: http://www.sherpa.ac.uk Guidance
[Institutionelle] Dokumentenserver | 2Distribuiert:
z.B. Massachusetts Institute of Technology (MIT) Wissenschaftler stellen selbst ihre Materialen in das
Systeme (E-Prints, Lernmaterialien, Multimediaobjekte etc.)
Semi-Distribuiert: Z.B. University of California Verantwortung liegt bei Organisationseinheiten (z.B.
Institute), die das Personal beim Upload unterstützt
Semi-Zentralistisch Z.B. California Institute of Technology Institute verantwortlich, aber Upload durch die Bibliothek
[Institutionelle] Dokumentenserver | 3
DINI-Zertifikat für Dokumentenserver:http://www.dini.de/documents/Zertifikat.pdf
Kriterien für DINI-Zertifikat: Leitlinien (Policy) Autorenbetreuung Rechtliche Aspekte Authentizität und Integrität Erschließung Zugriffsstatistik Langzeitverfügbarkeit
Vertrauenswürdige Digitale Archive
Trusted Digital Repositories. Attributes and Responsibilities (Mai 2002), http://www.oclc.org/programs/ourwork/past/trustedrep/repositories.pdf
Konformität mit dem OAIS-Standard Administrative Verantwortlichkeit Gesicherte organisatorische Struktur und
sicherer rechtlicher Status Finanzielle Nachhaltigkeit Technologische und verfahrenstechnische
Eignung Gewährleistung von Daten- und
Systemsicherheit Überprüfbare prozedurale
Verantwortlichkeit
OAIS | 1OPEN ARCHIVAL INFORMATION SYSTEM
Referenzmodell für Digitale Archive Generisches Modell für die Organisation eines digitalen Archivs Über 50 Komponenten und Prozesse Terminologie für digitale Objekte und die mit ihnen assoziiertenMetadaten 1995–2002 vom Consultative Committee for Space Data Systems (CCSDS) entwickelt CCSDS 650.0-B-1: Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January 2002. – ISO 14721:2003, http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html Einführung: Brian F. Lavoie: The Open Archival Information System Reference Model: Introductory Guide, 2004http://www.dpconline.org/docs/lavoie_OAIS.pdf
OAIS | 2
Rahmen für grundlegendes Verständnis der für digitale Langezeitarchivierung erforderlichen Konzepte Rahmen zum Vergleich von Architekturen und Funktionalitäten von Archivsystemen Basis für die Entwicklung von zusätzlichen Standards Beinhaltet umfassende Zusammenstellung von Archivfunktionen Anwendbar für alle Archive, (Digitale) Bibliotheken etc. Spezifiziert KEINE konkrete Implementierung!
OAIS | 3
„Open“bezieht sich auf offenen Prozess, in dem der Standard entwickelt wurde
„Archival Information System“:Definiert als: „Organisation von Menschen und Systemen, die verantwortlich istfür die Erhaltung von Information über lange Zeiträume unddie Bereitstellung dieser Information für eine bestimmte Nutzergemeinschaft“
OAIS | 4: Umwelt
Producer ConsumerOAIS(Archive)
Management
• Producer: Personen, Institutionen oder Systeme, die die zu bewahrende Information zur Verfügung stellen
– Informationsobjekte werden über einen definierten „Ingest Process“ (=Datenaufnahme) in das Archiv aufgenommen
– Interaktion meist durch ein „Submission Agreeement“ geregelt (Archivierungs- und Benutzungsvereinbarung)
• Management: Rolle der Personen, die für die generellen OAIS-Strategien und -Richtlinien verantwortlich sind
• Consumer: Personen, Institutionen oder Systeme, die mit den OAIS-Services interagieren, um Information zu finden und zu nutzen „Designated Community“ („Nutzergemeinschaft“)
OAIS | 5: Funktionales Modell
OAIS
SIP
DIP
Administration
PRODUCER
CONSUMER
queriesresult sets
MANAGEMENT
Ingest Access
DataManagement
ArchivalStorage
Preservation Planning
orders
SIP = Submission Information PackageAIP = Archival Information PackageDIP = Dissemination Information Package
AIP
Descr.Info
OAIS | 6: Funktionales Modell
Ingest
Prozesse und Funktionen, die mit der Aufnahme von Informationsobjekten in das Archiv verbunden sind: Interface zwischen Institution und Datenproduzent: „Erwerbung“
Archival Storage
Prozesse und Funktionen zur langfristigen Speicherung von Informationsobjekten im Archiv
OAIS | 7: Funktionales ModellData Management
Verwaltung der Metadaten zur Identifizierung und Beschreibung der archivierten Information Verwaltung der administrativen Daten des OAIS (z.B. Zugriffstatistiken)Prozesse:
Verwaltung der Datenbank Datenbankabfragen Erzeugung von (statistischen) Reports Aktualisierung der Datenbank
OAIS | 8: Funktionales ModellAccessVerwaltung der Prozesse und Services, durch die Benutzer Informationsobjekte finden, anfordern und benutzen können – OAIS-Interface mit Konsumenten Prozesse:
Durchführung von Datenbankanfragen Koordination der Zugriffsprozesse Zugriffskontrolle Präsentation der Suchergebnisse Bereitstellung des „Dissemination Information Package“
OAIS | 9: Informationsmodell
Generalisierte Beschreibung der Informationsobjekte, die ineinem OAIS verwaltet werden Konzept des „Information Package“ Konzeptualisierung der Struktur wie Information in das Archiv, durch das Archiv und aus dem Archiv fließt Information Package besteht aus einem „Paket“ aus dem zu archivierenden digitalen Objekt PLUS den Metadaten, die für die Langzeitarchivierung und die Bereitstellung erforderlich sind Modell unterscheidet drei unterschiedliche Information Packages
OAIS | 10: Informationsmodell
OAISArchival Information Package
Producer
Consumer
Submission Information Package
query
result set
orderDissemination Information Package
OAIS | 11: Informationsmodell
1. Submission Information Package (SIP)– vom Produzenten in das OAIS transferierte Dateninformation– häufig entsprechend einer Vereinbarung zwischen Produzent und OAIS– nicht notwendigerweise bereits archivierbare Struktur undkomplette Metadaten2. Archival Information Package (AIP)– langfristig archivierte Version des Information Package (z.B. nach Migration in ein Archivformat)– komplette Metadaten3. Dissemination Information Package (DIP)– dem Benutzer zur Verfügung gestellte Version (z.B.AIP = TIFF-Image, DIP = JPEG-Image)– in Form und Metataten vom AIP eventuell verschieden