metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/aas_metadata.pdf ·...
TRANSCRIPT
1
Metadata och datastrukturerför långtidslagring
…och dessutom lite om PDF/A
Magnus Wå[email protected]
Mål
� Migreringshuset� Metadata� Datastrukturer� PDF/A-1
2
MigreringshusetFörvaltning
Metadata
Teckentabell
Fysikt medium
Filformat
Struktur Ledning
XM
L
Teknisk driftmiljö
Strategi
Digitala signaturer
Metadata
3
Vad är metadata?
Några typdefinitioner:� ”Data över data”.� Data + Metadata = Information� Data + Metadata + Tolkning = Förståelse� ”Beskrivande information som understödjer
tolkning av data.”� och hundratals andra definitioner...
Olika former av metadata
� Kan vara i textform. Ex. termkataloger, definitioner.
� Kan vara i modellform. Ex. begreppsmodeller. � I olika former av strukturer såsom trädstrukturer,
grafer (noder och kanter)... Ex. kategorisering med biblioteksschema.
� Andra visuella eller textmässiga former. Ex. bilder, 3D-virtuella världar.
� Matematiska beskrivningar. Ex. E=mc2
4
Metadata for Records
Meta Data Register (Repository)
Modellering
Metadata och ISO-standarder
� ISO 19501:2005 ”Information technology -- Open Distributed Processing -- Unified ModelingLanguage (UML) Version 1.4.2”
� ISO 19502:2005 ”Information technology -- Meta Object Facility (MOF)”
� ISO 19503:2005 ”Information technology -- XML Metadata Interchange (XMI)”
Modelleringsstandarder
5
ISO 23081Metadata for Records
� Principer för skapande och hanterande av metadata runt handlingar (“Records”)
� Metadata om:– själva handlingen (“record”)– affärsregler (“business rules”)– aktörer (“agents”)– verksamheter och process (“business activities or
processes”)– dokumenthanteringsprocessen– det metadata som tillhör handlingen
� Innehåller inget specifikt metadataschema
ISO 23081-1:2004 forts.
Handlingar
Processer
Aktörer
Affärsregler, styrinstrument...
6
� Är en standard för att beskriva och utbyta information runt metadatamodeller, metadata, beskrivning av dataelement o.s.v.
� Metadata lagras enligt en metadatamodell.
� Se även kompletterande ISO 20943 “Information technology -- Metadata Registries Interoperabilityand Bindings (MDR-IB)” som är under utveckling. För mappning mellan olika metadatamodellermed mera.
ISO 11179 Metadata registries (MDR)
Metadata for Records
Meta Data Register (Repository)
Modellering
Metadata ochISO-standarder
7
Olika syften med metadata
Exempelvis:� För automatisk ärendehantering.� För att kunna föra över information mellan organisationer.� För att möjliggöra återsökning och återanvändning.� För att kunna presentera information beroende på olika
målgrupper.
� För att kunna långtidslagra handlingar.
Syften med metadata för långtidslagring
� Unik identifiering, kategorisering och avgränsning avhandling.
� Bevarande av innehåll och struktur.� Öka förståelsen för lagrad information genom att
dokumentera kontextuellt metadata.– Förklaringar för koder, historik, systemdokumentation...
� Garantera autenticitet.� Möjliggöra återsökning.� Begränsa tillgång (Access).� Hanteringshistorik för handling.� Möjliggöra förvaltning.
– Gallring (disposal), konvertering, debitering, prestandabalansering, uppföljning...
8
Exempel: OAIS Information Package
PackageDescription (PD)
Information för återsökning
(ex. arkivförteckning)
PackagingInformation (PI)
Paketbeskrivande metadata
(ex. mediatyp)
PreservationDescription
Information (PDI)Beskrivande metadata
för CI
ContentInformation (CI)
Data
beskriver
beskriver
Information Package IP
beskriver
Metadata för olika nivåer 1
� Arkivbildare (EAC)– Myndighet, organisation
� Arkiv (EAD)
� Ramobjekt– Akt, Mapp, Projekt, (Del)process,
Handlingslag(Informationstyp), Dossier, System, Ärende, Organisation(sdel), Verksamhet, Funktion
9
Metadata för olika nivåer 2� Objekt
– Informationsinnehåll, identitet...
� Representation– Fil (Lagrad eller som ström)– Dynamisk presentation (Dynamiska hemsidor exempelvis)– Statisk presentation (På papper exempelvis)
� Fysiskt medium1. Papper, pergament, papyrus, sten, COM, kisel- och
metallskivor...2. Digitala media (optiska skivor, magnetband...)3. Hologram, DNA-strukturer...4. Rumsstrukturer...
Exempel: Informationsmodell vid SKV
- ID
O b jek t
2 *
R ela t io n stypR elat io n
*
R ep resen ta t io n / A vb ild n in g
M etad ata + Å tersö kn in g
1..*
1..*
R am o b jekt
*
M etad ata fö r Å tersö kn in g
1..*
R elat io nR elat io n styp
2
*
*
-T y p {Ä rende , S er ie, D os s ier ...}
R am o b jekttyp
*
10
Metadatavokabulärer 1
� W3C RDF (Resource Description Framework)� ISO 15836:2003 DC (Dublin Core) med/utan W3C
RDF� LoC:s EAD (Encoded Archival Description)� LoC:s PREMIS (Preservation Metadata:
Implementation Strategies)� LoC:s METS (Metadata Encoding and Transportation
Standard),� LoC:s MODS (Metadata Object Description Schema),� LoC:s EAC (Encoded Archival Context),
� VERS (Victorian Electronic Records Strategy) Metadata Scheme,� NAA:s Recordkeeping Metadata Standard for Commonwealth
Agencies (inkl. AGLS Metadata Standard),� NAA:s XML RFC:er för långtidslagring,� UK GovTalk e-Government Metadata Standard (Dublin Core-
extension) och ERMS metadata (ytterligare extensions),� South Australian Recordkeeping Metadata,� PRISM,� Med flera...
Metadatavokabulärer 2
11
� CURL Exemplars in Digital Archives project (CEDARS) vid Leeds University (1998-2002)
� National Library of Australia (NLA) Preservation Metadata for Digital Collections (1999)
� Networked European Deposit Library (NEDLIB) (2000)
� Harvard University's Digital Repository Services (DRS) (Aktivt)
Andra metadataarbeten
Exempel: VictorianElectronic Records Strategy
12
Datastrukturer
Datastrukturer och långtidslagring
1. Metadata och data lagras i datastrukturer.
2. Datastrukturer är uppbyggda av olika dataelement som exempelvis identifikatorer (ID), relationer och strängar.
3. Vid långtidslagring dokumenteras använda datastrukturer.
13
Identifikatorer (ID)
� Identifierar en resurs/ett objekt unikt i förhållande till någon form av kontext.– Om det inte är en unik identifiering är det frågan om
kategorisering/typindelning.
� Nivåer av identifiering– Universell (inom universum): ???– Globala identifikatorer: UUID, Fullständig postadress, ISO 2108
(ISBN)– Nationella: NAD-koder, Postnummer, Social insurance number– Regionala: Telefonnummer utan regionprefix– Lokala: Medlemsnummer i Asketräsks fiskeförening
Exempel: Identifikatorer
� URI– Kan vara exempelvis
organisationsnummer, fysiska adresser, social security number, ISBN, URL ...
� URL– URL är en form av URI– Tips: Använd relativa länkar
(/data/data.txt) vid långtidslagring– Undvik absoluta länkar
(http://www.a.a/data/data.txt)
14
Relationer
� Relation mellan två objekt
� Relation mellan ett till många objekt
� Beskrivning av relation– ID/namn för relation– Referenser till refererade objekt– Riktning– Tids- och rumsaspekt– Beteende vid traversering
� Exempelvis: Länkar, beroenden, katalogindex...
Exempel på ISO-standarderför dataelement 1
� ISO 639 för språkkoder– Ex. ”sv”
� ISO 3166 för landskoder– Ex. ”SE”, ”SWE”
� ISO 4217 för valutor– Ex. ”SEK” och ”EUR”.
� ISO 5218 för kön– “SEX”: 0 = not known, 1 = male, 2 = female, 9 = not specified.
� ISO 6709 för latitud, longitud och höjd� ISO 8601 för datum och tider
– Ex. ”1964-04-15T21:00-10:00” för att beteckna den femtonde april år 1964 kl. 21 Australian Eastern Standard Time.
– Ex. ”2001-03-01/2001-05-11” för att beteckna perioden 1 mars till 11 maj år 2001. Notera att det också med fördel kan användas två fält istället för ett för att beteckna perioder.
– Ej ISO-standard: -/YYYY eller YYYY/-.
15
� ISO 9362 ”Banking - Banking telecommunication messages- Bank identifier codes” – innehåller formatet för Bank Identifier Codes (BIC), även kallat SWIFT-
koder efter förvaltningsorganisationen SWIFT.
� (Tidigare ISO 11180 ”Postal addressing”, Redrawn)
� CEN ” EN 00331015 Postal Services Address data bases”, se TC331
� ISO 13616 International Bank Account Number (IBAN) för bankkontonummer– IBAN format för Sverigr: SEkk BBBB AAAA AAAA AAAA AAAA där B
står för bankkontor/clearingnr och A för kontonummer.
Exempel på ISO/CEN-standarder för dataelement 2
HR-XML
Har metadatastrukturer för:� Personer� Postadresser� Elektroniska adresser� m.m.
16
Svenska de facto-standarder?� Personnummer
– Lagras som YYYYMMDDXXXX. (12 siffror.)� Organisationsnummer
– Lagras som XXXXXXVVVVVV. (12 siffror.)� Postnummer
– Lagras som XXXXX (5 siffror)� Adress
– Bostadsadress contra Utdelningsadress� Postadress
– Adressat, utdelningsadress, c/o adress, förortsnamn, postnummer, ortnamn, landnamn
� Fysiska namn– Ofta i formen ”Efternamn, Förnamn”– Tilltalsnamn markeras ibland med versaler– Dubbla efternamn delas ibland upp i efternamn och
mellannamn� Juridiska namn� SerieID (punktnotation)
– SerieID byggs upp av siffror och skiljetecken såsom ”.,/_-”
Tips: Filnamn, katalognamn, ID...
Vid långtidslagring:� Använd inte åäöÅÄÖ� Ersätt ”mellanslag” med ”underline”, Ex.
”a_a.txt”� Ersätt ”punkt” med ”p” eller ”underline”, Ex
”version1_1.txt”� Undvik gärna specialtecken som exempelvis
?\/*+%¤$%&#”’~,.:;� Notera:
– Vissa äldre operativsystem (MS DOS) kan inte skilja mellan små och stora tecken
– Många operativsystem och medialagringsstrukturer sätter begränsningar för namnlängder
17
Vad ska man dokumentera?
Dokumentera exempelvis:� Begränsningar för fält, strukturer
– Tillåtna intervaller– Tillåtna värden– Multiplicitet– Ev. syntax/grammatik
� Datatyp� ID� Relationer� Dokumentera kodförklaringar� Dokumentera förkortningar� Kommentarer� Användningsperiod
PDF/A-1
18
PDF/A-1 (ISO 19005-1)
� Baseras på PDF Reference 1.4� Måste ingå:
– Inbäddade typsnitt.– Applikationsoberoende färgschema. (Finns flera olika.)– Viss XMP metadata.
� Får inte ingå:– Kryptering.– Komprimering.– Inbäddade filer.– Referenser till externa filer.– Multimedia.– Script och kodanrop.– Operationer i formulärfält
PDF/A-1 Metadata
� XMP (Adobe Extensible Metadata Platform)– XML för att dokumentera visst metadata.– Stödjer Dublin Core.– Obligatoriska element:
• Filidentifierare (Ex. ISBN, UUID, nationella ID.)• Filens ändringshistorik. (Ex. När konvertering skedde, när
filen skapades.)
� Andra XML-metdatastruktur kan bäddas in i filen för att göra ett dokument självbeskrivande.
19
PDF/A-1 Användningsområden
� Vektoriserad grafik. (Ex. CAD)� Rastrerad grafik. (Ex. vid scanning)
– Tar i många fall mindre minnesutrymme än TIFF.
� Texter med inbäddade typsnitt.� Statiska kontorsdokument. (Ordbehandling,
kalkyl, presentation…)� Inbäddade digitala signaturer tillåts (om typsnitt
och applikationsoberoende färger används).
PDF/A-1 Conformance levels
� PDF/A-1b, ”Minimally conforming”– Garanterar ursprungligt utseende.
� PDF/A-1a, ”Fully conforming”– Ytterligare dokumentation av textstruktur för underlätta
återsökning och återanvändning.– Mappning av använda typsnitt till Unicode.– Bevarar ursprunglig textstruktur såsom styckesindelning,
förklaringar av förkortningar och språkmarkeringar.
20
Leverantörsexempel 1
� Acrobat Standard/Professional 8.0 kan lagra i PDF/A-1
� PDF Tools AG. Konvertering från olika filformat till PDF/A-1 m.m., se http://www.pdf-tools.com/
� Compart Systemhaus GmbH Exempelvis konvertering från PDF till PDF/A-1 se http://www.compart.net/
� Apago, se www.apagoinc.com� Visioneer, se www.visioneer.com� Callas, se www.callassoftware.com
Leverantörsexempel 2
21
PDF/A-2 (under utveckling)
� Baseras på PDF 1.6.� Kommer ev. att ingå:
– Ytterligare stöd för digitala signaturer.– 3D grafik.– Multimediastöd.– OpenType typsnitt.
� Migreringshuset� Metadata� Datastrukturer� PDF/A-1
Sammanfattning
22
Frågor?
Länkexempel
LoC’s Digital preservation program:http://www.digitalpreservation.gov/
LoC’s Standarder EAD, PREMIS...:www.loc.gov/standards/
Victorian Electronic Records Strategy (VERS):http://www.prov.vic.gov.au/vers/standard/version2.htm
State Records of South Australia:http://www.archives.sa.gov.au/management/index.html
National Archives of Australia:http://www.naa.gov.au/recordkeeping/preservation/digital/summary.html
UK GovTalk:http://www.govtalk.gov.uk/