rakenteisen tiedon sÄilyttÄminen · 2010-01-19 · tiivistelmÄ metsäranta, pekka juhani...

Pekka Metsäranta

RAKENTEISEN TIEDON SÄILYTTÄMINEN

XML-dokumentti OAIS-viitemallissa

Tietotekniikanpro gradu –tutkielma27.09.1999

Jyväskylän yliopistoTietotekniikan laitos

Informaatioteknologian maisteriohjelmatDigitaalinen media

ABSTRACT

Metsäranta, Pekka Juhani

Preserving structured information; XML-document in OAIS Reference Model / Pekka

Metsäranta

Jyväskylä: University of Jyväskylä, 1999

74 p.

Master’s thesis

One of the prerequisites that had made it possible for mankind to develop is breaking

the two obstacles of communication; time and place. Information can come into

existence on the other place than it is be used. Now that the digital era is emerging, or

has already emerged, how paradoxical would it be if today’s information could not be

accessed by generations to come. So how to further the preservation of digital

information?

In this thesis the objective is to explore long-term preservation of XML document in

networked environment. The viewpoint is to examine how the structure, both physical

and logical, of XML documents affects on preservation. The framework of the study is

given by OAIS Reference Model, which is expected to be an ISO standard. The study

begins with the literature review on the general problems of long-term preservation of

digital information. After that the OAIS Reference Model is introduced and the analysis

of the logical and physical structure of the XML document explored. Based on these

two sections the OAIS information objects supporting the preservation of XML

document are defined.

The conclusions of the study are that XML document meets well the requirements of the

OAIS Reference Model. The structure of XML document helps to distinguish the

fragments where supporting preservation information should be targeted. More over

XML as been an open standard is easily providing the information needed to understand

the coding technique used.

Keywords: XML, long-term preservation, archive, structured document, network.

TIIVISTELMÄ

Metsäranta, Pekka Juhani

Rakenteisen tiedon säilyttäminen; XML-dokumentti OAIS-viitemallissa / Pekka

Metsäranta

Jyväskylä: Jyväskylän yliopisto, 1999

74 s.

Pro gradu -tutkielma

Ihmiskunnan kehittymisen eräs perusedellytys on epäilemättä ollut kahden tiedon

välittymistä rajoittavan esteen, ajan ja paikan, murtaminen: tieto voi syntyä toisessa

ajassa ja paikassa kuin sen käyttäminen tapahtuu. Digitaalisuuteen perustuva uusi

teknologia on haavoittuvuutensa ja nopean kehityksensä takia uhka tiedon säilymiselle.

Olisi paradoksaalista, jos juuri silloin, kun tietoa kertyy yhä enemmän ja yhä

kiivaammassa tahdissa, sen säilyminen jälkipolville lakkaisi olemasta mahdollista.

Miten siis edistää sitä, että myös digitaalinen tieto säilyisi tuleville tutkijoille?

Tässä tutkimuksessa tarkastellaan XML-teknologialla koodatun dokumentin

pitkäaikaista säilyttämistä verkkoympäristössä. Tarkastelun lähtökohtana on XML-

dokumentin rakenteisuuden, loogisen ja fyysisen, vaikutukset säilyttämiseen.

Viitekehyksenä tutkimuksessa on kehitteillä oleva OAIS-viitemalli, jota esitetään ISO-

standardiksi. Tutkimuksessa tarkastellaan digitaalisen materiaalin pitkäaikaisen

säilyttämisen kirjallisuudessa esitettyjä ongelmia, esitetään OIAS-malli ja analysoidaan

XML-dokumentin loogista ja fyysistä rakennetta. Tämän pohjalta esitetään OAIS-

malliin perustuen XML-dokumentin säilyttämistä tukevat informaatio-objektit.

Suoritettu tarkastelu osoitti, että XML-teknologiaan perustuva dokumentti näyttäisi

sopivan hyvin OAIS-viitemalliin. Sen rakenteisuus auttaa erottamaan siitä osat, joihin

säilytystä tukeva tieto on kohdistettava. Lisäksi XML:stä julkisena standardina on

käytettävissä määritykset, jotka auttavat ymmärtämään sen koodaukseen käytetyn

tekniikan.

Avainsanat: XML, pitkäaikainen säilytys, arkistointi, rakenteinen dokumentti,

verkkoympäristö.

SISÄLLYS

1. JOHDANTO ...........................................................................................................................................1

1.1. AIHEALUEEN TAUSTAKSI...................................................................................................................1

1.2. TUTKIMUKSEN RAJAUS, PERUSKÄSITTEET JA RAKENNE.....................................................................3

1.2.1. Tutkimuksen rajaus ...................................................................................................................3

1.2.2. Tutkimuksen peruskäsitteet .......................................................................................................3

1.2.3. Tutkimuksen rakenne.................................................................................................................5

2. SÄILYTTÄMISEN UUDET HAASTEET ...........................................................................................6

2.1. INFORMAATION SÄILYTTÄMINEN PERINTEISENÄ TEHTÄVÄNÄ ...........................................................6

2.2. UUDEN TEKNOLOGIAN VAIKUTUKSET SÄILYTTÄMISEEN....................................................................7

2.2.1. Mitä on säilytettävä?.................................................................................................................8

2.2.2. Tiedon eheyden ongelma...........................................................................................................9

2.2.3. Varastoinnin ongelma .............................................................................................................13

2.2.4. Muunnoksen ongelma .............................................................................................................15

2.2.5. Verkkoympäristön ongelma.....................................................................................................17

2.3. SÄILYTTÄMISEN SUUNTAVIIVAT......................................................................................................18

3. OAIS-VIITEMALLI ............................................................................................................................21

3.1. OAIS-ARKISTO................................................................................................................................21

3.1.1. Tieto OAIS-arkistossa .............................................................................................................22

3.1.2. OAIS-arkiston informaatiopaketti ja toiminnallinen malli......................................................23

3.2. OAIS-TIETOMALLI...........................................................................................................................25

3.2.1. Dataobjekti..............................................................................................................................25

3.2.2. Digitaalisen objektin esitysinformaatio ..................................................................................26

3.3. TIEDON MIGRAATIO .........................................................................................................................28

4. RAKENTEINEN DOKUMENTTI .....................................................................................................30

4.1. XML:N LYHYT HISTORIA.................................................................................................................30

4.2. XML-DOKUMENTTI.........................................................................................................................31

4.2.1. Looginen rakenne....................................................................................................................32

4.2.2. Fyysinen rakenne ....................................................................................................................36

4.3. XML-DOKUMENTIN YMPÄRISTÖ .....................................................................................................39

4.3.1. Nimiavaruus ............................................................................................................................39

4.3.2. Linkit XML-dokumentissa .......................................................................................................40

4.3.3. Esittäminen .............................................................................................................................45

5. XML-DOKUMENTTI OAIS-ARKISTOSSA....................................................................................48

5.1. XML-DOKUMENTTI OAIS-INFORMAATIOPAKETTINA......................................................................48

5.1.1. XML-dokumentin sisältö .........................................................................................................48

5.1.2. XML-dokumentin OAIS-säilytyskuvausinformaatio ................................................................54

5.2. XML-DOKUMENTIN INFORMAATIOPAKETIN IMPLEMENTOINNISTA..................................................56

5.2.1. Pakkausinformaation muoto ...................................................................................................57

5.2.2. Pakkausinformaation sisältö ...................................................................................................57

6. YHTEENVETO....................................................................................................................................60

LÄHDELUETTELO ................................................................................................................................63

LIITTEET.................................................................................................................................................67

i

LYHENTEET

AIP Archival Information Package. OAIS-viitemallissa arkistoitu

tieto, arkistointipaketti.

CCSDS Consultative Committee for Space Data Systems.

Kansainvälinen avaruuslaitosten muodostama ryhmä, jonka

tarkoituksena on edistää avaruustutkimukseen liittyvän tiedon

käsittelyyn liittyvää standardointia.

CSS Cascading Style Sheets. Rakenteisten dokumenttien

muotoilukieli.

DTD Document Type Definition, dokumenttityyppimäärittely.

SGML- ja XML-dokumenttien rakennekuvaus.

GIF Graphics Interchange Format. Grafiikan tallennustapa.

HTML Hypertext Markup Language. SGML-sovellutus rakenteisten

dokumenttien merkkaamiseen.

IETF Internet Engineering Task Force. Internetin kehittämiseen

keskittynyt kansainvälinen järjestö.

IP Information Package. OAIS-viitemallin informaatiopaketti.

IEC International Electrotechnical Commission. Maailmanlaajuinen

sähköteknistä standardointia edistävä järjestö.

IETF Internet Engineering Task Force.

ISO International Organization for Standazation. Kansainvälinen

standardointia edistävä järjestö.

MathML Mathematical Markup Language. Matemaattisten merkintöjen

koodaamiseen kehitetty XML:ään perustuva kieli.

ii

OAIS Open Archival Information System. Kehitteillä oleva tiedon

pitkäaikaisen säilyttämisen viitemalli.

PDI Preservation Description Information. OAIS-viitemallin

tietojoukko, säilytyskuvausinformaatio.

RFC Request For Comments. IETF:n julkaisema standardi.

RDF Resource Description Framework. Verkkoresurssien metatiedon

esittämiseen tarkoitettu XML:ään perustuva kieli.

SGML Standard Generalized Markup Language. Dokumenttien

merkkaukseen tarkoitettu metakieli.

SIP Submission Information Package. OAIS-viitemallissa arkistoon

säilytettäväksi lähetettävä tieto, lähetyspaketti.

SMIL Synchronized Multimedia Integration Language. Multimedian

esittämiseen kehitetty XML:ään perustuva.

UML Unified Modeling Language. Tietokoneohjelmien arkkitehtuurin

esittämiseen tarkoitettu merkintätapa.

URI Uniform Resource Identifier. Internetissä käytössä resurssin

osoitteen esittämistapa.

UTF-16 Transformation Format for 16 Planes of Group 00. ISO-

standardi, joka määrittelee, miten merkit koodataan 16 bitillä.

UTF-8 Transformation Format 8. ISO-standardi, , joka määrittelee,

miten merkit koodataan 16 bitillä.

W3C World Wide Web Consortium. World Wide Webin käytänteiden

kehittämiseen keskittynyt ryhmittymä.

XLink XML Linking Language. XML-dokumenttien linkityksen

määrittävä kehitteillä oleva standardi.

iii

XML Extensible Markup Language. SGML:stä kehitetty Internet-

verkkoon soveltuva dokumenttien merkkaukseen tarkoitettu

metakieli.

XPath XML Path Language. Kehitteillä oleva standardi, joka määrittää,

miten viitataan XML-dokumenttien sisäiseen rakenteeseen.

XPointer XML Pointer Language. Kehitteillä oleva XPath:iin perustuva

standardi, joka määrittää, miten URI:iin liitetään XML-

dokumentin sisäiseen rakenteeseen viittaava osa.

XSL Extensible Stylesheet Language. XML-dokumenttien

muotoiluun tarkoitettu kehitteillä oleva muotoilukieli.

1

1. JOHDANTO

Tässä luvussa aluksi perustellaan tutkimuksen aihetta ja sen jälkeen rajataan aihealue ja

esitellään tutkimuksen kannalta tärkeimmät käsitteet.

1.1. Aihealueen taustaksi

Kun yhä enemmän materiaalia tuotetaan digitaalisissa ympäristöissä eli tietokoneissa

ajettavilla ohjelmilla, on selvää, että yhä suurempi osa myös jää digitaaliseen muotoon,

ilman rinnakkaista perinteistä muotoa. Tietämyksen ja kulttuuriperinnön säilyttämisestä

vastaavien tahojen on siis säilytettävä myös digitaalisessa muodossa olevaa materiaalia.

Tämä edellyttää, että säilyttäjän on hallittava tietoa niin, että sen käyttäminen ja

saatavuus on turvattu kullakin hetkellä nyt ja tulevaisuudessa.

Tietoa on esitetty digitaalisena vasta muutaman vuosikymmenen ajan, mutta jo nyt on

olemassa esimerkkejä siitä, että tieto voi kadota, vaikka se on olemassa! Näin voidaan

päätellä esimerkiksi Hemingerin ja Robertsonin (1998) pitkäaikaista säilyttämistä

koskevasta tutkimuksesta, jossa he esimerkkinä selvittivät, miten tieto on koodattu

1960- ja 1970-luvuilla paljon käytetylle 8-raitaiselle paperireikänauhalle. Vaikka

nauhan lukemiseen tarkoitettuja laitteita oli vielä olemassa, tosin enää vain muutamia,

heidän oli vaikeaa löytää tietoa siitä, miten tieto nauhalle oli koodattu. Esimerkiksi IBM

ei enää tukenut tätä tekniikkaa eikä säilyttänyt siitä arkistoissaan minkäänlaista tietoa.

Myös Task Force on Archiving of Digital Information raportissaan Preserving Digital

Information (TFA, 1996) esittää tapauksen, jossa 1960-luvulla Yhdysvalloissa

magneettinauhalle tallennettujen maankäyttöön liittyvien tietojen elvyttäminen ei

onnistunut, koska ohjelmistoa ei oltu tallennettu tiedon mukana. Ja vaikka näin olisi

tehtykin, ohjelman suorittamiseen tarvittavaa laitteistoa ja käyttöjärjestelmää ei olisi

ollut enää saatavilla.

Tiedon katoaminen ei tietenkään ole uusi ongelma, mutta se korostuu digitaalisella

aikakaudella, koska vaikutukset voidaan huomata lyhyen ajan kuluessa, ehkä jo yhden

ihmissukupolven aikana. Näin tieto, joka inhimillisesti katsoen on tuoretta, voi

teknologisesti olla vanhaa. Digitaalisen materiaalin pitkäaikaisen säilyttämisen

2

suurimmat ongelmat juontuvatkin materiaalin tuottamiseen käytettävän teknologian

kehityksestä, joka on ollut ja tullee olemaan nopeaa. Kehitystä tapahtuu sekä laitetasolla

tallennusvälineissä että ohjelmistotasolla tallennusformaateissa. Laitteet ja ohjelmistot

korvataan uusilla, parempia ominaisuuksia ja tehokkaampaa käsittelyä tarjoavilla, jotka

eivät kuitenkaan ymmärrä edeltäjiensä - tai ainakaan esi-isiensä - käyttämiä medioita tai

formaatteja.

Kehittyvän teknologian vaikutukset voivat näkyä myös muulla tavoin kuin

vanhentuneina tallennusvälineinä tai yhteensopimattomina formaatteina. Perustavaa

laatua olevia, infrastruktuuritason muutoksia voi syntyä nopeastikin. Esimerkiksi

Internet-verkon World Wide Web –palvelu on mahdollistanut aivan uusia tapoja

yhdistellä, jakaa ja käyttää tietoa. Verkottuvalla ympäristöllä on omat vaikutuksensa

digitaalisen materiaalin säilyttämiseen. Verkoissa dokumentit osoittavat toisiin

dokumentteihin tai niiden osiin muodostaen näin rajoiltaan epäselviä kokonaisuuksia

(Mackenzie Owen ja. Walle, 1996). Tämä vaikeuttaa materiaalin hallintaa ja keräämistä.

Säilytyksestä vastaavan on kiinnitettävä huomiota myös siihen, että materiaali on

käyttäjän saatavilla, sillä verkkoympäristössä käyttö verkon yli on itsestään selvä

vaatimus.

On olemassa myös yleisempiä, teknologiasta sinänsä riippumattomia syitä säilytyksessä

esiintyviin ongelmiin. Raportissaan Beagrie ja Greenstein (1998) toteavat, että

digitaalisen materiaalin säilyttämisen onnistumiseen vaikuttavat päätökset, joita eri

toimijat - materiaalin tuottaja, säilyttäjä ja käyttäjä - tekevät materiaalin elinkaaren

aikana. Toimijat eivät kuitenkaan aina ole tietoisia tekemiensä päätösten vaikutuksesta

säilytykseen. Lisäksi nämä toimijat ovat mukana elinkaaren eri vaiheissa eivätkä tiedä

toistensa tekemistä päätöksistä ja vielä vähemmän voivat niihin vaikuttaa (Beagrie ja

Greenstein, 1998).

Kun verkkoympäristöllä on mahdollisuus liittää edellä mainitut toimijat saumattomasti

yhteen, ihanteena voitaisiin pitää, että heillä olisi säilytyksen kannalta yhteinen

viitekehys, joka tukisi näiden kaikkien toimintaa. Tällaisen viitekehyksen tai sen osan

voisi muodostaa kehitteillä oleva Extensible Markup Language (XML), joka on

rakenteisten dokumenttien merkkauskieli (markup language) (Walsh, 1998).

3

Miten siis voidaan edistää sitä, että nyt tallennettu tieto on ymmärrettävissä vielä

pitkäaikaisen säilytyksen vaatimien useiden kymmenien tai satojen vuosien kuluttua?

1.2. Tutkimuksen rajaus, peruskäsitteet ja rakenne

1.2.1. Tutkimuksen rajaus

Tämä tutkimus käsittelee digitaalisen materiaalin pitkäaikaista säilyttämistä

verkkoympäristössä, kun kohteena on XML-dokumentti. Tarkoituksena on selvittää

miten pitkäaikaista säilyttämistä edistetään yleisesti ja miten se toteutettaisiin tietyssä

teknologisessa ympäristössä.

1.2.2. Tutkimuksen peruskäsitteet

Pitkäaikaisella säilyttämisellä (tai säilyttämisellä) tarkoitetaan tässä tutkimuksessa

prosessia, jolla tietojärjestelmään tallennettua tietoa halutaan pitää käyttökelpoisena.

Säilyttämisellä tarkoitetaan, että säilyttäjän on turvattava tiedon saanti sitä tarvitsevalle,

kuten esimerkiksi Feather (1996) sekä Mackenzie Owen ja Walle (1996) kirjaston

tehtävät näkevät. Samaa asiaa tarkoittavaa perinteisestä sanaa arkistointi on haluttu

välttää, koska siihen liittyy, ainakin osittain, mielikuva, että jokin laitetaan jonnekin ja

pidetään siellä muuttumattomassa tilassa. Ja juuri tästä ei tässä tapauksessa ole

kysymys. Eron tekeminen pitkäaikaisen ja lyhytaikaisen säilyttämisen välillä voi olla

turhaa, koska samat ongelmat voivat tulla vastaan vuoden tai kymmenen vuoden

kuluttua säilyttämisen alkamisesta. Tämä voi johtua esimerkiksi käytettävän

teknologian vaihtumisesta (Beagrie ja Greenstein, 1998).

Digitaalisella materiaalilla tarkoitetaan mitä tahansa informaatiota, joka on tallennettu

digitaalisessa muodossa eli, nykyisen paradigman mukaan, nollien ja ykkösten jonona.

Digitaalinen dokumentti käsitetään tässä tutkimuksessa digitaalisen materiaalin osaksi,

joka muodostaa itsenäisen kokonaisuuden. Tässä esityksessä termi digitaalinen

materiaali tai dokumentti kattaa myös kirjallisuudessa käytetyn termin elektroninen

4

dokumentti, vaikka näin ei tarkasti teknisesti ottaen voisi tehdä, koska elektroninen

dokumentti ei välttämättä ole digitaalisessa muodossa. Käytännössä usein tarkoitetaan

kuitenkin samaa asiaa. Myös käsitteet informaatio ja tieto ajatellaan tässä tutkimuksessa

synonyymeiksi.

Tämän tutkimuksen kannalta säilyttäjänä toimivalla taholla ei ole merkitystä, joten siitä

käytetään vain yleistä nimitystä kirjasto, arkisto tai säilyttäjä. Perinteisesti

säilyttäminen, tai arkistointi, on kuulunut sitä varten perustetuille laitoksille, arkistoille,

arkistokirjastoille tai kirjastoille. Digitaalinen kirjasto on paljon käytetty ilmaus ja

analogisesti voitaisiin puhua digitaalisesta arkistosta. Mutta kuten Levy ja Marshal

(1995) toteavat, kirjastot ovat perinteisesti sisältäneet heterogeenista aineistoa, joten

tulevaisuudessakaan tuskin on olemassa puhtaasti digitaalisia kirjastoja. Myös tässä

tutkimuksessa oletetaan, että säilyttäjällä on mahdollisuus säilyttää muutakin kuin

digitaalista informaatiota.

Dokumentilla on sisältö kahdessa mielessä: sillä on intellektuaalinen sisältö ja koodattu

sisältö. Intellektuaalisella sisällöllä tarkoitetaan tekijän ajattelun tuloksena syntynyttä

abstraktia tuotosta. Koodattu sisältö taas on tämän intellektuaalisen sisällön

mediariippuvainen esitys (esimerkiksi kirjan teksti). Jos asiayhteydestä ei voi päätellä

kumpaa tarkoitetaan, se mainitaan erikseen.

Rakenteisella dokumentilla tarkoitetaan dokumenttia, joka koostuu sitä käsittelevälle

ohjelmalle merkityksellisistä osista. Rakenteisuus voi liittyä dokumentin koodattuun

sisältöön, mutta myös muuhun, kuten dokumentin esittämiseen.

Extensible Markup Language (XML) on rakenteisten dokumenttien merkkauskieli

(Walsh, 1998). XML on kehitetty ISO-standardin määrittelemästä Standard Generalized

Mark Up Language (SGML) –metakielestä ja tarkoitettu erityisesti verkkoympäristössä

tallennettavan ja siirrettävän tiedon koodaukseen (Bray, ym., 1998).

Verkkoympäristöllä tarkoitetaan Internetin kaltaista verkkoa. Se siis perustuu asiakas-

palvelin –arkkitehtuuriin, sillä on tietty osoitejärjestelmä ja verkkoprotokolla (Berners-

Lee, ym., 1994) ja tarjoaa siten mahdollisuuden hajautettujen järjestelmien

käyttämiseen.

5

1.2.3. Tutkimuksen rakenne

Tutkimuksen aluksi tarkastellaan kirjallisuuden avulla digitaalisen materiaalin

pitkäaikaiseen säilyttämiseen liittyviä ongelmia. Luvussa 3 esitellään eräs kehitteillä

oleva pitkäaikaiseen säilyttämiseen suuntaviivoja antava viitemalli. Luvussa 4 tutkitaan

XML-dokumenttia lähtökohtana sen rakenteisuus. Tuloksena luvuista 3 ja 4, luvussa 5

esitetään malli, jossa kuvataan miten esitettyä mallia sovellettaisiin XML-dokumenttiin.

Lopuksi luvussa 6 arvioidaan mallia ja tehdään yhteenveto.

6

2. SÄILYTTÄMISEN UUDET HAASTEET

Ihmiskunnan kehittymisen eräs perusedellytys on epäilemättä ollut kahden tiedon

välittymistä rajoittavan esteen, ajan ja paikan, murtaminen: tieto voi syntyä toisessa

ajassa ja paikassa kuin sen käyttäminen tapahtuu. Ajan esteen murtaminen on

mahdollistanut tehokkaasti uuden tiedon rakentamisen kehittämällä vanhaa. Paikan

esteen murtaminen taas on mahdollistanut tiedon tehokkaan siirtämisen sinne, missä sitä

tarvitaan. Paikan ja ajan asettamia esteitä on vähennetty, tai hävitetty kokonaan,

siirtämällä yksilön älyllisen toiminnan tuotos informaatiota välittävälle aineelle,

medialle. Tietoa välittävällä media on aikojen kuluessa ollut monia muotoja – ja tulee

varmasti olemaan myös tulevaisuudessa.

Uusi teknologia on yhä tehokkaammin poistanut ajan ja paikan vaikutusta tiedon

välittämiseen. Tämä pitää paikkansa tosin vain sillä varauksella, että myös tiedon

pitkäaikainen säilyttäminen voidaan varmistaa. Tässä luvussa tarkastellaan tiedon

pitkäaikaista säilyttämistä ensin perinteisenä toimintona ja sitten tarkemmin, mitä

säilyttäminen tarkoittaa, kun sen kohteena on digitaalinen materiaali.

2.1. Informaation säilyttäminen perinteisenä tehtävänä

Kun informaatio on tallennettu medialle, on se saatettava käyttäjän ulottuville. Tämä on

kirjaston keskeinen tehtävä (Feather, 1996, s. 1). Lisäksi kirjaston tehtävä on varmistaa

käytettävyys myös tulevaisuudessa (Mackenzie Owen ja Walle, 1996). Kirjasto auttaa

käyttäjää organisoimalla tiedon sisältävää mediaa fyysisesti ja sisällöllisesti (Feather,

1996, s. 1). Perinteisesti tieto on tallennettu dokumentteihin, joiden säilyvyydestä on siis

pidettävä huolta (Feather, 1996, s. 1). Näin tiedon käytettävyyden varmistamiseen liittyy

myös säilyttämisen ulottuvuus: on pidettävä huolta siitä fyysisestä mediasta, jolla tieto

sijaitsee. Featherin mukaan tiedon säilyttäminen onkin laajasti ottaen tiedon hallintaa,

jonka tehtävä on varmistaa, että tiedon käytettävyys säilyy niin kauan kuin tiedolle on

tarvetta.

Perinteinen säilyttäminen on pitkälti informaation sisältävän materiaalin fysikaaliseen ja

kemialliseen koostumukseen liittyvien asioiden hallintaa (Feather, 1996, s. 51). Paperin

7

ja painomusteen koostumus ja ominaisuudet määräävät kirjan iän yhdessä sen käytön

määrän ja säilytysolosuhteiden kanssa: kirjat kuluvat käytössä ja ajan hammas syö

materiaa. Perinteisessä säilyttämisessä informaation saatavilla oloa uhkaa siis sen

sisältävän median kuluminen ja lopulta tuhoutuminen. Kirjan käyttöä onkin ehkä

rajoitettava, jos sillä esineenä on sellaista arvoa, joka halutaan säilyttää tuleville

polville. Lopullista tuhoutumista pyritään estämään suorittamalla vaurioituneille

kirjoille joko konservointi tai harvemmin restaurointi. Konservoinnilla kirja korjataan

niin, että sen olemassaolo varmistetaan, kun taas restauroinnilla kirja palautetaan

vastaamaan alkuperäistä, materiaalejaan ja tekotapaansa myöten (Feather, 1996, s. 2).

Kirjoja uhkaavat myös monet ulkoiset vaarat. Arkiston väärä ilmankosteus tai lämpötila

lyhentävät teoksen ikää. Myös luonnonmullistukset voivat tuhota yhtäkkiä kokonaisia

kirjastoja. Näin tapahtui 1966 Italiassa Florence-joen tulviessa Biblioteca Nazionale –

kirjastoon (Feather, 1996, s. 3). Tällaiset suuret katastrofit voivat saada aikaan myös

edistystä, kuten kävi Florence-joen tulvan tapauksessakin: konservointi sai uusia

tekniikkoja ja säilyttämiseen yleensäkin alettiin kiinnittää taas huomiota (Feather, 1996,

s. 4).

2.2. Uuden teknologian vaikutukset säilyttämiseen

Digitaalisena säilytettävää tietoa uhkaavat monet samat vaarat kuin perinteisesti

paperille painettua. Luonnonmullistukset eivät digitaalisuudesta perusta ja

tallennuslevyjen pinnat ovat materiaalia siinä kuin paperikin. Voitaisiin sanoa, että

ongelmat eivät ole uusia, ne vaan muuttuvat. Tässä alaluvussa tarkastellaan,

minkälainen prosessi digitaalisen tiedon tallentaminen on ja minkälaisia ongelmia siinä

on nähtävissä. Tarkastelu perustuu pääasiassa kahden tutkimuksen raportteihin. Toinen

on Euroopan komission rahoittama J. S. Mackenzien ja v.d. Wallen Deposit collections

of electronic publications ja toinen amerikkalainen Preserving Digital Information,

jonka on kirjoittanut Task Force On Archiving of Digital Information –työryhmä (TFA)

toimeksiantajinaan Commission of Preservation and Access ja Research Libraries

Group. Molemmat tutkimukset näkevät digitaalisen materiaalin säilyttämisen prosessin

hyvin samankaltaisena, mutta painotuseroa on esimerkiksi siinä, että Mackenzie ja

8

Walle käyttävät paljokin pohdintaa siihen, mikä on elektroninen (digitaalinen) julkaisu,

kun taas TFA pohtii tiedon muuntamiseen (tallennusformaatista toiseen) liittyviä

ongelmia.

2.2.1. Mitä on säilytettävä?

Digitaalisen materiaalin säilyttämisessä voidaan hyvällä syyllä kysyä: mitä halutaan

säilyttää? Digitaalinen tieto on kapseloituneena mediaan, ohjelmistoon ja laitteeseen

(Mackenzie Owen ja Walle, 1996, s. 47). Kaikilla näillä on oma osuutensa siihen, että

näemme lopputuloksen sellaisena kuin sen näemme. Toisin sanoen sama sisältö voidaan

nähdä erilaisena eri tilanteissa riippuen esimerkiksi siitä, mitä ohjelmia tai laitteistoja

käytetään. Tästä on helppo vakuuttua katselemalla samaa HTML-dokumenttia kahden

eri valmistajan selaimella – tai saman selaimen eri versioilla. Tulos voi sisällöllisesti

olla sama, mutta ulkoasu on harvoissa tapauksissa täysin identtinen. Digitaaliset

dokumentit ovat siis riippuvaisia ohjelmista, mikä onkin eräs niiden

luonteenomaisimmista tuntomerkeistä (Rothenberg, 1995).

Kärjistetysti voidaan sanoa, että tehtävä päätös siitä, säilytetäänkö sisältö vai ulkoasu.

Ikävää vain on, että valinnasta riippumatta lopputulos voi olla sama: informaatio

menetetään. Ulkoasun säilyttäminen voi johtaa tilanteeseen, jossa tietoa ei voida enää

käyttää, koska tarvittava teknologia on vanhentunut eikä sitä ole saatavilla. Toisaalta

sisällön säilyttäminen voi johtaa informaation katoamiseen, esimerkiksi värien tarkka

toistaminen voi joissakin tapauksissa olla sisällön kannalta erittäin tärkeää. Esimerkiksi

huomautus ”Ks. punainen pylväs.” menettää merkityksensä, jos kaavio esitetään

mustavalkoisena ja kaikki pylväät ovat mustia.

Pitkällä aikavälillä on ehkä todennäköistä, että vain sisältö on mahdollista säilyttää

(Mackenzie Owen ja Walle, 1996, s. 47). Tässä tarkoitetaan nimenomaan

intellektuaalista sisältöä, jolloin koodattuun sisältöön joudutaan mahdollisesti tekemään

muutoksia. Edellä esitetty huomautus pitäisi siis korjata esimerkiksi muotoon ”Ks.

toinen pylväs vasemmalta.” Näin voidaan joutua tilanteeseen, jossa tiedon alkuperäisyys

on kyseenalaista.

9

Myös se, mikä katsotaan säilytettäväksi ja millä perusteella, on uudessa tilanteessa

hankalaa. Perinteisesti arkistointia monissa maissa säännellään laeilla, jotka

määrittelevät säilytettäviksi julkaistut dokumentit (Mackenzie Owen ja Walle, 1996,

s. 7). Julkaisu digitaalisessa maailmassa on kuitenkin vaikeammin määriteltävissä kuin

perinteisessä julkaisutoiminnassa. Onko Internetissä esille laitettu kotisivu julkaisu, joka

pitäisi säilyttää? Mikä ylipäänsä on julkaisu? Onko tietokanta julkaisu? Jos se on,

kuuluvatko siihen myös ne, mahdollisesti muun kuin tietokannan julkisijan omaisuutta

olevat, ohjelmat, joilla siinä olevaa tietoa käytetään? Näin digitaalisessa muodossa

julkaistava tieto on luonut tilanteen, jossa vaikuttavat useat asiat ja jossa on tehtävä

enemmän päätöksiä kuin aikaisemmin. Nämä päätökset eivät voi aina perustua lakiin,

koska säädäntötyö ei pysy teknologisen kehityksen tahdissa. Esimerkiksi Suomessa

vasta nyt, keväällä 1999, on tarkoitus jättää eduskunnalle lakialoite, jossa digitaalisten

julkaisujen säilyttämistä säädellään jollakin tasolla (Häkli, 1999).

2.2.2. Tiedon eheyden ongelma

Tiedon luotettavuus on säilyttämisessä kaiken perusta. Digitaaliset informaatio-objektit

ovat kuitenkin monessa suhteessa sellaisia, että niiden oikeellisuudesta voi olla vaikea

varmistua. Tarkemmin sanottuna siitä, että objekti on se, jonka käyttäjä sen luulee

olevan (Graham, 1995). TFA luettelee digitaalisen materiaalin ne ominaisuudet, jotka

yhdessä varmistavat sen oikeellisuuden eli eheyden (integrity). Näiden ominaisuuksien

säilyttäminen varmistaa myös koko prosessin onnistumisen (TFA). Seuraavassa

tarkastellaan TFA:n määrittelemiä eheyden muodostavia ominaisuuksia ja niihin

liittyviä näkökohtia.

Sisältö

Päähuomio säilyttämisessä epäilemättä kiinnittyy (intellektuaaliseen) sisältöön

(content). Perinteisessä säilyttämisessä huolehtimalla mediasta myös sisällön säilyminen

on varmistettu. Jos myös digitaalisen materiaalin kohdalla kiinnitettäisiin huomio vain

fyysiseen mediaan, sisältö todennäköisesti menetettäisiin suhteellisen nopeasti.

Uudenlaisen säilyttämisen pitää siis suoraan keskittyä sisältöön. Näin fyysisen objektin

säilyttämisestä ollaan siirrytty abstraktin sisällön säilyttämiseen (Graham, 1995).

10

TFA erottaa sisällössä eri abstraktio-tasoja, joilla digitaalisen materiaalin sisältöä

voidaan tarkastella. Alimmalla tasolla on bittijono, josta jokainen digitaalinen objekti

koostuu. Jos halutaan säilyttää pelkkä bittijono riittää sen varmistaminen, että ne kaikki

säilyvät eikä niiden looginen järjestys muutu. Ylimmällä tasolla sisältö tarkoittaa

intellektuaalista sisältöä, sitä mitä tekijä on teoksellaan halunnut kertoa. Tässä välissä

voi olla yksi tai useampi abstraktiotaso, joita tarvitaan bittijonon esittämiseksi

ylimmällä tasolla. Näitä välitasoilla olevia abstraktioita ovat koodit ja formaatit.

Samassa dokumentissa voi olla käytössä useita erilaisia abstraktioita. Kuva 1 esittää

tietoa, joka ylimmällä abstraktion tasolla näkyy www-sivuna ja alimmalla bittivirtana.

UNICODE-koodilla bitit kuvataan merkeiksi, joita puolestaan käytetään XML-

merkkauksessa. Www-sivulla näkyvä kuva muodostetaan bittivirrasta GIF-formaatilla.

Kuva 1. Www-sivun abstraktiotasot

Kuvasta nähdään, että sisältö onkin hyvin laaja käsite: siihen kuuluu myös tieto siitä,

miten bittivirrasta saadaan www-sivu. Tämä tietämys on ”piilotettu” ohjelmistoihin ja

laitteisiin, joissa tieto on tuotettu.

Muuttumattomuus

TFA kutsuu ominaisuutta, joka tekee informaatio-objektista erotettavan kokonaisuuden

ja sisällöltään pysyvän, muuttumattomuudeksi (fixity), toisin sanoen säilytettävä

objekti on voitava erottaa esimerkiksi muista versioistaan ja sen on pysyttävä

muuttumattomana. Perinteisessä säilyttämisessä on luotu menetelmiä, joilla

varmistetaan, että säilytettävä tieto ei muutu tai joilla sen muuttuminen voidaan todeta.

Kirjastossa säilytettävää kirjaa on lähes mahdoton muuttaa ilman, että siitä jää pysyvää

jälkeä. Kuitenkin digitaalista tietoa voi sen tekijä tai haltija muuttaa suhteellisen helposti

11

koska tahansa, ja voi olla mahdoton todeta, että näin on tapahtunut. Tällaisen aineiston

todistusvoima on siten huomattavasti heikentynyt (TFA).

Lisäksi digitaalinen aineisto voi jo luonteeltaan olla muuttuvaa kuten esimerkiksi

tietokantaan tallennettu tapahtumatieto. Muutos voi olla sillä tavoin jatkuvaa, että

tällaista tietoa ei voida kuvata perinteisillä termeillä versio tai painos, vaan se helpompi

mallintaa jatkuvasti päivittyvänä tietokantana (TFA). Päivittyvän tietokannan

säilyttäminen on periaatteessa mahdollista kahdella tavalla. Toisessa kaikki tietokannan

tilat säilytetään ja toisessa tietokannasta otetaan kopio aika ajoin. Näistä vain edellinen

toteuttaa tiedon täydellisen eheyden, mutta on selvästikin monissa tapauksissa kalliimpi

ja vaikeammin toteutettavissa kuin jälkimmäinen.

Viitattavuus

TFA esittelee kolmantena tiedon eheyteen vaikuttavana ominaisuutena viitattavuuden

(reference), millä se tarkoittaa, että informaatio-objekti on voitava yksilöidä muiden

objektien joukossa. Tähän tarvitaan järjestelmiä, jotka – lainausten, kuvausten ja

luokitteluiden avulla – mahdollistavat objektien etsimisen, tunnistamisen ja haun.

Perinteisesti tällaisen tiedon ovat tarjonneet bibliografiset luettelot ja hakemistot.

Mackenzie Owen ja Walle (1996, s. 71) pitävätkin digitaalisen tiedon luettelointia

samanlaisena prosessina kuin perinteisenkin materiaalin ja esiin tulevat ongelmat

käsitellään yleisen tapauksen laajennuksina. Digitaalisen materiaalin viitattavuustiedon

muodostaminen, tapahtuu se sitten automaattisesti tai manuaalisesti, tulisi perustua siinä

itsessään olevaan tietoon (TFA). Näin digitaalisen tiedon tulisi siis sisältää metatietoa,

joka mahdollistaisi tarvittavien luettelo- ja hakemistotietojen muodostamisen.

Osa viitattavuuden ongelmaa on digitaalisen objektin nimen ja sijainnin ratkaiseminen

(TFA). Maailmanlaajuisessa verkkoympäristössä yksikäsitteisillä nimillä on suuri

merkitys objektin tunnistettavuudelle. Yksikäsitteisyys ei koske vain eri teoksia, vaan

myös saman teoksen eri versioita. Mackenzie Owen ja Walle (1996, s. 75) tuovat esiin

seuraavia digitaalisen materiaalin versiointiin liittyviä ongelmia:

• versioiden käsittelemiseksi puuttuu yhteisymmärrys, edes sanastoa ei ole

olemassa,

12

• digitaalisen materiaalin kohdalla versiolla on periaatteellisesti erilainen

merkitys kuin perinteisen painetun materiaalin tapauksessa,

• usein digitaaliset versiot syrjäyttävät aikaisemman ja

• digitaalisesta materiaalista tuotetaan helpommin uusia versioita, joten

muutosten havaitseminen versioiden välillä voi olla vaikeaa.

Alkuperä

Neljäntenä informaatio-objektin eheyteen vaikuttavana tekijänä TFA määrittelee

alkuperän (provenance) eli tiedon siitä, mistä objekti on tullut ja mitä sille on

tapahtunut säilyttämisen aikana. Perinteisesti viralliset julkaisu- ja jakelukanavat ovat

antaneet luotettavaa tietoa materiaalin alkuperästä. Digitaalisessa maailmassa

informaatiota voi tuottaa ja myös jaella, esimerkiksi verkossa, paljon helpommin kuin

aikaisemmin. Näin alkuperän varmistaminen voi olla vaikeampaa. Digitaalisessa

ympäristössä julkaisun alkuperä on sidoksissa objektin muuttumattomuuteen ja

viitattavuuteen (TFA). Digitaalisen objektin alkuperää tallennettaessa on otettava

huomioon myös muunkin kuin julkaisuna pidettävän materiaalin käsittely: yksityisten

henkilöiden henkilökohtainen materiaali; yritysten liiketoiminnassaan tuottama tieto;

elektronisten laitteiden tuottama data (TFA; Mackenzie Owen ja Walle).

Erikoista huomiota on myös kiinnitettävä siihen, miten digitaalista materiaalia on

käsitelty sen säilytysaikana (TFA). Tässä tulee kyseeseen esimerkiksi materiaalille

suoritetut tietomuodon muunnokset: tällöinhän säilytyksen kohde on saattanut muuttua

niin, että sen tunnistaminen alkuperäiseksi ei välttämättä ole ilmiselvää.

Konteksti

Viidentenä ja viimeisenä digitaalisen dokumentin eheyden takaavana ominaisuutena

TFA esittää kontekstin (context) eli mikä on dokumentin suhde muihin digitaalisen

ympäristön elementteihin. Konteksti voidaan erottaa useissa eri dimensioissa:

• tekninen konteksti eli dokumentin ohjelmistoja laiteympäristö,

• linkkikonteksti eli viittaukset muihin dokumentteihin,

13

• tietoliikennekonteksti eli millä protokollalla dokumentti siirretään

tietoverkossa, ja

• laajempi sosiaalinen konteksti, jossa digitaalinen objekti on syntynyt.

2.2.3. Varastoinnin ongelma

Perinteisessä säilyttämisessä on paljolti kysymys median, kuten paperin, säilyttämisestä.

Myös digitaalisessa muodossa oleva tieto on aina jollakin medialla. Mutta toisin kuin

painettu teksti, joka on yhtä sitä kantavan median kanssa, digitaalinen objekti sijaitsee

medialla. Voidaan siis käyttää ilmaisua ”on varastoitu medialle”.

Vaikka digitaalisen tiedon tallentamiseen käytetty media ei kulu käytössä samalla

tavalla kuin esimerkiksi paperi, ovat levyt ja nauhat erittäin vikaantumisalttiita.

Erityisen vaikeaksi asian tekee se, että ihmisaistein ei voida päätellä, mikä on

tallennusmedian kunto: tarkemmin sanottuna, jos näin tapahtuu, kaikki on jo liian

myöhäistä. Kaiken kaikkiaan, kuinka voidaan olla koskaan varmoja siitä, että levylle

kirjoitettu data on uudelleen luettavissa, sillä sehän voi vioittua heti lukemisen jälkeen!

Varastoinnissa voidaan erottaa erilaisia toimenpiteitä tai tiloja, joita esitellään

seuraavassa.

Virkistäminen

Varastoitaessa digitaalista tietoa erilaisille medioille (kovalevy, magneettinauha, CD-

ROM) tulee jossakin vaiheessa tarpeelliseksi siirtää tieto uudelle medialle. Tähän voi

olla syynä alkuperäisen median kuluminen, uuden median parempi laatu tai niiden

edullisuus vanhaan verrattuna. Tällaisessa siirrossa tiedon alin abstraktiotaso eli

bittivirta kopioidaan sellaisenaan ja puhutaan tiedon virkistämisestä (refreshing). Tämä

tarkoittaa, että tarvittava sovellusohjelmisto (sekä mahdollisesti käyttöjärjestelmä ja

muu laitteisto) pysyy ennallaan ja ongelmana onkin vain varmistaa, että bittivirta ei

muutu virkistämisen aikana. Virkistäminen ei olekaan pitkäaikaisen säilyttämisen

kannalta ratkaisu, koska se vaatisi tulevilta ohjelmistoilta ja laitteistoilta

14

yhteensopivuutta vanhojen tiedostoformaattien kanssa, mikä pitkällä aikavälillä on

mahdotonta (TFA).

Kasautuminen ja pirstoutuminen

Edellä esitetty virkistäminen voi johtaa myös dokumenttien kasautumiseen

(Rothenberg, 1998). Tämä johtuu siitä, että virkistettäessä dokumentteja uuden median

kapasiteetti on usein suurempi kuin vanhan, joten sille voidaan tallentaa dokumentteja

useista eri fyysisistä medioista. Koska monesti medioiden pinnalle on kirjoitettu sisältöä

kuvailevaa metatietoa (esimerkiksi nauhan nimiö ja sisältö), kasautumien johtaa

mahdollisesti siihen, että kaikkien virkistettyjen medioiden (käsinkirjoitettu) metatieto

ei mahdu uuden median pinnalle.

Myös kasautumisen vastakohta eli pirstoutuminen voi tulla ongelmaksi, jos

esimerkiksi uuden median kapasiteetti onkin pienempi kuin vanhan. Tällöin saman

median sisältö voi jakaantua useammalle uudelle medialle, mikä voi olla mahdotonta

toteuttaa tai ainakin johtaa ongelmiin tiedon saannissa.

Monistaminen

Digitaaliset objektit ovat luonteeltaan helposti kopioitavia. Tästä seuraa, että on tullut

yleiseksi tavaksi monistaa samaa digitaalista objektia esimerkiksi saannin

parantamiseksi. Tämä voi johtaa säilyttämisprosessissa hallinnallisiin ongelmiin.

Vaikka digitaalinen objekti ei sinänsä muuttuisi, voi esimerkiksi siihen liitetty metatieto

muuttua tai objekti voidaan poistaa arkistosta, jolloin muutoksen tai poiston on

koskettava jokaista kopiota.

Saantitapa

Saantitavalla tässä tarkoitetaan sitä, miten dokumentin sisältävä media on saatavilla.

Mackenzie Owen ja Walle mainitsevat kaksi tapaa järjestää mediat saatavuuden

suhteen: on-line- ja off-line -mediat. On-line -medialla tarkoitetaan tallennuslaitetta,

jolta dokumentti on heti saatavissa, eli media on koko ajan lukulaitteessa (esimerkiksi

kovalevy levyasemassa), jonka kautta dokumentin luku tapahtuu. Off-line -media sen

sijaan ei ole lukulaitteessa, vaan paremminkin sijoitettu esimerkiksi hyllylle kirjojen

15

tapaan. Tällöin dokumentin lukeminen vaatii ensin median asettamisen lukulaitteeseen.

Näiden kahden lisäksi voitaisiin vielä erottaa kolmaskin mediatyyppi, nimittäin ns.

near-line -media, joka on edellisten välimuoto niin, että media ei ole lukulaitteessa koko

ajan, mutta hakeminen sinne tapahtuu automaattisesti (TFA).

2.2.4. Muunnoksen ongelma

Ohjelmistojen ja laitteistojen kehittyessä tallennusformaatit siis vääjäämättä

vanhentuvat, ts. uudet laitteistoja ohjelmistoympäristöt eivät tue niitä. Tämä onkin

ehkä kaikkein keskeisin ongelma digitaalisen materiaalin pitkäaikaisessa

säilyttämisessä. TFA esittää raportissaan, että ajoittainen muunnos (migration)

formaatista toiseen on ainoa pitkällä aikavälillä toimiva ratkaisu digitaalisen tiedon

säilyttämiseksi. Muunnoksessa dokumentin tallennusmuotoa muutetaan niin, että sitä

voidaan käyttää uudessa laitteistoja/tai sovellusympäristössä (TFA). TFA:n mukaan

muunnos on tehtävä aika ajoin niin, että dokumentti on kullakin hetkellä yleisesti

käytettävässä formaatissa.

Useissa kirjoituksissa (Rothenberg, 1992; Rothenberg, 1998; Heminger ja Robertson,

1998) on tuotu esiin ongelmia, joita muunnokseen liittyy. Näitä ovat sen yleensä

vaatima suuri työmäärä ja tästä seuraavat kustannukset, virhealttius sekä alkuperäisen

dokumentin ominaisuuksien menettäminen tai muuttuminen (Rothenberg, 1998).

Varsinkin viimeksi mainittu kyseenalaistaa koko säilyttämisprosessin. Jos dokumentti

menettää ominaisuuksiaan muunnoksessa, se tietenkin voi myös menettää jotain siitä

tarkoituksesta, jonka tekijä sillä alunperin on halunnut ilmaista. Pitkällä aikavälillä tämä

voi toteutua vielä varmemmin useiden muunnosten seurauksena.

Jatkuvan muunnoksen välttämiseksi on etsitty toisenlaisia lähestymistapoja. Rothenberg

(1992, 1998) esittää, että dokumentin alkuperäisen muodon, ja siten tarkoituksen,

säilyttäminen on mahdollista vain, jos dokumenttia käsitellään sen luoneella ohjelmalla.

Tämän mahdollistamiseksi Rothenberg hahmottelee mallia, jossa tulevaisuuden

tietokoneohjelmisto jäljittelisi eli emuloisi sitä laitetta, jossa dokumentti aikanaan

synnytettiin. Tämä taas vaatisi, että dokumentin mukana olisi tallennettava sitä

käsittelevä ohjelma ja käyttöjärjestelmä, jossa ko. ohjelma suoritetaan. Näiden lisäksi

16

olisi tallennettava kuvaukset, joilla laitteiston emuloinnin rakentaminen tulevaisuuden

koneeseen olisi mahdollista. Vaikkakin malli tuntuu siinä mielessä hyvältä, että se

mahdollistaisi dokumentin katselemisen alkuperäisessä muodossaan, tuntuisi sen

toteuttaminen olevan vieläkin työläämpää kuin muunnoksen. Tosin Rothenberg

huomauttaa, että ohjelmistoja, käyttöjärjestelmiä ja laitteistokuvauksia ei tarvitsi

välttämättä tallentaa jokaisen dokumentin mukaan, vaan riittäisi, kun niistä olisi viittaus

paikkaan, josta ne olisi löydettävissä.

On myös ehdotettu yleisen säilytysformaatin kehittämistä (Universal Preservation

Format, Shepard ja MacCarn, 1999), jossa alkuperäinen dokumentti kapseloitaisiin

pakettiin yhdessä sen tallennusmuodon kuvauksen kanssa. Näin paketti sisältäisi sekä

dokumentin että kuvauksen siitä, miten se voidaan paketista lukea. Digitaalisen paketin

lisäksi tarvittaisiin analoginen (esimerkiksi mikrofilmille tallennettu) selostus miten

digitaalisella medialla oleviin tietoihin päästään käsiksi.

Samantapaista ratkaisua ovat ehdottaneet Heminger ja Robertson (1998) Digital Rosetta

Stone -mallissaan. Mallissa digitaalisen tiedon säilyttäminen esitetään kolmena

prosessina: tietämyksen säilyttämisenä, datan elvyttämisenä ja dokumentin

uudelleenmuodostamisena. Tietämyksen säilyttämisprosessissa kerätään ja säilytetään

kaikki informaatio, joka tarvitaan datan elvyttämiseen ja dokumentin

uudelleenmuodostamiseen. Datan elvyttäminen tarkoittaa tiedon palauttamista

vanhentuneelta medialta ja muuntamista käytössä olevaan järjestelmään sopivaksi.

Dokumentin uudelleenmuodostamisessa on kysymys alkuperäisessä dokumentissa

olevan tiedon tulkitsemisesta tallennusformaatista säilytettyjen tietojen pohjalta.

Prosesseissa tarvittava tietämys tallennettaisiin metadatana.

Muunnosta on käytetty tietotekniikassa alusta lähtien, kun valmistajat ovat

mahdollistaneet uusissa tuotteissaan edellisten versioiden tiedostomuotojen käytön.

Monet ohjelmat myös osaavat lukea toisten ohjelmien muodostamaa dataa.

Muunnoksesta on siis kokemusta ja sen haittapuoletkin tiedossa, mutta on

todennäköistä, että muunnosta tullaan käyttämään ainakin lähitulevaisuudessa. On myös

huomattava, että edellä esitetyissä ratkaisuvaihtoehtoissa kaikissa muissa paitsi

Rothenbergin emulointimallissa nojataan lopulta muunnokseen. Laajasti ottaen myös

Rotherbergin malli on muuntamista, koska siinä laitteisto muunnetaan virtuaaliseksi,

17

mikä voi sekin aiheuttaa muutoksia ainakin dokumentin ulkoasuun. Tuoreessa

artikkelissaan Bearman (1999) puolustaakin muunnosta ainoana kestävänä ratkaisuna ja

arvostelee Rotherbergin mallia monista puutteellisuuksista ja jopa vääristä

lähtökohdista, muun muassa siitä, että siinä yritetään säilyttää järjestelmien

toiminnallisuus, kun kohteena on itse informaatio.

2.2.5. Verkkoympäristön ongelma

Tiedon etsiminen ja käyttö tietoverkkojen kautta on jo tänä päivänä monille tietoa

tarvitseville itsestäänselvyys. Internetin kaltaisten verkkojen käyttö ja kehittyminen

tulevaisuudessa yhä paremmin toteuttaa luvun alussa mainitun ajan ja paikan

murtamisen tiedon välittymisessä. Verkkoympäristön käsite voidaan ajatella

kaksitahoiseksi. Dokumentti voi sijaita tietokoneiden muodostamassa verkossa ja olla

itsessään verkko: se voi siis koostua useista jollakin tapaa toisiinsa yhteydessä olevista

osista, jotka voivat sijaista yhdellä tai useammalla tietokoneella. Esimerkiksi nykyinen

www-järjestelmä on tämän kaltainen verkko. Www muodostuu dokumenttien verkosta,

jossa ajatuksena on, ettei yksikään sen solmuista ole erillinen, vaan liitetty linkillä

johonkin toiseen solmuun. Näin voi olla vaikea rajata kokonaisuutta, jota voisi kutsua

dokumentiksi.

Koska verkkoympäristö mahdollistaa dokumentin saannin suoraan alkuperäisestä

paikastaan, voitaisiin ajatella, että ei enää olisikaan välttämätöntä ”siirtää” dokumenttia

arkistoon säilyttämistä varten. TFA mainitseekin, että hajautettu malli voisi olla sopiva

ainakin kahdesta syystä: ensinnäkin informaation säilyttäminen olisi osaavinta siellä,

missä sen arvo ymmärretään parhaiten, ja toiseksi kehittyvässä ja muuttuvassa

tilanteessa hajautus voisi säästää kustannuksia (TFA, 1996). Toisaalta Mackenzie ja

Owen (1996) suhtautuvat epäillen siihen, että hajautettu malli voisi tulla kyseeseen

pitkäaikaisessa säilytyksessä kuin korkeintaan siten, että verkossa olevista

dokumenteista ylläpidetään bibliografisia tietoja, joista on ehkä linkit niihin. Tällöin

ongelmaksi muodostuu linkkien ylläpito, kun dokumentteja muutetaan, poistetaan tai

siirretään toiseen paikkaan verkossa.

18

Mackenzie Owen ja Walle (1996) tuovat esiin myös toisenlaisen linkitysongelman, joka

voi esiintyä bibliografisia luetteloita muodostettaessa: jos luettelon kohteena oleva

dokumentti sisältää linkkejä, pitäisikö myös linkkien päässä olevat dokumentit

luetteloida? Ratkaisuksi he esittävät linkkien luokittelua sisältölinkkeihin (content links)

ja viitelinkkeihin (reference links) (Mackenzie Owen ja Walle, 1996, s. 64). Sisältölinkit

viittaavat dokumentin muodostaviin osiin ja viitelinkit dokumentin aiheeseen jollakin

tapaa liittyviin itsenäisiin dokumentteihin. Tämän jaottelun mukaan dokumentin

tietoihin bibliografiseen luetteloon sisällytettäisiin myös tiedot sisältölinkkien kohteena

olevista dokumentin osista , mutta ei viitelinkkien päässä olevista dokumenteista.

Verkkoympäristö vaikuttaa säilyttämiseen myös käyttöoikeuksien ja verkon

kaistanleveyden osalta (TFA, 1996; Mackenzie Owen ja Walle, 1996). Käyttöoikeuksia

ei voida enää rajoittaa sallimalla pääsy materiaaliin vain tietyissä tiloissa, vaan

verkkoympäristössä on rajoitukset toteutettava muilla keinoilla, perustuen esimerkiksi

käyttäjätunnuksiin tai sallimalla pääsy vain tietyistä verkko-osoitteista. Myös

kaistanleveys eli verkon suorituskyky voi olla tekijä, joka vaikuttaa siihen, minkälaisena

digitaalinen objekti käyttäjälleen näyttäytyy. Liikkuvan kuvan tai äänen esittäminen

ehkä vaatii verkolta tiettyä kapasiteettia - muussa tapauksessa dokumentti ei esitä sitä,

mitä sen pitäisi esittää. Jotta dokumentin käyttö olisi mahdollista eritasoisilla

verkkoyhteyksillä, pitäisikö siitä olla esimerkiksi erilaisia versioita?

2.3. Säilyttämisen suuntaviivat

Kun informaation tuottamisessa siirrytään kohti digitaalista paradigmaa, pitkäaikaisessa

säilyttämisessä siirrytään fyysisen median säilyttämisestä intellektuaalisen sisällön

säilyttämiseen. Ongelmiksi muodostuvat dokumentin eheyden säilyttäminen, mikä

tarkoittaa sisällön, muuttumattomuuden, viitattavuuden, alkuperän ja kontekstin

säilyttämistä. Tietoverkkojen hyväksikäyttö aiheuttaa pulmia toisaalta digitaalisen

materiaalin saannissa ja toisaalta sen varastoinnissa. Taulukossa 1 on vielä koottu tässä

luvussa esitetyt ongelmat ja niiden kuvaukset.

19

Taulukko 1. Säilyttämisen ongelmat

Ongelma Kuvaus

Säilyttämisen kohde Sisältö vai ulkoasuTiedon eheys Sisältö, muuttumattomuus, viitattavuus,

alkuperä, kontekstiVarastointi Virkistäminen, kasautuminen ja

pirstoutuminen, monistaminen, saantitapaMuunnos Muuntaminen vai emulointiVerkkoympäristö Dokumentin rajaus, linkitys,

käyttöoikeudet, kaistanleveys

Suurimmat ongelmat liittyvät todennäköisesti sisällön säilyttämiseen, mihin tutkijat ovat

tarjonneet kahta periaatteellista ratkaisua: muunnoksen ja emuloinnin. Vaikka näitä

molempia on käytetty tietotekniikassa enemmän tai vähemmän menestyksellisesti,

monet tutkijat ja työryhmät näkevät näistä muunnoksen käytännöllisempänä

vaihtoehtona. Hedstromin ja Montgomeryn (1999) kyselytutkimuksesta, jossa

kohderyhmänä oli Research Librariers Group –järjestön kirjastoja ja arkistoja ympäri

maailmaa (54 vastasi kyselyyn), myös selviää, että näistä kahdesta vain muunnosta on

käytetty tähän mennessä digitaalisen kirjaston tai arkiston alueella. Toisaalta

informaation muoto vaikuttaa siihen, kuinka tarkasti muunnetun dokumentin on

vastattava alkuperäistä, jotta molempien tarkoitus ymmärrettäisiin samalla tavalla. On

aivan eri asia, jos digitaalisessa muodossa olevaa sävellystä muunnetaan kuin jos saman

tasoinen muunnos tehdään tekstidokumentille. Se miten hyvin sisällön säilyttämisessä

onnistutaan, vaikuttaa osaltaan myös muihin eheyden osatekijöihin.

Verkkoympäristö tarjoaa mahdollisuuden jaella digitaalista materiaalia helposti ja

tehokkaasti käyttäjille, mutta myös varastoida sitä hajautetusti. Molempiin näihin liittyy

ongelmia, joihin pitkäaikaisessa säilytyksessä on löydettävä ratkaisuja. Käyttö verkon

yli aiheuttaa ylimääräisiä vaatimuksia dokumentin eheyteen, koska käyttäjän on entistä

vaikeampi varmistua siitä, että hänen selailemansa dokumentti on juuri se, jonka hän

haluaa sen olevan. Verkkoon hajautettu dokumentti taas aiheuttaa ongelmia hallinnassa

ja dokumentin rajojen määrittelyssä. Hallinta tulee vaikeaksi ainakin silloin, kun

hajautettu dokumentti sijaitsee alkuperäisessä paikassaan, esimerkiksi julkaisijan

koneella. Rajojen määrittely on tärkeää siksi, että arkistoija voi luetteloida erillisiksi

katsottavat dokumentit.

20

Kaiken kaikkiaan voidaan todeta, että digitaalisen materiaalin säilyttäminen edellyttää

arkistolta jatkuvaa muutokseen varautumista. On vaikea kuvitella, että voitaisiin

kehittää jokin konkreettinen systeemi, jolla säilyttämisestä tehtäisiin rutiini kaikkiin

tilanteisiin nyt ja tulevaisuudessa. Korkeintaan voidaan esittää korkean tason malleja,

joissa annetaan suuntaviivat ja vaatimukset, jotka rakennettavan systeemin on

täytettävä. Tämän pohjalta sitten voidaan kehittää järjestelmiä, jotka soveltuvat tiettyyn

tilanteeseen ja ympäristöön.

21

3. OAIS-VIITEMALLI

Edellisessä luvussa tarkasteltiin digitaalisten dokumenttien säilytykseen liittyviä

ongelmia, jotka on ratkaistava, kun todellisia järjestelmiä kehitetään. Open Archival

Information System (OAIS) on viitemalli (reference model), jonka tarkoituksena on

muun muassa (CCSDS, 1999)

• tarjota viitekehys, joka kuvaa arkistojen toiminnot ja arkkitehtuurin,

• tarjota perusteet arkistoissa säilytettävän informaation tietomalleille ja

keskustella niiden, kuten myös niiden kuvaaman tiedon, muuttumisesta ajan

kuluessa sekä

• lisätä yhteisymmärrystä pitkäaikaiseen säilyttämiseen liittyvistä elementaarista

osista ja prosesseista.

OAIS-viitemallin on kehittänyt Consultative Committee for Space Data Systems

(CCSDS) International Organization for Standardization (ISO) –järjestön

toimeksiannosta (ISO Archiving Standards – Overview). Mallin yhtenä kulmakivenä on

ollut TFA:n Preserving Digital Information -raportti. Mallista on julkaistu ensimmäinen

CCSDS-standardiluonnos (ns. Red Book), joka tarvitsee vielä hyväksynnän tullakseen

CCSDS-standardiksi (ns. Blue Book) ja johon voi vielä tulla myös muutoksia (CCSDS

Draft Recommendations). Standardiluonnosta esitetään myös ISO-standardiksi (ISO

Archiving Standards - Reference Model Papers).

Tässä luvussa tarkastellaan ensin OAIS-mallia kokonaisuutena ja sitten siinä esitettyä

pitkäaikaisessa säilytyksessä olevan informaatio-objektin tietomallia. Seuraavassa

luvussa sitten tarkastellaan, miten tätä mallia sovellettaisiin tapauksessa, jossa

informaatio-objekti on XML-dokumentti.

3.1. OAIS-arkisto

OAIS-arkisto toimii ympäristössä, jossa toimijoina ovat tiedon tuottajat (producer),

tiedon kuluttajat (consumer) ja arkiston hallinto (management) (ks. kuva 2).

Arkistossa säilytettävä tieto tulee tuottajilta, joiden kanssa arkisto solmii sopimukset

22

informaatio-objektien toimittamisesta. Kuluttajat hakevat ja käyttävät arkistossa olevaa

tietoa. Mallin mukaan kuluttajien eräs osajoukko on kohdeyhteisö (designated

community), jonka tarpeisiin arkisto erityisesti on tarkoitettu ja jonka on kyettävä

ymmärtämään säilytettävänä oleva tieto. Arkiston päämäärät ja politiikan määrittelee

arkiston hallinto. Hallinto ei johda arkistonkäytännön toimintaa, vaan päivittäiset

johtamiseen liittyvät toiminnot sisältyvät itse arkistoon.

Kuva 2. OAIS-arkiston ympäristö (CCSDS, 1999)

Mallissa tuodaan esiin myös muut arkistot, jotka voivat toimia arkistoon nähden joko

tuottajana tai kuluttajana.

3.1.1. Tieto OAIS-arkistossa

OAIS-arkistossa olevan tiedon säilyttäminen perustuu siihen, että tiedon käyttäjällä (voi

olla joko ihminen tai systeemi) on oltava tietämys (knowledge base), joka mahdollistaa

sen ymmärtämisen. Tällaista tietoa mallissa sanotaan esitysinformaatioksi

(representation information), jota käyttämällä datasta tulee informaatiota. Dataobjekti

muuttuu siis informaatio-objektiksi kuvassa 3 esitetyllä tavalla.

Kuva 3. Datasta informaatioksi (CCSDS, 1999)

Kun informaatio-objekti mallinnetaan näin, on tärkeää, että arkistossa voidaan erottaa

sekä dataobjekti (sen muodostavat bitit) että esitysinformaatio. On huomattava, että

esitysinformaatio voi sisältää edelleen dataobjekteja, joiden ymmärtämiseksi tarvitaan

esitysinformaatiota, mikä johtaa mallinnuksessa rekursioon. Lisäksi arkiston on

23

tiedettävä kuluttajien (erityisesti kohdeyhteisön) tietämys, jotta vähimmäismäärä

säilytettävästä esitysinformaatiosta osataan määrittää (mallin mukaanhan vähintään

kohdeyhteisön on ymmärrettävä säilytettävä tieto).

3.1.2. OAIS-arkiston informaatiopaketti ja toiminnallinen malli

OAIS-mallissa arkistossa säilytetään informaatiopaketteja (IP, information package),

jotka koostuvat kahdesta osasta, sisältöinformaatiosta (content information) ja

säilytyskuvausinformaatiosta (PDI, preservation description information).

Sisältöinformaatio ja säilytyskuvausinformaatio varustetaan pakkausinformaatiolla

(packaging information). Informaatiopaketit ovat löydettävissä kuvausinformaation

(descriptive information) avulla. Kuva 4 esittää informaatiopaketin tietojoukkoja ja

niiden suhteita toisiinsa.

Kuva 4. Informaatiopaketin tietojoukot (CCSDS, 1999)

Sisältöinformaatio sisältää siis sekä dataobjektin että esitysinformaation.

Säilytyskuvausinformaatio sisältää edellisessä luvussa TFA:n esittämät, säilytettävän

informaatio-objektin muut eheyden varmistavat tiedot: alkuperä, konteksti, viitattavuus

ja muuttumattomuus. Pakkausinformaatio kuvaa ja yhdistää sisältöinformaation ja

PDI:n. Kuvausinformaatio sisältää tiedot, jotka tarvitaan halutun sisältöinformaation

löytämiseen.

Informaatiopaketista on OAIS-mallissa kolme varianttia. Tuottaja lähettää informaatio-

objektin arkistoon lähetyspakettina (SIP, submission information package). Ennen

kuin lähetyspaketti hyväksytään arkistoon, jossa se muuttuu yhdeksi tai useammaksi

24

arkistointipaketiksi (AIP, archival information package), sen tietoihin (esimerkiksi

PDI:hin) on ehkä tehtävä täydennyksiä. Toisaalta kuluttaja saa haluamansa informaation

toimituspakettina (DIP, dissemination information package), johon voidaan sisällyttää

yksi tai useampia informaatiopaketteja.

Kuvassa 5 on OAIS-arkiston toiminnallinen malli, joka kuvaa sen palvelut ja

informaatiopakettien siirrot näiden välillä.

Kuva 5. OAIS-arkiston toiminnallinen malli (CCSDS, 1999)

Informaatiopaketti (SIP) saapuu vastaanottopalvelun (ingest) kautta arkistoon. Siinä

paketti tarkistetaan ja siitä muodostetaan arkistointipaketti (AIP), joka sitten siirretään

arkistomuistiin. Samalla paketin kuvaustiedot, mahdollisesti täydentäen, päivitetään

tiedonhallintapalveluun. Kuluttajaa varten on saantipalvelu, jonka avulla hän voi

hakea tarvitsemaansa informaatio-objektia. Haussa (kysely) kuluttaja käyttää

informaatiopakettien tiedonhallintapalvelun sisältämiä kuvaustietoja. Vastaustietojen

perusteella hän valitsee paketin ja lähettää siitä tilauksen saantipalvelulle. Tilauksen

perusteella saantipalvelu muodostaa toimituspaketin (DIP) kuluttajalle.

Arkiston toiminnallinen malli muodostuu siis neljästä palvelusta, vastaanotto,

arkistomuisti, tiedonhallinta ja saanti, joita ohjaa ja valvoo hallinnointi. OAIS-viitemalli

määrittelee kunkin palvelun toiminnot useista funktioista koostuvana.

25

3.2. OAIS-tietomalli

OAIS-mallissa edellytetään, että arkiston on säilytettävä huomattavasti enemmän tietoa

kuin mitä säilytyksen kohteena oleva informaatio-objekti itsessään vaatisi: on nimittäin

säilytettävä myös tarpeellinen määrä esitysinformaatiota. Kuva 6 esittää OAIS-arkiston

informaatio-objektin tietomallia. Kuvassa näkyvässä kaaviossa on käytetty UML-

merkintää (Unified Modeling Language, ks. liite 1).

Kuva 6. OAIS-informaatio-objektin tietomalli (CCSDS, 1999)

Informaatio-objekti siis koostuu dataobjektista ja esitysinformaatiosta. Dataobjektista on

kaksi erikoistapausta, fyysinen objekti ja digitaalinen objekti, joka edelleen koostuu

yhdestä tai useammasta bitistä. Esitysinformaatio puolestaan voi sisältää informaatiota,

jolle voi edelleen olla esitysinformaatiota (mistä seuraa siis rekursio).

3.2.1. Dataobjekti

Dataobjekti voi olla fyysinen tai digitaalinen objekti, johon on liitetty

esitysinformaatiota. Mallissa fyysisen objektin esimerkkinä mainitaan kuukivi.

Digitaalinen objekti on bittijono, jolle esitysinformaatio antaa merkityksen.

26

3.2.2. Digitaalisen objektin esitysinformaatio

Digitaalisen objektin esitysinformaatio voi tarkoittaa esimerkiksi sellaista tietoa, joka

kuvaa, miten bitit (tai bittisarjat) muodostavat merkkejä tai kokonais- ja

desimaalilukuja. Se voi myös kuvata näiden yhteyksiä ja suhteita korkeammalla tasolla.

Mallissa esitysinformaatio jaetaan kahteen tyyppiin, rakenneinformaatioon (structural

information) ja merkitysinformaatioon (semantic information) kuvassa 7 esitetyllä

tavalla.

Kuva 7. Esitysinformaation kaksi tyyppiä (CCSDS,1999)

Rakenneinformaation tarkoituksena on selittää, miten biteistä saadaan merkkejä,

numeroita, pikseleitä ja muita, enemmän merkitystä sisältäviä rakenteita.

Rakenneinformaatiota täydentämään tarvitaan lisäksi merkitysinformaatiota, joka antaa

lisäselitystä rakenneinformaation elementaarisille osille ja niiden suhteille. Mallissa

oletetaan, että molemmat tyypit esiintyvät tietyn informaatio-objektin

esitysinformaatiossa.

Esitysinformaatio on itsessään informaatio-objekti, joko fyysinen (esim.

paperidokumentti) tai digitaalinen. Jos se on digitaalinen objekti, se vaatii edelleen

esitysinformaatiota. Tämä rekursio jatkuu kunnes esitysinformaatio on lopulta kokonaan

fyysistä. Esimerkiksi esitysinformaatio voi olla ASCII-tekstiä, jolloin paperille

tulostettu ASCII-standardi on sen fyysinen esitysinformaatio. Tosin rekursion voi

lopettaa myös laajasti käytössä oleva ohjelma, joka tunnistaa käytettävän esitystavan,

esimerkiksi ASCII-tekstiä lukeva ohjelma. OAIS-mallissa varoitetaan kuitenkin

vaaroista, jotka liittyvät ohjelman käyttämiseen rekursion lopettamisessa, sillä ei ole

27

olemassa vedenpitäviä takeita siitä, että ohjelma tai sen vaatima käyttöympäristö olisi

olemassa myös tulevaisuudessa.

OAIS-mallissa esitysinformaatio sisältää

• olemassa olevia standardeja, joita kutsutaan viittausinformaatioksi (referenced

representation information) ja jotka määrittelevät alkeistietotyypit,

• määrityssäännöt (mapping rules), jotka muodostavat alkeistietotyypeistä

monimutkaisempia, dataobjektissa käytössä olevia tietorakenteita, sekä

• edellisessä kohdassa mainittujen tietorakenteiden suhteet ja niihin kohdistuvat

toiminnot.

Kuva 8 esittää esitysinformaation tietomallia.

Kuva 8. Esitysinformaation tietomalli (CCSDS, 1999)

OAIS-arkistossa päämääränä on säilyttää sisältöinformaatio. Tärkeää on tällöin erottaa,

mikä osa sisältöinformaatiossa on dataobjektia ja mikä osa esitysinformaatiota. Mallissa

annetaan alla oleva menetelmä, jolla nämä ovat löydettävissä.

a) Määritä kaikki bitit, jotka muodostavat dataobjektin.

b) Määritä kaikki esitysinformaatio-objektit, jotka muuntavat dataobjektin

kaikki bitit merkitykselliseksi informaatioksi.

28

c) Jokaiselle b-kohdan esitysinformaatio-objektille tutki onko se

viittausinformaatio-objekti. Jos on, tunnista kaikki sen sisältämät

viittausinformaatio-objektit, ja toista tätä kunnes viittausinformaatio-

objekteja ei enää löydy.

d) Jokaiselle uudelle löydetylle esitysinformaatio-objektille toista kohdat b, c

ja d.

e) Sisältöinformaatio koostuu dataobjektista ja kaikista esitysinformaatio-

objekteista.

3.3. Tiedon migraatio

Kuten edellisessä luvussa esitettiin, pitkällä aikavälillä ehkä ainoa tapa säilyttää tieto on

muuntaa sitä jollakin tapaa. OAIS-malli määrittelee migraation (migration) tiedon

siirtämiseksi (transfer) joko uudelle medialle tai uuteen formaattiin. Migraation syiksi

malli esittää median kulumisen, hinta/teho -suhteen parantamisen ja käyttäjien

vaatimukset. Viimeksi mainittu voi johtua esimerkiksi siitä, että käyttäjät vaativat

tehokkaampaa palvelua tai tietyssä formaatissa olevia toimituspaketteja. Näin

arkistonkin on vastaavasti siirrettävä arkistopakettinsa uudemmalle medialle

tehokkuuden parantamiseksi tai siirryttävä samaan formaattiin, jotta vältyttäisiin turhilta

konversioilta arkistoja toimituspakettien välillä.

OAIS-malli erottaa muunnoksessa neljä eri astetta: virkistämisen (refreshment),

replikoinnin (replication), uudelleenpaketoinnin (repackaging) ja muunnoksen

(transformation). Virkistämisessä informaatiopaketti siirretään medialta toiselle

samantyyppiselle medialle. Paketin sisältö ei muutu toimenpiteessä. Replikoinnilla

tarkoitetaan arkistopaketin muuntamista uudelle medialle niin, että tieto, jolla se

arkistosta löydetään, voi muuttua. Kuitenkaan paketin sisältö ei muutu prosessissa.

Uudelleenpaketoinnissa pakkausinformaatiota on muutettava. Näissä kaikissa kolmessa

paketin sisältö- tai säilytyskuvausinformaatio pysyvät siis ennallaan.

Kun informaatiopaketin sisältö- tai säilytyskuvausinformaatiota joudutaan muuttamaan,

on OAIS-mallin mukaan kyse muunnoksesta, jossa informaatiopaketista syntyy uusi

29

versio korvaten aikaisemman. OAIS-malli jakaa muunnoksen kahteen typpiin.

Palautuva muunnos (reversible transformation) on kyseessä silloin, kun uusi versio on

palautettavissa alkuperäiseksi, ja palautumaton muunnos (non-reversible

transformation), kun muunnosta alkuperäiseen ei voida tehdä. Jälkimmäisessä

tapauksessa siis jotain alkuperäisen informaatiopaketin sisällöstä menetetään.

30

4. RAKENTEINEN DOKUMENTTI

Tiedon käsittely tietokoneella vaatii myös tiedolta tiettyjä asioita. Yksi vaatimuksista

on, että tiedolla on oltava rakenne. Kun ihminen lukee esimerkiksi kirjaa, hän

hahmottaa siinä jonkinlaisen rakenteen (esim. otsikot, luvut ja kappaleet), mikä

helpottaa lukemista. Samalla tavalla tietokoneohjelman on tunnistettava tiedosta

käsittelyn kannalta merkityksellisiä osia. Jos ohjelma ei erottaisi esimerkiksi

dokumentin sanoja toisistaan, ei se voisi tavuttaa niitä tai edes vaihtaa riviä oikeasta

kohdasta. Näin ollen ohjelma erottaisi vain kaksi osaa, yksittäiset merkit sekä niiden

muodostaman dokumentin, ja dokumenttiin kohdistuvat toiminnot olisivat

huomattavasti rajoitetumpia kuin silloin, jos ohjelma voi erottaa siitä esimerkiksi sanoja,

lukuja, kappaleita ja otsikoita. Tietokonepohjaisen käsittelyn mahdollistamiseksi tieto

on siis kuvattava rakenteina ja esitettävä ne tietokoneohjelman ymmärtämällä tavalla.

Edellisen perusteella kaikilla digitaalisilla dokumenteilla on siis rakenne, mutta kun

puhutaan erityisesti rakenteisesta dokumentista, halutaan korostaa sitä, että

dokumentin rakenne noudattaa tarkkoja sääntöjä (Salminen, 1992).

Tässä luvussa tarkastellaan rakenteista dokumenttia. Tarkoitus ei kuitenkaan ole pohtia

asiaa teoreettiselta, eikä välttämältä yleiseltäkään kannalta, vaan selvittää, miten

rakenteisuus ilmenee tietyssä erikoistapauksessa, nimittäin silloin, kun dokumentti on

koodattu Extensible Markup Language –merkkauskielellä (XML). XML on valittu,

koska se on saanut runsaasti huomioita osakseen, ja sille on jo nyt, runsaat puolitoista

vuotta standardimäärityksen hyväksymisen jälkeen, kehitetty useita sovellutuksia.

XML:ään on lisäksi kohdistettu paljon sellaisia toiveita, jotka tekisivät siitä laajasti

käytetyn välineen tiedon julkaisemiseksi Internetissä. Myös tehdyt tutkimukset (mm.

Coleman ja Willis, 1997) tukevat SGML:n, ja siten myös XML:n, käyttökelpoisuutta

digitaalisen materiaalin pitkäaikaisessa säilyttämisessä.

4.1. XML:n lyhyt historia

Vuonna 1996 80 SGML (Standard Generalized Markup Language) –asiantuntijaa

kehitti 11 viikon aikana SGML:ään pohjautuvan määrityksen. Työryhmä toimi World

31

Wide Web Consortium (W3C) –ryhmittymän alaisuudessa ja tarkoituksena oli

muodostaa SGML:stä yksinkertaistettu versio, jota voitaisiin käyttää World Wide

Webissä (www) ja joka mahdollistaisi käyttäjien omien elementtien määrittelyn.

Jälkimmäinen päämäärä poistaisi tiedon esitykseen www:ssä käytettävään Hypertext

Markup Language (HTML) –määritykseen liittyviä rajoituksia. Työn tulokset esiteltiin

Bostonin SGML-konferensissa marraskuussa 1996 standardiluonnoksena, jolle oli

annettu nimeksi Extensible Markup Language (XML) (Light, 1997). Useiden

väliversioiden jälkeen lopullinen määritys (Extensible Markup Language 1.0) valmistui

helmikuussa 1998.

XML on rakenteisten dokumenttien merkkauskieli (markup language). XML-

määrityksessä kuvataan miten merkkaus tehdään. (Walsh, 1998) Määritys ei siis sisällä

esimerkiksi kaikkea sitä, mitä tiedon jakelu verkossa vaatii. Näistä vaatimuksista

oleellisia ovat tiedon esittäminen tietokoneen ruudulla tai muulla medialla (dokumentin

ulkoasu) ja dokumenttien linkittäminen toisiinsa. Jo määrittelytyön alkuvaiheessa nämä

kaksi osa-aluetta rajattiin kokonaisuuksiksi, jotka kuvataan erillisillä määrityksillä

(Light, 1997). Määritykset ovat nimeltään Extensible Stylesheet Language (XSL) XML-

dokumenttien esittämiseen ja XML Linking Language (XLink) täydennettynä XML

Pointer Language (XPointer) –määrityksellä linkittämiseen. Näin ydinosan XML:n

määrittelee itse asiassa kolme osamääritystä.

Tämä lyhyt esittely kuvatkoon sitä, mistä edellisessä luvussa osaltaan oli kysymys:

uusien standardien kehittyminen voi tapahtua nopeastikin mahdollistaen näin

digitaalisen tuottamisen valtavirran siirtymisen formaatista toiseen. Myös säilyttämisen

on seurattava perässä.

4.2. XML-dokumentti

XML-dokumentilla on sekä looginen että fyysinen rakenne (Light, 1997, s. 82).

Looginen rakenne ilmenee niinä merkattuina rakenteina, joita dokumentissa voidaan

erottaa. Fyysinen rakenne taas tarkoittaa lähinnä niitä tiedostoja, jotka kokonaisuutena

muodostavat loogisen dokumentin. Tarkastellaan tässä erikseen näitä kumpaakin.

Tarkastelu perustuu W3C:n Extensible Markup Language (XML) 1.0 –määritykseen

32

(Bray ym., 1998) (jatkossa XML-määritys) sekä teokseen Presenting XML (Light,

1997).

4.2.1. Looginen rakenne

Elementit

XML-dokumentin loogisella rakenteella tarkoitetaan sen sisällön jakamista

kokonaisuuksiin. Esimerkiksi tekstissä voidaan erottaa lukuja, alalukuja, kappaleita,

otsikoita, luetteloita jne. XML-dokumentissa nämä loogiset kokonaisuudet esitetään

elementteinä (element), jotka merkataan tunnistimilla (tag): elementin alussa on

alkutunniste ja lopussa lopputunniste. Kuvassa 9 on tämän alaluvun tekstiä merkattuna

elementeiksi.

<luku taso=’3’><otsikko>Looginen rakenne</otsikko><kappale>XML-dokumentin loogisella rakenteella tarkoitetaan sensisältämän tiedon esittämistä loogisina kokonaisuuksina,joita sanotaan <termi>elementeiksi</termi> (<termikieli=’eng’>element</termi>). Esimerkiksi tekstissä voidaanerottaa lukuja, alalukuja, kappaleita, otsikoita, luetteloitajne. XML-dokumentissa nämä loogiset kokonaisuudet esitetäänelementteinä, jotka merkataan <termi>tunnistimilla</termi>(<termi kieli=’eng’>tag</termi>): elementin alussa onalkutunniste ja lopussa lopputunniste. Kuvassa tämän alaluvuntekstiä merkattuna elementeiksi.</kappale></luku>

Kuva 9. XML-merkattua tekstiä

Kuvan 9 esimerkissä esiintyvät elementit luku, otsikko, kappale ja termi. Tunnisteet

on siis erotettu varsinaisesta sisällön muodostavasta tekstistä <- ja >-merkeillä.

Tunnisteella elementille annetaan nimi ja rajat. Lisäksi elementin alkutunnisteessa

voidaan esittää attribuutteja (attribute), joilla elementille annetaan lisäominaisuuksia.

Edellä elementeillä luku ja termi on vastaavasti attribuutit taso ja kieli. Attribuutilla

on yksi tai useampi arvo (value) (esimerkissä attribuuttien taso ja kieli arvot ovat

vastaavasti 3 ja eng). Sama attribuutti ei voi esiintyä samassa tunnisteessa useaan

kertaan. Lopputunniste alkaa /-merkillä. Elementti voi olla myös tyhjä, jolloin siltä

puuttuu sisältö. Tyhjällä elementillä ei ole lopputunnistetta vaan alkutunniste päättyy

”/”-merkkiin. Seuraavassa on elementti, joka voisi liittää dokumenttiin kuvan.

33

<kuva src=”kuva.gif”/>

Dokumentin kirjoittaja voi vapaasti valita elementtien nimet, attribuutit ja näiden arvot.

Toisin sanoen dokumentissa käytettyjen merkintöjen semantiikka eli merkitys on

kirjoittajan valittavissa. Juuri tässä on suuri ero esimerkiksi HTML-dokumenttiin, jossa

käytettäville elementeille on etukäteen annettu merkitys: H1-elementillä tarkoitetaan

otsikkoa tasolla yksi. Edellä olevassa esimerkissä (kuva 9) käytetty luku-elementti

voitaisiin korvata minkä nimisellä elementillä tahansa, esimerkiksi tekstilohko-

nimisellä.

Loogiset kokonaisuudet

Kun XML-dokumentin loogista rakennetta tarkastellaan korkeimmalla tasolla, se

voidaan jakaa kahteen osaan: esittely (prolog)- ja dokumenttielementtiosaan

(document element), joista ensin mainittu voi myös puuttua (Light, 1997). Esittelyosa

puolestaan jakautuu kahteen määritykseen, joista ensimmäinen, XML-lause (XML

declaration), ilmoittaa, että kyseessä on XML-dokumentti, ja voi sisältää esimerkiksi

versiomääreen. Toinen, dokumenttityyppilause (document type declaration), määrittää

käytettävän dokumenttityyppimäärityksen (document type definition, DTD). Molemmat

näistä voivat puuttua. Dokumenttielementti puolestaan sisältää varsinaisen dokumentin

sisällön. Kuva 10 esittää XML-dokumenttia korkeimmalla tasolla.

Kuva 10. XML-dokumentin looginen rakenne korkeimmalla tasolla

XML-lause kertoo XML-prosessorille (ohjelma tai moduuli, jonka avulla sovellus

käsittelee XML-dokumenttia), että kyseessä on XML-dokumentti. XML-lauseessa voi

olla esimerkiksi XML-määrityksen versionumero. Dokumenttityyppilause esittelee

34

dokumenttityyppimäärityksen eli DTD:n, joka voi sijaita erillisessä tiedostossa tai

sisältyä dokumenttityyppilauseeseen eli olla ulkoinen tai sisäinen. Dokumenttielementti

lopulta sisältää varsinaisen dokumentin XML-merkatun sisällön.

Hyvin muodostettu ja validi dokumentti

Kuten edellä mainittiin, kirjoittaja voi valita käyttämänsä merkinnän, mutta sen on

kuitenkin noudatettava XML-määrityksessä esitettyjä sääntöjä eli sen on oltava hyvin

muodostettu (well-formed). Toisaalta merkkaus voi olla jonkin DTD:n mukaista,

jolloin dokumentti on myös validi (valid).

Kuvassa 11 on kuvan 9 dokumentti esitettynä täydellisenä niin, että se noudattaa

annettua DTD:tä. Kuvan 11 XML-dokumentti on siis validi.

<?xml version=”1.0”?><!DOCTYPE teksti [<!ELEMENT luku (otsikko, kappale)><!ATTLIST luku

taso (1|2|3|4|5|6|7|8|9) #REQUIRED><!ELEMENT otsikko (#PCDATA)><!ELEMENT kappale (#PCDATA | termi)*><!ELEMENT termi (#PCDATA)*><!ATTLIST termi

kieli (fin|eng) “fin”>]><teksti><luku taso=’3’><otsikko>Looginenrakenne</otsikko><kappale> XML-dokumentin loogisellarakenteella tarkoitetaan sen sisältämän tiedon esittämistäloogisina kokonaisuuksina, joita sanotaan<termi>elementeiksi</termi> (<termikieli=’eng’>element</termi>). Esimerkiksi tekstissä voidaanerottaa lukuja, alalukuja, kappaleita, otsikoita, luetteloitajne. XML-dokumentissa nämä loogiset kokonaisuudet esitetäänelementteinä, jotka merkataan <termi>tunnistimilla</termi>(<termi kieli=’eng’>tag</termi>): elementin alussa onalkutunniste ja lopussa lopputunniste. Kuvassa tämän alaluvuntekstiä merkattuna elementeiksi.</kappale></luku></teksti>

Kuva 11. Validi XML-dokumentti

Kuvassa dokumenttityyppilause (doctype-elementti) voisi olla myös muodossa

<!DOCTYPE teksti system “teksti.dtd”>

mikä tarkoittaisi, että DTD on erillisessä tiedostossa nimeltä teksti.dtd. Näin sisäinen

DTD olisi korvattu ulkoisella DTD:llä. DTD voi myös koostua molemmista, ulkoisesta

ja sisäisestä osasta. Tällöin sisäinen osa käsitellään ensin, joten sen määritykset ovat

35

voimakkaampia kuin ulkoisen DTD:n määritykset (esimerkiksi kun sama elementti tai

attribuutti määritellään molemmissa) (Light, 1997, s. 86).

DTD voi sisältää määrityksiä, jotka muuttavat XML-dokumenttia, kun XML-prosessori

jäsentää sitä. Näin voi tapahtua esimerkiksi, kun DTD:ssä on määritelty attribuuteille

oletusarvo, jonka prosessori lisää XML-dokumentin elementtiin attribuutin arvon siitä

puuttuessa (Bray ym., 1998). Esimerkiksi jokaiseen tekstiä sisältävään elementtiin

voitaisiin liittää attribuutti kieli, jolla ilmoitetaan käytetty kieli. Jos kieli-attribuutti

puuttuu dokumentin elementistä, jossa sen kuuluisi esiintyä, prosessori voi DTD:n

määrityksen perusteella lisätä elementtiin attribuuttimerkinnän kieli=”fin”. XML-

dokumentin esittelyosassa XML-lauseessa voidaan ilmoittaa standalone-määreellä,

vaikuttaako DTD dokumentin sisältöön, kun prosessori käsittelee dokumenttia.

Seuraavan dokumentin XML-lause ilmoittaa, että DTD:n käsittely ei aiheuta muutoksia

dokumentin sisältöön.

<?xml version=”1.0” standalone=”yes” ?>

Määrittelyllä on merkitystä vain silloin, kun DTD:ssä on ulkoisia osia. Jos dokumentilla

ei ole ulkoista DTD:tä tai se ei aiheuta muutoksia dokumenttiin, sen standalone-status

on ”no”. Se, että sisäinen DTD aiheuttaa muutoksia dokumenttiin, jonka prosessori

välittää sovellukselle, ei vaikuta dokumentin standalone-statukseen (Bray ym., 1998).

W3C on kehittämässä XML Schema –määritystä, jolla on mahdollista kuvata XML-

dokumentin elementit ja muu rakenne tarkemmin kuin mitä voidaan tehdä DTD:llä

(Malhotra ja Maloney, 1999). Näin dokumenttityyppilause voi periaatteessa viitata

johonkin muuhunkin kuin DTD:hen.

Käsittelyohjeet

XML-dokumentti voi sisältää erityisiä käsittelyohjeita (processing instruction), jotka

on tarkoitettu dokumenttia käsittelevälle sovellukselle, ei XML-prosessorille: XML-

prosessori vain välittää käsittelyohjeet sovellukselle. Seuraavassa on käsittelyohje, jolla

XML-dokumenttiin liitetään tyylitiedosto (ks. kohta Esittäminen)

36

<?xml-stylesheet href="mystyle.css" title="Compact"type="text/css"?>

Käsittelyohjeella on siis nimi (xml-stylesheet) ja sovelluksen tunnistamia muita

määreitä. Käsittelyohje on sovelluskohtainen, mutta mikään ei estä kehittämästä

standardeja, joilla tietyt ohjeet (kuten tyylitiedoston liittäminen yllä) tehdään

sovellusriippumattomiksi.

4.2.2. Fyysinen rakenne

Entiteetit

XML-dokumentti koostuu fyysisellä tasolla entiteeteistä (entity) (Bray ym., 1998).

Entiteetillä on nimi ja sisältö, eli ”kutsumalla” nimeä, voidaan XML-dokumentissa

”hakea” sitä vastaavan entiteetin sisältö kirjoittamalla XML-koodiin entiteettiviittaus

(entity reference). Entiteetit voivat olla yksittäisiä merkkejä, lyhyitä ilmaisuja tai

kokonaisia tiedostoja tai mitä muuta tahansa (Light, 1997). XML-dokumentti koostuu

aina ainakin yhdestä entiteetistä, dokumenttientiteestä, josta XML-prosessori aloittaa

dokumentin käsittelyn (Bray ym., 1998). Dokumenttientiteetillä ei ole nimeä (ts. siihen

ei voi viitata nimellä dokumentin sisällä) ja se voi olla jopa virtuaalinen siinä mielessä,

että se on olemassa vain tietokoneen muistissa (Bray ym., 1998). Toinen nimetön

entiteetti on ulkoinen DTD.

Entiteetit määritellään DTD:ssä ENTITY-elementillä. Entiteetti voi olla sisäinen tai

ulkoinen. Edellisessä tapauksessa entiteetin arvo annetaan suoraan sen määrittelyssä ja

jälkimmäisessä sisältö sijaitsee erillisessä tiedostossa. Kuvassa 12 olevassa XML-

koodissa on kaksi entiteettiä, pm ja omakuva, joista ensimmäinen on sisäinen ja toinen

ulkoinen.

37

<?xml version=”1.0”?><!DOCTYPE teksti [<!ENTITY pm “Pekka Metsäranta”><!ENTITY kuva SYSTEM ”potretti_1999.gif”>]><teksti><t>Kuvassa (alla) olen toinen oikealta.</t><kuva nimi=”potretti” src=”&kuva;”/><kuvateksti kohde=”potretti”>&pm;, toinen oikealta</kuvateksti></teksti>

Kuva 12. Entiteetin määrittely ja käyttö XML-dokumentissa

Ulkoinen entiteetti siis määritellään avainsanalla SYSTEM, jonka jäljessä tulee entiteetin

systeemitunniste (system indentifier) eli systeemin tai käyttöjärjestelmän tuntema nimi.

Systeemitunniste voidaan ilmoittaa verkko-osoitteena URI:n (Uniform Resource

Identifier) avulla.

Entiteetit voivat siis olla sisäisiä tai ulkoisia, mutta toisaalta ne voivat olla joko

jäsentyviä (parsed) tai jäsentymättömiä (unparsed) (Bray ym., 1998). Jäsentyvä

entiteetti sisältää XML-koodattua dataa, kun taas jäsentymätön sisältää tietoa, jota

XML-prosessorin ei tarvitse jäsentää. Prosessorin on kuitenkin välitettävä sovellukselle

vähintään jäsentymättömän entiteetin nimi ja muoto (Bray ym., 1998). Muoto

ilmoitetaan entiteettimäärityksessä notaatiolla (notation), jolle (validissa dokumentissa)

pitää DTD:ssä olla notaatiomääritys (notation declaration). Notaatiomäärityksen

tarkoituksena on antaa lisäinformaatiota jäsentymättömän entiteetin käsittelystä.

Notaatiomäärittelyssä voidaan esimerkiksi antaa ohjelman nimi, jolla entiteetin sisältöä

on tarkoitus katsella.

Kuvan 12 esimerkin DTD on koodattu uudelleen kuvassa 13. Siinä ulkoinen

entiteettiviittaus on varustettu notaatiolla GIF, joka myös on määritelty.

<?xml version=”1.0”?><!DOCTYPE teksti [<!ENTITY pm ”Pekka Metsäranta”><!ENTITY kuva SYSTEM ”potretti_1999.gif” NDATA GIF><!NOTATION GIF SYSTEM ”/program files/gif/viewer.exe”>]>

Kuva 13. Notaation käyttö ja määrittely DTD:ssä

38

Entiteetit voidaan luokitella myös sen mukaan, käytetäänkö niitä dokumentin sisällössä

vaiko DTD:ssä. Dokumentin sisällössä käytettäviä kutsutaan yleisiksi entiteeteiksi

(general entity) ja DTD:ssä käytettäviä parametrientiteeteiksi (parameter entity).

Entiteetti voi olla sisäinen tai ulkoinen, yleinen tai parametrientiteetti ja jäsentyvä tai

jäsentymätön. Toisaalta sisäinen ja parametrientiteetti eivät voi olla jäsentymättömiä.

Kuva 14 esittää mahdolliset entiteetin ominaisuusyhdistelmät.

Kuva 14. Entiteetin ominaisuusyhdistelmät

Merkkikoodaus

Jokainen jäsentyvä entiteetti koostuu merkeistä, jotka on koodattu ISO/IEC 10646-

standardilla (jonka rinnakkainen, identtinen standardi on Unicode) (Bray ym., 1998).

Jokaisen XML-jäsentimen on tuettava kahta laajan ISO/IEC 10646 –standardin

osajoukkoa, nimittäin UTF-8:aa ja UTF-16:ta. Jos ulkoinen- tai dokumenttientiteetti on

koodattu joillakin muulla kuin toisella edellä mainituista, on merkkikoodaus

ilmoitettava entiteetin alussa tekstimääreellä (text declaration). Ulkoisissa entiteetteissä

voidaan kussakin käyttää erilaista merkkikoodausta (Bray ym., 1998). Esimerkiksi

määritys

<?xml encoding=”ISO-8859-1”>

ilmoittaisi käytettävän ISO-8859-1 –määrityksen mukaista koodausta.

Jos entiteetissä halutaan käyttää tekstimääreessä annetusta koodista poikkeavia

merkkejä, ne voidaan lisätä suoraan dokumentin sisältöön kirjoittamalla merkin

ISO/IEC 10646 –standardin mukainen koodi heksadesimaali- tai desimaalimuodossa.

Esimerkiksi A-kirjain voitaisiin liittää sisältöön seuraavasti

39

<para>Tässä on A on liitetty desimaalisena ja tässäA heksadesimaalisena. Eroa ei tuloksessa huomaa.</para>

Toinen tapa on määritellä merkkientiteetti dokumentin DTD:ssä ja viitata siihen

sisällössä.

4.3. XML-dokumentin ympäristö

Edellä tarkasteltiin XML-dokumentin tekstuaalisen sisällön organisointia sekä

loogisella että fyysisellä tasolla. XML-teknologiaan liittyy kuitenkin useita muita

osatekijöitä, jotka lisäävät dokumentin rakenteisuutta. Kutsutaan näitä osatekijöitä tässä

yksinkertaisuuden vuoksi XML-dokumentin ympäristöksi. Tässä alaluvussa

tarkastellaan tämän tutkimuksen kannalta olennaisia osia kutakin erikseen. Oleellisia

ovat esittäminen ja linkittäminen sekä XML-koodauksessa monessa yhteydessä

käytössä oleva nimiavaruuden käsite.

4.3.1. Nimiavaruus

Eräs XML:n mahdollistama etu on tiedon modulaarisuus: samassa dokumentissa voi

olla eri ohjelmistoilla tuotettuja osia. Näiden osien prosessointi voi perustua tiettyjen,

nimeltään etukäteen määriteltyjen elementtien käsittelyyn. Toisaalta dokumentin muissa

osissa saattaa esiintyä saman nimisiä elementtejä, mikä voi johtaa elementtien

tunnistamisongelmiin. Namespaces in XML on määritys, jossa kuvataan, miten XML-

dokumentissa käytetään jossakin toisessa dokumentissa kuvattujen elementtien nimiä.

Tämä mahdollistaa yhtä dokumenttia laajemman ”nimiavaruuden”. (Bray ym., 1999)

XML Namespaces määrittelee, että nimiavaruus esitellään XML-dokumentissa xmlns-

attribuutilla, jonka arvona on viittaus nimiavaruuden muodostamaan verkko-

osoitteeseen. Xmlns-attribuuttia voi seurata kaksoispisteellä erotettu etuliite (prefix), jota

käytetään nimiavaruuteen kuuluvien elementtinimien edessä. Esimerkissä kuvassa 15

nimiavaruudeksi määritellään HTML 4.0 –määritys. Elementtien etuliitteenä käytetään

tunnusta ”htm”.

40

<?xml version="1.0"?><html xmlns:htm='http://www.w3.org/TR/REC-html40'><htm:head><htm:title>Frobnostication</htm:title></htm:head><htm:body><htm:p>Moved to<htm:a href='http://frob.com'>here</htm:a></htm:p></htm:body></htm:html>

Kuva 15. Nimiavaruuden esittely ja käyttö

Nimiavaruus määritetään jollekin elementille (yllä html-elementille), jonka

lapsielementit automaattisesti kuuluvat myös samaan nimiavaruuteen, jos toisin ei ole

määritelty. Samassa dokumentissa voi olla käytössä useita nimiavaruuksia, joten XML

Namespaces määrittelee myös, miten elementtien kuuluminen nimiavaruuteen

päätellään.

Pitkäaikaisen säilyttämisen kannalta nimiavaruus on mielenkiintoinen siksi, että se

tarjoaa mahdollisuuden liittää XML-dokumenttin elementteihin semanttista tietoa, jota

esimerkiksi OAIS-viitemallissa tarvitaan. On kuitenkin huomattava, että XML

Namespaces –määritys ei anna mallia tai ohjeita sille, mikä nimiavaruus lopulta on.

Nimiavaruus voi siten esimerkiksi viitata tiettyyn dokumenttiin, joka selittää elementin

merkityksen tai antaa ohjeita sen käsittelyyn. Mutta yhtä hyvin XML-nimiavaruus voi

olla täysin abstrakti ja tietyn valmistajan yhden sovellusohjelman käyttämä, jolloin

nimiavaruuden elementille tarjoama semantiikka on piilotettu ohjelman koodiin.

Useissa XML-määrityksissä (mm. XSL ja XLink) hyödynnetään XML Namespaces –

tekniikkaa.

4.3.2. Linkit XML-dokumentissa

XML-määritys ei sisällä sisäänrakennettuja linkkejä, vaan dokumentin tekijälle on

haluttu antaa erilaisia mahdollisuuksia linkkien määrittelyyn. Linkkien esittämistä ja

käyttämistä XML-dokumentissa määrittelee kaksi määritystä: XML Linking Language

(XLink) (DeRose, Orchard, ym., 1999) ja XML Pointer Language (XPointer) (DeRose

ja Daniel, 1999). XPointer puolestaan perustuu XML Path Language (XPath) –

määritykseen (Clark ja DeRose, 1999).

41

Seuraavassa esityksessä on käytetty lähteinä XLink- XPointer– ja XPath-määrityksiä

sekä Malerin ja DeRosen (1998) esitystä XML and XLink for the SGML-

Knowledgeable.

XLink

XLink määrittelee XML-dokumenttiin tai sen DTD:hen lisättävät rakenteet, jotka

kuvaavat dokumenttien välisiä linkkejä (DeRose, Orchard, ym., 1999).

XLink määrittelee kahden tai useamman dokumentin välisen linkin. Yleisemmin

voidaan puhua kahden (data)objektin välisestä linkistä, koska XLink ei aseta

vaatimuksia kohteena olevalle resurssille. Resurssilla tarkoitetaan mitä tahansa, johon

linkki viittaa.

XLink määrittelee

• linkkiosoitteen (Locator) muodon,

• linkin tunnistamisen (Link Recognition),

• linkkielementin attribuutit (Linking Attributes)

• linkkielementtien tyypit (Linking Elements) ja

• linkkien käsittelyn (Processing XLinks).

Nämä pitävät sisällään lyhyesti seuraavaa.

Linkkiosoite muodostetaan URI:sta (IETF RFC 1738 ja 1808) ja dokumentin sisäisestä

osoitteesta. Jos linkin kohteena on XML-dokumentti, sisäinen osa on XPointer (ks.

kohta XPointer). URI ja sisäinen osoite erotetaan tosistaan #-merkillä.

Linkkielementti tunnistetaan attribuutilla tai eksplisiittisellä elementtinimellä.

Attribuuttitunnistus mahdollistaa sen, että käyttäjällä voi määritellä omia

linkkielementtejään. Kun käyttäjä liittää mihin tahansa elementtiin attribuutin

xlink:type (type attribuutti XLink-määrityksen nimiavaruudessa), hän on määritellyt

linkkielementin. Attribuutin mahdolliset arvot (simple, locator, arc, extended,

extended link group ja extended link group document) kuvaavat linkin luonteen.

Kuvan 16 esimerkissä on esitetty linkkielementin alkutunniste.

42

<linkki xml:link=”simple” href=”http://www.server.com/a.xml”>

Kuva 16. Linkkielementin alkutunniste.

XLink:ssä määritellyt linkkielementit voidaan jakaa luokkiin sen mukaan, sijaitseeko

elementti linkkiin kuuluvassa resurssissa (inline link) vai sen ulkopuolella (out-of-line

link). Toisaalta XLink:n mukaan linkkielementit voivat olla joko yksinkertaisia (simple)

tai laajennettuja (extended). Yksinkertaiset linkkielementit ovat (yleensä) in-line –

linkkejä, yksisuuntaisia (ei ole paluumekanismia linkin alkupäähän) ja vain kahta

resurssia yhdistäviä. Laajennetut linkit voivat olla joko inline– tai out-of-line –linkkejä,

yhdistää useita resursseja ja toimia kaksisuuntaisesti (molemmat/kaikki linkin osapuolet

”tietävät toisistaan”). Out-of-line –linkkielementit mahdollistavat linkkien ylläpidon

erottamisen dokumentin muusta ylläpidosta. Tästä on hyötyä, kun halutaan lisätä

linkkejä dokumenttiin, johon linkkien ylläpitäjällä ei muuten ole oikeuksia.

Linkkielementteihin voidaan liittää XLink:n määritteleminä attribuutteina

sovellusohjelmalle tai käyttäjälle tarkoitettua tietoa, joka kuvaa

• kohteen sijainnin,

� attribuutti href (URI)

• linkkien kaksisuuntaisuutta,

� from (mistä) ja to (mihin)

• linkin semantiikkaa,

� attribuutti role (rooli) ja title (nimi tai otsikko)

• linkin käyttäytymistä,

� attribuutit show (näyttötapa) ja actuate (aktivointi).

Out-of-line –linkkielementtien tallentaminen erilliseen tiedostoon edellyttää

mekanismia, jonka avulla ohjelma tunnistaa linkin ja löytää tallennuspaikan. XLink:ssä

tämä ratkaistaan linkkiryhmäelementillä (extended link group). Tällä elementillä

ilmoitetaan osoite, jossa sijaitsevasta dokumentista linkit löytyvät. Kuvassa 17 on

esitetty linkkiryhmäelementti.<xlink:group steps=”2”><xlink:document href=”http://server.fi/links/ko_dok.xml”/>

</xlink:group>

Kuva 17. Linkkiryhmäelementti XML-dokumentissa.

43

Kuvan 17 koodissa linkit on tallennettu href-attribuutilla ilmoitettuun verkko-

osoitteeseen. Jos esimerkiksi linkin kohteena oleva resurssi sisältää out-of-line –linkkejä

ja samoin kuin edelleen näiden osoittamat resurssit, voidaan joutua määräämättömään

määrään viittauksia, jotka linkkiprosessorin olisi mahdollisesti ratkaistava ja haettava

ennen kuin dokumentti voitaisiin näyttää. Ratkaistavien viittausten määrää voidaan

rajoittaa step-attribuutilla, jonka arvolla (kuvan esimerkissä 2) ilmoitetaan kuinka

”syvälle” linkit on jäsennettävä.

Linkkien käyttäytyminen on pyritty tekemään huomattavasti monipuolisemmaksi kuin

esimerkiksi HTML:ssä, jossa linkin kohteena oleva resurssi avataan samaan ikkunaan,

jossa linkin sisältävä kohde on. Linkin käyttäytymiseen liittyy kaksi ulottuvuutta: koska

ja mihin linkin osoittama resurssi avataan. XLink:ssä määritellään seuraavat vaihtoehdot

sille, mihin kohde avataan (vaihtoehto ilmoitetaan attribuutilla):

• linkin kohdalle upotettuna (embed-attribuutti)

• linkin sisältävän dokumentin tilalle (replace-attribuutti)

• uudessa yhteydessä (esim. ikkunassa) (new-attribuutti).

Vastaavasti määritellään kaksi tapaa aktivoida linkin sisältämä kohde:

• heti, kun linkkiin kuluva resurssi (esimerkiksi linkittävä elementti) käsitellään

(auto-attribuutti)

• käyttäjän toimenpiteestä (user-attribuutti).

XPointer

Usein viitattaessa toiseen dokumenttiin on tarvetta esittää tarkasti, mihin dokumentin

osaan, fragmenttiin, huomio halutaan kohdistaa. Käytettäessä linkkiosoitteena URI:a,

siihen voidaan liittää fragmenttitunnistin (fragment identifier). XML Pointer Language

(XPointer) määrittelee fragmenttitunnistimen muodon ja käytön, kun linkin kohteena

XML-dokumentti. XPointer ei kuitenkaan aseta rajoituksia fragmenttitunnistimelle

silloin, kun linkin kohteena on jokin muu kuin XML-dokumentti (DeRose ja Daniel,

1999). XPointer-viittaus on siis osa URI:a ja erotetaan siitä #-merkillä (DeRose,

Orchard ym., 1999). XPointer voi olla osana myös sellaista URI-osoitetta, joka ei ole

44

linkin osa (DeRose ja Daniel, 1999). XPointer voi siis esiintyä esimerkiksi ulkoisen

entiteetin viittauksessa.

XPointer perustuu, muutamin laajennuksin, XML Path Language (XPath)–

määritykseen, jonka sääntöjen mukaisesti fragmenttitunnistin muodostetaan. Tässä ei

ole tarkoituksenmukaista esitellä XPointerin tai XPathin syntaksia tarkemmin, mutta

valaistaan niiden käyttöä yksinkertaisella esimerkillä. Kuvassa 18 on esitetty erään

XML-dokumentin puurakenne ja XPath-kielinen viittaus kolmannen luvun toiseen

kappaleeseen (suorakaiteissa on esitetty elementtien nimet).

Kuva 18. XPath-viittaus

Kuvassa 18 olevaan dokumenttiin voitaisiin viitata jostain toisesta XML-dokumentista

seuraavalla kuvassa esitetyllä linkillä.

http://www.arkisto.org/teksti.xml#/luku[3]/kappale[2]

Kuva 19. Linkkiosoite, jossa XPath-viittaus

Kuvan 19 viittauksessa on käytetty XPathissa mahdollista lyhennettyä merkintää, jossa

tässä tapauksessa on child:: jätetty kokonaan pois samoin kuin valintatermi

position. Lisäksi dokumentti-elementti on korvattu XPointer-laajennuksella, jossa

juurielementtiin voidaan viitata /-merkillä.

45

4.3.3. Esittäminen

XML:n eräs periaate on, että dokumentin sisältö ja muoto erotetaan toisistaan. Tämä tuo

rakenteisuuteen uuden ulottuvuuden – dokumentti ei sisälläkään kaikkea sitä tietoa, joka

tarvitaan, jotta sen informaatio olisi käytettävissä. Vaikka XML-dokumenttia voidaan

katsella sellaisenaan esimerkiksi tekstieditorilla, sen sisältämää informaatioita on vaikea

hahmottaa pelkästä tekstuaalisesta esityksestä (so. merkkien muodostamasta jonosta).

Vähän paremman näkymän XML-dokumenttiin tarjoaa jo esitys, jossa näkyy

elementtien hierarkkisuus ja jossa merkkaus on erotettu sisällöstä. Tällaisen näkymän

voi tarjota esimerkiksi XML-prosessori. Tämäkään harvoin on riittävä dokumentin

sisältämän ajatuksen tarkoituksenmukaiseen esittämiseen, vaan tarvitaan sisällön

muotoilua.

XML-dokumentin muotoilu voidaan tehdä periaatteessa kahdella tavalla: muotoilu

tapahtuu joko elementtien semantiikan perusteella tai se tapahtuu annettujen

dokumenttikohtaisten ohjeiden mukaan. Jälkimmäinen tapa edellyttää

tyylimäärittelyjä. Edellinen tapa on tuttu muun muassa HTML-koodauksesta, jossa

selain päättää (jos ei HTML-dokumenttiin ei liity tyylitiedostoa) miten elementit

näytetään. Molemmissa tavoissa yhteistä on, että muotoilu perustuu lopulta aina

tunnistettuihin elementteihin tai niiden attribuutteihin.

Nykyisen suuntauksen mukaan XML-dokumenttien muotoiluun voidaan käyttää lähinnä

kahta tyylimäärittelykieltä, toinen on Cascading Style Sheets (CSS) ja toinen Extensible

Stylesheet Language (XSL). Molemmissa perusperiaatteena on, että tyylimäärittelyissä

kielen käskyillä valitaan elementti, johon sitten kohdistetaan tietty kielen käskyillä

toteutettu muotoilu. Tyylimäärittelyihin perustuvaa dokumentin muotoiluprosessia

voidaan esittää kuvan 20 kaaviolla.

46

Kuva 20. Tyylitiedoston prosessointi

CSS on yksinkertaisempi kuin XSL ja tarkoitettu pääasiassa HTML-dokumenttien

muotoiluun (Lie ja Bos, 1999). XSL sisältää monipuolisia dokumentin elementteihin

kohdistuvia mekanismeja, joilla elementtejä voidaan valita ja joilla XML-dokumentti

voidaan muuntaa toiseksi dokumentiksi. XSL sisältääkin kaksi määritystä, joista toinen

kuvaa, miten XML-dokumentti muunnetaan toiseksi dokumentiksi (Clark, 1999a).

Toinen määrittelee sanaston, joka kuvaa muotoiluun liittyvät käsitteet (Deach, 1999).

Siis XSL:ää käytettäessä XML-dokumentti voidaan muuntaa ensin toiseksi, XML- tai

muuksi dokumentiksi, johon sitten sovelletaan XSL:n tai esimerkiksi CSS:n

muotoilukomentoja. Kuvan 20 prosessi voikin siis näyttää kuten kuvassa 21 on esitetty.

Kuva 21. XSL-prosessi

47

Kuvassa 21 siis ensimmäisessä vaiheessa XSL-tyylimäärittelyillä muodostetaan

alkuperäisestä XML-dokumentista uusi dokumentti, johon puolestaan sovelletaan

tyylimäärityksiä dokumentin lopulliseksi esittämiseksi. Toisen vaiheen dokumentti voi

olla XML- tai muu dokumentti, samoin kuin tyylimäärittely voi olla XSL- tai muu

tyylimäärittely. XSL sisältää myös ehtorakenteita, joilla eri tilanteissa voidaan tuottaa

erilaisia lopputuloksia: toisin sanoen yhdellä tyylimäärittelyllä voidaan tuottaa erilaisia

lopputuloksia riippuen esimerkiksi annetuista parametreistä.

Esittämiseen käytettävät tyylimäärittelyt liitetään XML-dokumenttiin tavalla, joka

kuvataan Associating Style Sheets with XML documents –määrityksessä (Clark,

1999b). Sen mukaan tyylimäärittelyt voivat erillisessä tiedostossa tai olla osa varsinaista

dokumenttia. On myös mahdollista määritellä samaan dokumenttiin useita, toissijaisia

tyylimäärityksiä.

48

5. XML-DOKUMENTTI OAIS-ARKISTOSSA

Edellä esiteltiin OAIS-viitemalli, joka kuvaa mm. arkiston tehtävät ja sen säilyttämän

informaation tietomallin, mutta ei ota kantaa siihen, miten arkisto toteutetaan. Tässä

luvussa esitetään mitä arkiston itse asiassa pitäisi säilyttää, kun säilytyksen kohteena

XML-dokumentti.

5.1. XML-dokumentti OAIS-informaatiopakettina

OAIS-arkiston eräs keskeinen käsite on informaatiopaketti, joka sisältää kaiken

säilytettävän informaation. Informaatiopaketti jakaantuu sisältöön,

säilytyskuvausinformaation ja pakkausinformaatioon. Lisäksi informaatiopaketti sisältää

kuvaustietoja, joiden avulla paketin haku tapahtuu.

5.1.1. XML-dokumentin sisältö

OAIS-mallissa sisältöinformaatio jakautuu dataobjektiin ja esitysinformaatioon.

5.1.1.1. XML-dataobjekti

OAIS-mallissa dataobjektilla tarkoitetaan bittejä, jotka muodostavat informaatio-

objektin (säilytettävän) sisällön. XML-dokumentin tapauksessa sisällön muodostavat

entiteetit, linkitykseen liittyvät mahdolliset off-line linkkitiedostot sekä (jollekin

laitteelle) tulostamiseen tarvittavat tyylimääritykset.

Entiteetit

XML-dokumentin sisältö muodostuu entiteeteistä. On selvää, että ulkoiset entiteetit,

olivat ne sitten jäsentyviä tai jäsentymättömiä, muodostavat osan XML-dokumentin

sisällöstä. Sisäiset entiteetit määritellään (niille annetaan arvo) dokumentin DTD:ssä.

Jos DTD on esitetty dokumenttientiteetissä (eli on sisäinen), entiteetin muodostavat bitit

sisältyvät myös dokumenttientiteettiin, joten entiteetin arvo säilyy dokumenttientiteetin

49

mukana. Jos taas DTD on ulkoinen, sisäisen entiteetin arvo menetetään, jos DTD ei ole

käytettävissä. Myös ulkoisessa DTD:ssä esitellyt parametrientiteetit voivat vaikuttaa

XML-dokumentin sisältöön. Näin siis myös DTD, jos se sisältää sisäisiä tai

parametrientiteettejä, on osa XML-dokumentin sisältöä. OAIS-mallissa esitetty

dataobjekti siis sisältää kaikki XML-dokumentin entiteetit.

Linkkirakenteet

XLink määrittelee yhtenä linkkimuotona dokumentista erilleen tallennettavat

linkkirakenteet. Mikäli säilytettävässä XML-dokumentissa on käytetty tällaista

linkitystä, myös linkin tallentava dokumentti on säilytettävä.

Tyylimäärittelyt

Jos XML-dokumentti on tarkoitettu inhimilliselle käyttäjälle, on se tulostettava jollekin

laitteelle. Tulostamiseen tarvitaan tyylimäärittelyt, joka siis myös on osa XML-

dokumentin bittisisältöä. On huomattava, että XSL-tyylitiedostoja käyttäen samasta

dokumentista voidaan tuottaa erilaisia tulosteita. Esimerkiksi dokumentin lyhennelmä

voidaan tuottaa yhdellä tyylitiedostolla, ja toista käytetään koko sisällön tulostamiseen.

Toisaalta, kuten edellisessä luvussa todettiin, samakin XSL-tyylitiedosto voi tuottaa

erilaisia lopputuloksia.

XML-dokumentti OAIS-mallin mukaisena digitaalisena dataobjektina

Kuvassa 22 on XML-dokumentti OAIS-mallin mukaisena digitaalisena dataobjektina.

XML-dokumentissa on siis ainakin yksi entiteetti, se voi sisältää ulkoisesti tallennettuja

linkkirakenteita ja sen näyttämiseen voidaan käyttää useampia tyylimäärittelyitä.

Kuvassa ”Entiteetti” voi tarkoittaa dokumenttientiteettiä, DTD-entiteettiä tai ulkoista

entiteettiä.

50

Kuva 22. XML-dataobjekti OAIS-mallissa

5.1.1.2. XML-dokumentin esitysinformaatio

OAIS-mallissa informaatiopaketin sisällön muodostaa dataobjektin lisäksi

esitysinformaatio, joka auttaa tulkitsemaan dataobjektin sisältämät bitit.

Esitysinformaatio jakaantuu edelleen rakenneinformaatioksi ja merkitysinformaatioksi.

XML-dokumentin esitysinformaatiota täytyy tarkastella entiteettikohtaisesti, koska ne

voivat olla millä tavalla tahansa koodattua tietoa eikä niitä näin ollen voida tulkita

yhdenmukaisella tavalla. Rajoitetaan tarkastelu tässä kuitenkin vain XML-dokumentin

sellaisiin osiin, jotka kuuluvat XML-teknologiaan. Siis esimerkiksi, jos XML-

dokumentissa olisi ulkoisena entiteettinä tekstinkäsittelyohjelmalla tuotettu tiedosto, sen

esitysinformaatio sisältyy ilmaisuun ”ulkoisen entiteetin esitysinformaatio”, ja

oletetaan, että se sisältää entiteetin tulkitsemiseksi tarvittavan tiedon. Tarkastelua ei

myöskään viedä loppuun asti siinä mielessä, että kuvattaisiin, miten esimerkiksi jokin

standardin sisältö sinänsä säilytettäisiin. Tosin sanoen esitysinformaatiossa olevia

rekursioita ei kuvata.

51

Tarkastellaan seuraavassa erikseen, mitä esitysinformaatio on entiteettien,

linkkirakenteiden ja tyylimäärittelyjen kohdalla.

Entiteetit

Entiteetit ovat siis dokumenttientiteetti, mahdolliset ulkoiset entiteetit ja mahdollinen

DTD-entiteetti (tai muu rakennemääritys). Tässä esitetty pätee vain dokumentti- ja

DTD-entiteetteihin sekä niihin ulkoisiin entiteetteihin, jotka ovat XML-koodattuja.

Muille ulkoisille entiteeteille oletetaan säilytettävän vastaava, niille soveltuva

esitysinformaatio.

Entiteetit ovat alimmalla tasolla ISO/IEC 10646 -standardin mukaan koodattuja

tekstitiedostoja, joten ko. standardi on säilytettävä. Dokumenttientiteetin ja ulkoisten

entiteettien rakenteen määräävät DTD ja XML-määritys, jotka molemmat on

säilytettävä. On huomattava, että DTD:n säilyttäminen ei olisi lyhyellä aikavälillä ehkä

tarpeen, koska XML-dokumenttia voidaan käsitellä ilman DTD:tä edellyttäen, että se ei

vaikuta dokumentin sisältöön. Kuitenkin OAIS-mallissa edellytetään, että kaikki

tulkitsemista helpottava tieto on säilytettävä, joten DTD dokumentin rakenteen

kuvaajana on syytä säilyttää. Jos DTD säilytetään, sen ymmärtämiseksi riittää XML-

määritys.

Edellä termi XML-määritys tarkoittaa sitä XML-määrityksen versiota, jolla dokumentti

on koodattu. On kuitenkin huomattava, että XML-dokumentti saattaa noudattaa useissa

määrityksissä esitettyjä sääntöjä. Dokumentti voi sisältää esimerkiksi Mathematical

Markup Language (MathML) –määrityksen elementeillä kirjoitettuja matemaattisia

kaavoja taikka Synchronized Multimedia Integration Language (SMIL) –kielellä

koodattua multimediaesitystä. Vaikka näillä kielillä esitetyn tiedon rakenne voidaan

ymmärtää XML-määrityksen perusteella, antavat ao. määritykset rakenteille

merkityksen. Nämä määritykset on siis myös säilytettävä. Tällaisten määritysten

voidaan katsoa olevan OAIS-mallin mukaista merkitysinformaatiota.

Kuten edellisessä luvussa esitettiin, XML-dokumentissa oleva elementti voi kuulua

johonkin nimiavaruuteen, mikä antaa elementin tulkinnalle tai käsittelylle

52

lisämerkitystä. Tästä syystä kaikki nimiavaruusmäärittelyt on syytä sisällyttää

merkitysinformaationa.

Linkitysinformaatio

Linkeillä yhdistetään dokumentteja toisiinsa tai viitataan saman dokumentin toiseen

kohtaan. Linkkien rakenteen ymmärtämiseksi on säilytettävä ne määritykset, johon

linkkien koodaus perustuu. Nämä määritykset ovat linkki-informaatioon liittyvää

rakenneinformaatiota.

Toisaalta linkeillä on jokin suhde niihin resursseihin, joihin ne viittaavat. Linkeillä on

jokin tietty merkitys. Linkki voi esimerkiksi osoittaa resurssiin, joka on osa

dokumenttia. Tai resurssi voi antaa lisätietoa, joka ei ole välttämätöntä dokumentin

ymmärtämiseksi. Linkeillä on siis jokin rooli suhteessa linkkiin kuuluvaan resurssiin.

Säilytyksen onnistumisen maksimoimiseksi tällainen roolitieto on ehkä säilytettävä,

varsinkin kun XLink antaa tähän mahdollisuuden. Tämä tietenkin vaatii, että on luotava

esimerkiksi sanasto, jossa kuvataan linkkien erilaiset roolit ja niiden merkitykset.

Tyylimäärittelyt

XML-dokumentin esittäminen voi perustua joko elementtien merkitykseen tai siihen,

että kuhunkin elementtiin liitetään tieto siitä, miten sen sisältö on esitettävä. Näin

esimerkiksi MathML:llä esitetty kaava voidaan esittää ilman eksplisiittistä

muotoiluohjetta, koska MathML:n elementeillä on vakiintuneet esitystavat

matematiikassa. Näin elementtien muotoilu voi olla piilotettu MathML:ää esittävään

ohjelmaan. Toisaalta esimerkiksi tuottajan omaan DTD:hen perustuvassa dokumentissa

jonkin elementin esittäminen tarkoitetulla tavalla ei ole mahdollista ilman

muotoiluohjetta. Lisäksi XML-dokumentti voi perustua johonkin yleiseen DTD:hen,

esimerkiksi XHTML:ään (HTML:n XML-versioon), jossa elementeillä on semantiikka,

mutta niiden esittämistä ei ole kuvattu, vaan muotoilu on jätetty sovellusohjelman

tehtäväksi. OAIS-arkiston on säilytettävä tieto siitä, miten dokumentin esittäminen on

alun perin tarkoitettu tehtäväksi.

Jos dokumenttiin liittyy tyylimääritys, voidaan ajatella tekijän tarkoittaneen, että

dokumentti esitetään juuri tyylimäärittelyjä vastaavalla tavalla. Tällöin

53

tyylimäärittelyjen merkitys on säilytettävä. Tämä tarkoittaa, että standardi, johon

tyylimäärittelyt perustuvat, on säilytettävä.

Jos esittäminen perustuu jonkin DTD:n elementtien merkitykseen, on tämä DTD

säilytettävä. Lisäksi on säilytettävä kuvaus elementtien merkityksestä, jos DTD ei sitä

sisällä.

Kuten edellä mainittiin, voidaan samasta dokumentista saada useita erilaisia näkymiä

käyttäen eri tyylimäärittelyjä. Se, onko tällainen arkiston kannalta järkevää vai ei, on

tämän tutkimuksen aihepiirin ulkopuolella. Kuitenkin voidaan olettaa, että teknologian

kehittymisen myötä uusien mahdollisuuksien hyödyntäminen myös pitkäaikaisessa

arkistoinnissa on järkevää. Näin esimerkiksi usean tyylimäärityksen kohdistaminen

samaan dokumenttiin, lisää tiedon monikäyttöisyyttä: samasta aineistosta voidaan eri

määrittelyillä tuottaa tiivistelmä, lyhennelmä tai sisällysluettelo. Jos tyylimäärittelyitä

on useita, on niille annettava, samaan tapaan kuin edellä linkeille, roolit, jotka kuvaavat

niiden funktiota. Näistä funktioista on sitten säilytettävä kuvaukset.

Kuvassa 23 on XML-dokumenttiin liittyvä esitysinformaatio. Viivoitetut suorakaiteet

kuvaavat merkitysinformaatiota ja valkoiset rakenneinformaatiota.

54

Kuva 23. XML-dokumentin esitysinformaatio

5.1.2. XML-dokumentin OAIS-säilytyskuvausinformaatio

Säilytyskuvausinformaatio sisältää OAIS-mallin mukaan alkuperän, kontekstin,

viitattavuuden ja muuttumattomuuden varmistavat tiedot. Tarkastellaan tässä vain sitä,

miten XML-dokumentin rakenteisuus vaikuttaa kuhunkin mainittuun tietoon.

Alkuperä

OAIS-mallin mukaan alkuperä sisältää informaatio-objektin historian: mistä se on tullut

ja miten sitä on muutettu säilytyksen aikana. XML-dokumentin rakenteisuus tarjoaa

mahdollisuuden tarkkaan alkuperän seurantaan. Esimerkiksi XML-dokumentti voi

jossakin entiteetissään sisältää kuvan, jonka alkuperä on eri kuin muun sisällön: kuva

voi olla lainattu tai kopioitu jostakin toisesta dokumentista. Toisaalta dokumentti voi

55

koostua monen kirjoittajan tekstistä. Riippuen dokumentin rakenteesta voisi olla

mahdollista elementtitasolla kirjata dokumentin alkuperä.

Koska XML-dokumentin entiteetit voivat olla missä formaatissa tahansa, voidaan

dokumentin entiteettejä joutua muuntamaan toiseen muotoon epäsynkronisesti. Tällaiset

muunnokset on OAIS-mallin mukaan kirjattava alkuperätietotoihin. Näin alkuperätiedot

muunnoksen osalta on järkevää ylläpitää entiteettikohtaisesti.

Konteksti

Kontekstilla tarkoitetaan OAIS-mallissa dokumentin sisällön suhdetta ympäristöön sekä

sitä, miksi se on syntynyt. Selvästi tämä ei ole entiteettikohtainen, vaan riittää, että

kontekstitiedot tallennetaan koskien koko dokumenttia.

Viitattavuus

Viitattavuudella tarkoitetaan, että informaatio-objekti on yksikäsitteisesti löydettävissä

arkistosta. Kun XML-dokumenttia käsitellään yhtenä kokonaisuutena, viittaamalla

dokumenttientiteettiin koko dokumentti on käsiteltävissä. On kuitenkin ehkä

huomioitava esimerkiksi tyylimäärittelyillä aikaansaadut erilaiset näkymät samasta

XML-dokumentista. Käyttäjähän voi hakea vaikkapa kirjoitusten tiivistelmiä, jolloin

vastauksena olisi oltava viittaukset (ainakin epäsuorasti) niihin tyylimäärittelyihin,

joiden kautta lyhennelmät ovat käytettävissä. Arkisto on kuitenkin oltava niin toteutettu,

että käyttäjä aina tietää, että hän käsittelee samaa dokumenttia käyttipä hän mitä

näkymää tahansa.

Muuttumattomuus

Muuttumattomuus tarkoittaa varmistusta sille, että informaatio-objektin sisältö ei ole

muuttunut. Tässä ei puututa siihen millä menetelmällä muuttumattomuuden

varmistaminen toteutetaan. Oletetaan kuitenkin, että käytettävä tekniikka perustuu

siihen, että objektin muodostavasta bittivirrasta lasketaan varmenne, joka

yksikäsitteisesti takaa objektin aitouden.

56

Koko XML-dokumentin muuttumattomuus on taattava, ja koska se koostuu

entiteeteistä, jokaisen entiteetin bittivirran muuttumattomuus on taattava. Tämä koskee

vain ulkoisia entiteettejä, koska sisäiset ovat samaa bittivirtaa jonkin toisen entiteetin

kanssa. Voidaan olettaa, että XML-dokumenttien eri entiteeteille voidaan soveltaa

erilaisia muuttumattomuuden varmistavia menetelmiä, koska ne voivat olla eri

formaateissa. Näin on järkevintä, että jokaisen entiteetin muuttumattomuus taataan

erikseen. Samalla tavalla on taattava myös erikseen tallennettavien linkkirakenteiden ja

tyylimääritysten muuttumattomuus.

Kuvassa 24 on vielä esitetty miten säilytyskuvausinformaatio liittyy XML-dokumentin

eri rakenteisiin. Viitattavuus siis koskee epäsuorasti myös tyylimäärittelyjä, jos niiden

avulla käyttäjällä on mahdollisuus useanlaisiin näkymiin. Alkuperä on mahdollista

liittää entiteettikohtaisesti, jos arkisto niin haluaa.

Kuva 24. XML-dokumentin säilytyskuvausinformaatio

5.2. XML-dokumentin informaatiopaketin implementoinnista

Tässä alaluvussa tarkastellaan, miten edellisessä alaluvussa esitetty OAIS-mallin

mukainen XML-dokumentista muodostuva informaatiopaketti voitaisiin toteuttaa.

Loogisesti tässä esitetty vastaa OAIS-mallissa kuvattua informaatiopaketin

57

pakkausinformaatio-objektia. Mallin mukaan pakkausinformaatio ei itsessään ole

säilytettävää tietoa.

5.2.1. Pakkausinformaation muoto

Käytännössä paketin implementointi on tiedonhallinnallinen ongelma, jonka

ratkaisemiseksi on päätettävä muun muassa mihin ja/tai missä muodossa tiedot

tallennetaan. Eräs muoto saattaisi olla XML-syntaksia käyttävä Resource Description

Framework (RDF, ks. liite 2). RDF on metadatan kuvaamiseen ja esittämiseen

tarkoitettu kieli, ja sen tarkoituksena on edistää metatiedon automaattista käsittelyä

verkkoympäristössä (Lassila ja Swick, 1999). Edellä olevan määritelmän mukaan RDF

soveltuisi tehtävään hyvin, sillä pakkausinformaatiohan voidaan käsittää metatiedoksi.

Myös se, että RDF on XML:n sovellutus, yhdenmukaistaisi toteutusta. Seuraavassa

oletetaan, että pakkausinformaatio toteutetaan RDF:llä.

5.2.2. Pakkausinformaation sisältö

Pakkausinformaatio sitoo yhteen säilytettävän tiedon sisällön ja

säilytyskuvausinformaation. Lisäksi se voi eritellä näiden molempien sisällön.

Verkkoympäristössä pakkausinformaatio voi pitkälti koostua linkkiosoitteista

verkkoresursseihin, jotka toimivat OAIS-mallin mukaisina informaatio-objekteina.

Verkkoresurssi voi olla myös jonkun muun kuin arkiston hallinnoima, mikä kuitenkin

on aina syytä tuoda pakkausinformaatiossa selvästi esille.

Esimerkki

Esitetään tässä lyhyellä esimerkillä, miltä pakkausinformaation sisältö voisi näyttää.

Olkoon esimerkkinä XML-dokumentti, joka on matemaattinen tieteellinen artikkeli.

Artikkeli sisältää tekstiä, MathML-kielellä esitettyjä matemaattisia kaavoja sekä JPEG-

formaatissa olevia kuvia. Muotoilu on suoritettu CSS-määrittelyillä, jotka on tallennettu

erilliseen tiedostoon. MathML:llä koodatut kaavat on myös tallennettu kukin erilliseen

58

tiedostoon samoin kuin kuvat. Artikkelista ei ole linkkejä dokumenttiin itseensä tai

muihin dokumentteihin eikä sillä ole DTD:tä.

RDF:llä kuvatussa pakkausinformaatiossa on kolme nimiavaruutta:

• rdf, joka viittaa RDF-määritykseen (käytössä siis RDF:n itsensä takia)

• oais, joka antaa semantiikan OAIS-viitemallin kuvaamille informaatio-

objekteille ja muille käsitteille

• oma, joka selittää arkiston pakkausinformaatiossa käyttämät omat elementit.

Kuvassa 25 on esitetty runko RDF:llä koodatusta pakkausinformaatiosta. Siinä on

käytetty kuvien 23 ja 24 mukaista mallia XML-dokumentin esitysinformaatiosta ja

säilytyskuvausinformaatiosta. Täydellisempi pakkausinformaatio on esitetty liitteessä 3.

<?xml version="1.0"?><rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:oais="http://ccsds.org/ccsds/documents/pdf/CCSDS-

650.0-R-1.pdf"xmlns:oma="http://www.arkisto.org/xml_aineisto/oais_skeema.x

ml"><oais:Packaging_Information><oais:aip><rdf:Description about="http://www.pm.fi/isbn-

xxx/mat_artik.xml" bagID="document">

<oais:Content_Information>

<oais:Digital_Object>

<oma:entities></oma:entities><oma:links></oma:links><oma:styles_sheets></oma:styles_sheets>

</oais:Digital_Object></oais:Content_Information>

</rdf:Description>

<oais:Preservation_Description_Information><oma:pres_for_document></oma:pres_for_document><oma:pres_for_entity></oma:pres_for_entity>

59

</oais:Preservation_Description_Information></oais:AIP>

</oais:Packaging_Information></rdf:RDF>

Kuva 25. Pakkausinformaation runko RDF:llä

Yllä olevassa pakkausinformaatiossa esitetään siis arkistointipaketti (oais:aip), joka

koskee dokumenttia http://www.pm.fi/isbn-xxx/mat_artik.xml. Pakkaus

jakautuu kahteen osaan sisältöinformaatioon (oais:content_information) ja

säilytyskuvausinformaatioon (oais:Preservation_Description_Information).

Sisältö on nimenomaan digitaalista (oais:Digital_Object), joka eritellään

entiteeteiksi (oma:entities). Lisäksi tulee linkkirakenne- ja tyylimääritysinformaatiota

(oma:links ja oma:styles_sheets). Säilytyskuvausinformaatio sisältää sekä

dokumentti- että entiteettikohtaista tietoa (oma:pres_for_document ja

oma:pres_for_entity).

60

6. YHTEENVETO

Tietoa tuotetaan yhä enemmän digitaalisissa ympäristöissä, joten on selvää, että yhä

suurempi osa myös jää digitaaliseen muotoon, ilman rinnakkaista perinteistä muotoa.

Tietämyksen ja kulttuuriperinnön säilyttämisestä vastaavien tahojen on siis säilytettävä

myös digitaalisessa muodossa olevaa materiaalia. Teknologia on aina asettanut

reunaehdot informaation säilyttämiselle antaen käyttöön uusia mahdollisuuksia mutta

asettaen myös rajoituksia. Tässä mielessä digitaalisuuteen perustuva informaation

tallennustapa ei tuo mitään uutta. Uutta on kuitenkin se nopeus, jolla uudet keksinnöt

syrjäyttävät vanhat.

Digitaalista tietoa on tällä hetkellä ehkä sadoissa tai tuhansissa erilaisissa muodoissa, ja

on uhkarohkeaa kuvitella, että asiat olisivat joskus tosin. Näin ollen yhtä ja ainutta tapaa

varmistaa informaation säilyminen ei voi olla olemassa. Jotkut esitetyistä tavoista,

esimerkiksi Rothenbergin emulointimalli, ratkaisevat asian teoriassa lopullisesti, mutta

niiden toteuttaminen voi olla lähinnä utopiaa. Onkin ehkä totuteltava ajatukseen, että

mitään lopullisista ratkaisua ei ole olemassa. Mutta näinhän on laita monen muunkin

asian suhteen. Onkin etsittävä käyttökelpoisia, ehkä työläiltäkin tuntuvia menetelmiä,

joilla käytännössä voidaan varmistaa, että informaatio säilyy.

Tämän tutkimuksen alkuosassa tarkasteltiin kirjallisuudessa esitettyjä pitkäaikaiseen

säilyttämiseen liittyviä ongelmia, joista eräs vaikeimmista on nimenomaan teknologian

nopea kehittyminen. Tarkastelu osoitti, että ainoa tiedon säilyttämiseksi käytetty

menetelmä on tiedon muunnos tallennusmuodosta toiseen tai laitteistolta toiselle. Paitsi

että muunnosta yleensä pidetään työläänä ja siten kalliina, suurin vaara säilyttämisen

kannalta on se, että muunnoksessa osa tiedosta menetetään. Kun pitkällä aikavälillä

muunnoksia on useita, voi lopulta olla mahdollista, että tieto ei enää ole

ymmärrettävissä alunperin tarkoitetulla tavalla. Tosin myös vaihtoehtoiset menetelmät,

joissa on ajatuksena, että tieto säilytetään alkuperäisessä muodossaan ja saadaan

tulevaisuudessa käyttöön emuloimalla joko alkuperäistä ohjelmistoa tai jopa laitteistoa,

vaativat nekin periaatteessa jonkin asteista konversiota. Erityistä huomioita digitaalisen

materiaalin säilyttämisessä vaativat lisäksi sen käyttö tietoverkon välityksellä,

säilyttämisen kohteen valinta sisällön ja ulkoasun suhteen sekä tiedon eheys, joka

61

koostuu useista eri osatekijöistä, ja tarkoittaa lähinnä sitä, että käyttäjä voi varmistua

käyttämänsä tiedon aitoudesta.

Koska muunnos näyttäisi olevan se tapa, jota ainakin lähitulevaisuudessa on

sovellettava tiedon säilyttämiseksi, on pyrittävä minimoimaan muunnoksen liittyvää

vaaraa, tiedon menettämistä. Luvussa 3 esiteltiin kehitteillä oleva OAIS-viitemalli, joka

perustuu siihen, että varsinaisen informaation lisäksi on säilytettävä sitä selittävää tietoa

tarpeellinen määrä niin, että varsinaisen tiedon ymmärtäminen olisi mahdollista. Kun

ymmärretään tieto, sen merkitys ja lisäksi ne rakenteet, joilla tieto on koodattu, voidaan

muunnoskin suorittaa paremmin.

OAIS-viitemallissa kuvataan toiminnot ja tietojoukot, jotka sen mukaan edistävät

pitkäaikaista säilytystä. Malli ei ota kantaa tiedon tallennusformaattiin, joten siinä ei

määritellä, mistä säilyttämistä tukeva tieto lopulta koostuu kussakin tapauksessa. Tämän

tutkimuksen loppuosa käsitteli sitä, mitä tämä tieto olisi siinä tapauksessa, että

säilytettävä tieto on XML-dokumentin muodossa.

Luvussa 4 analysoitiin miten XML-dokumentti muodostuu, minkälaisia loogisia ja

fyysisiä osia siitä voidaan erottaa. Tältä pohjalta luvussa 5 esitettiin, mitä tietoa XML-

dokumentista olisi säilytettävä, jotta OAIS-mallin vaatimukset täyttyisivät. Tarkastelu

suoritettiin sekä teoreettisesti että konstruktiivisesti. Teoreettisessa osassa luvun 4

analysoinnin tulokset sijoitettiin OAIS-malliin ja konstruktiivisessa osassa erään XML-

dokumentin tiedot esitettiin RDF-kielellä koodattuna.

Luvussa 5 esitetyt OAIS-mallin mukaiset XML-dokumentin säilytystä tukevat

informaatio-objektit perustuvat siis teoreettiseen tarkasteluun. Esitetyt objektit ovat

vielä melko käsitteellisiä, ja jotta niitä voitaisiin käyttää todellisissa OAIS-mallin

sovellutuksissa, on vielä konkreettisemmin ja tarkemmin määriteltävä mitä ne itse

asiassa sisältävät. Lisäksi niiden soveltuvuutta todellisiin XML-dokumentteihin olisi

käytännössä testattava. Myös tarvittaisiin tutkimusta siitä, miten nämä objektit ovat

tunnistettavissa, jotta säilytystä tukevan tiedon automaattinen muodostaminen olisi

mahdollista.

62

Suoritettu tarkastelu osoitti, että XML-teknologiaan perustuva dokumentti näyttäisi

sopivan hyvin OAIS-viitemalliin. Sen rakenteisuus auttaa erottamaan siitä osat, joihin

säilytystä tukeva tieto on kohdistettava. Lisäksi XML:stä julkisena standardina on

käytettävissä määritykset, jotka auttavat ymmärtämään sen koodaukseen käytetyn

tekniikan.

Tiedon tehokas säilyttäminen on mahdollistanut kehityksen siihen pisteeseen, missä se

nyt on. Tämän tutkimuksen nojalla voidaan odottaa, että oikein suoritettuna digitaalisen

materiaalin säilyttäminen siirtää tietoa entistä tehokkaammin. Tutkijat voivat

tulevaisuudessa nykyistä helpommin saada käyttöönsä symbolien lisäksi myös

merkityksiä - tai sitten eivät saa kumpiakaan.

63

LÄHDELUETTELO

Beagrie N., Greenstein D., A Strategic Policy Framework for Creating and Preserving

Digital Collections, Arts and Humanities Data Service (JSIC), 1998 [online] [Viitattu

29.08.1999]. Saatavilla www-muodossa

<URL: http://ahds.ac.uk/manage/framework.htm>.

Bearman D., Reality and Chimeras in the Preservation of Electronic Records. D-Lib

Magazine, 1999, vol. 5(4) [online]. [Viitattu 26.7.1999]. Saatavilla www-muodossa

<URL: http://www.dlib.org/dlib/april99/bearman/04bearman.html>.

Berners-Lee T., Robert Cailliau R., Luotonen A., Nielsen H., Secret A., The World-

Wide Web. Communications of the ACM, 1994, vol. 37(8), s. 76-82.

Bray T., Paoli J., Sperberg-McQueen C. (toim.), Extensible Markup Language (XML)

1.0, [online], 1998. [Viitattu 29.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/TR/1998/REC-xml-19980210/>.

Bray T., Hollander D., Layman A. (toim.), Namespaces in XML [online], 1999.

[Viitattu 19.7.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/TR/1999/REC-xml-names-19990114/>.

CCSDS (Consultative Comittee for Space Data Systems), Reference Model for an

Open Archival Information System (OAIS) [online], 1999. [Viitattu 12.08.1999].

Saatavilla www-muodossa <URL: http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-

650.0-R-1.pdf>.

CCSDS Draft Recommendations (Red Books), [online]. [Viitattu 1.9.1999]. Saatavilla

www-muodossa <URL: http://www.ccsds.org/red_books.html>.

Clark J. (toim.), XSL Transformations (XLST) [online], 1999a. [Viitattu 1.9.1999].

Saatavilla www-muodossa <URL: http://www.w3.org/TR/1999/WD-xslt-19990421>.

Clark J. (toim.), Associating Style Sheets with XML documents, [online], 1999b.


<URL: http://www.w3.org/1999/06/REC-xml-stylesheet-19990629/>.

64

Clark J., DeRose S. (toim.), XML Path Language (XPath), W3C Working Draft

[online], 1999. [Viitattu 25.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/1999/07/WD-xpath-19990709>.

Coleman J., Willis D., SGML as a Framework for Digital Preservation and Access.

The Commission on Preservation and Access, Washinton DC, 1997.

Deach S. (toim.), Extensible Stylesheet Language (XSL) Specification, W3C Working

Draft [online], 1999. [Viitattu 16.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/TR/1999/WD-xsl-19990421>.

DeRose S., Orchard D., Trafford B. (toim.), XML Linking Language (XLink), W3C

Working Draft [online], 1999. [Viitattu 29.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/1999/07/WD-xlink-19990726>.

DeRose S., Daniel R. (toim.), XML Pointer Language (XPointer), W3C Working Draft

[online], 1999. [Viitattu 29.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/1999/07/WD-xptr-19990709>.

Feather J., Preservation and the Managfement of Library Collections. Library

Association Publishing Ltd, Lontoo, 1996.

Graham P., Long-term Intellectual Preservation, [online], 1995. [Viitattu 21.7.1999].

Saatavilla www-muodossa

<URL: http://www.ifla.org/documents/libraries/net/dps.htm>.

Hedstrom M., Montgomery S., Digital Preservation Needs and Requirements in RLG

Member Institutes, 1999, [online]. A Sudy Comissioned by the Research Libraries

Group. [Viitattu 20.7.1999]. Saatavilla www-muodossa

<URL: http://www.rlg.org/preserv/digpres.html>.

Heminger A., Robertson S., Digital Rosetta Stone: A Conceptual Model for

Maintaining Long-term Access to Digital Documents. Teoksessa Proceedings of the

Thirty-First Hawaii International Conference on System Sciences Volume II, IEEE

Computer Society, 1998, 158-167.

65

Häkli E., Reform of the Finnish Legal Deposit Act. Tietolinja News, 1999, Nro 1

[online]. [Viitattu 6.8.1999]. Saatavilla www-muodossa:

<URL: http://hul.helsinki.fi/tietolinja/0199/reform.html>.

ISO Archiving Standards – Overview, [online]. [Viitattu 25.8.1999]. Saatavilla www-

muodossa <URL: http://ssdoo.gsfc.nasa.gov/nost/isoas/overview.html>.

ISO Archiving Standards - Reference Model Papers, [online]. [Viitattu 1.9.1999].

Saatavilla www-muodossa

<URL: http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html>.

Lassila, O., Introduction to RDF Metadata [online], 1997. [Viitattu 10.01.1999].

Saatavilla www-muodossa <URL: http://www.w3.org/TR/NOTE-rdf-simple-intro>.

Lassila O., Swick R. (toim.), Resource Description Framework (RDF) Model and

Syntax Specification [online]. [Viitattu 19.08.1999]. Saatavilla www-muodossa

<URL: http://www.w3.org/TR/REC-rdf-syntax/>.

Levy M., Marshal C., Going Digital: A Look at Assumptions Underlying Digital

Libraries. Communications of the ACM, 1995, vol. 38(4), s. 77-84.

Light R. (toim.), Presenting XML. Sams.net Publishing, Indianapolis, 1997.

Lie H., Bos B., (toim.), Cascading Style Sheets, level 1 [online], 1999. [Viitattu

1.9.1999]. Saatavilla www-muodossa <URL: http://www.w3.org/TR/REC-CSS1>.

Mackenzie Owen J., v.d. Walle J., Deposit collections of electronic publications.

European Commision, DG XII-E/4, Brysseli, 1996.

Maler E., DeRose, S., XML and XLink for the SGML-Knowledgeable, [online], 1998.


<URL: http://www.arbortext.com/presentations/XML-XLink-for-SGML-knowl.ppt>.

Malhotra A, Maloney M., XML Schema Requirements [online], 1999. [Viitattu

28.7.1999]. Saatavilla www-muodossa <URL: http://www.w3.org/TR/NOTE/-xml-

schema-req>.

66

Rothenberg J., Ensuring the Longevity of Digital Information. Scientific American,

1995, vol. 272(1), s. 42-47.

Rothenberg J., Advoiding Techological Quiksand: Finding a Viable Foundation for

Digital Preservation, [online], 1998. [Viitattu 15.7.1999]. Saatavilla www-muodossa

<URL: http://www.clir.org/pubs/reports/rothenberg/contents.html>.

Salminen A., Rakenteisen tekstin hallinta. Opetusmonisteita OM-3, Jyväkylän

yliopisto, Jyväskylä 1992.

Shepard T., MacCarn D., Universal Preservartion Format, Part1: User Requirements,

[online]. [Viitattu 10.7.1999]. WGBH Educational Foundation, 1999. Saatavilla www-

muodossa <URL: http://info.wgbh.org/ufp/>.

Task Force on Archiving of Digital Information, Preserving Digital Information,

[online]. [Viitattu 14.08.1998]. The Commission on Preservation and Access ja The

Research Libraries Group, 1996. Saatavilla www-muodossa:

<URL: http://www.rlg.org/ArchTF/tfadi.index.htm>.

Walsh, N., What is XML? [online], 1998. [Viitattu 10.07.1999]. Saatavilla www-

muodossa <URL: http://www.xml.com/xml/pub/98/10/guide1.html>.

67

LIITTEET

Liite 1: Unified Modeling Language (UML), objektien suhteet.

Lähde: CCSDS (Consultative Comittee for Space Data Systems), Reference

Model for an Open Archival Information System (OAIS) [online], 1999.


<URL: http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf>.

68

Liite 2: Lyhyt johdatus Resource Description Framework –kieleen.

Resouce Description Framework (RDF) –viitekehyksen tarkoituksena on edistää

verkossa olevien resurssien (dokumenttien) automaattista käsittelyä. RDF:n esittämä

ratkaisu tähän on metatiedon liittäminen dokumenttiin siten, että ohjelmat voivat sitä

käyttää. Kuten PICS, myös RDF:ää kehittää W3C. RDF:n kehittelyn alkusysäyksenä

onkin ollut PICSin puutteet verkon resursseihin liitettävän yleisen metatiedon

koodaamisessa. (Lassila, 1997)

RDF:n tavoitteena on, että sitä voitaisiin käyttää millä sovellusalueella tahansa:

esimerkiksi tiedon etsinnässä, www-sivuston hallinnassa, digitaalisissa kirjastoissa,

älykkäiden agenttiohjelmien tiedonhaussa, dokumentin osien suhteiden kuvaamisessa,

sisällön luokittelussa, tekijänoikeuksien kuvaamisessa, yksityisyyden suojaamisessa

sekä digitaalisessa allekirjoituksessa. (Lassila ja Swick, 1999)

RDF:ää käsittelee kaksi eri määritystä: RDF Model and Syntax Specification ja RDF

Schema Specification. Edellinen antaa säännöt, miten metadata esitetään ja miten sitä

käsitellään. Jälkimmäinen taas paneutuu siihen, kuinka metadata muodostetaan jollekin

tietylle sovellusalueelle. Tarkastellaan tässä näistä kahdesta vain ensimmäistä.

RDF Model and Syntax Specification

RDF Model and Syntax Specification (RDFMS) määrittelee RDF:n tietomallin ja sille

syntaksin eli kieliopin. RDF:n tietomalli rakentuu kolmesta käsitteestä: resurssi

(resource), ominaisuus (property) ja toteama (statement). Tässä esitettävä tarkastelu

perustuu RDFMS-määritykseen (Lassila ja Swick, 1999).

Resurssilla tarkoitetaan mitä tahansa URI:lla (Uniform Resource Identifier) osoitettavaa

resurssia. Ominaisuus on jokin resurssiin liittyvä tarkastelukulma, ominaispiirre, määre

tai suhde ja sillä on aina tietty merkitys. RDF ei määrittele sitä, miten ominaisuus

ilmaistaan: tämä tehdään RDF Schemassa. Jokin tietty resurssi ja siihen liittyvä

ominaisuus yhdessä ominaisuuden arvon kanssa muodostavat toteaman. Toteama

muodostuu siis subjektista (resurssi), predikaatista (ominaisuus) ja objektista (arvo).

Objekti voi olla toinen resurssi tai literaali (merkkijono).

69

Tietomalli voidaan esittää suunnattuna graafina, jossa on solmuja ja niitä yhdistäviä

suunnattuja viivoja. Esimerkiksi lause ”Dokumentin kirjoittaja on Ville” on RDF-

toteama, jossa ”dokumentti” on subjekti, ”kirjoittaja” on predikaatti ja ”Ville” on

objekti. Toteama voidaan esittää kuvan 1 graafilla.

Kuva 1. RDF-graafi.

Graafissa siis solmuina ovat subjekti (ellipsi) ja objekti (suorakulmio). Predikaatti on

suunnattu viiva, ja suunta on nimenomaan subjektista objektiin. Graafilla on merkitystä

siinä mielessä, että edellä olevan toteaman muoto voisi olla yhtä hyvin vaikkapa ”Ville

on dokumentin kirjoittaja”. Muodoilla on sama merkitys ja ne siis johtavat samanlaiseen

graafiin. RDF:n periaatteen mukaan kaksi toteamusta ovat yhtäpitäviä vain, jos niistä

seuraavat graafit ovat yhteneviä.

Jos edellä esitetty toteama muunnetaan muotoon ”Dokumentin kirjoittaja on professori

Ville”, on ominaisuudella ”kirjoittaja” rakenne. Rakenteinen ominaisuus esitetään

RDF:ssä resurssina. Kuvassa 1 on edellisen toteaman graafi.

Kuva 2. RDF-graafi, kun ominaisuudella on rakenne.

Kuvan 2 graafissa kirjoittajaa kuvaava ellipsi on tyhjä. Jos oletetaan, että resurssi

”Dokumentti2” sisältää työntekijöiden tiedot, ja että Villen henkilönumero on 1000, niin

silloin tyhjään ellipsiin voitaisiin kirjoittaa esimerkiksi ”Dokumentti2#1000”. Jos edellä

olevissa graafeissa ”Dokumentti” ja ”Dokumentti2” (jonka vain ajatellaan olevan siellä)

70

korvataan URI-merkinnöillä, ne voisivat olla vaikkapa muodossa

”http://www.yo.fi/home/ville.html” ja ”http://www.yo.fi/hallinto/tt.html#1000”

vastaavasti.

RDF määrittelee myös säiliö (container) –käsitteen, jolla viitataan usean resurssin

muodostamaan joukkoon (esim. dokumentilla voi olla monta kirjoittajaa). Säiliöitä on

kolmea eri tyyppiä: se voi olla järjestämätön (bag) tai järjestetty (sequence) lista taikka

siinä voidaan luetella vaihtoehdot (alternative).

Edellä kuvattu tietomalli on vielä esitettävä syntaktisesti, jotta tietokoneohjelmat voivat

sitä käsitellä. Tähän RDF käyttää XML:ää. RDF:n syntaksi on joustava eli sama asia

voidaan ilmoittaa usealla tavalla. Esitetään tässä esimerkkien avulla, miltä RDF näyttää,

menemättä syntaksin yksityiskohtiin. Esimerkeissä käytetään RDF:n perusmuotoa.

Toteama ”Resurssin http://www.yo.fi/home/ville.html kirjoittaja on Ville” esitetään

RDF:llä seuraavasti:

<?xml version="1.0"?><rdf:RDFxmlns:rdf="http://w3.org/TR/1999/PR-rdf-syntax-19990105#"xmlns:s="http://www.yo.fi/schema/"><rdf:Description about="http://www.yo.fi/home/ville.html"><s:Kirjoittaja>Ville</s:Kirjoittaja>

</rdf:Description></rdf:RDF>

Esimerkki 3. RDF-esitys yksinkertaiselle toteamalle.

Esimerkissä jokainen elementti on jonkin XML-nimiavaruuden (XML Namespaces)

elementti: ne kuuluvat joko RDF-määrityksen nimiavaruuteen (etuliite rdf) tai skeeman

(”metatietokuvauksen”) nimiavaruuteen (s). Nämä nimiavaruudet määritellään riveillä 3

ja 4. Skeemanimiavaruuksien määrää ei ole rajoitettu, joten RDF voi sisältää

metatietoelementtejä useista skeemoista. Esimerkissä näkyy, että RDF-määritys sisältää

elementin ”Description” ja sillä on attribuutti ”about”, jolla ilmoitetaan kuvauksen

kohteena oleva resurssi.

Esitetään vielä toteama ”Resurssi http://www.yo.fi/hallinto/tt.html#1000” viittaa

henkilöön, jonka nimi on Ville ja jonka virkanimike on professori. Tämä henkilö on

resurssin http://www.yo.fi/home/ville.html kirjoittaja” RDF-syntaksilla.

71

<?xml version="1.0"?><rdf:RDFxmlns:rdf="http://w3.org/TR/1999/PR-rdf-syntax-19990105#"xmlns:s="http://www.yo.fi/schema/"><rdf:Description about="http://www.yo.fi/home/ville.html"><s:Kirjoittaja rdf:resource="http://www.yo.fi/hallinto/tt.html#1000"/>

</rdf:Description>

<rdf:Description about="http://www.yo.fi/hallinto/tt.html#1000">

<s:Nimi>Ville</s:Nimi><s:Virkanimike>Professori</s:Virkanimike>

</rdf:Description></rdf:RDF>

Kuva 3. RDF-esitys toteamalle, jossa objektina toinen resurssi.

Kuvan 3 esimerkissä on siis kaksi ”Description”-elementtiä: ensimmäinen kuvaa

resurssia, joka ilmoitetaan skeemaelementin (Kirjoittaja) RDF-attribuutilla ”resource” ja

toinen kuvaa sitten ensimmäisessä ”Description”-elementissä mainitun resurssin.

Kyseessä on siis hierarkkinen rakenne, mikä voitaisiin esittää (ihmiselle)

havainnollisemmin kirjoittamalla toinen ”Description”-elementit sisäkkäisesti.

72

Liite 3: E

simerkki R

DF:llä toteutetusta pakkausinform

aatiosta.<?xml

version="1.0"?><rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:oais="http://ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf"xmlns:oma="http://www.arkisto.org/xml_aineisto/oais_skeema.xml"><oais:Packaging_Information>

<oais:aip>

<rdf:Descriptionabout="http://www.pm.fi/isbn-xxx/mat_artik.xml"

bagID="document"><oais:Content_Information><oais:Digital_Object>

<oma:entities><rdf:Description

about="http://www.pm.fi/isbn-xxx/mat_artik.xml"bagID="c_01">

<oma:specificationoma:onsite="no"

resource="http://www.w3.org/TR/REC-xml"/>

<oma:dtd_entityresource=""/>

</rdf:Description><rdf:Description

about="http://www.pm.fi/isbn-xxx/k4_1.mml"bagID="c_02">


resource="http://www.w3.org/TR/REC-MathML/"/>


about="http://www.pm.fi/isbn-xxx/k4_2.mml"

bagID="c_03"><oma:specification

oma:onsite="no"resource="http://www.w3.org/TR/REC-MathML/

"/></rdf:Description><rdf:Description

about="http://www.pm.fi/isbn-xxx/k4_3.mml"

bagID="c_04"><oma:specification

oma:onsite="no"resource=" http://www.w3.org/TR/REC-MathML/

"/></rdf:Description>

73

<rdf:Descriptionabout

="http://www.pm.fi/isbn-xxx/k4_4.mml"bagID="c_05">


resource=" http://www.w3.org/TR/REC-MathML/"/>


about="http://www.pm.fi/isbn-xxx/fig5_1.jpg"

bagID="c_06">




resource=" http://www.jpeg.org/JPEG/"/>

</rdf:Description></oma:entities><oma:links></oma:links><oma:styles_sheets>

<rdf:Description

about="http://www.pm.fi/isbn-xxx/njcarticle.css

"bagID="ss_01">


resource=" http://www.w3.org/TR/REC-CSS2/"/>

</rdf:Description></oma:styles_sheets>

</oais:Digital_Object></oais:Content_Information>

</rdf:Description>



<oais:Preservation_Description_Information><oma:pres_for_document>

<rdf:Descriptionabout="#document">

<oais:Provenance_Information>...</oais:Provenance_Information><oais:Context_Information>...</oais:Context_Information><oais:Reference_Information>...</oais:Reference_Information>

</rdf:Description></oma:pres_for_document><oma:pres_for_entity>

<rdf:Description

about="#c_01"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>

</rdf:Description>

74

<rdf:Descriptionabout="#c_02">

<oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>









</rdf:Description></oma:pres_for_entity>

</oais:Preservation_Description_Information></oais:AIP></oais:Packaging_Information></rdf:RDF>