rakenteisen tiedon sÄilyttÄminen · 2010-01-19 · tiivistelmÄ metsäranta, pekka juhani...
TRANSCRIPT
Pekka Metsäranta
RAKENTEISEN TIEDON SÄILYTTÄMINEN
XML-dokumentti OAIS-viitemallissa
Tietotekniikanpro gradu –tutkielma27.09.1999
Jyväskylän yliopistoTietotekniikan laitos
Informaatioteknologian maisteriohjelmatDigitaalinen media
ABSTRACT
Metsäranta, Pekka Juhani
Preserving structured information; XML-document in OAIS Reference Model / Pekka
Metsäranta
Jyväskylä: University of Jyväskylä, 1999
74 p.
Master’s thesis
One of the prerequisites that had made it possible for mankind to develop is breaking
the two obstacles of communication; time and place. Information can come into
existence on the other place than it is be used. Now that the digital era is emerging, or
has already emerged, how paradoxical would it be if today’s information could not be
accessed by generations to come. So how to further the preservation of digital
information?
In this thesis the objective is to explore long-term preservation of XML document in
networked environment. The viewpoint is to examine how the structure, both physical
and logical, of XML documents affects on preservation. The framework of the study is
given by OAIS Reference Model, which is expected to be an ISO standard. The study
begins with the literature review on the general problems of long-term preservation of
digital information. After that the OAIS Reference Model is introduced and the analysis
of the logical and physical structure of the XML document explored. Based on these
two sections the OAIS information objects supporting the preservation of XML
document are defined.
The conclusions of the study are that XML document meets well the requirements of the
OAIS Reference Model. The structure of XML document helps to distinguish the
fragments where supporting preservation information should be targeted. More over
XML as been an open standard is easily providing the information needed to understand
the coding technique used.
Keywords: XML, long-term preservation, archive, structured document, network.
TIIVISTELMÄ
Metsäranta, Pekka Juhani
Rakenteisen tiedon säilyttäminen; XML-dokumentti OAIS-viitemallissa / Pekka
Metsäranta
Jyväskylä: Jyväskylän yliopisto, 1999
74 s.
Pro gradu -tutkielma
Ihmiskunnan kehittymisen eräs perusedellytys on epäilemättä ollut kahden tiedon
välittymistä rajoittavan esteen, ajan ja paikan, murtaminen: tieto voi syntyä toisessa
ajassa ja paikassa kuin sen käyttäminen tapahtuu. Digitaalisuuteen perustuva uusi
teknologia on haavoittuvuutensa ja nopean kehityksensä takia uhka tiedon säilymiselle.
Olisi paradoksaalista, jos juuri silloin, kun tietoa kertyy yhä enemmän ja yhä
kiivaammassa tahdissa, sen säilyminen jälkipolville lakkaisi olemasta mahdollista.
Miten siis edistää sitä, että myös digitaalinen tieto säilyisi tuleville tutkijoille?
Tässä tutkimuksessa tarkastellaan XML-teknologialla koodatun dokumentin
pitkäaikaista säilyttämistä verkkoympäristössä. Tarkastelun lähtökohtana on XML-
dokumentin rakenteisuuden, loogisen ja fyysisen, vaikutukset säilyttämiseen.
Viitekehyksenä tutkimuksessa on kehitteillä oleva OAIS-viitemalli, jota esitetään ISO-
standardiksi. Tutkimuksessa tarkastellaan digitaalisen materiaalin pitkäaikaisen
säilyttämisen kirjallisuudessa esitettyjä ongelmia, esitetään OIAS-malli ja analysoidaan
XML-dokumentin loogista ja fyysistä rakennetta. Tämän pohjalta esitetään OAIS-
malliin perustuen XML-dokumentin säilyttämistä tukevat informaatio-objektit.
Suoritettu tarkastelu osoitti, että XML-teknologiaan perustuva dokumentti näyttäisi
sopivan hyvin OAIS-viitemalliin. Sen rakenteisuus auttaa erottamaan siitä osat, joihin
säilytystä tukeva tieto on kohdistettava. Lisäksi XML:stä julkisena standardina on
käytettävissä määritykset, jotka auttavat ymmärtämään sen koodaukseen käytetyn
tekniikan.
Avainsanat: XML, pitkäaikainen säilytys, arkistointi, rakenteinen dokumentti,
verkkoympäristö.
SISÄLLYS
1. JOHDANTO ...........................................................................................................................................1
1.1. AIHEALUEEN TAUSTAKSI...................................................................................................................1
1.2. TUTKIMUKSEN RAJAUS, PERUSKÄSITTEET JA RAKENNE.....................................................................3
1.2.1. Tutkimuksen rajaus ...................................................................................................................3
1.2.2. Tutkimuksen peruskäsitteet .......................................................................................................3
1.2.3. Tutkimuksen rakenne.................................................................................................................5
2. SÄILYTTÄMISEN UUDET HAASTEET ...........................................................................................6
2.1. INFORMAATION SÄILYTTÄMINEN PERINTEISENÄ TEHTÄVÄNÄ ...........................................................6
2.2. UUDEN TEKNOLOGIAN VAIKUTUKSET SÄILYTTÄMISEEN....................................................................7
2.2.1. Mitä on säilytettävä?.................................................................................................................8
2.2.2. Tiedon eheyden ongelma...........................................................................................................9
2.2.3. Varastoinnin ongelma .............................................................................................................13
2.2.4. Muunnoksen ongelma .............................................................................................................15
2.2.5. Verkkoympäristön ongelma.....................................................................................................17
2.3. SÄILYTTÄMISEN SUUNTAVIIVAT......................................................................................................18
3. OAIS-VIITEMALLI ............................................................................................................................21
3.1. OAIS-ARKISTO................................................................................................................................21
3.1.1. Tieto OAIS-arkistossa .............................................................................................................22
3.1.2. OAIS-arkiston informaatiopaketti ja toiminnallinen malli......................................................23
3.2. OAIS-TIETOMALLI...........................................................................................................................25
3.2.1. Dataobjekti..............................................................................................................................25
3.2.2. Digitaalisen objektin esitysinformaatio ..................................................................................26
3.3. TIEDON MIGRAATIO .........................................................................................................................28
4. RAKENTEINEN DOKUMENTTI .....................................................................................................30
4.1. XML:N LYHYT HISTORIA.................................................................................................................30
4.2. XML-DOKUMENTTI.........................................................................................................................31
4.2.1. Looginen rakenne....................................................................................................................32
4.2.2. Fyysinen rakenne ....................................................................................................................36
4.3. XML-DOKUMENTIN YMPÄRISTÖ .....................................................................................................39
4.3.1. Nimiavaruus ............................................................................................................................39
4.3.2. Linkit XML-dokumentissa .......................................................................................................40
4.3.3. Esittäminen .............................................................................................................................45
5. XML-DOKUMENTTI OAIS-ARKISTOSSA....................................................................................48
5.1. XML-DOKUMENTTI OAIS-INFORMAATIOPAKETTINA......................................................................48
5.1.1. XML-dokumentin sisältö .........................................................................................................48
5.1.2. XML-dokumentin OAIS-säilytyskuvausinformaatio ................................................................54
5.2. XML-DOKUMENTIN INFORMAATIOPAKETIN IMPLEMENTOINNISTA..................................................56
5.2.1. Pakkausinformaation muoto ...................................................................................................57
5.2.2. Pakkausinformaation sisältö ...................................................................................................57
6. YHTEENVETO....................................................................................................................................60
LÄHDELUETTELO ................................................................................................................................63
LIITTEET.................................................................................................................................................67
i
LYHENTEET
AIP Archival Information Package. OAIS-viitemallissa arkistoitu
tieto, arkistointipaketti.
CCSDS Consultative Committee for Space Data Systems.
Kansainvälinen avaruuslaitosten muodostama ryhmä, jonka
tarkoituksena on edistää avaruustutkimukseen liittyvän tiedon
käsittelyyn liittyvää standardointia.
CSS Cascading Style Sheets. Rakenteisten dokumenttien
muotoilukieli.
DTD Document Type Definition, dokumenttityyppimäärittely.
SGML- ja XML-dokumenttien rakennekuvaus.
GIF Graphics Interchange Format. Grafiikan tallennustapa.
HTML Hypertext Markup Language. SGML-sovellutus rakenteisten
dokumenttien merkkaamiseen.
IETF Internet Engineering Task Force. Internetin kehittämiseen
keskittynyt kansainvälinen järjestö.
IP Information Package. OAIS-viitemallin informaatiopaketti.
IEC International Electrotechnical Commission. Maailmanlaajuinen
sähköteknistä standardointia edistävä järjestö.
IETF Internet Engineering Task Force.
ISO International Organization for Standazation. Kansainvälinen
standardointia edistävä järjestö.
MathML Mathematical Markup Language. Matemaattisten merkintöjen
koodaamiseen kehitetty XML:ään perustuva kieli.
ii
OAIS Open Archival Information System. Kehitteillä oleva tiedon
pitkäaikaisen säilyttämisen viitemalli.
PDI Preservation Description Information. OAIS-viitemallin
tietojoukko, säilytyskuvausinformaatio.
RFC Request For Comments. IETF:n julkaisema standardi.
RDF Resource Description Framework. Verkkoresurssien metatiedon
esittämiseen tarkoitettu XML:ään perustuva kieli.
SGML Standard Generalized Markup Language. Dokumenttien
merkkaukseen tarkoitettu metakieli.
SIP Submission Information Package. OAIS-viitemallissa arkistoon
säilytettäväksi lähetettävä tieto, lähetyspaketti.
SMIL Synchronized Multimedia Integration Language. Multimedian
esittämiseen kehitetty XML:ään perustuva.
UML Unified Modeling Language. Tietokoneohjelmien arkkitehtuurin
esittämiseen tarkoitettu merkintätapa.
URI Uniform Resource Identifier. Internetissä käytössä resurssin
osoitteen esittämistapa.
UTF-16 Transformation Format for 16 Planes of Group 00. ISO-
standardi, joka määrittelee, miten merkit koodataan 16 bitillä.
UTF-8 Transformation Format 8. ISO-standardi, , joka määrittelee,
miten merkit koodataan 16 bitillä.
W3C World Wide Web Consortium. World Wide Webin käytänteiden
kehittämiseen keskittynyt ryhmittymä.
XLink XML Linking Language. XML-dokumenttien linkityksen
määrittävä kehitteillä oleva standardi.
iii
XML Extensible Markup Language. SGML:stä kehitetty Internet-
verkkoon soveltuva dokumenttien merkkaukseen tarkoitettu
metakieli.
XPath XML Path Language. Kehitteillä oleva standardi, joka määrittää,
miten viitataan XML-dokumenttien sisäiseen rakenteeseen.
XPointer XML Pointer Language. Kehitteillä oleva XPath:iin perustuva
standardi, joka määrittää, miten URI:iin liitetään XML-
dokumentin sisäiseen rakenteeseen viittaava osa.
XSL Extensible Stylesheet Language. XML-dokumenttien
muotoiluun tarkoitettu kehitteillä oleva muotoilukieli.
1
1. JOHDANTO
Tässä luvussa aluksi perustellaan tutkimuksen aihetta ja sen jälkeen rajataan aihealue ja
esitellään tutkimuksen kannalta tärkeimmät käsitteet.
1.1. Aihealueen taustaksi
Kun yhä enemmän materiaalia tuotetaan digitaalisissa ympäristöissä eli tietokoneissa
ajettavilla ohjelmilla, on selvää, että yhä suurempi osa myös jää digitaaliseen muotoon,
ilman rinnakkaista perinteistä muotoa. Tietämyksen ja kulttuuriperinnön säilyttämisestä
vastaavien tahojen on siis säilytettävä myös digitaalisessa muodossa olevaa materiaalia.
Tämä edellyttää, että säilyttäjän on hallittava tietoa niin, että sen käyttäminen ja
saatavuus on turvattu kullakin hetkellä nyt ja tulevaisuudessa.
Tietoa on esitetty digitaalisena vasta muutaman vuosikymmenen ajan, mutta jo nyt on
olemassa esimerkkejä siitä, että tieto voi kadota, vaikka se on olemassa! Näin voidaan
päätellä esimerkiksi Hemingerin ja Robertsonin (1998) pitkäaikaista säilyttämistä
koskevasta tutkimuksesta, jossa he esimerkkinä selvittivät, miten tieto on koodattu
1960- ja 1970-luvuilla paljon käytetylle 8-raitaiselle paperireikänauhalle. Vaikka
nauhan lukemiseen tarkoitettuja laitteita oli vielä olemassa, tosin enää vain muutamia,
heidän oli vaikeaa löytää tietoa siitä, miten tieto nauhalle oli koodattu. Esimerkiksi IBM
ei enää tukenut tätä tekniikkaa eikä säilyttänyt siitä arkistoissaan minkäänlaista tietoa.
Myös Task Force on Archiving of Digital Information raportissaan Preserving Digital
Information (TFA, 1996) esittää tapauksen, jossa 1960-luvulla Yhdysvalloissa
magneettinauhalle tallennettujen maankäyttöön liittyvien tietojen elvyttäminen ei
onnistunut, koska ohjelmistoa ei oltu tallennettu tiedon mukana. Ja vaikka näin olisi
tehtykin, ohjelman suorittamiseen tarvittavaa laitteistoa ja käyttöjärjestelmää ei olisi
ollut enää saatavilla.
Tiedon katoaminen ei tietenkään ole uusi ongelma, mutta se korostuu digitaalisella
aikakaudella, koska vaikutukset voidaan huomata lyhyen ajan kuluessa, ehkä jo yhden
ihmissukupolven aikana. Näin tieto, joka inhimillisesti katsoen on tuoretta, voi
teknologisesti olla vanhaa. Digitaalisen materiaalin pitkäaikaisen säilyttämisen
2
suurimmat ongelmat juontuvatkin materiaalin tuottamiseen käytettävän teknologian
kehityksestä, joka on ollut ja tullee olemaan nopeaa. Kehitystä tapahtuu sekä laitetasolla
tallennusvälineissä että ohjelmistotasolla tallennusformaateissa. Laitteet ja ohjelmistot
korvataan uusilla, parempia ominaisuuksia ja tehokkaampaa käsittelyä tarjoavilla, jotka
eivät kuitenkaan ymmärrä edeltäjiensä - tai ainakaan esi-isiensä - käyttämiä medioita tai
formaatteja.
Kehittyvän teknologian vaikutukset voivat näkyä myös muulla tavoin kuin
vanhentuneina tallennusvälineinä tai yhteensopimattomina formaatteina. Perustavaa
laatua olevia, infrastruktuuritason muutoksia voi syntyä nopeastikin. Esimerkiksi
Internet-verkon World Wide Web –palvelu on mahdollistanut aivan uusia tapoja
yhdistellä, jakaa ja käyttää tietoa. Verkottuvalla ympäristöllä on omat vaikutuksensa
digitaalisen materiaalin säilyttämiseen. Verkoissa dokumentit osoittavat toisiin
dokumentteihin tai niiden osiin muodostaen näin rajoiltaan epäselviä kokonaisuuksia
(Mackenzie Owen ja. Walle, 1996). Tämä vaikeuttaa materiaalin hallintaa ja keräämistä.
Säilytyksestä vastaavan on kiinnitettävä huomiota myös siihen, että materiaali on
käyttäjän saatavilla, sillä verkkoympäristössä käyttö verkon yli on itsestään selvä
vaatimus.
On olemassa myös yleisempiä, teknologiasta sinänsä riippumattomia syitä säilytyksessä
esiintyviin ongelmiin. Raportissaan Beagrie ja Greenstein (1998) toteavat, että
digitaalisen materiaalin säilyttämisen onnistumiseen vaikuttavat päätökset, joita eri
toimijat - materiaalin tuottaja, säilyttäjä ja käyttäjä - tekevät materiaalin elinkaaren
aikana. Toimijat eivät kuitenkaan aina ole tietoisia tekemiensä päätösten vaikutuksesta
säilytykseen. Lisäksi nämä toimijat ovat mukana elinkaaren eri vaiheissa eivätkä tiedä
toistensa tekemistä päätöksistä ja vielä vähemmän voivat niihin vaikuttaa (Beagrie ja
Greenstein, 1998).
Kun verkkoympäristöllä on mahdollisuus liittää edellä mainitut toimijat saumattomasti
yhteen, ihanteena voitaisiin pitää, että heillä olisi säilytyksen kannalta yhteinen
viitekehys, joka tukisi näiden kaikkien toimintaa. Tällaisen viitekehyksen tai sen osan
voisi muodostaa kehitteillä oleva Extensible Markup Language (XML), joka on
rakenteisten dokumenttien merkkauskieli (markup language) (Walsh, 1998).
3
Miten siis voidaan edistää sitä, että nyt tallennettu tieto on ymmärrettävissä vielä
pitkäaikaisen säilytyksen vaatimien useiden kymmenien tai satojen vuosien kuluttua?
1.2. Tutkimuksen rajaus, peruskäsitteet ja rakenne
1.2.1. Tutkimuksen rajaus
Tämä tutkimus käsittelee digitaalisen materiaalin pitkäaikaista säilyttämistä
verkkoympäristössä, kun kohteena on XML-dokumentti. Tarkoituksena on selvittää
miten pitkäaikaista säilyttämistä edistetään yleisesti ja miten se toteutettaisiin tietyssä
teknologisessa ympäristössä.
1.2.2. Tutkimuksen peruskäsitteet
Pitkäaikaisella säilyttämisellä (tai säilyttämisellä) tarkoitetaan tässä tutkimuksessa
prosessia, jolla tietojärjestelmään tallennettua tietoa halutaan pitää käyttökelpoisena.
Säilyttämisellä tarkoitetaan, että säilyttäjän on turvattava tiedon saanti sitä tarvitsevalle,
kuten esimerkiksi Feather (1996) sekä Mackenzie Owen ja Walle (1996) kirjaston
tehtävät näkevät. Samaa asiaa tarkoittavaa perinteisestä sanaa arkistointi on haluttu
välttää, koska siihen liittyy, ainakin osittain, mielikuva, että jokin laitetaan jonnekin ja
pidetään siellä muuttumattomassa tilassa. Ja juuri tästä ei tässä tapauksessa ole
kysymys. Eron tekeminen pitkäaikaisen ja lyhytaikaisen säilyttämisen välillä voi olla
turhaa, koska samat ongelmat voivat tulla vastaan vuoden tai kymmenen vuoden
kuluttua säilyttämisen alkamisesta. Tämä voi johtua esimerkiksi käytettävän
teknologian vaihtumisesta (Beagrie ja Greenstein, 1998).
Digitaalisella materiaalilla tarkoitetaan mitä tahansa informaatiota, joka on tallennettu
digitaalisessa muodossa eli, nykyisen paradigman mukaan, nollien ja ykkösten jonona.
Digitaalinen dokumentti käsitetään tässä tutkimuksessa digitaalisen materiaalin osaksi,
joka muodostaa itsenäisen kokonaisuuden. Tässä esityksessä termi digitaalinen
materiaali tai dokumentti kattaa myös kirjallisuudessa käytetyn termin elektroninen
4
dokumentti, vaikka näin ei tarkasti teknisesti ottaen voisi tehdä, koska elektroninen
dokumentti ei välttämättä ole digitaalisessa muodossa. Käytännössä usein tarkoitetaan
kuitenkin samaa asiaa. Myös käsitteet informaatio ja tieto ajatellaan tässä tutkimuksessa
synonyymeiksi.
Tämän tutkimuksen kannalta säilyttäjänä toimivalla taholla ei ole merkitystä, joten siitä
käytetään vain yleistä nimitystä kirjasto, arkisto tai säilyttäjä. Perinteisesti
säilyttäminen, tai arkistointi, on kuulunut sitä varten perustetuille laitoksille, arkistoille,
arkistokirjastoille tai kirjastoille. Digitaalinen kirjasto on paljon käytetty ilmaus ja
analogisesti voitaisiin puhua digitaalisesta arkistosta. Mutta kuten Levy ja Marshal
(1995) toteavat, kirjastot ovat perinteisesti sisältäneet heterogeenista aineistoa, joten
tulevaisuudessakaan tuskin on olemassa puhtaasti digitaalisia kirjastoja. Myös tässä
tutkimuksessa oletetaan, että säilyttäjällä on mahdollisuus säilyttää muutakin kuin
digitaalista informaatiota.
Dokumentilla on sisältö kahdessa mielessä: sillä on intellektuaalinen sisältö ja koodattu
sisältö. Intellektuaalisella sisällöllä tarkoitetaan tekijän ajattelun tuloksena syntynyttä
abstraktia tuotosta. Koodattu sisältö taas on tämän intellektuaalisen sisällön
mediariippuvainen esitys (esimerkiksi kirjan teksti). Jos asiayhteydestä ei voi päätellä
kumpaa tarkoitetaan, se mainitaan erikseen.
Rakenteisella dokumentilla tarkoitetaan dokumenttia, joka koostuu sitä käsittelevälle
ohjelmalle merkityksellisistä osista. Rakenteisuus voi liittyä dokumentin koodattuun
sisältöön, mutta myös muuhun, kuten dokumentin esittämiseen.
Extensible Markup Language (XML) on rakenteisten dokumenttien merkkauskieli
(Walsh, 1998). XML on kehitetty ISO-standardin määrittelemästä Standard Generalized
Mark Up Language (SGML) –metakielestä ja tarkoitettu erityisesti verkkoympäristössä
tallennettavan ja siirrettävän tiedon koodaukseen (Bray, ym., 1998).
Verkkoympäristöllä tarkoitetaan Internetin kaltaista verkkoa. Se siis perustuu asiakas-
palvelin –arkkitehtuuriin, sillä on tietty osoitejärjestelmä ja verkkoprotokolla (Berners-
Lee, ym., 1994) ja tarjoaa siten mahdollisuuden hajautettujen järjestelmien
käyttämiseen.
5
1.2.3. Tutkimuksen rakenne
Tutkimuksen aluksi tarkastellaan kirjallisuuden avulla digitaalisen materiaalin
pitkäaikaiseen säilyttämiseen liittyviä ongelmia. Luvussa 3 esitellään eräs kehitteillä
oleva pitkäaikaiseen säilyttämiseen suuntaviivoja antava viitemalli. Luvussa 4 tutkitaan
XML-dokumenttia lähtökohtana sen rakenteisuus. Tuloksena luvuista 3 ja 4, luvussa 5
esitetään malli, jossa kuvataan miten esitettyä mallia sovellettaisiin XML-dokumenttiin.
Lopuksi luvussa 6 arvioidaan mallia ja tehdään yhteenveto.
6
2. SÄILYTTÄMISEN UUDET HAASTEET
Ihmiskunnan kehittymisen eräs perusedellytys on epäilemättä ollut kahden tiedon
välittymistä rajoittavan esteen, ajan ja paikan, murtaminen: tieto voi syntyä toisessa
ajassa ja paikassa kuin sen käyttäminen tapahtuu. Ajan esteen murtaminen on
mahdollistanut tehokkaasti uuden tiedon rakentamisen kehittämällä vanhaa. Paikan
esteen murtaminen taas on mahdollistanut tiedon tehokkaan siirtämisen sinne, missä sitä
tarvitaan. Paikan ja ajan asettamia esteitä on vähennetty, tai hävitetty kokonaan,
siirtämällä yksilön älyllisen toiminnan tuotos informaatiota välittävälle aineelle,
medialle. Tietoa välittävällä media on aikojen kuluessa ollut monia muotoja – ja tulee
varmasti olemaan myös tulevaisuudessa.
Uusi teknologia on yhä tehokkaammin poistanut ajan ja paikan vaikutusta tiedon
välittämiseen. Tämä pitää paikkansa tosin vain sillä varauksella, että myös tiedon
pitkäaikainen säilyttäminen voidaan varmistaa. Tässä luvussa tarkastellaan tiedon
pitkäaikaista säilyttämistä ensin perinteisenä toimintona ja sitten tarkemmin, mitä
säilyttäminen tarkoittaa, kun sen kohteena on digitaalinen materiaali.
2.1. Informaation säilyttäminen perinteisenä tehtävänä
Kun informaatio on tallennettu medialle, on se saatettava käyttäjän ulottuville. Tämä on
kirjaston keskeinen tehtävä (Feather, 1996, s. 1). Lisäksi kirjaston tehtävä on varmistaa
käytettävyys myös tulevaisuudessa (Mackenzie Owen ja Walle, 1996). Kirjasto auttaa
käyttäjää organisoimalla tiedon sisältävää mediaa fyysisesti ja sisällöllisesti (Feather,
1996, s. 1). Perinteisesti tieto on tallennettu dokumentteihin, joiden säilyvyydestä on siis
pidettävä huolta (Feather, 1996, s. 1). Näin tiedon käytettävyyden varmistamiseen liittyy
myös säilyttämisen ulottuvuus: on pidettävä huolta siitä fyysisestä mediasta, jolla tieto
sijaitsee. Featherin mukaan tiedon säilyttäminen onkin laajasti ottaen tiedon hallintaa,
jonka tehtävä on varmistaa, että tiedon käytettävyys säilyy niin kauan kuin tiedolle on
tarvetta.
Perinteinen säilyttäminen on pitkälti informaation sisältävän materiaalin fysikaaliseen ja
kemialliseen koostumukseen liittyvien asioiden hallintaa (Feather, 1996, s. 51). Paperin
7
ja painomusteen koostumus ja ominaisuudet määräävät kirjan iän yhdessä sen käytön
määrän ja säilytysolosuhteiden kanssa: kirjat kuluvat käytössä ja ajan hammas syö
materiaa. Perinteisessä säilyttämisessä informaation saatavilla oloa uhkaa siis sen
sisältävän median kuluminen ja lopulta tuhoutuminen. Kirjan käyttöä onkin ehkä
rajoitettava, jos sillä esineenä on sellaista arvoa, joka halutaan säilyttää tuleville
polville. Lopullista tuhoutumista pyritään estämään suorittamalla vaurioituneille
kirjoille joko konservointi tai harvemmin restaurointi. Konservoinnilla kirja korjataan
niin, että sen olemassaolo varmistetaan, kun taas restauroinnilla kirja palautetaan
vastaamaan alkuperäistä, materiaalejaan ja tekotapaansa myöten (Feather, 1996, s. 2).
Kirjoja uhkaavat myös monet ulkoiset vaarat. Arkiston väärä ilmankosteus tai lämpötila
lyhentävät teoksen ikää. Myös luonnonmullistukset voivat tuhota yhtäkkiä kokonaisia
kirjastoja. Näin tapahtui 1966 Italiassa Florence-joen tulviessa Biblioteca Nazionale –
kirjastoon (Feather, 1996, s. 3). Tällaiset suuret katastrofit voivat saada aikaan myös
edistystä, kuten kävi Florence-joen tulvan tapauksessakin: konservointi sai uusia
tekniikkoja ja säilyttämiseen yleensäkin alettiin kiinnittää taas huomiota (Feather, 1996,
s. 4).
2.2. Uuden teknologian vaikutukset säilyttämiseen
Digitaalisena säilytettävää tietoa uhkaavat monet samat vaarat kuin perinteisesti
paperille painettua. Luonnonmullistukset eivät digitaalisuudesta perusta ja
tallennuslevyjen pinnat ovat materiaalia siinä kuin paperikin. Voitaisiin sanoa, että
ongelmat eivät ole uusia, ne vaan muuttuvat. Tässä alaluvussa tarkastellaan,
minkälainen prosessi digitaalisen tiedon tallentaminen on ja minkälaisia ongelmia siinä
on nähtävissä. Tarkastelu perustuu pääasiassa kahden tutkimuksen raportteihin. Toinen
on Euroopan komission rahoittama J. S. Mackenzien ja v.d. Wallen Deposit collections
of electronic publications ja toinen amerikkalainen Preserving Digital Information,
jonka on kirjoittanut Task Force On Archiving of Digital Information –työryhmä (TFA)
toimeksiantajinaan Commission of Preservation and Access ja Research Libraries
Group. Molemmat tutkimukset näkevät digitaalisen materiaalin säilyttämisen prosessin
hyvin samankaltaisena, mutta painotuseroa on esimerkiksi siinä, että Mackenzie ja
8
Walle käyttävät paljokin pohdintaa siihen, mikä on elektroninen (digitaalinen) julkaisu,
kun taas TFA pohtii tiedon muuntamiseen (tallennusformaatista toiseen) liittyviä
ongelmia.
2.2.1. Mitä on säilytettävä?
Digitaalisen materiaalin säilyttämisessä voidaan hyvällä syyllä kysyä: mitä halutaan
säilyttää? Digitaalinen tieto on kapseloituneena mediaan, ohjelmistoon ja laitteeseen
(Mackenzie Owen ja Walle, 1996, s. 47). Kaikilla näillä on oma osuutensa siihen, että
näemme lopputuloksen sellaisena kuin sen näemme. Toisin sanoen sama sisältö voidaan
nähdä erilaisena eri tilanteissa riippuen esimerkiksi siitä, mitä ohjelmia tai laitteistoja
käytetään. Tästä on helppo vakuuttua katselemalla samaa HTML-dokumenttia kahden
eri valmistajan selaimella – tai saman selaimen eri versioilla. Tulos voi sisällöllisesti
olla sama, mutta ulkoasu on harvoissa tapauksissa täysin identtinen. Digitaaliset
dokumentit ovat siis riippuvaisia ohjelmista, mikä onkin eräs niiden
luonteenomaisimmista tuntomerkeistä (Rothenberg, 1995).
Kärjistetysti voidaan sanoa, että tehtävä päätös siitä, säilytetäänkö sisältö vai ulkoasu.
Ikävää vain on, että valinnasta riippumatta lopputulos voi olla sama: informaatio
menetetään. Ulkoasun säilyttäminen voi johtaa tilanteeseen, jossa tietoa ei voida enää
käyttää, koska tarvittava teknologia on vanhentunut eikä sitä ole saatavilla. Toisaalta
sisällön säilyttäminen voi johtaa informaation katoamiseen, esimerkiksi värien tarkka
toistaminen voi joissakin tapauksissa olla sisällön kannalta erittäin tärkeää. Esimerkiksi
huomautus ”Ks. punainen pylväs.” menettää merkityksensä, jos kaavio esitetään
mustavalkoisena ja kaikki pylväät ovat mustia.
Pitkällä aikavälillä on ehkä todennäköistä, että vain sisältö on mahdollista säilyttää
(Mackenzie Owen ja Walle, 1996, s. 47). Tässä tarkoitetaan nimenomaan
intellektuaalista sisältöä, jolloin koodattuun sisältöön joudutaan mahdollisesti tekemään
muutoksia. Edellä esitetty huomautus pitäisi siis korjata esimerkiksi muotoon ”Ks.
toinen pylväs vasemmalta.” Näin voidaan joutua tilanteeseen, jossa tiedon alkuperäisyys
on kyseenalaista.
9
Myös se, mikä katsotaan säilytettäväksi ja millä perusteella, on uudessa tilanteessa
hankalaa. Perinteisesti arkistointia monissa maissa säännellään laeilla, jotka
määrittelevät säilytettäviksi julkaistut dokumentit (Mackenzie Owen ja Walle, 1996,
s. 7). Julkaisu digitaalisessa maailmassa on kuitenkin vaikeammin määriteltävissä kuin
perinteisessä julkaisutoiminnassa. Onko Internetissä esille laitettu kotisivu julkaisu, joka
pitäisi säilyttää? Mikä ylipäänsä on julkaisu? Onko tietokanta julkaisu? Jos se on,
kuuluvatko siihen myös ne, mahdollisesti muun kuin tietokannan julkisijan omaisuutta
olevat, ohjelmat, joilla siinä olevaa tietoa käytetään? Näin digitaalisessa muodossa
julkaistava tieto on luonut tilanteen, jossa vaikuttavat useat asiat ja jossa on tehtävä
enemmän päätöksiä kuin aikaisemmin. Nämä päätökset eivät voi aina perustua lakiin,
koska säädäntötyö ei pysy teknologisen kehityksen tahdissa. Esimerkiksi Suomessa
vasta nyt, keväällä 1999, on tarkoitus jättää eduskunnalle lakialoite, jossa digitaalisten
julkaisujen säilyttämistä säädellään jollakin tasolla (Häkli, 1999).
2.2.2. Tiedon eheyden ongelma
Tiedon luotettavuus on säilyttämisessä kaiken perusta. Digitaaliset informaatio-objektit
ovat kuitenkin monessa suhteessa sellaisia, että niiden oikeellisuudesta voi olla vaikea
varmistua. Tarkemmin sanottuna siitä, että objekti on se, jonka käyttäjä sen luulee
olevan (Graham, 1995). TFA luettelee digitaalisen materiaalin ne ominaisuudet, jotka
yhdessä varmistavat sen oikeellisuuden eli eheyden (integrity). Näiden ominaisuuksien
säilyttäminen varmistaa myös koko prosessin onnistumisen (TFA). Seuraavassa
tarkastellaan TFA:n määrittelemiä eheyden muodostavia ominaisuuksia ja niihin
liittyviä näkökohtia.
Sisältö
Päähuomio säilyttämisessä epäilemättä kiinnittyy (intellektuaaliseen) sisältöön
(content). Perinteisessä säilyttämisessä huolehtimalla mediasta myös sisällön säilyminen
on varmistettu. Jos myös digitaalisen materiaalin kohdalla kiinnitettäisiin huomio vain
fyysiseen mediaan, sisältö todennäköisesti menetettäisiin suhteellisen nopeasti.
Uudenlaisen säilyttämisen pitää siis suoraan keskittyä sisältöön. Näin fyysisen objektin
säilyttämisestä ollaan siirrytty abstraktin sisällön säilyttämiseen (Graham, 1995).
10
TFA erottaa sisällössä eri abstraktio-tasoja, joilla digitaalisen materiaalin sisältöä
voidaan tarkastella. Alimmalla tasolla on bittijono, josta jokainen digitaalinen objekti
koostuu. Jos halutaan säilyttää pelkkä bittijono riittää sen varmistaminen, että ne kaikki
säilyvät eikä niiden looginen järjestys muutu. Ylimmällä tasolla sisältö tarkoittaa
intellektuaalista sisältöä, sitä mitä tekijä on teoksellaan halunnut kertoa. Tässä välissä
voi olla yksi tai useampi abstraktiotaso, joita tarvitaan bittijonon esittämiseksi
ylimmällä tasolla. Näitä välitasoilla olevia abstraktioita ovat koodit ja formaatit.
Samassa dokumentissa voi olla käytössä useita erilaisia abstraktioita. Kuva 1 esittää
tietoa, joka ylimmällä abstraktion tasolla näkyy www-sivuna ja alimmalla bittivirtana.
UNICODE-koodilla bitit kuvataan merkeiksi, joita puolestaan käytetään XML-
merkkauksessa. Www-sivulla näkyvä kuva muodostetaan bittivirrasta GIF-formaatilla.
Kuva 1. Www-sivun abstraktiotasot
Kuvasta nähdään, että sisältö onkin hyvin laaja käsite: siihen kuuluu myös tieto siitä,
miten bittivirrasta saadaan www-sivu. Tämä tietämys on ”piilotettu” ohjelmistoihin ja
laitteisiin, joissa tieto on tuotettu.
Muuttumattomuus
TFA kutsuu ominaisuutta, joka tekee informaatio-objektista erotettavan kokonaisuuden
ja sisällöltään pysyvän, muuttumattomuudeksi (fixity), toisin sanoen säilytettävä
objekti on voitava erottaa esimerkiksi muista versioistaan ja sen on pysyttävä
muuttumattomana. Perinteisessä säilyttämisessä on luotu menetelmiä, joilla
varmistetaan, että säilytettävä tieto ei muutu tai joilla sen muuttuminen voidaan todeta.
Kirjastossa säilytettävää kirjaa on lähes mahdoton muuttaa ilman, että siitä jää pysyvää
jälkeä. Kuitenkin digitaalista tietoa voi sen tekijä tai haltija muuttaa suhteellisen helposti
11
koska tahansa, ja voi olla mahdoton todeta, että näin on tapahtunut. Tällaisen aineiston
todistusvoima on siten huomattavasti heikentynyt (TFA).
Lisäksi digitaalinen aineisto voi jo luonteeltaan olla muuttuvaa kuten esimerkiksi
tietokantaan tallennettu tapahtumatieto. Muutos voi olla sillä tavoin jatkuvaa, että
tällaista tietoa ei voida kuvata perinteisillä termeillä versio tai painos, vaan se helpompi
mallintaa jatkuvasti päivittyvänä tietokantana (TFA). Päivittyvän tietokannan
säilyttäminen on periaatteessa mahdollista kahdella tavalla. Toisessa kaikki tietokannan
tilat säilytetään ja toisessa tietokannasta otetaan kopio aika ajoin. Näistä vain edellinen
toteuttaa tiedon täydellisen eheyden, mutta on selvästikin monissa tapauksissa kalliimpi
ja vaikeammin toteutettavissa kuin jälkimmäinen.
Viitattavuus
TFA esittelee kolmantena tiedon eheyteen vaikuttavana ominaisuutena viitattavuuden
(reference), millä se tarkoittaa, että informaatio-objekti on voitava yksilöidä muiden
objektien joukossa. Tähän tarvitaan järjestelmiä, jotka – lainausten, kuvausten ja
luokitteluiden avulla – mahdollistavat objektien etsimisen, tunnistamisen ja haun.
Perinteisesti tällaisen tiedon ovat tarjonneet bibliografiset luettelot ja hakemistot.
Mackenzie Owen ja Walle (1996, s. 71) pitävätkin digitaalisen tiedon luettelointia
samanlaisena prosessina kuin perinteisenkin materiaalin ja esiin tulevat ongelmat
käsitellään yleisen tapauksen laajennuksina. Digitaalisen materiaalin viitattavuustiedon
muodostaminen, tapahtuu se sitten automaattisesti tai manuaalisesti, tulisi perustua siinä
itsessään olevaan tietoon (TFA). Näin digitaalisen tiedon tulisi siis sisältää metatietoa,
joka mahdollistaisi tarvittavien luettelo- ja hakemistotietojen muodostamisen.
Osa viitattavuuden ongelmaa on digitaalisen objektin nimen ja sijainnin ratkaiseminen
(TFA). Maailmanlaajuisessa verkkoympäristössä yksikäsitteisillä nimillä on suuri
merkitys objektin tunnistettavuudelle. Yksikäsitteisyys ei koske vain eri teoksia, vaan
myös saman teoksen eri versioita. Mackenzie Owen ja Walle (1996, s. 75) tuovat esiin
seuraavia digitaalisen materiaalin versiointiin liittyviä ongelmia:
• versioiden käsittelemiseksi puuttuu yhteisymmärrys, edes sanastoa ei ole
olemassa,
12
• digitaalisen materiaalin kohdalla versiolla on periaatteellisesti erilainen
merkitys kuin perinteisen painetun materiaalin tapauksessa,
• usein digitaaliset versiot syrjäyttävät aikaisemman ja
• digitaalisesta materiaalista tuotetaan helpommin uusia versioita, joten
muutosten havaitseminen versioiden välillä voi olla vaikeaa.
Alkuperä
Neljäntenä informaatio-objektin eheyteen vaikuttavana tekijänä TFA määrittelee
alkuperän (provenance) eli tiedon siitä, mistä objekti on tullut ja mitä sille on
tapahtunut säilyttämisen aikana. Perinteisesti viralliset julkaisu- ja jakelukanavat ovat
antaneet luotettavaa tietoa materiaalin alkuperästä. Digitaalisessa maailmassa
informaatiota voi tuottaa ja myös jaella, esimerkiksi verkossa, paljon helpommin kuin
aikaisemmin. Näin alkuperän varmistaminen voi olla vaikeampaa. Digitaalisessa
ympäristössä julkaisun alkuperä on sidoksissa objektin muuttumattomuuteen ja
viitattavuuteen (TFA). Digitaalisen objektin alkuperää tallennettaessa on otettava
huomioon myös muunkin kuin julkaisuna pidettävän materiaalin käsittely: yksityisten
henkilöiden henkilökohtainen materiaali; yritysten liiketoiminnassaan tuottama tieto;
elektronisten laitteiden tuottama data (TFA; Mackenzie Owen ja Walle).
Erikoista huomiota on myös kiinnitettävä siihen, miten digitaalista materiaalia on
käsitelty sen säilytysaikana (TFA). Tässä tulee kyseeseen esimerkiksi materiaalille
suoritetut tietomuodon muunnokset: tällöinhän säilytyksen kohde on saattanut muuttua
niin, että sen tunnistaminen alkuperäiseksi ei välttämättä ole ilmiselvää.
Konteksti
Viidentenä ja viimeisenä digitaalisen dokumentin eheyden takaavana ominaisuutena
TFA esittää kontekstin (context) eli mikä on dokumentin suhde muihin digitaalisen
ympäristön elementteihin. Konteksti voidaan erottaa useissa eri dimensioissa:
• tekninen konteksti eli dokumentin ohjelmisto- ja laiteympäristö,
• linkkikonteksti eli viittaukset muihin dokumentteihin,
13
• tietoliikennekonteksti eli millä protokollalla dokumentti siirretään
tietoverkossa, ja
• laajempi sosiaalinen konteksti, jossa digitaalinen objekti on syntynyt.
2.2.3. Varastoinnin ongelma
Perinteisessä säilyttämisessä on paljolti kysymys median, kuten paperin, säilyttämisestä.
Myös digitaalisessa muodossa oleva tieto on aina jollakin medialla. Mutta toisin kuin
painettu teksti, joka on yhtä sitä kantavan median kanssa, digitaalinen objekti sijaitsee
medialla. Voidaan siis käyttää ilmaisua ”on varastoitu medialle”.
Vaikka digitaalisen tiedon tallentamiseen käytetty media ei kulu käytössä samalla
tavalla kuin esimerkiksi paperi, ovat levyt ja nauhat erittäin vikaantumisalttiita.
Erityisen vaikeaksi asian tekee se, että ihmisaistein ei voida päätellä, mikä on
tallennusmedian kunto: tarkemmin sanottuna, jos näin tapahtuu, kaikki on jo liian
myöhäistä. Kaiken kaikkiaan, kuinka voidaan olla koskaan varmoja siitä, että levylle
kirjoitettu data on uudelleen luettavissa, sillä sehän voi vioittua heti lukemisen jälkeen!
Varastoinnissa voidaan erottaa erilaisia toimenpiteitä tai tiloja, joita esitellään
seuraavassa.
Virkistäminen
Varastoitaessa digitaalista tietoa erilaisille medioille (kovalevy, magneettinauha, CD-
ROM) tulee jossakin vaiheessa tarpeelliseksi siirtää tieto uudelle medialle. Tähän voi
olla syynä alkuperäisen median kuluminen, uuden median parempi laatu tai niiden
edullisuus vanhaan verrattuna. Tällaisessa siirrossa tiedon alin abstraktiotaso eli
bittivirta kopioidaan sellaisenaan ja puhutaan tiedon virkistämisestä (refreshing). Tämä
tarkoittaa, että tarvittava sovellusohjelmisto (sekä mahdollisesti käyttöjärjestelmä ja
muu laitteisto) pysyy ennallaan ja ongelmana onkin vain varmistaa, että bittivirta ei
muutu virkistämisen aikana. Virkistäminen ei olekaan pitkäaikaisen säilyttämisen
kannalta ratkaisu, koska se vaatisi tulevilta ohjelmistoilta ja laitteistoilta
14
yhteensopivuutta vanhojen tiedostoformaattien kanssa, mikä pitkällä aikavälillä on
mahdotonta (TFA).
Kasautuminen ja pirstoutuminen
Edellä esitetty virkistäminen voi johtaa myös dokumenttien kasautumiseen
(Rothenberg, 1998). Tämä johtuu siitä, että virkistettäessä dokumentteja uuden median
kapasiteetti on usein suurempi kuin vanhan, joten sille voidaan tallentaa dokumentteja
useista eri fyysisistä medioista. Koska monesti medioiden pinnalle on kirjoitettu sisältöä
kuvailevaa metatietoa (esimerkiksi nauhan nimiö ja sisältö), kasautumien johtaa
mahdollisesti siihen, että kaikkien virkistettyjen medioiden (käsinkirjoitettu) metatieto
ei mahdu uuden median pinnalle.
Myös kasautumisen vastakohta eli pirstoutuminen voi tulla ongelmaksi, jos
esimerkiksi uuden median kapasiteetti onkin pienempi kuin vanhan. Tällöin saman
median sisältö voi jakaantua useammalle uudelle medialle, mikä voi olla mahdotonta
toteuttaa tai ainakin johtaa ongelmiin tiedon saannissa.
Monistaminen
Digitaaliset objektit ovat luonteeltaan helposti kopioitavia. Tästä seuraa, että on tullut
yleiseksi tavaksi monistaa samaa digitaalista objektia esimerkiksi saannin
parantamiseksi. Tämä voi johtaa säilyttämisprosessissa hallinnallisiin ongelmiin.
Vaikka digitaalinen objekti ei sinänsä muuttuisi, voi esimerkiksi siihen liitetty metatieto
muuttua tai objekti voidaan poistaa arkistosta, jolloin muutoksen tai poiston on
koskettava jokaista kopiota.
Saantitapa
Saantitavalla tässä tarkoitetaan sitä, miten dokumentin sisältävä media on saatavilla.
Mackenzie Owen ja Walle mainitsevat kaksi tapaa järjestää mediat saatavuuden
suhteen: on-line- ja off-line -mediat. On-line -medialla tarkoitetaan tallennuslaitetta,
jolta dokumentti on heti saatavissa, eli media on koko ajan lukulaitteessa (esimerkiksi
kovalevy levyasemassa), jonka kautta dokumentin luku tapahtuu. Off-line -media sen
sijaan ei ole lukulaitteessa, vaan paremminkin sijoitettu esimerkiksi hyllylle kirjojen
15
tapaan. Tällöin dokumentin lukeminen vaatii ensin median asettamisen lukulaitteeseen.
Näiden kahden lisäksi voitaisiin vielä erottaa kolmaskin mediatyyppi, nimittäin ns.
near-line -media, joka on edellisten välimuoto niin, että media ei ole lukulaitteessa koko
ajan, mutta hakeminen sinne tapahtuu automaattisesti (TFA).
2.2.4. Muunnoksen ongelma
Ohjelmistojen ja laitteistojen kehittyessä tallennusformaatit siis vääjäämättä
vanhentuvat, ts. uudet laitteisto- ja ohjelmistoympäristöt eivät tue niitä. Tämä onkin
ehkä kaikkein keskeisin ongelma digitaalisen materiaalin pitkäaikaisessa
säilyttämisessä. TFA esittää raportissaan, että ajoittainen muunnos (migration)
formaatista toiseen on ainoa pitkällä aikavälillä toimiva ratkaisu digitaalisen tiedon
säilyttämiseksi. Muunnoksessa dokumentin tallennusmuotoa muutetaan niin, että sitä
voidaan käyttää uudessa laitteisto- ja/tai sovellusympäristössä (TFA). TFA:n mukaan
muunnos on tehtävä aika ajoin niin, että dokumentti on kullakin hetkellä yleisesti
käytettävässä formaatissa.
Useissa kirjoituksissa (Rothenberg, 1992; Rothenberg, 1998; Heminger ja Robertson,
1998) on tuotu esiin ongelmia, joita muunnokseen liittyy. Näitä ovat sen yleensä
vaatima suuri työmäärä ja tästä seuraavat kustannukset, virhealttius sekä alkuperäisen
dokumentin ominaisuuksien menettäminen tai muuttuminen (Rothenberg, 1998).
Varsinkin viimeksi mainittu kyseenalaistaa koko säilyttämisprosessin. Jos dokumentti
menettää ominaisuuksiaan muunnoksessa, se tietenkin voi myös menettää jotain siitä
tarkoituksesta, jonka tekijä sillä alunperin on halunnut ilmaista. Pitkällä aikavälillä tämä
voi toteutua vielä varmemmin useiden muunnosten seurauksena.
Jatkuvan muunnoksen välttämiseksi on etsitty toisenlaisia lähestymistapoja. Rothenberg
(1992, 1998) esittää, että dokumentin alkuperäisen muodon, ja siten tarkoituksen,
säilyttäminen on mahdollista vain, jos dokumenttia käsitellään sen luoneella ohjelmalla.
Tämän mahdollistamiseksi Rothenberg hahmottelee mallia, jossa tulevaisuuden
tietokoneohjelmisto jäljittelisi eli emuloisi sitä laitetta, jossa dokumentti aikanaan
synnytettiin. Tämä taas vaatisi, että dokumentin mukana olisi tallennettava sitä
käsittelevä ohjelma ja käyttöjärjestelmä, jossa ko. ohjelma suoritetaan. Näiden lisäksi
16
olisi tallennettava kuvaukset, joilla laitteiston emuloinnin rakentaminen tulevaisuuden
koneeseen olisi mahdollista. Vaikkakin malli tuntuu siinä mielessä hyvältä, että se
mahdollistaisi dokumentin katselemisen alkuperäisessä muodossaan, tuntuisi sen
toteuttaminen olevan vieläkin työläämpää kuin muunnoksen. Tosin Rothenberg
huomauttaa, että ohjelmistoja, käyttöjärjestelmiä ja laitteistokuvauksia ei tarvitsi
välttämättä tallentaa jokaisen dokumentin mukaan, vaan riittäisi, kun niistä olisi viittaus
paikkaan, josta ne olisi löydettävissä.
On myös ehdotettu yleisen säilytysformaatin kehittämistä (Universal Preservation
Format, Shepard ja MacCarn, 1999), jossa alkuperäinen dokumentti kapseloitaisiin
pakettiin yhdessä sen tallennusmuodon kuvauksen kanssa. Näin paketti sisältäisi sekä
dokumentin että kuvauksen siitä, miten se voidaan paketista lukea. Digitaalisen paketin
lisäksi tarvittaisiin analoginen (esimerkiksi mikrofilmille tallennettu) selostus miten
digitaalisella medialla oleviin tietoihin päästään käsiksi.
Samantapaista ratkaisua ovat ehdottaneet Heminger ja Robertson (1998) Digital Rosetta
Stone -mallissaan. Mallissa digitaalisen tiedon säilyttäminen esitetään kolmena
prosessina: tietämyksen säilyttämisenä, datan elvyttämisenä ja dokumentin
uudelleenmuodostamisena. Tietämyksen säilyttämisprosessissa kerätään ja säilytetään
kaikki informaatio, joka tarvitaan datan elvyttämiseen ja dokumentin
uudelleenmuodostamiseen. Datan elvyttäminen tarkoittaa tiedon palauttamista
vanhentuneelta medialta ja muuntamista käytössä olevaan järjestelmään sopivaksi.
Dokumentin uudelleenmuodostamisessa on kysymys alkuperäisessä dokumentissa
olevan tiedon tulkitsemisesta tallennusformaatista säilytettyjen tietojen pohjalta.
Prosesseissa tarvittava tietämys tallennettaisiin metadatana.
Muunnosta on käytetty tietotekniikassa alusta lähtien, kun valmistajat ovat
mahdollistaneet uusissa tuotteissaan edellisten versioiden tiedostomuotojen käytön.
Monet ohjelmat myös osaavat lukea toisten ohjelmien muodostamaa dataa.
Muunnoksesta on siis kokemusta ja sen haittapuoletkin tiedossa, mutta on
todennäköistä, että muunnosta tullaan käyttämään ainakin lähitulevaisuudessa. On myös
huomattava, että edellä esitetyissä ratkaisuvaihtoehtoissa kaikissa muissa paitsi
Rothenbergin emulointimallissa nojataan lopulta muunnokseen. Laajasti ottaen myös
Rotherbergin malli on muuntamista, koska siinä laitteisto muunnetaan virtuaaliseksi,
17
mikä voi sekin aiheuttaa muutoksia ainakin dokumentin ulkoasuun. Tuoreessa
artikkelissaan Bearman (1999) puolustaakin muunnosta ainoana kestävänä ratkaisuna ja
arvostelee Rotherbergin mallia monista puutteellisuuksista ja jopa vääristä
lähtökohdista, muun muassa siitä, että siinä yritetään säilyttää järjestelmien
toiminnallisuus, kun kohteena on itse informaatio.
2.2.5. Verkkoympäristön ongelma
Tiedon etsiminen ja käyttö tietoverkkojen kautta on jo tänä päivänä monille tietoa
tarvitseville itsestäänselvyys. Internetin kaltaisten verkkojen käyttö ja kehittyminen
tulevaisuudessa yhä paremmin toteuttaa luvun alussa mainitun ajan ja paikan
murtamisen tiedon välittymisessä. Verkkoympäristön käsite voidaan ajatella
kaksitahoiseksi. Dokumentti voi sijaita tietokoneiden muodostamassa verkossa ja olla
itsessään verkko: se voi siis koostua useista jollakin tapaa toisiinsa yhteydessä olevista
osista, jotka voivat sijaista yhdellä tai useammalla tietokoneella. Esimerkiksi nykyinen
www-järjestelmä on tämän kaltainen verkko. Www muodostuu dokumenttien verkosta,
jossa ajatuksena on, ettei yksikään sen solmuista ole erillinen, vaan liitetty linkillä
johonkin toiseen solmuun. Näin voi olla vaikea rajata kokonaisuutta, jota voisi kutsua
dokumentiksi.
Koska verkkoympäristö mahdollistaa dokumentin saannin suoraan alkuperäisestä
paikastaan, voitaisiin ajatella, että ei enää olisikaan välttämätöntä ”siirtää” dokumenttia
arkistoon säilyttämistä varten. TFA mainitseekin, että hajautettu malli voisi olla sopiva
ainakin kahdesta syystä: ensinnäkin informaation säilyttäminen olisi osaavinta siellä,
missä sen arvo ymmärretään parhaiten, ja toiseksi kehittyvässä ja muuttuvassa
tilanteessa hajautus voisi säästää kustannuksia (TFA, 1996). Toisaalta Mackenzie ja
Owen (1996) suhtautuvat epäillen siihen, että hajautettu malli voisi tulla kyseeseen
pitkäaikaisessa säilytyksessä kuin korkeintaan siten, että verkossa olevista
dokumenteista ylläpidetään bibliografisia tietoja, joista on ehkä linkit niihin. Tällöin
ongelmaksi muodostuu linkkien ylläpito, kun dokumentteja muutetaan, poistetaan tai
siirretään toiseen paikkaan verkossa.
18
Mackenzie Owen ja Walle (1996) tuovat esiin myös toisenlaisen linkitysongelman, joka
voi esiintyä bibliografisia luetteloita muodostettaessa: jos luettelon kohteena oleva
dokumentti sisältää linkkejä, pitäisikö myös linkkien päässä olevat dokumentit
luetteloida? Ratkaisuksi he esittävät linkkien luokittelua sisältölinkkeihin (content links)
ja viitelinkkeihin (reference links) (Mackenzie Owen ja Walle, 1996, s. 64). Sisältölinkit
viittaavat dokumentin muodostaviin osiin ja viitelinkit dokumentin aiheeseen jollakin
tapaa liittyviin itsenäisiin dokumentteihin. Tämän jaottelun mukaan dokumentin
tietoihin bibliografiseen luetteloon sisällytettäisiin myös tiedot sisältölinkkien kohteena
olevista dokumentin osista , mutta ei viitelinkkien päässä olevista dokumenteista.
Verkkoympäristö vaikuttaa säilyttämiseen myös käyttöoikeuksien ja verkon
kaistanleveyden osalta (TFA, 1996; Mackenzie Owen ja Walle, 1996). Käyttöoikeuksia
ei voida enää rajoittaa sallimalla pääsy materiaaliin vain tietyissä tiloissa, vaan
verkkoympäristössä on rajoitukset toteutettava muilla keinoilla, perustuen esimerkiksi
käyttäjätunnuksiin tai sallimalla pääsy vain tietyistä verkko-osoitteista. Myös
kaistanleveys eli verkon suorituskyky voi olla tekijä, joka vaikuttaa siihen, minkälaisena
digitaalinen objekti käyttäjälleen näyttäytyy. Liikkuvan kuvan tai äänen esittäminen
ehkä vaatii verkolta tiettyä kapasiteettia - muussa tapauksessa dokumentti ei esitä sitä,
mitä sen pitäisi esittää. Jotta dokumentin käyttö olisi mahdollista eritasoisilla
verkkoyhteyksillä, pitäisikö siitä olla esimerkiksi erilaisia versioita?
2.3. Säilyttämisen suuntaviivat
Kun informaation tuottamisessa siirrytään kohti digitaalista paradigmaa, pitkäaikaisessa
säilyttämisessä siirrytään fyysisen median säilyttämisestä intellektuaalisen sisällön
säilyttämiseen. Ongelmiksi muodostuvat dokumentin eheyden säilyttäminen, mikä
tarkoittaa sisällön, muuttumattomuuden, viitattavuuden, alkuperän ja kontekstin
säilyttämistä. Tietoverkkojen hyväksikäyttö aiheuttaa pulmia toisaalta digitaalisen
materiaalin saannissa ja toisaalta sen varastoinnissa. Taulukossa 1 on vielä koottu tässä
luvussa esitetyt ongelmat ja niiden kuvaukset.
19
Taulukko 1. Säilyttämisen ongelmat
Ongelma Kuvaus
Säilyttämisen kohde Sisältö vai ulkoasuTiedon eheys Sisältö, muuttumattomuus, viitattavuus,
alkuperä, kontekstiVarastointi Virkistäminen, kasautuminen ja
pirstoutuminen, monistaminen, saantitapaMuunnos Muuntaminen vai emulointiVerkkoympäristö Dokumentin rajaus, linkitys,
käyttöoikeudet, kaistanleveys
Suurimmat ongelmat liittyvät todennäköisesti sisällön säilyttämiseen, mihin tutkijat ovat
tarjonneet kahta periaatteellista ratkaisua: muunnoksen ja emuloinnin. Vaikka näitä
molempia on käytetty tietotekniikassa enemmän tai vähemmän menestyksellisesti,
monet tutkijat ja työryhmät näkevät näistä muunnoksen käytännöllisempänä
vaihtoehtona. Hedstromin ja Montgomeryn (1999) kyselytutkimuksesta, jossa
kohderyhmänä oli Research Librariers Group –järjestön kirjastoja ja arkistoja ympäri
maailmaa (54 vastasi kyselyyn), myös selviää, että näistä kahdesta vain muunnosta on
käytetty tähän mennessä digitaalisen kirjaston tai arkiston alueella. Toisaalta
informaation muoto vaikuttaa siihen, kuinka tarkasti muunnetun dokumentin on
vastattava alkuperäistä, jotta molempien tarkoitus ymmärrettäisiin samalla tavalla. On
aivan eri asia, jos digitaalisessa muodossa olevaa sävellystä muunnetaan kuin jos saman
tasoinen muunnos tehdään tekstidokumentille. Se miten hyvin sisällön säilyttämisessä
onnistutaan, vaikuttaa osaltaan myös muihin eheyden osatekijöihin.
Verkkoympäristö tarjoaa mahdollisuuden jaella digitaalista materiaalia helposti ja
tehokkaasti käyttäjille, mutta myös varastoida sitä hajautetusti. Molempiin näihin liittyy
ongelmia, joihin pitkäaikaisessa säilytyksessä on löydettävä ratkaisuja. Käyttö verkon
yli aiheuttaa ylimääräisiä vaatimuksia dokumentin eheyteen, koska käyttäjän on entistä
vaikeampi varmistua siitä, että hänen selailemansa dokumentti on juuri se, jonka hän
haluaa sen olevan. Verkkoon hajautettu dokumentti taas aiheuttaa ongelmia hallinnassa
ja dokumentin rajojen määrittelyssä. Hallinta tulee vaikeaksi ainakin silloin, kun
hajautettu dokumentti sijaitsee alkuperäisessä paikassaan, esimerkiksi julkaisijan
koneella. Rajojen määrittely on tärkeää siksi, että arkistoija voi luetteloida erillisiksi
katsottavat dokumentit.
20
Kaiken kaikkiaan voidaan todeta, että digitaalisen materiaalin säilyttäminen edellyttää
arkistolta jatkuvaa muutokseen varautumista. On vaikea kuvitella, että voitaisiin
kehittää jokin konkreettinen systeemi, jolla säilyttämisestä tehtäisiin rutiini kaikkiin
tilanteisiin nyt ja tulevaisuudessa. Korkeintaan voidaan esittää korkean tason malleja,
joissa annetaan suuntaviivat ja vaatimukset, jotka rakennettavan systeemin on
täytettävä. Tämän pohjalta sitten voidaan kehittää järjestelmiä, jotka soveltuvat tiettyyn
tilanteeseen ja ympäristöön.
21
3. OAIS-VIITEMALLI
Edellisessä luvussa tarkasteltiin digitaalisten dokumenttien säilytykseen liittyviä
ongelmia, jotka on ratkaistava, kun todellisia järjestelmiä kehitetään. Open Archival
Information System (OAIS) on viitemalli (reference model), jonka tarkoituksena on
muun muassa (CCSDS, 1999)
• tarjota viitekehys, joka kuvaa arkistojen toiminnot ja arkkitehtuurin,
• tarjota perusteet arkistoissa säilytettävän informaation tietomalleille ja
keskustella niiden, kuten myös niiden kuvaaman tiedon, muuttumisesta ajan
kuluessa sekä
• lisätä yhteisymmärrystä pitkäaikaiseen säilyttämiseen liittyvistä elementaarista
osista ja prosesseista.
OAIS-viitemallin on kehittänyt Consultative Committee for Space Data Systems
(CCSDS) International Organization for Standardization (ISO) –järjestön
toimeksiannosta (ISO Archiving Standards – Overview). Mallin yhtenä kulmakivenä on
ollut TFA:n Preserving Digital Information -raportti. Mallista on julkaistu ensimmäinen
CCSDS-standardiluonnos (ns. Red Book), joka tarvitsee vielä hyväksynnän tullakseen
CCSDS-standardiksi (ns. Blue Book) ja johon voi vielä tulla myös muutoksia (CCSDS
Draft Recommendations). Standardiluonnosta esitetään myös ISO-standardiksi (ISO
Archiving Standards - Reference Model Papers).
Tässä luvussa tarkastellaan ensin OAIS-mallia kokonaisuutena ja sitten siinä esitettyä
pitkäaikaisessa säilytyksessä olevan informaatio-objektin tietomallia. Seuraavassa
luvussa sitten tarkastellaan, miten tätä mallia sovellettaisiin tapauksessa, jossa
informaatio-objekti on XML-dokumentti.
3.1. OAIS-arkisto
OAIS-arkisto toimii ympäristössä, jossa toimijoina ovat tiedon tuottajat (producer),
tiedon kuluttajat (consumer) ja arkiston hallinto (management) (ks. kuva 2).
Arkistossa säilytettävä tieto tulee tuottajilta, joiden kanssa arkisto solmii sopimukset
22
informaatio-objektien toimittamisesta. Kuluttajat hakevat ja käyttävät arkistossa olevaa
tietoa. Mallin mukaan kuluttajien eräs osajoukko on kohdeyhteisö (designated
community), jonka tarpeisiin arkisto erityisesti on tarkoitettu ja jonka on kyettävä
ymmärtämään säilytettävänä oleva tieto. Arkiston päämäärät ja politiikan määrittelee
arkiston hallinto. Hallinto ei johda arkistonkäytännön toimintaa, vaan päivittäiset
johtamiseen liittyvät toiminnot sisältyvät itse arkistoon.
Kuva 2. OAIS-arkiston ympäristö (CCSDS, 1999)
Mallissa tuodaan esiin myös muut arkistot, jotka voivat toimia arkistoon nähden joko
tuottajana tai kuluttajana.
3.1.1. Tieto OAIS-arkistossa
OAIS-arkistossa olevan tiedon säilyttäminen perustuu siihen, että tiedon käyttäjällä (voi
olla joko ihminen tai systeemi) on oltava tietämys (knowledge base), joka mahdollistaa
sen ymmärtämisen. Tällaista tietoa mallissa sanotaan esitysinformaatioksi
(representation information), jota käyttämällä datasta tulee informaatiota. Dataobjekti
muuttuu siis informaatio-objektiksi kuvassa 3 esitetyllä tavalla.
Kuva 3. Datasta informaatioksi (CCSDS, 1999)
Kun informaatio-objekti mallinnetaan näin, on tärkeää, että arkistossa voidaan erottaa
sekä dataobjekti (sen muodostavat bitit) että esitysinformaatio. On huomattava, että
esitysinformaatio voi sisältää edelleen dataobjekteja, joiden ymmärtämiseksi tarvitaan
esitysinformaatiota, mikä johtaa mallinnuksessa rekursioon. Lisäksi arkiston on
23
tiedettävä kuluttajien (erityisesti kohdeyhteisön) tietämys, jotta vähimmäismäärä
säilytettävästä esitysinformaatiosta osataan määrittää (mallin mukaanhan vähintään
kohdeyhteisön on ymmärrettävä säilytettävä tieto).
3.1.2. OAIS-arkiston informaatiopaketti ja toiminnallinen malli
OAIS-mallissa arkistossa säilytetään informaatiopaketteja (IP, information package),
jotka koostuvat kahdesta osasta, sisältöinformaatiosta (content information) ja
säilytyskuvausinformaatiosta (PDI, preservation description information).
Sisältöinformaatio ja säilytyskuvausinformaatio varustetaan pakkausinformaatiolla
(packaging information). Informaatiopaketit ovat löydettävissä kuvausinformaation
(descriptive information) avulla. Kuva 4 esittää informaatiopaketin tietojoukkoja ja
niiden suhteita toisiinsa.
Kuva 4. Informaatiopaketin tietojoukot (CCSDS, 1999)
Sisältöinformaatio sisältää siis sekä dataobjektin että esitysinformaation.
Säilytyskuvausinformaatio sisältää edellisessä luvussa TFA:n esittämät, säilytettävän
informaatio-objektin muut eheyden varmistavat tiedot: alkuperä, konteksti, viitattavuus
ja muuttumattomuus. Pakkausinformaatio kuvaa ja yhdistää sisältöinformaation ja
PDI:n. Kuvausinformaatio sisältää tiedot, jotka tarvitaan halutun sisältöinformaation
löytämiseen.
Informaatiopaketista on OAIS-mallissa kolme varianttia. Tuottaja lähettää informaatio-
objektin arkistoon lähetyspakettina (SIP, submission information package). Ennen
kuin lähetyspaketti hyväksytään arkistoon, jossa se muuttuu yhdeksi tai useammaksi
24
arkistointipaketiksi (AIP, archival information package), sen tietoihin (esimerkiksi
PDI:hin) on ehkä tehtävä täydennyksiä. Toisaalta kuluttaja saa haluamansa informaation
toimituspakettina (DIP, dissemination information package), johon voidaan sisällyttää
yksi tai useampia informaatiopaketteja.
Kuvassa 5 on OAIS-arkiston toiminnallinen malli, joka kuvaa sen palvelut ja
informaatiopakettien siirrot näiden välillä.
Kuva 5. OAIS-arkiston toiminnallinen malli (CCSDS, 1999)
Informaatiopaketti (SIP) saapuu vastaanottopalvelun (ingest) kautta arkistoon. Siinä
paketti tarkistetaan ja siitä muodostetaan arkistointipaketti (AIP), joka sitten siirretään
arkistomuistiin. Samalla paketin kuvaustiedot, mahdollisesti täydentäen, päivitetään
tiedonhallintapalveluun. Kuluttajaa varten on saantipalvelu, jonka avulla hän voi
hakea tarvitsemaansa informaatio-objektia. Haussa (kysely) kuluttaja käyttää
informaatiopakettien tiedonhallintapalvelun sisältämiä kuvaustietoja. Vastaustietojen
perusteella hän valitsee paketin ja lähettää siitä tilauksen saantipalvelulle. Tilauksen
perusteella saantipalvelu muodostaa toimituspaketin (DIP) kuluttajalle.
Arkiston toiminnallinen malli muodostuu siis neljästä palvelusta, vastaanotto,
arkistomuisti, tiedonhallinta ja saanti, joita ohjaa ja valvoo hallinnointi. OAIS-viitemalli
määrittelee kunkin palvelun toiminnot useista funktioista koostuvana.
25
3.2. OAIS-tietomalli
OAIS-mallissa edellytetään, että arkiston on säilytettävä huomattavasti enemmän tietoa
kuin mitä säilytyksen kohteena oleva informaatio-objekti itsessään vaatisi: on nimittäin
säilytettävä myös tarpeellinen määrä esitysinformaatiota. Kuva 6 esittää OAIS-arkiston
informaatio-objektin tietomallia. Kuvassa näkyvässä kaaviossa on käytetty UML-
merkintää (Unified Modeling Language, ks. liite 1).
Kuva 6. OAIS-informaatio-objektin tietomalli (CCSDS, 1999)
Informaatio-objekti siis koostuu dataobjektista ja esitysinformaatiosta. Dataobjektista on
kaksi erikoistapausta, fyysinen objekti ja digitaalinen objekti, joka edelleen koostuu
yhdestä tai useammasta bitistä. Esitysinformaatio puolestaan voi sisältää informaatiota,
jolle voi edelleen olla esitysinformaatiota (mistä seuraa siis rekursio).
3.2.1. Dataobjekti
Dataobjekti voi olla fyysinen tai digitaalinen objekti, johon on liitetty
esitysinformaatiota. Mallissa fyysisen objektin esimerkkinä mainitaan kuukivi.
Digitaalinen objekti on bittijono, jolle esitysinformaatio antaa merkityksen.
26
3.2.2. Digitaalisen objektin esitysinformaatio
Digitaalisen objektin esitysinformaatio voi tarkoittaa esimerkiksi sellaista tietoa, joka
kuvaa, miten bitit (tai bittisarjat) muodostavat merkkejä tai kokonais- ja
desimaalilukuja. Se voi myös kuvata näiden yhteyksiä ja suhteita korkeammalla tasolla.
Mallissa esitysinformaatio jaetaan kahteen tyyppiin, rakenneinformaatioon (structural
information) ja merkitysinformaatioon (semantic information) kuvassa 7 esitetyllä
tavalla.
Kuva 7. Esitysinformaation kaksi tyyppiä (CCSDS,1999)
Rakenneinformaation tarkoituksena on selittää, miten biteistä saadaan merkkejä,
numeroita, pikseleitä ja muita, enemmän merkitystä sisältäviä rakenteita.
Rakenneinformaatiota täydentämään tarvitaan lisäksi merkitysinformaatiota, joka antaa
lisäselitystä rakenneinformaation elementaarisille osille ja niiden suhteille. Mallissa
oletetaan, että molemmat tyypit esiintyvät tietyn informaatio-objektin
esitysinformaatiossa.
Esitysinformaatio on itsessään informaatio-objekti, joko fyysinen (esim.
paperidokumentti) tai digitaalinen. Jos se on digitaalinen objekti, se vaatii edelleen
esitysinformaatiota. Tämä rekursio jatkuu kunnes esitysinformaatio on lopulta kokonaan
fyysistä. Esimerkiksi esitysinformaatio voi olla ASCII-tekstiä, jolloin paperille
tulostettu ASCII-standardi on sen fyysinen esitysinformaatio. Tosin rekursion voi
lopettaa myös laajasti käytössä oleva ohjelma, joka tunnistaa käytettävän esitystavan,
esimerkiksi ASCII-tekstiä lukeva ohjelma. OAIS-mallissa varoitetaan kuitenkin
vaaroista, jotka liittyvät ohjelman käyttämiseen rekursion lopettamisessa, sillä ei ole
27
olemassa vedenpitäviä takeita siitä, että ohjelma tai sen vaatima käyttöympäristö olisi
olemassa myös tulevaisuudessa.
OAIS-mallissa esitysinformaatio sisältää
• olemassa olevia standardeja, joita kutsutaan viittausinformaatioksi (referenced
representation information) ja jotka määrittelevät alkeistietotyypit,
• määrityssäännöt (mapping rules), jotka muodostavat alkeistietotyypeistä
monimutkaisempia, dataobjektissa käytössä olevia tietorakenteita, sekä
• edellisessä kohdassa mainittujen tietorakenteiden suhteet ja niihin kohdistuvat
toiminnot.
Kuva 8 esittää esitysinformaation tietomallia.
Kuva 8. Esitysinformaation tietomalli (CCSDS, 1999)
OAIS-arkistossa päämääränä on säilyttää sisältöinformaatio. Tärkeää on tällöin erottaa,
mikä osa sisältöinformaatiossa on dataobjektia ja mikä osa esitysinformaatiota. Mallissa
annetaan alla oleva menetelmä, jolla nämä ovat löydettävissä.
a) Määritä kaikki bitit, jotka muodostavat dataobjektin.
b) Määritä kaikki esitysinformaatio-objektit, jotka muuntavat dataobjektin
kaikki bitit merkitykselliseksi informaatioksi.
28
c) Jokaiselle b-kohdan esitysinformaatio-objektille tutki onko se
viittausinformaatio-objekti. Jos on, tunnista kaikki sen sisältämät
viittausinformaatio-objektit, ja toista tätä kunnes viittausinformaatio-
objekteja ei enää löydy.
d) Jokaiselle uudelle löydetylle esitysinformaatio-objektille toista kohdat b, c
ja d.
e) Sisältöinformaatio koostuu dataobjektista ja kaikista esitysinformaatio-
objekteista.
3.3. Tiedon migraatio
Kuten edellisessä luvussa esitettiin, pitkällä aikavälillä ehkä ainoa tapa säilyttää tieto on
muuntaa sitä jollakin tapaa. OAIS-malli määrittelee migraation (migration) tiedon
siirtämiseksi (transfer) joko uudelle medialle tai uuteen formaattiin. Migraation syiksi
malli esittää median kulumisen, hinta/teho -suhteen parantamisen ja käyttäjien
vaatimukset. Viimeksi mainittu voi johtua esimerkiksi siitä, että käyttäjät vaativat
tehokkaampaa palvelua tai tietyssä formaatissa olevia toimituspaketteja. Näin
arkistonkin on vastaavasti siirrettävä arkistopakettinsa uudemmalle medialle
tehokkuuden parantamiseksi tai siirryttävä samaan formaattiin, jotta vältyttäisiin turhilta
konversioilta arkisto- ja toimituspakettien välillä.
OAIS-malli erottaa muunnoksessa neljä eri astetta: virkistämisen (refreshment),
replikoinnin (replication), uudelleenpaketoinnin (repackaging) ja muunnoksen
(transformation). Virkistämisessä informaatiopaketti siirretään medialta toiselle
samantyyppiselle medialle. Paketin sisältö ei muutu toimenpiteessä. Replikoinnilla
tarkoitetaan arkistopaketin muuntamista uudelle medialle niin, että tieto, jolla se
arkistosta löydetään, voi muuttua. Kuitenkaan paketin sisältö ei muutu prosessissa.
Uudelleenpaketoinnissa pakkausinformaatiota on muutettava. Näissä kaikissa kolmessa
paketin sisältö- tai säilytyskuvausinformaatio pysyvät siis ennallaan.
Kun informaatiopaketin sisältö- tai säilytyskuvausinformaatiota joudutaan muuttamaan,
on OAIS-mallin mukaan kyse muunnoksesta, jossa informaatiopaketista syntyy uusi
29
versio korvaten aikaisemman. OAIS-malli jakaa muunnoksen kahteen typpiin.
Palautuva muunnos (reversible transformation) on kyseessä silloin, kun uusi versio on
palautettavissa alkuperäiseksi, ja palautumaton muunnos (non-reversible
transformation), kun muunnosta alkuperäiseen ei voida tehdä. Jälkimmäisessä
tapauksessa siis jotain alkuperäisen informaatiopaketin sisällöstä menetetään.
30
4. RAKENTEINEN DOKUMENTTI
Tiedon käsittely tietokoneella vaatii myös tiedolta tiettyjä asioita. Yksi vaatimuksista
on, että tiedolla on oltava rakenne. Kun ihminen lukee esimerkiksi kirjaa, hän
hahmottaa siinä jonkinlaisen rakenteen (esim. otsikot, luvut ja kappaleet), mikä
helpottaa lukemista. Samalla tavalla tietokoneohjelman on tunnistettava tiedosta
käsittelyn kannalta merkityksellisiä osia. Jos ohjelma ei erottaisi esimerkiksi
dokumentin sanoja toisistaan, ei se voisi tavuttaa niitä tai edes vaihtaa riviä oikeasta
kohdasta. Näin ollen ohjelma erottaisi vain kaksi osaa, yksittäiset merkit sekä niiden
muodostaman dokumentin, ja dokumenttiin kohdistuvat toiminnot olisivat
huomattavasti rajoitetumpia kuin silloin, jos ohjelma voi erottaa siitä esimerkiksi sanoja,
lukuja, kappaleita ja otsikoita. Tietokonepohjaisen käsittelyn mahdollistamiseksi tieto
on siis kuvattava rakenteina ja esitettävä ne tietokoneohjelman ymmärtämällä tavalla.
Edellisen perusteella kaikilla digitaalisilla dokumenteilla on siis rakenne, mutta kun
puhutaan erityisesti rakenteisesta dokumentista, halutaan korostaa sitä, että
dokumentin rakenne noudattaa tarkkoja sääntöjä (Salminen, 1992).
Tässä luvussa tarkastellaan rakenteista dokumenttia. Tarkoitus ei kuitenkaan ole pohtia
asiaa teoreettiselta, eikä välttämältä yleiseltäkään kannalta, vaan selvittää, miten
rakenteisuus ilmenee tietyssä erikoistapauksessa, nimittäin silloin, kun dokumentti on
koodattu Extensible Markup Language –merkkauskielellä (XML). XML on valittu,
koska se on saanut runsaasti huomioita osakseen, ja sille on jo nyt, runsaat puolitoista
vuotta standardimäärityksen hyväksymisen jälkeen, kehitetty useita sovellutuksia.
XML:ään on lisäksi kohdistettu paljon sellaisia toiveita, jotka tekisivät siitä laajasti
käytetyn välineen tiedon julkaisemiseksi Internetissä. Myös tehdyt tutkimukset (mm.
Coleman ja Willis, 1997) tukevat SGML:n, ja siten myös XML:n, käyttökelpoisuutta
digitaalisen materiaalin pitkäaikaisessa säilyttämisessä.
4.1. XML:n lyhyt historia
Vuonna 1996 80 SGML (Standard Generalized Markup Language) –asiantuntijaa
kehitti 11 viikon aikana SGML:ään pohjautuvan määrityksen. Työryhmä toimi World
31
Wide Web Consortium (W3C) –ryhmittymän alaisuudessa ja tarkoituksena oli
muodostaa SGML:stä yksinkertaistettu versio, jota voitaisiin käyttää World Wide
Webissä (www) ja joka mahdollistaisi käyttäjien omien elementtien määrittelyn.
Jälkimmäinen päämäärä poistaisi tiedon esitykseen www:ssä käytettävään Hypertext
Markup Language (HTML) –määritykseen liittyviä rajoituksia. Työn tulokset esiteltiin
Bostonin SGML-konferensissa marraskuussa 1996 standardiluonnoksena, jolle oli
annettu nimeksi Extensible Markup Language (XML) (Light, 1997). Useiden
väliversioiden jälkeen lopullinen määritys (Extensible Markup Language 1.0) valmistui
helmikuussa 1998.
XML on rakenteisten dokumenttien merkkauskieli (markup language). XML-
määrityksessä kuvataan miten merkkaus tehdään. (Walsh, 1998) Määritys ei siis sisällä
esimerkiksi kaikkea sitä, mitä tiedon jakelu verkossa vaatii. Näistä vaatimuksista
oleellisia ovat tiedon esittäminen tietokoneen ruudulla tai muulla medialla (dokumentin
ulkoasu) ja dokumenttien linkittäminen toisiinsa. Jo määrittelytyön alkuvaiheessa nämä
kaksi osa-aluetta rajattiin kokonaisuuksiksi, jotka kuvataan erillisillä määrityksillä
(Light, 1997). Määritykset ovat nimeltään Extensible Stylesheet Language (XSL) XML-
dokumenttien esittämiseen ja XML Linking Language (XLink) täydennettynä XML
Pointer Language (XPointer) –määrityksellä linkittämiseen. Näin ydinosan XML:n
määrittelee itse asiassa kolme osamääritystä.
Tämä lyhyt esittely kuvatkoon sitä, mistä edellisessä luvussa osaltaan oli kysymys:
uusien standardien kehittyminen voi tapahtua nopeastikin mahdollistaen näin
digitaalisen tuottamisen valtavirran siirtymisen formaatista toiseen. Myös säilyttämisen
on seurattava perässä.
4.2. XML-dokumentti
XML-dokumentilla on sekä looginen että fyysinen rakenne (Light, 1997, s. 82).
Looginen rakenne ilmenee niinä merkattuina rakenteina, joita dokumentissa voidaan
erottaa. Fyysinen rakenne taas tarkoittaa lähinnä niitä tiedostoja, jotka kokonaisuutena
muodostavat loogisen dokumentin. Tarkastellaan tässä erikseen näitä kumpaakin.
Tarkastelu perustuu W3C:n Extensible Markup Language (XML) 1.0 –määritykseen
32
(Bray ym., 1998) (jatkossa XML-määritys) sekä teokseen Presenting XML (Light,
1997).
4.2.1. Looginen rakenne
Elementit
XML-dokumentin loogisella rakenteella tarkoitetaan sen sisällön jakamista
kokonaisuuksiin. Esimerkiksi tekstissä voidaan erottaa lukuja, alalukuja, kappaleita,
otsikoita, luetteloita jne. XML-dokumentissa nämä loogiset kokonaisuudet esitetään
elementteinä (element), jotka merkataan tunnistimilla (tag): elementin alussa on
alkutunniste ja lopussa lopputunniste. Kuvassa 9 on tämän alaluvun tekstiä merkattuna
elementeiksi.
<luku taso=’3’><otsikko>Looginen rakenne</otsikko><kappale>XML-dokumentin loogisella rakenteella tarkoitetaan sensisältämän tiedon esittämistä loogisina kokonaisuuksina,joita sanotaan <termi>elementeiksi</termi> (<termikieli=’eng’>element</termi>). Esimerkiksi tekstissä voidaanerottaa lukuja, alalukuja, kappaleita, otsikoita, luetteloitajne. XML-dokumentissa nämä loogiset kokonaisuudet esitetäänelementteinä, jotka merkataan <termi>tunnistimilla</termi>(<termi kieli=’eng’>tag</termi>): elementin alussa onalkutunniste ja lopussa lopputunniste. Kuvassa tämän alaluvuntekstiä merkattuna elementeiksi.</kappale></luku>
Kuva 9. XML-merkattua tekstiä
Kuvan 9 esimerkissä esiintyvät elementit luku, otsikko, kappale ja termi. Tunnisteet
on siis erotettu varsinaisesta sisällön muodostavasta tekstistä <- ja >-merkeillä.
Tunnisteella elementille annetaan nimi ja rajat. Lisäksi elementin alkutunnisteessa
voidaan esittää attribuutteja (attribute), joilla elementille annetaan lisäominaisuuksia.
Edellä elementeillä luku ja termi on vastaavasti attribuutit taso ja kieli. Attribuutilla
on yksi tai useampi arvo (value) (esimerkissä attribuuttien taso ja kieli arvot ovat
vastaavasti 3 ja eng). Sama attribuutti ei voi esiintyä samassa tunnisteessa useaan
kertaan. Lopputunniste alkaa /-merkillä. Elementti voi olla myös tyhjä, jolloin siltä
puuttuu sisältö. Tyhjällä elementillä ei ole lopputunnistetta vaan alkutunniste päättyy
”/”-merkkiin. Seuraavassa on elementti, joka voisi liittää dokumenttiin kuvan.
33
<kuva src=”kuva.gif”/>
Dokumentin kirjoittaja voi vapaasti valita elementtien nimet, attribuutit ja näiden arvot.
Toisin sanoen dokumentissa käytettyjen merkintöjen semantiikka eli merkitys on
kirjoittajan valittavissa. Juuri tässä on suuri ero esimerkiksi HTML-dokumenttiin, jossa
käytettäville elementeille on etukäteen annettu merkitys: H1-elementillä tarkoitetaan
otsikkoa tasolla yksi. Edellä olevassa esimerkissä (kuva 9) käytetty luku-elementti
voitaisiin korvata minkä nimisellä elementillä tahansa, esimerkiksi tekstilohko-
nimisellä.
Loogiset kokonaisuudet
Kun XML-dokumentin loogista rakennetta tarkastellaan korkeimmalla tasolla, se
voidaan jakaa kahteen osaan: esittely (prolog)- ja dokumenttielementtiosaan
(document element), joista ensin mainittu voi myös puuttua (Light, 1997). Esittelyosa
puolestaan jakautuu kahteen määritykseen, joista ensimmäinen, XML-lause (XML
declaration), ilmoittaa, että kyseessä on XML-dokumentti, ja voi sisältää esimerkiksi
versiomääreen. Toinen, dokumenttityyppilause (document type declaration), määrittää
käytettävän dokumenttityyppimäärityksen (document type definition, DTD). Molemmat
näistä voivat puuttua. Dokumenttielementti puolestaan sisältää varsinaisen dokumentin
sisällön. Kuva 10 esittää XML-dokumenttia korkeimmalla tasolla.
Kuva 10. XML-dokumentin looginen rakenne korkeimmalla tasolla
XML-lause kertoo XML-prosessorille (ohjelma tai moduuli, jonka avulla sovellus
käsittelee XML-dokumenttia), että kyseessä on XML-dokumentti. XML-lauseessa voi
olla esimerkiksi XML-määrityksen versionumero. Dokumenttityyppilause esittelee
34
dokumenttityyppimäärityksen eli DTD:n, joka voi sijaita erillisessä tiedostossa tai
sisältyä dokumenttityyppilauseeseen eli olla ulkoinen tai sisäinen. Dokumenttielementti
lopulta sisältää varsinaisen dokumentin XML-merkatun sisällön.
Hyvin muodostettu ja validi dokumentti
Kuten edellä mainittiin, kirjoittaja voi valita käyttämänsä merkinnän, mutta sen on
kuitenkin noudatettava XML-määrityksessä esitettyjä sääntöjä eli sen on oltava hyvin
muodostettu (well-formed). Toisaalta merkkaus voi olla jonkin DTD:n mukaista,
jolloin dokumentti on myös validi (valid).
Kuvassa 11 on kuvan 9 dokumentti esitettynä täydellisenä niin, että se noudattaa
annettua DTD:tä. Kuvan 11 XML-dokumentti on siis validi.
<?xml version=”1.0”?><!DOCTYPE teksti [<!ELEMENT luku (otsikko, kappale)><!ATTLIST luku
taso (1|2|3|4|5|6|7|8|9) #REQUIRED><!ELEMENT otsikko (#PCDATA)><!ELEMENT kappale (#PCDATA | termi)*><!ELEMENT termi (#PCDATA)*><!ATTLIST termi
kieli (fin|eng) “fin”>]><teksti><luku taso=’3’><otsikko>Looginenrakenne</otsikko><kappale> XML-dokumentin loogisellarakenteella tarkoitetaan sen sisältämän tiedon esittämistäloogisina kokonaisuuksina, joita sanotaan<termi>elementeiksi</termi> (<termikieli=’eng’>element</termi>). Esimerkiksi tekstissä voidaanerottaa lukuja, alalukuja, kappaleita, otsikoita, luetteloitajne. XML-dokumentissa nämä loogiset kokonaisuudet esitetäänelementteinä, jotka merkataan <termi>tunnistimilla</termi>(<termi kieli=’eng’>tag</termi>): elementin alussa onalkutunniste ja lopussa lopputunniste. Kuvassa tämän alaluvuntekstiä merkattuna elementeiksi.</kappale></luku></teksti>
Kuva 11. Validi XML-dokumentti
Kuvassa dokumenttityyppilause (doctype-elementti) voisi olla myös muodossa
<!DOCTYPE teksti system “teksti.dtd”>
mikä tarkoittaisi, että DTD on erillisessä tiedostossa nimeltä teksti.dtd. Näin sisäinen
DTD olisi korvattu ulkoisella DTD:llä. DTD voi myös koostua molemmista, ulkoisesta
ja sisäisestä osasta. Tällöin sisäinen osa käsitellään ensin, joten sen määritykset ovat
35
voimakkaampia kuin ulkoisen DTD:n määritykset (esimerkiksi kun sama elementti tai
attribuutti määritellään molemmissa) (Light, 1997, s. 86).
DTD voi sisältää määrityksiä, jotka muuttavat XML-dokumenttia, kun XML-prosessori
jäsentää sitä. Näin voi tapahtua esimerkiksi, kun DTD:ssä on määritelty attribuuteille
oletusarvo, jonka prosessori lisää XML-dokumentin elementtiin attribuutin arvon siitä
puuttuessa (Bray ym., 1998). Esimerkiksi jokaiseen tekstiä sisältävään elementtiin
voitaisiin liittää attribuutti kieli, jolla ilmoitetaan käytetty kieli. Jos kieli-attribuutti
puuttuu dokumentin elementistä, jossa sen kuuluisi esiintyä, prosessori voi DTD:n
määrityksen perusteella lisätä elementtiin attribuuttimerkinnän kieli=”fin”. XML-
dokumentin esittelyosassa XML-lauseessa voidaan ilmoittaa standalone-määreellä,
vaikuttaako DTD dokumentin sisältöön, kun prosessori käsittelee dokumenttia.
Seuraavan dokumentin XML-lause ilmoittaa, että DTD:n käsittely ei aiheuta muutoksia
dokumentin sisältöön.
<?xml version=”1.0” standalone=”yes” ?>
Määrittelyllä on merkitystä vain silloin, kun DTD:ssä on ulkoisia osia. Jos dokumentilla
ei ole ulkoista DTD:tä tai se ei aiheuta muutoksia dokumenttiin, sen standalone-status
on ”no”. Se, että sisäinen DTD aiheuttaa muutoksia dokumenttiin, jonka prosessori
välittää sovellukselle, ei vaikuta dokumentin standalone-statukseen (Bray ym., 1998).
W3C on kehittämässä XML Schema –määritystä, jolla on mahdollista kuvata XML-
dokumentin elementit ja muu rakenne tarkemmin kuin mitä voidaan tehdä DTD:llä
(Malhotra ja Maloney, 1999). Näin dokumenttityyppilause voi periaatteessa viitata
johonkin muuhunkin kuin DTD:hen.
Käsittelyohjeet
XML-dokumentti voi sisältää erityisiä käsittelyohjeita (processing instruction), jotka
on tarkoitettu dokumenttia käsittelevälle sovellukselle, ei XML-prosessorille: XML-
prosessori vain välittää käsittelyohjeet sovellukselle. Seuraavassa on käsittelyohje, jolla
XML-dokumenttiin liitetään tyylitiedosto (ks. kohta Esittäminen)
36
<?xml-stylesheet href="mystyle.css" title="Compact"type="text/css"?>
Käsittelyohjeella on siis nimi (xml-stylesheet) ja sovelluksen tunnistamia muita
määreitä. Käsittelyohje on sovelluskohtainen, mutta mikään ei estä kehittämästä
standardeja, joilla tietyt ohjeet (kuten tyylitiedoston liittäminen yllä) tehdään
sovellusriippumattomiksi.
4.2.2. Fyysinen rakenne
Entiteetit
XML-dokumentti koostuu fyysisellä tasolla entiteeteistä (entity) (Bray ym., 1998).
Entiteetillä on nimi ja sisältö, eli ”kutsumalla” nimeä, voidaan XML-dokumentissa
”hakea” sitä vastaavan entiteetin sisältö kirjoittamalla XML-koodiin entiteettiviittaus
(entity reference). Entiteetit voivat olla yksittäisiä merkkejä, lyhyitä ilmaisuja tai
kokonaisia tiedostoja tai mitä muuta tahansa (Light, 1997). XML-dokumentti koostuu
aina ainakin yhdestä entiteetistä, dokumenttientiteestä, josta XML-prosessori aloittaa
dokumentin käsittelyn (Bray ym., 1998). Dokumenttientiteetillä ei ole nimeä (ts. siihen
ei voi viitata nimellä dokumentin sisällä) ja se voi olla jopa virtuaalinen siinä mielessä,
että se on olemassa vain tietokoneen muistissa (Bray ym., 1998). Toinen nimetön
entiteetti on ulkoinen DTD.
Entiteetit määritellään DTD:ssä ENTITY-elementillä. Entiteetti voi olla sisäinen tai
ulkoinen. Edellisessä tapauksessa entiteetin arvo annetaan suoraan sen määrittelyssä ja
jälkimmäisessä sisältö sijaitsee erillisessä tiedostossa. Kuvassa 12 olevassa XML-
koodissa on kaksi entiteettiä, pm ja omakuva, joista ensimmäinen on sisäinen ja toinen
ulkoinen.
37
<?xml version=”1.0”?><!DOCTYPE teksti [<!ENTITY pm “Pekka Metsäranta”><!ENTITY kuva SYSTEM ”potretti_1999.gif”>]><teksti><t>Kuvassa (alla) olen toinen oikealta.</t><kuva nimi=”potretti” src=”&kuva;”/><kuvateksti kohde=”potretti”>±, toinen oikealta</kuvateksti></teksti>
Kuva 12. Entiteetin määrittely ja käyttö XML-dokumentissa
Ulkoinen entiteetti siis määritellään avainsanalla SYSTEM, jonka jäljessä tulee entiteetin
systeemitunniste (system indentifier) eli systeemin tai käyttöjärjestelmän tuntema nimi.
Systeemitunniste voidaan ilmoittaa verkko-osoitteena URI:n (Uniform Resource
Identifier) avulla.
Entiteetit voivat siis olla sisäisiä tai ulkoisia, mutta toisaalta ne voivat olla joko
jäsentyviä (parsed) tai jäsentymättömiä (unparsed) (Bray ym., 1998). Jäsentyvä
entiteetti sisältää XML-koodattua dataa, kun taas jäsentymätön sisältää tietoa, jota
XML-prosessorin ei tarvitse jäsentää. Prosessorin on kuitenkin välitettävä sovellukselle
vähintään jäsentymättömän entiteetin nimi ja muoto (Bray ym., 1998). Muoto
ilmoitetaan entiteettimäärityksessä notaatiolla (notation), jolle (validissa dokumentissa)
pitää DTD:ssä olla notaatiomääritys (notation declaration). Notaatiomäärityksen
tarkoituksena on antaa lisäinformaatiota jäsentymättömän entiteetin käsittelystä.
Notaatiomäärittelyssä voidaan esimerkiksi antaa ohjelman nimi, jolla entiteetin sisältöä
on tarkoitus katsella.
Kuvan 12 esimerkin DTD on koodattu uudelleen kuvassa 13. Siinä ulkoinen
entiteettiviittaus on varustettu notaatiolla GIF, joka myös on määritelty.
<?xml version=”1.0”?><!DOCTYPE teksti [<!ENTITY pm ”Pekka Metsäranta”><!ENTITY kuva SYSTEM ”potretti_1999.gif” NDATA GIF><!NOTATION GIF SYSTEM ”/program files/gif/viewer.exe”>]>
Kuva 13. Notaation käyttö ja määrittely DTD:ssä
38
Entiteetit voidaan luokitella myös sen mukaan, käytetäänkö niitä dokumentin sisällössä
vaiko DTD:ssä. Dokumentin sisällössä käytettäviä kutsutaan yleisiksi entiteeteiksi
(general entity) ja DTD:ssä käytettäviä parametrientiteeteiksi (parameter entity).
Entiteetti voi olla sisäinen tai ulkoinen, yleinen tai parametrientiteetti ja jäsentyvä tai
jäsentymätön. Toisaalta sisäinen ja parametrientiteetti eivät voi olla jäsentymättömiä.
Kuva 14 esittää mahdolliset entiteetin ominaisuusyhdistelmät.
Kuva 14. Entiteetin ominaisuusyhdistelmät
Merkkikoodaus
Jokainen jäsentyvä entiteetti koostuu merkeistä, jotka on koodattu ISO/IEC 10646-
standardilla (jonka rinnakkainen, identtinen standardi on Unicode) (Bray ym., 1998).
Jokaisen XML-jäsentimen on tuettava kahta laajan ISO/IEC 10646 –standardin
osajoukkoa, nimittäin UTF-8:aa ja UTF-16:ta. Jos ulkoinen- tai dokumenttientiteetti on
koodattu joillakin muulla kuin toisella edellä mainituista, on merkkikoodaus
ilmoitettava entiteetin alussa tekstimääreellä (text declaration). Ulkoisissa entiteetteissä
voidaan kussakin käyttää erilaista merkkikoodausta (Bray ym., 1998). Esimerkiksi
määritys
<?xml encoding=”ISO-8859-1”>
ilmoittaisi käytettävän ISO-8859-1 –määrityksen mukaista koodausta.
Jos entiteetissä halutaan käyttää tekstimääreessä annetusta koodista poikkeavia
merkkejä, ne voidaan lisätä suoraan dokumentin sisältöön kirjoittamalla merkin
ISO/IEC 10646 –standardin mukainen koodi heksadesimaali- tai desimaalimuodossa.
Esimerkiksi A-kirjain voitaisiin liittää sisältöön seuraavasti
39
<para>Tässä on A on liitetty desimaalisena ja tässäA heksadesimaalisena. Eroa ei tuloksessa huomaa.</para>
Toinen tapa on määritellä merkkientiteetti dokumentin DTD:ssä ja viitata siihen
sisällössä.
4.3. XML-dokumentin ympäristö
Edellä tarkasteltiin XML-dokumentin tekstuaalisen sisällön organisointia sekä
loogisella että fyysisellä tasolla. XML-teknologiaan liittyy kuitenkin useita muita
osatekijöitä, jotka lisäävät dokumentin rakenteisuutta. Kutsutaan näitä osatekijöitä tässä
yksinkertaisuuden vuoksi XML-dokumentin ympäristöksi. Tässä alaluvussa
tarkastellaan tämän tutkimuksen kannalta olennaisia osia kutakin erikseen. Oleellisia
ovat esittäminen ja linkittäminen sekä XML-koodauksessa monessa yhteydessä
käytössä oleva nimiavaruuden käsite.
4.3.1. Nimiavaruus
Eräs XML:n mahdollistama etu on tiedon modulaarisuus: samassa dokumentissa voi
olla eri ohjelmistoilla tuotettuja osia. Näiden osien prosessointi voi perustua tiettyjen,
nimeltään etukäteen määriteltyjen elementtien käsittelyyn. Toisaalta dokumentin muissa
osissa saattaa esiintyä saman nimisiä elementtejä, mikä voi johtaa elementtien
tunnistamisongelmiin. Namespaces in XML on määritys, jossa kuvataan, miten XML-
dokumentissa käytetään jossakin toisessa dokumentissa kuvattujen elementtien nimiä.
Tämä mahdollistaa yhtä dokumenttia laajemman ”nimiavaruuden”. (Bray ym., 1999)
XML Namespaces määrittelee, että nimiavaruus esitellään XML-dokumentissa xmlns-
attribuutilla, jonka arvona on viittaus nimiavaruuden muodostamaan verkko-
osoitteeseen. Xmlns-attribuuttia voi seurata kaksoispisteellä erotettu etuliite (prefix), jota
käytetään nimiavaruuteen kuuluvien elementtinimien edessä. Esimerkissä kuvassa 15
nimiavaruudeksi määritellään HTML 4.0 –määritys. Elementtien etuliitteenä käytetään
tunnusta ”htm”.
40
<?xml version="1.0"?><html xmlns:htm='http://www.w3.org/TR/REC-html40'><htm:head><htm:title>Frobnostication</htm:title></htm:head><htm:body><htm:p>Moved to<htm:a href='http://frob.com'>here</htm:a></htm:p></htm:body></htm:html>
Kuva 15. Nimiavaruuden esittely ja käyttö
Nimiavaruus määritetään jollekin elementille (yllä html-elementille), jonka
lapsielementit automaattisesti kuuluvat myös samaan nimiavaruuteen, jos toisin ei ole
määritelty. Samassa dokumentissa voi olla käytössä useita nimiavaruuksia, joten XML
Namespaces määrittelee myös, miten elementtien kuuluminen nimiavaruuteen
päätellään.
Pitkäaikaisen säilyttämisen kannalta nimiavaruus on mielenkiintoinen siksi, että se
tarjoaa mahdollisuuden liittää XML-dokumenttin elementteihin semanttista tietoa, jota
esimerkiksi OAIS-viitemallissa tarvitaan. On kuitenkin huomattava, että XML
Namespaces –määritys ei anna mallia tai ohjeita sille, mikä nimiavaruus lopulta on.
Nimiavaruus voi siten esimerkiksi viitata tiettyyn dokumenttiin, joka selittää elementin
merkityksen tai antaa ohjeita sen käsittelyyn. Mutta yhtä hyvin XML-nimiavaruus voi
olla täysin abstrakti ja tietyn valmistajan yhden sovellusohjelman käyttämä, jolloin
nimiavaruuden elementille tarjoama semantiikka on piilotettu ohjelman koodiin.
Useissa XML-määrityksissä (mm. XSL ja XLink) hyödynnetään XML Namespaces –
tekniikkaa.
4.3.2. Linkit XML-dokumentissa
XML-määritys ei sisällä sisäänrakennettuja linkkejä, vaan dokumentin tekijälle on
haluttu antaa erilaisia mahdollisuuksia linkkien määrittelyyn. Linkkien esittämistä ja
käyttämistä XML-dokumentissa määrittelee kaksi määritystä: XML Linking Language
(XLink) (DeRose, Orchard, ym., 1999) ja XML Pointer Language (XPointer) (DeRose
ja Daniel, 1999). XPointer puolestaan perustuu XML Path Language (XPath) –
määritykseen (Clark ja DeRose, 1999).
41
Seuraavassa esityksessä on käytetty lähteinä XLink- XPointer– ja XPath-määrityksiä
sekä Malerin ja DeRosen (1998) esitystä XML and XLink for the SGML-
Knowledgeable.
XLink
XLink määrittelee XML-dokumenttiin tai sen DTD:hen lisättävät rakenteet, jotka
kuvaavat dokumenttien välisiä linkkejä (DeRose, Orchard, ym., 1999).
XLink määrittelee kahden tai useamman dokumentin välisen linkin. Yleisemmin
voidaan puhua kahden (data)objektin välisestä linkistä, koska XLink ei aseta
vaatimuksia kohteena olevalle resurssille. Resurssilla tarkoitetaan mitä tahansa, johon
linkki viittaa.
XLink määrittelee
• linkkiosoitteen (Locator) muodon,
• linkin tunnistamisen (Link Recognition),
• linkkielementin attribuutit (Linking Attributes)
• linkkielementtien tyypit (Linking Elements) ja
• linkkien käsittelyn (Processing XLinks).
Nämä pitävät sisällään lyhyesti seuraavaa.
Linkkiosoite muodostetaan URI:sta (IETF RFC 1738 ja 1808) ja dokumentin sisäisestä
osoitteesta. Jos linkin kohteena on XML-dokumentti, sisäinen osa on XPointer (ks.
kohta XPointer). URI ja sisäinen osoite erotetaan tosistaan #-merkillä.
Linkkielementti tunnistetaan attribuutilla tai eksplisiittisellä elementtinimellä.
Attribuuttitunnistus mahdollistaa sen, että käyttäjällä voi määritellä omia
linkkielementtejään. Kun käyttäjä liittää mihin tahansa elementtiin attribuutin
xlink:type (type attribuutti XLink-määrityksen nimiavaruudessa), hän on määritellyt
linkkielementin. Attribuutin mahdolliset arvot (simple, locator, arc, extended,
extended link group ja extended link group document) kuvaavat linkin luonteen.
Kuvan 16 esimerkissä on esitetty linkkielementin alkutunniste.
42
<linkki xml:link=”simple” href=”http://www.server.com/a.xml”>
Kuva 16. Linkkielementin alkutunniste.
XLink:ssä määritellyt linkkielementit voidaan jakaa luokkiin sen mukaan, sijaitseeko
elementti linkkiin kuuluvassa resurssissa (inline link) vai sen ulkopuolella (out-of-line
link). Toisaalta XLink:n mukaan linkkielementit voivat olla joko yksinkertaisia (simple)
tai laajennettuja (extended). Yksinkertaiset linkkielementit ovat (yleensä) in-line –
linkkejä, yksisuuntaisia (ei ole paluumekanismia linkin alkupäähän) ja vain kahta
resurssia yhdistäviä. Laajennetut linkit voivat olla joko inline– tai out-of-line –linkkejä,
yhdistää useita resursseja ja toimia kaksisuuntaisesti (molemmat/kaikki linkin osapuolet
”tietävät toisistaan”). Out-of-line –linkkielementit mahdollistavat linkkien ylläpidon
erottamisen dokumentin muusta ylläpidosta. Tästä on hyötyä, kun halutaan lisätä
linkkejä dokumenttiin, johon linkkien ylläpitäjällä ei muuten ole oikeuksia.
Linkkielementteihin voidaan liittää XLink:n määritteleminä attribuutteina
sovellusohjelmalle tai käyttäjälle tarkoitettua tietoa, joka kuvaa
• kohteen sijainnin,
� attribuutti href (URI)
• linkkien kaksisuuntaisuutta,
� from (mistä) ja to (mihin)
• linkin semantiikkaa,
� attribuutti role (rooli) ja title (nimi tai otsikko)
• linkin käyttäytymistä,
� attribuutit show (näyttötapa) ja actuate (aktivointi).
Out-of-line –linkkielementtien tallentaminen erilliseen tiedostoon edellyttää
mekanismia, jonka avulla ohjelma tunnistaa linkin ja löytää tallennuspaikan. XLink:ssä
tämä ratkaistaan linkkiryhmäelementillä (extended link group). Tällä elementillä
ilmoitetaan osoite, jossa sijaitsevasta dokumentista linkit löytyvät. Kuvassa 17 on
esitetty linkkiryhmäelementti.<xlink:group steps=”2”><xlink:document href=”http://server.fi/links/ko_dok.xml”/>
</xlink:group>
Kuva 17. Linkkiryhmäelementti XML-dokumentissa.
43
Kuvan 17 koodissa linkit on tallennettu href-attribuutilla ilmoitettuun verkko-
osoitteeseen. Jos esimerkiksi linkin kohteena oleva resurssi sisältää out-of-line –linkkejä
ja samoin kuin edelleen näiden osoittamat resurssit, voidaan joutua määräämättömään
määrään viittauksia, jotka linkkiprosessorin olisi mahdollisesti ratkaistava ja haettava
ennen kuin dokumentti voitaisiin näyttää. Ratkaistavien viittausten määrää voidaan
rajoittaa step-attribuutilla, jonka arvolla (kuvan esimerkissä 2) ilmoitetaan kuinka
”syvälle” linkit on jäsennettävä.
Linkkien käyttäytyminen on pyritty tekemään huomattavasti monipuolisemmaksi kuin
esimerkiksi HTML:ssä, jossa linkin kohteena oleva resurssi avataan samaan ikkunaan,
jossa linkin sisältävä kohde on. Linkin käyttäytymiseen liittyy kaksi ulottuvuutta: koska
ja mihin linkin osoittama resurssi avataan. XLink:ssä määritellään seuraavat vaihtoehdot
sille, mihin kohde avataan (vaihtoehto ilmoitetaan attribuutilla):
• linkin kohdalle upotettuna (embed-attribuutti)
• linkin sisältävän dokumentin tilalle (replace-attribuutti)
• uudessa yhteydessä (esim. ikkunassa) (new-attribuutti).
Vastaavasti määritellään kaksi tapaa aktivoida linkin sisältämä kohde:
• heti, kun linkkiin kuluva resurssi (esimerkiksi linkittävä elementti) käsitellään
(auto-attribuutti)
• käyttäjän toimenpiteestä (user-attribuutti).
XPointer
Usein viitattaessa toiseen dokumenttiin on tarvetta esittää tarkasti, mihin dokumentin
osaan, fragmenttiin, huomio halutaan kohdistaa. Käytettäessä linkkiosoitteena URI:a,
siihen voidaan liittää fragmenttitunnistin (fragment identifier). XML Pointer Language
(XPointer) määrittelee fragmenttitunnistimen muodon ja käytön, kun linkin kohteena
XML-dokumentti. XPointer ei kuitenkaan aseta rajoituksia fragmenttitunnistimelle
silloin, kun linkin kohteena on jokin muu kuin XML-dokumentti (DeRose ja Daniel,
1999). XPointer-viittaus on siis osa URI:a ja erotetaan siitä #-merkillä (DeRose,
Orchard ym., 1999). XPointer voi olla osana myös sellaista URI-osoitetta, joka ei ole
44
linkin osa (DeRose ja Daniel, 1999). XPointer voi siis esiintyä esimerkiksi ulkoisen
entiteetin viittauksessa.
XPointer perustuu, muutamin laajennuksin, XML Path Language (XPath)–
määritykseen, jonka sääntöjen mukaisesti fragmenttitunnistin muodostetaan. Tässä ei
ole tarkoituksenmukaista esitellä XPointerin tai XPathin syntaksia tarkemmin, mutta
valaistaan niiden käyttöä yksinkertaisella esimerkillä. Kuvassa 18 on esitetty erään
XML-dokumentin puurakenne ja XPath-kielinen viittaus kolmannen luvun toiseen
kappaleeseen (suorakaiteissa on esitetty elementtien nimet).
Kuva 18. XPath-viittaus
Kuvassa 18 olevaan dokumenttiin voitaisiin viitata jostain toisesta XML-dokumentista
seuraavalla kuvassa esitetyllä linkillä.
http://www.arkisto.org/teksti.xml#/luku[3]/kappale[2]
Kuva 19. Linkkiosoite, jossa XPath-viittaus
Kuvan 19 viittauksessa on käytetty XPathissa mahdollista lyhennettyä merkintää, jossa
tässä tapauksessa on child:: jätetty kokonaan pois samoin kuin valintatermi
position. Lisäksi dokumentti-elementti on korvattu XPointer-laajennuksella, jossa
juurielementtiin voidaan viitata /-merkillä.
45
4.3.3. Esittäminen
XML:n eräs periaate on, että dokumentin sisältö ja muoto erotetaan toisistaan. Tämä tuo
rakenteisuuteen uuden ulottuvuuden – dokumentti ei sisälläkään kaikkea sitä tietoa, joka
tarvitaan, jotta sen informaatio olisi käytettävissä. Vaikka XML-dokumenttia voidaan
katsella sellaisenaan esimerkiksi tekstieditorilla, sen sisältämää informaatioita on vaikea
hahmottaa pelkästä tekstuaalisesta esityksestä (so. merkkien muodostamasta jonosta).
Vähän paremman näkymän XML-dokumenttiin tarjoaa jo esitys, jossa näkyy
elementtien hierarkkisuus ja jossa merkkaus on erotettu sisällöstä. Tällaisen näkymän
voi tarjota esimerkiksi XML-prosessori. Tämäkään harvoin on riittävä dokumentin
sisältämän ajatuksen tarkoituksenmukaiseen esittämiseen, vaan tarvitaan sisällön
muotoilua.
XML-dokumentin muotoilu voidaan tehdä periaatteessa kahdella tavalla: muotoilu
tapahtuu joko elementtien semantiikan perusteella tai se tapahtuu annettujen
dokumenttikohtaisten ohjeiden mukaan. Jälkimmäinen tapa edellyttää
tyylimäärittelyjä. Edellinen tapa on tuttu muun muassa HTML-koodauksesta, jossa
selain päättää (jos ei HTML-dokumenttiin ei liity tyylitiedostoa) miten elementit
näytetään. Molemmissa tavoissa yhteistä on, että muotoilu perustuu lopulta aina
tunnistettuihin elementteihin tai niiden attribuutteihin.
Nykyisen suuntauksen mukaan XML-dokumenttien muotoiluun voidaan käyttää lähinnä
kahta tyylimäärittelykieltä, toinen on Cascading Style Sheets (CSS) ja toinen Extensible
Stylesheet Language (XSL). Molemmissa perusperiaatteena on, että tyylimäärittelyissä
kielen käskyillä valitaan elementti, johon sitten kohdistetaan tietty kielen käskyillä
toteutettu muotoilu. Tyylimäärittelyihin perustuvaa dokumentin muotoiluprosessia
voidaan esittää kuvan 20 kaaviolla.
46
Kuva 20. Tyylitiedoston prosessointi
CSS on yksinkertaisempi kuin XSL ja tarkoitettu pääasiassa HTML-dokumenttien
muotoiluun (Lie ja Bos, 1999). XSL sisältää monipuolisia dokumentin elementteihin
kohdistuvia mekanismeja, joilla elementtejä voidaan valita ja joilla XML-dokumentti
voidaan muuntaa toiseksi dokumentiksi. XSL sisältääkin kaksi määritystä, joista toinen
kuvaa, miten XML-dokumentti muunnetaan toiseksi dokumentiksi (Clark, 1999a).
Toinen määrittelee sanaston, joka kuvaa muotoiluun liittyvät käsitteet (Deach, 1999).
Siis XSL:ää käytettäessä XML-dokumentti voidaan muuntaa ensin toiseksi, XML- tai
muuksi dokumentiksi, johon sitten sovelletaan XSL:n tai esimerkiksi CSS:n
muotoilukomentoja. Kuvan 20 prosessi voikin siis näyttää kuten kuvassa 21 on esitetty.
Kuva 21. XSL-prosessi
47
Kuvassa 21 siis ensimmäisessä vaiheessa XSL-tyylimäärittelyillä muodostetaan
alkuperäisestä XML-dokumentista uusi dokumentti, johon puolestaan sovelletaan
tyylimäärityksiä dokumentin lopulliseksi esittämiseksi. Toisen vaiheen dokumentti voi
olla XML- tai muu dokumentti, samoin kuin tyylimäärittely voi olla XSL- tai muu
tyylimäärittely. XSL sisältää myös ehtorakenteita, joilla eri tilanteissa voidaan tuottaa
erilaisia lopputuloksia: toisin sanoen yhdellä tyylimäärittelyllä voidaan tuottaa erilaisia
lopputuloksia riippuen esimerkiksi annetuista parametreistä.
Esittämiseen käytettävät tyylimäärittelyt liitetään XML-dokumenttiin tavalla, joka
kuvataan Associating Style Sheets with XML documents –määrityksessä (Clark,
1999b). Sen mukaan tyylimäärittelyt voivat erillisessä tiedostossa tai olla osa varsinaista
dokumenttia. On myös mahdollista määritellä samaan dokumenttiin useita, toissijaisia
tyylimäärityksiä.
48
5. XML-DOKUMENTTI OAIS-ARKISTOSSA
Edellä esiteltiin OAIS-viitemalli, joka kuvaa mm. arkiston tehtävät ja sen säilyttämän
informaation tietomallin, mutta ei ota kantaa siihen, miten arkisto toteutetaan. Tässä
luvussa esitetään mitä arkiston itse asiassa pitäisi säilyttää, kun säilytyksen kohteena
XML-dokumentti.
5.1. XML-dokumentti OAIS-informaatiopakettina
OAIS-arkiston eräs keskeinen käsite on informaatiopaketti, joka sisältää kaiken
säilytettävän informaation. Informaatiopaketti jakaantuu sisältöön,
säilytyskuvausinformaation ja pakkausinformaatioon. Lisäksi informaatiopaketti sisältää
kuvaustietoja, joiden avulla paketin haku tapahtuu.
5.1.1. XML-dokumentin sisältö
OAIS-mallissa sisältöinformaatio jakautuu dataobjektiin ja esitysinformaatioon.
5.1.1.1. XML-dataobjekti
OAIS-mallissa dataobjektilla tarkoitetaan bittejä, jotka muodostavat informaatio-
objektin (säilytettävän) sisällön. XML-dokumentin tapauksessa sisällön muodostavat
entiteetit, linkitykseen liittyvät mahdolliset off-line linkkitiedostot sekä (jollekin
laitteelle) tulostamiseen tarvittavat tyylimääritykset.
Entiteetit
XML-dokumentin sisältö muodostuu entiteeteistä. On selvää, että ulkoiset entiteetit,
olivat ne sitten jäsentyviä tai jäsentymättömiä, muodostavat osan XML-dokumentin
sisällöstä. Sisäiset entiteetit määritellään (niille annetaan arvo) dokumentin DTD:ssä.
Jos DTD on esitetty dokumenttientiteetissä (eli on sisäinen), entiteetin muodostavat bitit
sisältyvät myös dokumenttientiteettiin, joten entiteetin arvo säilyy dokumenttientiteetin
49
mukana. Jos taas DTD on ulkoinen, sisäisen entiteetin arvo menetetään, jos DTD ei ole
käytettävissä. Myös ulkoisessa DTD:ssä esitellyt parametrientiteetit voivat vaikuttaa
XML-dokumentin sisältöön. Näin siis myös DTD, jos se sisältää sisäisiä tai
parametrientiteettejä, on osa XML-dokumentin sisältöä. OAIS-mallissa esitetty
dataobjekti siis sisältää kaikki XML-dokumentin entiteetit.
Linkkirakenteet
XLink määrittelee yhtenä linkkimuotona dokumentista erilleen tallennettavat
linkkirakenteet. Mikäli säilytettävässä XML-dokumentissa on käytetty tällaista
linkitystä, myös linkin tallentava dokumentti on säilytettävä.
Tyylimäärittelyt
Jos XML-dokumentti on tarkoitettu inhimilliselle käyttäjälle, on se tulostettava jollekin
laitteelle. Tulostamiseen tarvitaan tyylimäärittelyt, joka siis myös on osa XML-
dokumentin bittisisältöä. On huomattava, että XSL-tyylitiedostoja käyttäen samasta
dokumentista voidaan tuottaa erilaisia tulosteita. Esimerkiksi dokumentin lyhennelmä
voidaan tuottaa yhdellä tyylitiedostolla, ja toista käytetään koko sisällön tulostamiseen.
Toisaalta, kuten edellisessä luvussa todettiin, samakin XSL-tyylitiedosto voi tuottaa
erilaisia lopputuloksia.
XML-dokumentti OAIS-mallin mukaisena digitaalisena dataobjektina
Kuvassa 22 on XML-dokumentti OAIS-mallin mukaisena digitaalisena dataobjektina.
XML-dokumentissa on siis ainakin yksi entiteetti, se voi sisältää ulkoisesti tallennettuja
linkkirakenteita ja sen näyttämiseen voidaan käyttää useampia tyylimäärittelyitä.
Kuvassa ”Entiteetti” voi tarkoittaa dokumenttientiteettiä, DTD-entiteettiä tai ulkoista
entiteettiä.
50
Kuva 22. XML-dataobjekti OAIS-mallissa
5.1.1.2. XML-dokumentin esitysinformaatio
OAIS-mallissa informaatiopaketin sisällön muodostaa dataobjektin lisäksi
esitysinformaatio, joka auttaa tulkitsemaan dataobjektin sisältämät bitit.
Esitysinformaatio jakaantuu edelleen rakenneinformaatioksi ja merkitysinformaatioksi.
XML-dokumentin esitysinformaatiota täytyy tarkastella entiteettikohtaisesti, koska ne
voivat olla millä tavalla tahansa koodattua tietoa eikä niitä näin ollen voida tulkita
yhdenmukaisella tavalla. Rajoitetaan tarkastelu tässä kuitenkin vain XML-dokumentin
sellaisiin osiin, jotka kuuluvat XML-teknologiaan. Siis esimerkiksi, jos XML-
dokumentissa olisi ulkoisena entiteettinä tekstinkäsittelyohjelmalla tuotettu tiedosto, sen
esitysinformaatio sisältyy ilmaisuun ”ulkoisen entiteetin esitysinformaatio”, ja
oletetaan, että se sisältää entiteetin tulkitsemiseksi tarvittavan tiedon. Tarkastelua ei
myöskään viedä loppuun asti siinä mielessä, että kuvattaisiin, miten esimerkiksi jokin
standardin sisältö sinänsä säilytettäisiin. Tosin sanoen esitysinformaatiossa olevia
rekursioita ei kuvata.
51
Tarkastellaan seuraavassa erikseen, mitä esitysinformaatio on entiteettien,
linkkirakenteiden ja tyylimäärittelyjen kohdalla.
Entiteetit
Entiteetit ovat siis dokumenttientiteetti, mahdolliset ulkoiset entiteetit ja mahdollinen
DTD-entiteetti (tai muu rakennemääritys). Tässä esitetty pätee vain dokumentti- ja
DTD-entiteetteihin sekä niihin ulkoisiin entiteetteihin, jotka ovat XML-koodattuja.
Muille ulkoisille entiteeteille oletetaan säilytettävän vastaava, niille soveltuva
esitysinformaatio.
Entiteetit ovat alimmalla tasolla ISO/IEC 10646 -standardin mukaan koodattuja
tekstitiedostoja, joten ko. standardi on säilytettävä. Dokumenttientiteetin ja ulkoisten
entiteettien rakenteen määräävät DTD ja XML-määritys, jotka molemmat on
säilytettävä. On huomattava, että DTD:n säilyttäminen ei olisi lyhyellä aikavälillä ehkä
tarpeen, koska XML-dokumenttia voidaan käsitellä ilman DTD:tä edellyttäen, että se ei
vaikuta dokumentin sisältöön. Kuitenkin OAIS-mallissa edellytetään, että kaikki
tulkitsemista helpottava tieto on säilytettävä, joten DTD dokumentin rakenteen
kuvaajana on syytä säilyttää. Jos DTD säilytetään, sen ymmärtämiseksi riittää XML-
määritys.
Edellä termi XML-määritys tarkoittaa sitä XML-määrityksen versiota, jolla dokumentti
on koodattu. On kuitenkin huomattava, että XML-dokumentti saattaa noudattaa useissa
määrityksissä esitettyjä sääntöjä. Dokumentti voi sisältää esimerkiksi Mathematical
Markup Language (MathML) –määrityksen elementeillä kirjoitettuja matemaattisia
kaavoja taikka Synchronized Multimedia Integration Language (SMIL) –kielellä
koodattua multimediaesitystä. Vaikka näillä kielillä esitetyn tiedon rakenne voidaan
ymmärtää XML-määrityksen perusteella, antavat ao. määritykset rakenteille
merkityksen. Nämä määritykset on siis myös säilytettävä. Tällaisten määritysten
voidaan katsoa olevan OAIS-mallin mukaista merkitysinformaatiota.
Kuten edellisessä luvussa esitettiin, XML-dokumentissa oleva elementti voi kuulua
johonkin nimiavaruuteen, mikä antaa elementin tulkinnalle tai käsittelylle
52
lisämerkitystä. Tästä syystä kaikki nimiavaruusmäärittelyt on syytä sisällyttää
merkitysinformaationa.
Linkitysinformaatio
Linkeillä yhdistetään dokumentteja toisiinsa tai viitataan saman dokumentin toiseen
kohtaan. Linkkien rakenteen ymmärtämiseksi on säilytettävä ne määritykset, johon
linkkien koodaus perustuu. Nämä määritykset ovat linkki-informaatioon liittyvää
rakenneinformaatiota.
Toisaalta linkeillä on jokin suhde niihin resursseihin, joihin ne viittaavat. Linkeillä on
jokin tietty merkitys. Linkki voi esimerkiksi osoittaa resurssiin, joka on osa
dokumenttia. Tai resurssi voi antaa lisätietoa, joka ei ole välttämätöntä dokumentin
ymmärtämiseksi. Linkeillä on siis jokin rooli suhteessa linkkiin kuuluvaan resurssiin.
Säilytyksen onnistumisen maksimoimiseksi tällainen roolitieto on ehkä säilytettävä,
varsinkin kun XLink antaa tähän mahdollisuuden. Tämä tietenkin vaatii, että on luotava
esimerkiksi sanasto, jossa kuvataan linkkien erilaiset roolit ja niiden merkitykset.
Tyylimäärittelyt
XML-dokumentin esittäminen voi perustua joko elementtien merkitykseen tai siihen,
että kuhunkin elementtiin liitetään tieto siitä, miten sen sisältö on esitettävä. Näin
esimerkiksi MathML:llä esitetty kaava voidaan esittää ilman eksplisiittistä
muotoiluohjetta, koska MathML:n elementeillä on vakiintuneet esitystavat
matematiikassa. Näin elementtien muotoilu voi olla piilotettu MathML:ää esittävään
ohjelmaan. Toisaalta esimerkiksi tuottajan omaan DTD:hen perustuvassa dokumentissa
jonkin elementin esittäminen tarkoitetulla tavalla ei ole mahdollista ilman
muotoiluohjetta. Lisäksi XML-dokumentti voi perustua johonkin yleiseen DTD:hen,
esimerkiksi XHTML:ään (HTML:n XML-versioon), jossa elementeillä on semantiikka,
mutta niiden esittämistä ei ole kuvattu, vaan muotoilu on jätetty sovellusohjelman
tehtäväksi. OAIS-arkiston on säilytettävä tieto siitä, miten dokumentin esittäminen on
alun perin tarkoitettu tehtäväksi.
Jos dokumenttiin liittyy tyylimääritys, voidaan ajatella tekijän tarkoittaneen, että
dokumentti esitetään juuri tyylimäärittelyjä vastaavalla tavalla. Tällöin
53
tyylimäärittelyjen merkitys on säilytettävä. Tämä tarkoittaa, että standardi, johon
tyylimäärittelyt perustuvat, on säilytettävä.
Jos esittäminen perustuu jonkin DTD:n elementtien merkitykseen, on tämä DTD
säilytettävä. Lisäksi on säilytettävä kuvaus elementtien merkityksestä, jos DTD ei sitä
sisällä.
Kuten edellä mainittiin, voidaan samasta dokumentista saada useita erilaisia näkymiä
käyttäen eri tyylimäärittelyjä. Se, onko tällainen arkiston kannalta järkevää vai ei, on
tämän tutkimuksen aihepiirin ulkopuolella. Kuitenkin voidaan olettaa, että teknologian
kehittymisen myötä uusien mahdollisuuksien hyödyntäminen myös pitkäaikaisessa
arkistoinnissa on järkevää. Näin esimerkiksi usean tyylimäärityksen kohdistaminen
samaan dokumenttiin, lisää tiedon monikäyttöisyyttä: samasta aineistosta voidaan eri
määrittelyillä tuottaa tiivistelmä, lyhennelmä tai sisällysluettelo. Jos tyylimäärittelyitä
on useita, on niille annettava, samaan tapaan kuin edellä linkeille, roolit, jotka kuvaavat
niiden funktiota. Näistä funktioista on sitten säilytettävä kuvaukset.
Kuvassa 23 on XML-dokumenttiin liittyvä esitysinformaatio. Viivoitetut suorakaiteet
kuvaavat merkitysinformaatiota ja valkoiset rakenneinformaatiota.
54
Kuva 23. XML-dokumentin esitysinformaatio
5.1.2. XML-dokumentin OAIS-säilytyskuvausinformaatio
Säilytyskuvausinformaatio sisältää OAIS-mallin mukaan alkuperän, kontekstin,
viitattavuuden ja muuttumattomuuden varmistavat tiedot. Tarkastellaan tässä vain sitä,
miten XML-dokumentin rakenteisuus vaikuttaa kuhunkin mainittuun tietoon.
Alkuperä
OAIS-mallin mukaan alkuperä sisältää informaatio-objektin historian: mistä se on tullut
ja miten sitä on muutettu säilytyksen aikana. XML-dokumentin rakenteisuus tarjoaa
mahdollisuuden tarkkaan alkuperän seurantaan. Esimerkiksi XML-dokumentti voi
jossakin entiteetissään sisältää kuvan, jonka alkuperä on eri kuin muun sisällön: kuva
voi olla lainattu tai kopioitu jostakin toisesta dokumentista. Toisaalta dokumentti voi
55
koostua monen kirjoittajan tekstistä. Riippuen dokumentin rakenteesta voisi olla
mahdollista elementtitasolla kirjata dokumentin alkuperä.
Koska XML-dokumentin entiteetit voivat olla missä formaatissa tahansa, voidaan
dokumentin entiteettejä joutua muuntamaan toiseen muotoon epäsynkronisesti. Tällaiset
muunnokset on OAIS-mallin mukaan kirjattava alkuperätietotoihin. Näin alkuperätiedot
muunnoksen osalta on järkevää ylläpitää entiteettikohtaisesti.
Konteksti
Kontekstilla tarkoitetaan OAIS-mallissa dokumentin sisällön suhdetta ympäristöön sekä
sitä, miksi se on syntynyt. Selvästi tämä ei ole entiteettikohtainen, vaan riittää, että
kontekstitiedot tallennetaan koskien koko dokumenttia.
Viitattavuus
Viitattavuudella tarkoitetaan, että informaatio-objekti on yksikäsitteisesti löydettävissä
arkistosta. Kun XML-dokumenttia käsitellään yhtenä kokonaisuutena, viittaamalla
dokumenttientiteettiin koko dokumentti on käsiteltävissä. On kuitenkin ehkä
huomioitava esimerkiksi tyylimäärittelyillä aikaansaadut erilaiset näkymät samasta
XML-dokumentista. Käyttäjähän voi hakea vaikkapa kirjoitusten tiivistelmiä, jolloin
vastauksena olisi oltava viittaukset (ainakin epäsuorasti) niihin tyylimäärittelyihin,
joiden kautta lyhennelmät ovat käytettävissä. Arkisto on kuitenkin oltava niin toteutettu,
että käyttäjä aina tietää, että hän käsittelee samaa dokumenttia käyttipä hän mitä
näkymää tahansa.
Muuttumattomuus
Muuttumattomuus tarkoittaa varmistusta sille, että informaatio-objektin sisältö ei ole
muuttunut. Tässä ei puututa siihen millä menetelmällä muuttumattomuuden
varmistaminen toteutetaan. Oletetaan kuitenkin, että käytettävä tekniikka perustuu
siihen, että objektin muodostavasta bittivirrasta lasketaan varmenne, joka
yksikäsitteisesti takaa objektin aitouden.
56
Koko XML-dokumentin muuttumattomuus on taattava, ja koska se koostuu
entiteeteistä, jokaisen entiteetin bittivirran muuttumattomuus on taattava. Tämä koskee
vain ulkoisia entiteettejä, koska sisäiset ovat samaa bittivirtaa jonkin toisen entiteetin
kanssa. Voidaan olettaa, että XML-dokumenttien eri entiteeteille voidaan soveltaa
erilaisia muuttumattomuuden varmistavia menetelmiä, koska ne voivat olla eri
formaateissa. Näin on järkevintä, että jokaisen entiteetin muuttumattomuus taataan
erikseen. Samalla tavalla on taattava myös erikseen tallennettavien linkkirakenteiden ja
tyylimääritysten muuttumattomuus.
Kuvassa 24 on vielä esitetty miten säilytyskuvausinformaatio liittyy XML-dokumentin
eri rakenteisiin. Viitattavuus siis koskee epäsuorasti myös tyylimäärittelyjä, jos niiden
avulla käyttäjällä on mahdollisuus useanlaisiin näkymiin. Alkuperä on mahdollista
liittää entiteettikohtaisesti, jos arkisto niin haluaa.
Kuva 24. XML-dokumentin säilytyskuvausinformaatio
5.2. XML-dokumentin informaatiopaketin implementoinnista
Tässä alaluvussa tarkastellaan, miten edellisessä alaluvussa esitetty OAIS-mallin
mukainen XML-dokumentista muodostuva informaatiopaketti voitaisiin toteuttaa.
Loogisesti tässä esitetty vastaa OAIS-mallissa kuvattua informaatiopaketin
57
pakkausinformaatio-objektia. Mallin mukaan pakkausinformaatio ei itsessään ole
säilytettävää tietoa.
5.2.1. Pakkausinformaation muoto
Käytännössä paketin implementointi on tiedonhallinnallinen ongelma, jonka
ratkaisemiseksi on päätettävä muun muassa mihin ja/tai missä muodossa tiedot
tallennetaan. Eräs muoto saattaisi olla XML-syntaksia käyttävä Resource Description
Framework (RDF, ks. liite 2). RDF on metadatan kuvaamiseen ja esittämiseen
tarkoitettu kieli, ja sen tarkoituksena on edistää metatiedon automaattista käsittelyä
verkkoympäristössä (Lassila ja Swick, 1999). Edellä olevan määritelmän mukaan RDF
soveltuisi tehtävään hyvin, sillä pakkausinformaatiohan voidaan käsittää metatiedoksi.
Myös se, että RDF on XML:n sovellutus, yhdenmukaistaisi toteutusta. Seuraavassa
oletetaan, että pakkausinformaatio toteutetaan RDF:llä.
5.2.2. Pakkausinformaation sisältö
Pakkausinformaatio sitoo yhteen säilytettävän tiedon sisällön ja
säilytyskuvausinformaation. Lisäksi se voi eritellä näiden molempien sisällön.
Verkkoympäristössä pakkausinformaatio voi pitkälti koostua linkkiosoitteista
verkkoresursseihin, jotka toimivat OAIS-mallin mukaisina informaatio-objekteina.
Verkkoresurssi voi olla myös jonkun muun kuin arkiston hallinnoima, mikä kuitenkin
on aina syytä tuoda pakkausinformaatiossa selvästi esille.
Esimerkki
Esitetään tässä lyhyellä esimerkillä, miltä pakkausinformaation sisältö voisi näyttää.
Olkoon esimerkkinä XML-dokumentti, joka on matemaattinen tieteellinen artikkeli.
Artikkeli sisältää tekstiä, MathML-kielellä esitettyjä matemaattisia kaavoja sekä JPEG-
formaatissa olevia kuvia. Muotoilu on suoritettu CSS-määrittelyillä, jotka on tallennettu
erilliseen tiedostoon. MathML:llä koodatut kaavat on myös tallennettu kukin erilliseen
58
tiedostoon samoin kuin kuvat. Artikkelista ei ole linkkejä dokumenttiin itseensä tai
muihin dokumentteihin eikä sillä ole DTD:tä.
RDF:llä kuvatussa pakkausinformaatiossa on kolme nimiavaruutta:
• rdf, joka viittaa RDF-määritykseen (käytössä siis RDF:n itsensä takia)
• oais, joka antaa semantiikan OAIS-viitemallin kuvaamille informaatio-
objekteille ja muille käsitteille
• oma, joka selittää arkiston pakkausinformaatiossa käyttämät omat elementit.
Kuvassa 25 on esitetty runko RDF:llä koodatusta pakkausinformaatiosta. Siinä on
käytetty kuvien 23 ja 24 mukaista mallia XML-dokumentin esitysinformaatiosta ja
säilytyskuvausinformaatiosta. Täydellisempi pakkausinformaatio on esitetty liitteessä 3.
<?xml version="1.0"?><!-- Nimiavaruus rdf tarvitaan RDF:n itsensä takia --><!-- Nimiavaruus oais viittaa OAIS-viitemalliiin --><!-- Nimiavaruus oma on arkiston käyttämä skeema --><rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:oais="http://ccsds.org/ccsds/documents/pdf/CCSDS-
650.0-R-1.pdf"xmlns:oma="http://www.arkisto.org/xml_aineisto/oais_skeema.x
ml"><oais:Packaging_Information><!-- Pakkausinformaatio alkaa --><oais:aip><!-- Arkistointipaketti --><rdf:Description about="http://www.pm.fi/isbn-
xxx/mat_artik.xml" bagID="document">
<!-- Koskee yo. XML-dokumenttia --><oais:Content_Information>
<!-- Sisältöinformaatio --><oais:Digital_Object>
<!--Digitaalinen objekti --><oma:entities></oma:entities><oma:links></oma:links><oma:styles_sheets></oma:styles_sheets>
</oais:Digital_Object></oais:Content_Information>
</rdf:Description>
<!-- Säilytyskuvausinformaatio --><oais:Preservation_Description_Information><oma:pres_for_document></oma:pres_for_document><oma:pres_for_entity></oma:pres_for_entity>
59
</oais:Preservation_Description_Information></oais:AIP>
</oais:Packaging_Information></rdf:RDF>
Kuva 25. Pakkausinformaation runko RDF:llä
Yllä olevassa pakkausinformaatiossa esitetään siis arkistointipaketti (oais:aip), joka
koskee dokumenttia http://www.pm.fi/isbn-xxx/mat_artik.xml. Pakkaus
jakautuu kahteen osaan sisältöinformaatioon (oais:content_information) ja
säilytyskuvausinformaatioon (oais:Preservation_Description_Information).
Sisältö on nimenomaan digitaalista (oais:Digital_Object), joka eritellään
entiteeteiksi (oma:entities). Lisäksi tulee linkkirakenne- ja tyylimääritysinformaatiota
(oma:links ja oma:styles_sheets). Säilytyskuvausinformaatio sisältää sekä
dokumentti- että entiteettikohtaista tietoa (oma:pres_for_document ja
oma:pres_for_entity).
60
6. YHTEENVETO
Tietoa tuotetaan yhä enemmän digitaalisissa ympäristöissä, joten on selvää, että yhä
suurempi osa myös jää digitaaliseen muotoon, ilman rinnakkaista perinteistä muotoa.
Tietämyksen ja kulttuuriperinnön säilyttämisestä vastaavien tahojen on siis säilytettävä
myös digitaalisessa muodossa olevaa materiaalia. Teknologia on aina asettanut
reunaehdot informaation säilyttämiselle antaen käyttöön uusia mahdollisuuksia mutta
asettaen myös rajoituksia. Tässä mielessä digitaalisuuteen perustuva informaation
tallennustapa ei tuo mitään uutta. Uutta on kuitenkin se nopeus, jolla uudet keksinnöt
syrjäyttävät vanhat.
Digitaalista tietoa on tällä hetkellä ehkä sadoissa tai tuhansissa erilaisissa muodoissa, ja
on uhkarohkeaa kuvitella, että asiat olisivat joskus tosin. Näin ollen yhtä ja ainutta tapaa
varmistaa informaation säilyminen ei voi olla olemassa. Jotkut esitetyistä tavoista,
esimerkiksi Rothenbergin emulointimalli, ratkaisevat asian teoriassa lopullisesti, mutta
niiden toteuttaminen voi olla lähinnä utopiaa. Onkin ehkä totuteltava ajatukseen, että
mitään lopullisista ratkaisua ei ole olemassa. Mutta näinhän on laita monen muunkin
asian suhteen. Onkin etsittävä käyttökelpoisia, ehkä työläiltäkin tuntuvia menetelmiä,
joilla käytännössä voidaan varmistaa, että informaatio säilyy.
Tämän tutkimuksen alkuosassa tarkasteltiin kirjallisuudessa esitettyjä pitkäaikaiseen
säilyttämiseen liittyviä ongelmia, joista eräs vaikeimmista on nimenomaan teknologian
nopea kehittyminen. Tarkastelu osoitti, että ainoa tiedon säilyttämiseksi käytetty
menetelmä on tiedon muunnos tallennusmuodosta toiseen tai laitteistolta toiselle. Paitsi
että muunnosta yleensä pidetään työläänä ja siten kalliina, suurin vaara säilyttämisen
kannalta on se, että muunnoksessa osa tiedosta menetetään. Kun pitkällä aikavälillä
muunnoksia on useita, voi lopulta olla mahdollista, että tieto ei enää ole
ymmärrettävissä alunperin tarkoitetulla tavalla. Tosin myös vaihtoehtoiset menetelmät,
joissa on ajatuksena, että tieto säilytetään alkuperäisessä muodossaan ja saadaan
tulevaisuudessa käyttöön emuloimalla joko alkuperäistä ohjelmistoa tai jopa laitteistoa,
vaativat nekin periaatteessa jonkin asteista konversiota. Erityistä huomioita digitaalisen
materiaalin säilyttämisessä vaativat lisäksi sen käyttö tietoverkon välityksellä,
säilyttämisen kohteen valinta sisällön ja ulkoasun suhteen sekä tiedon eheys, joka
61
koostuu useista eri osatekijöistä, ja tarkoittaa lähinnä sitä, että käyttäjä voi varmistua
käyttämänsä tiedon aitoudesta.
Koska muunnos näyttäisi olevan se tapa, jota ainakin lähitulevaisuudessa on
sovellettava tiedon säilyttämiseksi, on pyrittävä minimoimaan muunnoksen liittyvää
vaaraa, tiedon menettämistä. Luvussa 3 esiteltiin kehitteillä oleva OAIS-viitemalli, joka
perustuu siihen, että varsinaisen informaation lisäksi on säilytettävä sitä selittävää tietoa
tarpeellinen määrä niin, että varsinaisen tiedon ymmärtäminen olisi mahdollista. Kun
ymmärretään tieto, sen merkitys ja lisäksi ne rakenteet, joilla tieto on koodattu, voidaan
muunnoskin suorittaa paremmin.
OAIS-viitemallissa kuvataan toiminnot ja tietojoukot, jotka sen mukaan edistävät
pitkäaikaista säilytystä. Malli ei ota kantaa tiedon tallennusformaattiin, joten siinä ei
määritellä, mistä säilyttämistä tukeva tieto lopulta koostuu kussakin tapauksessa. Tämän
tutkimuksen loppuosa käsitteli sitä, mitä tämä tieto olisi siinä tapauksessa, että
säilytettävä tieto on XML-dokumentin muodossa.
Luvussa 4 analysoitiin miten XML-dokumentti muodostuu, minkälaisia loogisia ja
fyysisiä osia siitä voidaan erottaa. Tältä pohjalta luvussa 5 esitettiin, mitä tietoa XML-
dokumentista olisi säilytettävä, jotta OAIS-mallin vaatimukset täyttyisivät. Tarkastelu
suoritettiin sekä teoreettisesti että konstruktiivisesti. Teoreettisessa osassa luvun 4
analysoinnin tulokset sijoitettiin OAIS-malliin ja konstruktiivisessa osassa erään XML-
dokumentin tiedot esitettiin RDF-kielellä koodattuna.
Luvussa 5 esitetyt OAIS-mallin mukaiset XML-dokumentin säilytystä tukevat
informaatio-objektit perustuvat siis teoreettiseen tarkasteluun. Esitetyt objektit ovat
vielä melko käsitteellisiä, ja jotta niitä voitaisiin käyttää todellisissa OAIS-mallin
sovellutuksissa, on vielä konkreettisemmin ja tarkemmin määriteltävä mitä ne itse
asiassa sisältävät. Lisäksi niiden soveltuvuutta todellisiin XML-dokumentteihin olisi
käytännössä testattava. Myös tarvittaisiin tutkimusta siitä, miten nämä objektit ovat
tunnistettavissa, jotta säilytystä tukevan tiedon automaattinen muodostaminen olisi
mahdollista.
62
Suoritettu tarkastelu osoitti, että XML-teknologiaan perustuva dokumentti näyttäisi
sopivan hyvin OAIS-viitemalliin. Sen rakenteisuus auttaa erottamaan siitä osat, joihin
säilytystä tukeva tieto on kohdistettava. Lisäksi XML:stä julkisena standardina on
käytettävissä määritykset, jotka auttavat ymmärtämään sen koodaukseen käytetyn
tekniikan.
Tiedon tehokas säilyttäminen on mahdollistanut kehityksen siihen pisteeseen, missä se
nyt on. Tämän tutkimuksen nojalla voidaan odottaa, että oikein suoritettuna digitaalisen
materiaalin säilyttäminen siirtää tietoa entistä tehokkaammin. Tutkijat voivat
tulevaisuudessa nykyistä helpommin saada käyttöönsä symbolien lisäksi myös
merkityksiä - tai sitten eivät saa kumpiakaan.
63
LÄHDELUETTELO
Beagrie N., Greenstein D., A Strategic Policy Framework for Creating and Preserving
Digital Collections, Arts and Humanities Data Service (JSIC), 1998 [online] [Viitattu
29.08.1999]. Saatavilla www-muodossa
<URL: http://ahds.ac.uk/manage/framework.htm>.
Bearman D., Reality and Chimeras in the Preservation of Electronic Records. D-Lib
Magazine, 1999, vol. 5(4) [online]. [Viitattu 26.7.1999]. Saatavilla www-muodossa
<URL: http://www.dlib.org/dlib/april99/bearman/04bearman.html>.
Berners-Lee T., Robert Cailliau R., Luotonen A., Nielsen H., Secret A., The World-
Wide Web. Communications of the ACM, 1994, vol. 37(8), s. 76-82.
Bray T., Paoli J., Sperberg-McQueen C. (toim.), Extensible Markup Language (XML)
1.0, [online], 1998. [Viitattu 29.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/TR/1998/REC-xml-19980210/>.
Bray T., Hollander D., Layman A. (toim.), Namespaces in XML [online], 1999.
[Viitattu 19.7.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/TR/1999/REC-xml-names-19990114/>.
CCSDS (Consultative Comittee for Space Data Systems), Reference Model for an
Open Archival Information System (OAIS) [online], 1999. [Viitattu 12.08.1999].
Saatavilla www-muodossa <URL: http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-
650.0-R-1.pdf>.
CCSDS Draft Recommendations (Red Books), [online]. [Viitattu 1.9.1999]. Saatavilla
www-muodossa <URL: http://www.ccsds.org/red_books.html>.
Clark J. (toim.), XSL Transformations (XLST) [online], 1999a. [Viitattu 1.9.1999].
Saatavilla www-muodossa <URL: http://www.w3.org/TR/1999/WD-xslt-19990421>.
Clark J. (toim.), Associating Style Sheets with XML documents, [online], 1999b.
[Viitattu 1.9.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/1999/06/REC-xml-stylesheet-19990629/>.
64
Clark J., DeRose S. (toim.), XML Path Language (XPath), W3C Working Draft
[online], 1999. [Viitattu 25.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/1999/07/WD-xpath-19990709>.
Coleman J., Willis D., SGML as a Framework for Digital Preservation and Access.
The Commission on Preservation and Access, Washinton DC, 1997.
Deach S. (toim.), Extensible Stylesheet Language (XSL) Specification, W3C Working
Draft [online], 1999. [Viitattu 16.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/TR/1999/WD-xsl-19990421>.
DeRose S., Orchard D., Trafford B. (toim.), XML Linking Language (XLink), W3C
Working Draft [online], 1999. [Viitattu 29.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/1999/07/WD-xlink-19990726>.
DeRose S., Daniel R. (toim.), XML Pointer Language (XPointer), W3C Working Draft
[online], 1999. [Viitattu 29.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/1999/07/WD-xptr-19990709>.
Feather J., Preservation and the Managfement of Library Collections. Library
Association Publishing Ltd, Lontoo, 1996.
Graham P., Long-term Intellectual Preservation, [online], 1995. [Viitattu 21.7.1999].
Saatavilla www-muodossa
<URL: http://www.ifla.org/documents/libraries/net/dps.htm>.
Hedstrom M., Montgomery S., Digital Preservation Needs and Requirements in RLG
Member Institutes, 1999, [online]. A Sudy Comissioned by the Research Libraries
Group. [Viitattu 20.7.1999]. Saatavilla www-muodossa
<URL: http://www.rlg.org/preserv/digpres.html>.
Heminger A., Robertson S., Digital Rosetta Stone: A Conceptual Model for
Maintaining Long-term Access to Digital Documents. Teoksessa Proceedings of the
Thirty-First Hawaii International Conference on System Sciences Volume II, IEEE
Computer Society, 1998, 158-167.
65
Häkli E., Reform of the Finnish Legal Deposit Act. Tietolinja News, 1999, Nro 1
[online]. [Viitattu 6.8.1999]. Saatavilla www-muodossa:
<URL: http://hul.helsinki.fi/tietolinja/0199/reform.html>.
ISO Archiving Standards – Overview, [online]. [Viitattu 25.8.1999]. Saatavilla www-
muodossa <URL: http://ssdoo.gsfc.nasa.gov/nost/isoas/overview.html>.
ISO Archiving Standards - Reference Model Papers, [online]. [Viitattu 1.9.1999].
Saatavilla www-muodossa
<URL: http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html>.
Lassila, O., Introduction to RDF Metadata [online], 1997. [Viitattu 10.01.1999].
Saatavilla www-muodossa <URL: http://www.w3.org/TR/NOTE-rdf-simple-intro>.
Lassila O., Swick R. (toim.), Resource Description Framework (RDF) Model and
Syntax Specification [online]. [Viitattu 19.08.1999]. Saatavilla www-muodossa
<URL: http://www.w3.org/TR/REC-rdf-syntax/>.
Levy M., Marshal C., Going Digital: A Look at Assumptions Underlying Digital
Libraries. Communications of the ACM, 1995, vol. 38(4), s. 77-84.
Light R. (toim.), Presenting XML. Sams.net Publishing, Indianapolis, 1997.
Lie H., Bos B., (toim.), Cascading Style Sheets, level 1 [online], 1999. [Viitattu
1.9.1999]. Saatavilla www-muodossa <URL: http://www.w3.org/TR/REC-CSS1>.
Mackenzie Owen J., v.d. Walle J., Deposit collections of electronic publications.
European Commision, DG XII-E/4, Brysseli, 1996.
Maler E., DeRose, S., XML and XLink for the SGML-Knowledgeable, [online], 1998.
[Viitattu 15.08.1998]. Saatavilla www-muodossa
<URL: http://www.arbortext.com/presentations/XML-XLink-for-SGML-knowl.ppt>.
Malhotra A, Maloney M., XML Schema Requirements [online], 1999. [Viitattu
28.7.1999]. Saatavilla www-muodossa <URL: http://www.w3.org/TR/NOTE/-xml-
schema-req>.
66
Rothenberg J., Ensuring the Longevity of Digital Information. Scientific American,
1995, vol. 272(1), s. 42-47.
Rothenberg J., Advoiding Techological Quiksand: Finding a Viable Foundation for
Digital Preservation, [online], 1998. [Viitattu 15.7.1999]. Saatavilla www-muodossa
<URL: http://www.clir.org/pubs/reports/rothenberg/contents.html>.
Salminen A., Rakenteisen tekstin hallinta. Opetusmonisteita OM-3, Jyväkylän
yliopisto, Jyväskylä 1992.
Shepard T., MacCarn D., Universal Preservartion Format, Part1: User Requirements,
[online]. [Viitattu 10.7.1999]. WGBH Educational Foundation, 1999. Saatavilla www-
muodossa <URL: http://info.wgbh.org/ufp/>.
Task Force on Archiving of Digital Information, Preserving Digital Information,
[online]. [Viitattu 14.08.1998]. The Commission on Preservation and Access ja The
Research Libraries Group, 1996. Saatavilla www-muodossa:
<URL: http://www.rlg.org/ArchTF/tfadi.index.htm>.
Walsh, N., What is XML? [online], 1998. [Viitattu 10.07.1999]. Saatavilla www-
muodossa <URL: http://www.xml.com/xml/pub/98/10/guide1.html>.
67
LIITTEET
Liite 1: Unified Modeling Language (UML), objektien suhteet.
Lähde: CCSDS (Consultative Comittee for Space Data Systems), Reference
Model for an Open Archival Information System (OAIS) [online], 1999.
[Viitattu 12.08.1999]. Saatavilla www-muodossa
<URL: http://ftp.ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf>.
68
Liite 2: Lyhyt johdatus Resource Description Framework –kieleen.
Resouce Description Framework (RDF) –viitekehyksen tarkoituksena on edistää
verkossa olevien resurssien (dokumenttien) automaattista käsittelyä. RDF:n esittämä
ratkaisu tähän on metatiedon liittäminen dokumenttiin siten, että ohjelmat voivat sitä
käyttää. Kuten PICS, myös RDF:ää kehittää W3C. RDF:n kehittelyn alkusysäyksenä
onkin ollut PICSin puutteet verkon resursseihin liitettävän yleisen metatiedon
koodaamisessa. (Lassila, 1997)
RDF:n tavoitteena on, että sitä voitaisiin käyttää millä sovellusalueella tahansa:
esimerkiksi tiedon etsinnässä, www-sivuston hallinnassa, digitaalisissa kirjastoissa,
älykkäiden agenttiohjelmien tiedonhaussa, dokumentin osien suhteiden kuvaamisessa,
sisällön luokittelussa, tekijänoikeuksien kuvaamisessa, yksityisyyden suojaamisessa
sekä digitaalisessa allekirjoituksessa. (Lassila ja Swick, 1999)
RDF:ää käsittelee kaksi eri määritystä: RDF Model and Syntax Specification ja RDF
Schema Specification. Edellinen antaa säännöt, miten metadata esitetään ja miten sitä
käsitellään. Jälkimmäinen taas paneutuu siihen, kuinka metadata muodostetaan jollekin
tietylle sovellusalueelle. Tarkastellaan tässä näistä kahdesta vain ensimmäistä.
RDF Model and Syntax Specification
RDF Model and Syntax Specification (RDFMS) määrittelee RDF:n tietomallin ja sille
syntaksin eli kieliopin. RDF:n tietomalli rakentuu kolmesta käsitteestä: resurssi
(resource), ominaisuus (property) ja toteama (statement). Tässä esitettävä tarkastelu
perustuu RDFMS-määritykseen (Lassila ja Swick, 1999).
Resurssilla tarkoitetaan mitä tahansa URI:lla (Uniform Resource Identifier) osoitettavaa
resurssia. Ominaisuus on jokin resurssiin liittyvä tarkastelukulma, ominaispiirre, määre
tai suhde ja sillä on aina tietty merkitys. RDF ei määrittele sitä, miten ominaisuus
ilmaistaan: tämä tehdään RDF Schemassa. Jokin tietty resurssi ja siihen liittyvä
ominaisuus yhdessä ominaisuuden arvon kanssa muodostavat toteaman. Toteama
muodostuu siis subjektista (resurssi), predikaatista (ominaisuus) ja objektista (arvo).
Objekti voi olla toinen resurssi tai literaali (merkkijono).
69
Tietomalli voidaan esittää suunnattuna graafina, jossa on solmuja ja niitä yhdistäviä
suunnattuja viivoja. Esimerkiksi lause ”Dokumentin kirjoittaja on Ville” on RDF-
toteama, jossa ”dokumentti” on subjekti, ”kirjoittaja” on predikaatti ja ”Ville” on
objekti. Toteama voidaan esittää kuvan 1 graafilla.
Kuva 1. RDF-graafi.
Graafissa siis solmuina ovat subjekti (ellipsi) ja objekti (suorakulmio). Predikaatti on
suunnattu viiva, ja suunta on nimenomaan subjektista objektiin. Graafilla on merkitystä
siinä mielessä, että edellä olevan toteaman muoto voisi olla yhtä hyvin vaikkapa ”Ville
on dokumentin kirjoittaja”. Muodoilla on sama merkitys ja ne siis johtavat samanlaiseen
graafiin. RDF:n periaatteen mukaan kaksi toteamusta ovat yhtäpitäviä vain, jos niistä
seuraavat graafit ovat yhteneviä.
Jos edellä esitetty toteama muunnetaan muotoon ”Dokumentin kirjoittaja on professori
Ville”, on ominaisuudella ”kirjoittaja” rakenne. Rakenteinen ominaisuus esitetään
RDF:ssä resurssina. Kuvassa 1 on edellisen toteaman graafi.
Kuva 2. RDF-graafi, kun ominaisuudella on rakenne.
Kuvan 2 graafissa kirjoittajaa kuvaava ellipsi on tyhjä. Jos oletetaan, että resurssi
”Dokumentti2” sisältää työntekijöiden tiedot, ja että Villen henkilönumero on 1000, niin
silloin tyhjään ellipsiin voitaisiin kirjoittaa esimerkiksi ”Dokumentti2#1000”. Jos edellä
olevissa graafeissa ”Dokumentti” ja ”Dokumentti2” (jonka vain ajatellaan olevan siellä)
70
korvataan URI-merkinnöillä, ne voisivat olla vaikkapa muodossa
”http://www.yo.fi/home/ville.html” ja ”http://www.yo.fi/hallinto/tt.html#1000”
vastaavasti.
RDF määrittelee myös säiliö (container) –käsitteen, jolla viitataan usean resurssin
muodostamaan joukkoon (esim. dokumentilla voi olla monta kirjoittajaa). Säiliöitä on
kolmea eri tyyppiä: se voi olla järjestämätön (bag) tai järjestetty (sequence) lista taikka
siinä voidaan luetella vaihtoehdot (alternative).
Edellä kuvattu tietomalli on vielä esitettävä syntaktisesti, jotta tietokoneohjelmat voivat
sitä käsitellä. Tähän RDF käyttää XML:ää. RDF:n syntaksi on joustava eli sama asia
voidaan ilmoittaa usealla tavalla. Esitetään tässä esimerkkien avulla, miltä RDF näyttää,
menemättä syntaksin yksityiskohtiin. Esimerkeissä käytetään RDF:n perusmuotoa.
Toteama ”Resurssin http://www.yo.fi/home/ville.html kirjoittaja on Ville” esitetään
RDF:llä seuraavasti:
<?xml version="1.0"?><rdf:RDFxmlns:rdf="http://w3.org/TR/1999/PR-rdf-syntax-19990105#"xmlns:s="http://www.yo.fi/schema/"><rdf:Description about="http://www.yo.fi/home/ville.html"><s:Kirjoittaja>Ville</s:Kirjoittaja>
</rdf:Description></rdf:RDF>
Esimerkki 3. RDF-esitys yksinkertaiselle toteamalle.
Esimerkissä jokainen elementti on jonkin XML-nimiavaruuden (XML Namespaces)
elementti: ne kuuluvat joko RDF-määrityksen nimiavaruuteen (etuliite rdf) tai skeeman
(”metatietokuvauksen”) nimiavaruuteen (s). Nämä nimiavaruudet määritellään riveillä 3
ja 4. Skeemanimiavaruuksien määrää ei ole rajoitettu, joten RDF voi sisältää
metatietoelementtejä useista skeemoista. Esimerkissä näkyy, että RDF-määritys sisältää
elementin ”Description” ja sillä on attribuutti ”about”, jolla ilmoitetaan kuvauksen
kohteena oleva resurssi.
Esitetään vielä toteama ”Resurssi http://www.yo.fi/hallinto/tt.html#1000” viittaa
henkilöön, jonka nimi on Ville ja jonka virkanimike on professori. Tämä henkilö on
resurssin http://www.yo.fi/home/ville.html kirjoittaja” RDF-syntaksilla.
71
<?xml version="1.0"?><rdf:RDFxmlns:rdf="http://w3.org/TR/1999/PR-rdf-syntax-19990105#"xmlns:s="http://www.yo.fi/schema/"><rdf:Description about="http://www.yo.fi/home/ville.html"><s:Kirjoittaja rdf:resource="http://www.yo.fi/hallinto/tt.html#1000"/>
</rdf:Description>
<rdf:Description about="http://www.yo.fi/hallinto/tt.html#1000">
<s:Nimi>Ville</s:Nimi><s:Virkanimike>Professori</s:Virkanimike>
</rdf:Description></rdf:RDF>
Kuva 3. RDF-esitys toteamalle, jossa objektina toinen resurssi.
Kuvan 3 esimerkissä on siis kaksi ”Description”-elementtiä: ensimmäinen kuvaa
resurssia, joka ilmoitetaan skeemaelementin (Kirjoittaja) RDF-attribuutilla ”resource” ja
toinen kuvaa sitten ensimmäisessä ”Description”-elementissä mainitun resurssin.
Kyseessä on siis hierarkkinen rakenne, mikä voitaisiin esittää (ihmiselle)
havainnollisemmin kirjoittamalla toinen ”Description”-elementit sisäkkäisesti.
72
Liite 3: E
simerkki R
DF:llä toteutetusta pakkausinform
aatiosta.<?xml
version="1.0"?><!--
Nimiavaruusrdf
tarvitaanRDF:n
itsensätakia
--><!--
Nimiavaruusoais
viittaaOAIS-viitemalliiin
--><!--
Nimiavaruusoma
onarkiston
käyttämäskeema
--><rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:oais="http://ccsds.org/ccsds/documents/pdf/CCSDS-650.0-R-1.pdf"xmlns:oma="http://www.arkisto.org/xml_aineisto/oais_skeema.xml"><oais:Packaging_Information><!--
Pakkausinformaatio
alkaa-->
<oais:aip><!--
Arkistointipaketti-->
<rdf:Descriptionabout="http://www.pm.fi/isbn-xxx/mat_artik.xml"
bagID="document"><!--
Koskee yo. XM
L-dokumenttia
--><oais:Content_Information><!--
Sisältöinformaatio
--><oais:Digital_Object><!--
Digitaalinen objekti-->
<oma:entities><!--
Jokaiseselle entiteetille esitetty mikä on m
ääritys, joka kuvaa koodauksen --><rdf:Description
about="http://www.pm.fi/isbn-xxx/mat_artik.xml"bagID="c_01">
<oma:specificationoma:onsite="no"
resource="http://www.w3.org/TR/REC-xml"/>
<oma:dtd_entityresource=""/>
</rdf:Description><rdf:Description
about="http://www.pm.fi/isbn-xxx/k4_1.mml"bagID="c_02">
<oma:specificationoma:onsite="no"
resource="http://www.w3.org/TR/REC-MathML/"/>
</rdf:Description><rdf:Description
about="http://www.pm.fi/isbn-xxx/k4_2.mml"
bagID="c_03"><oma:specification
oma:onsite="no"resource="http://www.w3.org/TR/REC-MathML/
"/></rdf:Description><rdf:Description
about="http://www.pm.fi/isbn-xxx/k4_3.mml"
bagID="c_04"><oma:specification
oma:onsite="no"resource=" http://www.w3.org/TR/REC-MathML/
"/></rdf:Description>
73
<rdf:Descriptionabout
="http://www.pm.fi/isbn-xxx/k4_4.mml"bagID="c_05">
<oma:specificationoma:onsite="no"
resource=" http://www.w3.org/TR/REC-MathML/"/>
</rdf:Description><rdf:Description
about="http://www.pm.fi/isbn-xxx/fig5_1.jpg"
bagID="c_06">
<!--O
letetaan, että osoitteessa www.jpeg.org/JPEG/ on kuvaus JPEG
-fomraatista -->
<oma:specificationoma:onsite="no"
resource=" http://www.jpeg.org/JPEG/"/>
</rdf:Description></oma:entities><oma:links><!--
Linkkirakenneinformaatio
--></oma:links><oma:styles_sheets>
<!--Tyylim
ääritysinformaatio
--><rdf:Description
about="http://www.pm.fi/isbn-xxx/njcarticle.css
"bagID="ss_01">
<oma:specificationoma:onsite="no"
resource=" http://www.w3.org/TR/REC-CSS2/"/>
</rdf:Description></oma:styles_sheets>
</oais:Digital_Object></oais:Content_Information>
</rdf:Description>
<!--Säilytyskuvausinform
aatio-->
<oais:Preservation_Description_Information><oma:pres_for_document><!--
Koko dokum
enttia koskien alkuperä, konteksti ja viittattavuus-->
<rdf:Descriptionabout="#document">
<oais:Provenance_Information>...</oais:Provenance_Information><oais:Context_Information>...</oais:Context_Information><oais:Reference_Information>...</oais:Reference_Information>
</rdf:Description></oma:pres_for_document><oma:pres_for_entity>
<!--Jokaiselle entiteetille m
uuttumattom
uus ja mahdollisesti alkuperä
--><rdf:Description
about="#c_01"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description>
74
<rdf:Descriptionabout="#c_02">
<oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description><rdf:Description
about="#c_03"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description><rdf:Description
about="#c_04"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description><rdf:Description
about="#c_05"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description><rdf:Description
about="#c_06"><oais:Provenance_Information>...</oais:Provenance_Information><oais:Fixity>...</oais:Fixity>
</rdf:Description></oma:pres_for_entity>
</oais:Preservation_Description_Information></oais:AIP></oais:Packaging_Information></rdf:RDF>