Download - Digital Arkivering och Lagring
VASA YRKESHÖGSKOLA
Kai Martonen
Digital Arkivering och Lagring
Företagsekonomi och turism
2008
1
VASA YRKESHÖGSKOLA
Utbildningsprogrammet för företagsekonomi
ABSTRAKT
Författare Kai Martonen
Titel Digital Arkivering och Lagring
År 2008
Språk svenska
Sidantal 52
Handledare Kenneth Norrgård
Syftet med detta lärdomsprov är att ge läsaren insikt i riskerna med modern
datalagring och vilka lösningar som finns tillgängliga för enskilda konsumenter
och skapare av digital information. Arbetet omfattar teorier om hur digital
information uppkommer och hur den ändrat förfarandet med hänsyn till lagring
och arkivering. I teoridelen presenteras även tidiga, nutida och framtida
lagringslösningar med deras för och nackdelar. I den praktiska delen av arbetet
undersöks en ny lovande lagringsmetod genom cloud computing.
Ämnesord Data, Lagring, Digital, Information, Cloud, Computing
2
VAASA POLYTECHNIC
Utbildningsprogrammet för företagsekonomi
ABSTRACT
Author Kai Martonen
Topic Digital Archiving and Storage
Year 2008
Language Swedish
Pages 52
Name of Supervisor Kenneth Norrgård
The aim of this thesis is to examine the risks associated with modern data
storage and what solutions are available for the consumer and creators of digital
information. The theory part examines the origins of digital information and
how it has changed procedures when it comes to storage and archiving. Early,
modern and future storage solutions are also explained in the theory part.
Finally, this thesis practically examines a promising storage method using cloud
computing.
Keywords Data, Storage, Digital, Information, Cloud, Computing
3
INNEHÅLL
ABSTRAKT
ABSTRACT
1 INLEDNING 6
1.1 Problemställning 7
1.2 Avgränsning och disposition 7
1.3 Datasäkerhet 7
1.4 Bakgrund 8
2 DIGITALISERING 9
2.1 Ursprunget 10
2.2 Digitala bibliotek 10
2.3 Digitala arkiv 11
2.4 Digitaliseringsmetoder 12
2.5 Kostnadseffektivitet och globalisering 13
2.6 Standardiserade filformat 14
2.6.1 OOXML vs. ODF 15
3 LAGRINGSMEDIA 16
3.1 Magnetisk media 16
3.1.1 Magnetband 17
3.1.2 Hårdskivor 18
3.2 Flashbaserad media 21
3.2.1 SSD minne 22
3.3 Optisk media 23
3.3.1 CD 23
3.3.2 DVD 24
3.3.3 Blu-ray 24
3.4 Framtidens media 25
3.5 Digital lagringskostnader 26
4
4 LÖSNINGAR 27
4.1 Lagringsklimat 28
4.2 Hårdvarulösningar 29
4.2.1 RAID 29
4.2.1.1 RAID 0 30
4.2.1.2 RAID 1 31
4.2.1.3 RAID 5 32
4.2.2 Nätverkslagring 33
4.2.2.1 DAS 34
4.2.2.2 NAS 35
4.2.2.3 SAN 36
4.2.3 Cloud computing 37
5 IMPLEMENTERING AV AMAZON S3 OCH JUNGLE DISK 39
5.1 S3-tjänsten 41
5.2 Jungle Disk 46
6 SLUTORD 53
KÄLLFÖRTECKNING
5
1 INLEDNING
Den tidigaste arkiveringen av digital information gjordes av amerikanska
rymdforskningsinstitutet NASA. Från 50-talet och framåt har de varit i spetsen
för hur data lagras och används. Rymdsonder skickades ut i rymden och dessa
sände tillbaka oersättlig information till jorden, där de lagrades på magnetband
för framtida bruk. (Claesson & Larsson 2001)
Magnetbanden från rymdsonden Voyager I arkiverades i stora klimat-
kontrollerade rum för att dessa skulle hålla så länge som möjligt. Men när
forskarna ett antal år senare skulle analysera dem, visade det sig att stora delar
gått förlorade eftersom man hade glömt bort i vilket format informationen hade
sparats. (Claesson & Larsson 2001)
Några år senare var det Viking sondens tur, denna gång hade man allt under
kontroll, trodde man. När man tog fram magnetbanden märkte man att de hade
börja ruttna och istället för att utföra analyser måste man nu anlita experter för
att återskapa informationen från de förstörda banden. (Stepanek 1998)
En av dessa experter var Jeff Rothenberg som sedan detta uppdrag har jobbat på
problemet med långtidslagringen av digital information. Han myntade
ordspråket, “digital information håller för alltid, eller fem år – beroende på
vilket som kommer först”. (Stepanek 2008)
6
1.1 Problemställning
I dagens samhälle lagrar vi allt mera information och det lagras allt mera
information om oss. Detta tack vare den digitala tekniken. Denna relativt nya
teknik har medfört många nya synsätt på hur information skall hanteras och
lagras för framtiden. Frågan jag ställer med detta arbete är; hur och var bör data
förvaras för att framtidssäkra informationen för kommande generationer? Hur
kan man bäst försäkra sig om att den digitala informationen som skapas idag kan
återskapas i framtiden? Vilka moderna lösningar erbjuder de bästa förhållandena
med tanke på långvarighet, säkerhet, användarvänlighet och kostnad?
1.2 Avgränsning och disposition
Ämnesområden i den teoretiska delen av detta arbete fokuserar på strategier och
lösningar gällande långtidslagring av digital information. De ämnen som arbetet
omfattar är uppkomsten av digital information, lagringshårdvara och
lagringslösningar. I den empiriska delen implementeras och analyseras en av de
senaste och intressantaste lagringslösningarna på en praktisk basis med
tillhörande observationer och kommentarer. Avslutningsvis presenteras
slutsatser och exempel på möjlig fortsatt forskning inom området.
1.3 Datasäkerhet
Datasäkerhet förknippas ofta med åtkomsten av konfidentiell information men
också allt mer med hanteringen och lagringen av informationen. Konfidentiell
information som t.ex. löner och patientjournaler lagras i databaser på servrar.
Även personlig information såsom digitala fotografier och e-post lagras ofta på
hårdskivan i hemdatorn. Det finns många områden som påverkas till olika grad
av övergången från analog till digital information, bland dessa kan nämnas
släktforskning, multimedia, bankärenden, brevväxling och till och med politiska
val i och med elektronisk röstning.
7
1.4 Bakgrund
För att få ett begrepp om hur man skall gå till väga kan man se på den relativt
korta period som digital information producerats och arkiverats, vilka misstag
man begått och vad man kan lära sig av dem.
Då digital arkivering misslyckas finns det ofta en av två bidragande faktorer;
lagringsmediet är fysiskt skadat eller oläsbart på grund av dåliga rutiner, brist på
kunskap eller vilja, eller så är formaten på den digitala informationen
oanvändbar på grund av proprietära och icke standardiserade filformat. (Stander
& Merwe 2002)
Området med att framtidssäkra digital information är nytt och skiljer sig
dramatiskt från tidigare processer med analog media. Till skillnad från rutiner
gällande analog information, där passivitet är nyckeln, kräver den digitala
informationen ständig uppmärksamhet. I och med att existerande arkiverings-
metoder för digital media är relativt osäkra och ständig befinner sig i förändring,
kräver dessa med tiden, en migrering till nyare och bättre lagringsmetoder.
(Stander & Merwe 2002)
Varför övergår man då, i en allt större utsträckning, till digital information?
Hanteringen av digital information, speciellt i stora mängder, är mycket lättare
än dess analoga motpart. Till skillnad från analog media sker dessutom ingen
degradering av den digitala informationen, när man övergår till en ny
arkiveringsform eller lagringsmedia. Eftersom man med digital information kan
producera 100% identiska kopior skapas en redundans som hittills varit omöjlig
när det gäller analog information.
8
2 DIGITALISERING
Digitalisering, som är en stor bidragande faktor till efterfrågan på stabila
långtidslagringslösningar, innebär att man överför analog information till ett
digitalt format. Digital information kan består av binär data, dvs. ettor och
nollor, som inte förändras eller degraderas vid migration från ett lagringsmedia
till ett annat. Motsatsen är analog information där data representeras av fysiska
förändringar i mediet, t.ex. LP-skivor och målningar. Varje kopia av analog
information är olika originalet och i de flesta fallen av sämre kvalitet.
(Emanuelsson 2006)
Idag föds nästan 100% av all ny information digitalt, allt från röntgenplåtar till
sjökort. En stor del av informationen som föds digitalt reproduceras även
analogt, t.ex. böcker, men i en allt större utsträckning finns det information som
bevaras digitalt under hela dess livstid, t.ex. digitala fotografier. (Smith 2003: 4-
10)
9
2.1 Fördelar med digitaliseringen
Digitaliseringen av gammal analog information har flera fördelar. Sökning i det
digitaliserade materialet är enkelt, materialet kan dupliceras oändligt och spridas
över hela världen via t.ex. internet. Digitalisering är även av stort värde vid
exempelvis forskning och undersökning av ett ursprungsmaterial, som inte
skulle tåla den fysiska hanteringen, eller där materialet annars är onåbart.
(Emanuelsson 2006)
2.2 Digitala bibliotek
Det vanligaste digitaliseringsobjektet idag är böcker; bibliotek, frivillig-
organisationer och företag digitaliserar dessa för olika ändamål. Till de större
digitaliseringsprojekten hör bland annat Google Book Search och Project
Gutenberg. Google Book Search har i samarbete med de största biblioteken
runtom i världen redan digitaliserat över 7 miljoner böcker och man skannar
över 3000 böcker dagligen. (Herwig 2007)
Detta har väckt många frågor hos alla inblandade parter. Hur kan man balansera
konsumenternas stora efterfrågan på snabb och effektiv information, samtidigt
som man tar författarnas och förlagens rättigheter i beaktande? Google Book
Search har löst problemet genom att göra böckerna sökbara, men sökresultaten
består endast av ett kort textutdrag ur boken, varefter man satt in en länk till en
bokhandel, där man kan köpa boken i dess helhet, antingen digitalt eller i
analogt format. Denna lösning gäller tillsvidare endast i USA, i resten av
världen erbjuder Google Book Search söktjänster i böcker där upphovsrätten har
upphört. (Herwig 2007)
10
2.3 Digitala arkiv
I Finland är det arkivverket, som består av riksarkivet och alla sju landsarkiv,
som kommit längst med digitaliseringen. År 2007 skannade man det miljonte
dokumentet, Finlands självständighetsförklaring. Även Museiverket och
Nationalbiblioteket har de senaste åren, med uppmuntran från EU, påbörjat
digitaliseringen av sina arkiv, i syftet att säkra det nationella och europeiska
kulturarvet. Riksarkivet i Sverige, som digitaliserar cirka 20 miljoner sidor
årligen, är idag ledande inom digitaliseringsprocessen och har gett Sverige
anseendet som ett genuint informationssamhälle. (Arkivverkets årsberättelse
2007: 8-9)
Arkivverket är idag redo att ta emot digitala handlingar från myndigheter och
organisationer, men detta har försvårats på grund av bristen på standardiserade
filformat och god arkiveringskunskap hos myndigheterna. Ända tills
standarderna är fastslagna och kunskapen finns, måste all digital information
som överlåts till arkivet medföljas med en parallell pappersversion.
(Arkivverkets årsberättelse 2007: 17-18)
Som en pilotstudie har arkivverket gett finska järnvägsverket tillstånd att helt
övergå till en varaktig digital arkivering. Järnvägsverket är en ny myndighet
som grundades 2007 i och med privatiseringen av järnvägarna. I samband med
grundandet av den nya myndigheten beslöts att den skulle ha ett papperslöst
kontor i form av ett elektroniskt ärendehanteringssystem. Detta beslut betyder
att de officiella handlingarna inte behöver förvaras i pappersform eller
digitaliseras i efterhand utan kan direkt undertecknas och arkiveras elektroniskt.
(Arkivverkets pressmeddelande 8/2008)
11
2.4 Digitaliseringsmetoder
Böcker och dokument kan digitaliseras på tre sätt, genom fotografering, manuell
digitalisering eller OCR-mjukvara (Optical Characterization Recognition).
Genom att fotografera varje sida i en bok bygger man upp en digital
representation av boken som sedan kan läsas eller avsökas på t.ex. nätet. Denna
tidiga digitaliseringsmetod har många nackdelar. De digitala bilderna, som ofta
sparas i det okomprimerade men standardiserade TIFF-filformatet (Tagged
Image File Format), tar upp onödigt mycket utrymme och eftersom man inte kan
göra textsökningar på bilder, måste nyckelord manuellt associeras med
innehållet i bilderna. Nuförtiden används denna metod endast när både texten
och de fysiska sidorna är av intresse, t.ex. böcker med illustrationer eller
medeltida verk med artistisk kalligrafi. (Anderson & Tedd 2005: 299)
För att göra innehållet sökbart måste själva texten digitaliseras. Speciellt i de
äldre verken måste man då utföra en manuell digitalisering, vilket innebär att en
person översätter texten med hjälp av ordbehandlingsprogram. Denna metod är
kostsam både i tid och pengar. (Anderson & Tedd 2005: 299)
OCR är en metod som går ut på att ett datorprogram läser sidorna i den
skannade boken eller dokumentet och därefter överför texten till digitaliserad
form. Man överför alltså endast innehållet i texten och inte själva sidan som i
fotograferingsmetoden. OCR-metoden kräver större investeringar i mjukvara,
hårdvara och tar längre tid att utföra än fotografering. Men, med en exakthet på
99,8% är detta den ideala digitaliseringsmetoden, för verk som producerats med
moderna bokpressar och standardiserade typsnitt. (Anderson & Tedd 2005: 299)
12
2.5 Kostnadseffektivitet och globalisering
Att lagra data i ett digitalt format har inte alltid varit det lönsammaste
alternativet, genom tiden har analog media, som t.ex. papper, haft stora
konkurrensfördelar. I mitten av 90-talet, i och med bättre digitala
lagringstekniker, övertog digital lagringsmedia pappret som det kostnads-
effektivaste lagringsmediet, åren därefter följde bild, ljud och video. Detta gav
upphov till nya konsumentprodukter som digitalkameror, mp3-spelare och andra
elektroniska prylar. (Morris & Truskowski 2003: 206)
Även produceringen och spridningen underlättas då informationen befinner sig i
ett digitalt format. Man kan säga att dessa nya kommunikationsmedel är en av
grundstenarna till en den ökande globaliseringen av digitala tjänster.
Digitaliseringen, de nya kommunikationsmedlen och relaterade tekniker ger, ur
ett internationellt perspektiv, en stor kostnadseffektivitet, men samtidigt även
stora omställningssvårigheter. (Miyashita 2003)
För att lösa dessa problem bildades världshandelsorganisationen (World Trade
Organization) i mitten av 90-talet. Organisationen har tre huvudavtal; GATT
(General Agreement on Tariffs and Trade) som reglerar varuhandel mellan
länder, GATS (General Agreement on Trade in Services) som reglerar tjänster
över landsgränser och TRIPS (Trade Related Aspects of Intellectual Property
Rights) som innehåller regler om bland annat upphovsrättsskydd och patent.
(Miyashita 2003)
Det är främst GATS och TRIPS avtalen som påverkar hur användningen av
digitala tjänster används och kommer att användas i framtiden. Den nya
tekniken medför att arbete kan utföras i låglöneländer i realtid för avsevärt
mindre kostnader och att omställningen från analog till digital information
accelereras på en global skala. (Miyashita 2003)
13
2.6 Standardiserade filformat
I inledningen av detta arbete beskrevs hur NASA endast koncentrerade sig på
överlevnaden av det fysiska mediat i sin långtidslagringsstrategi, men snabbt
märkte man att även formatet som innehållet lagrats i påverkar långtids-
lagringen. Om man inte kan läsa innehållet spelar det ingen roll om det fysiska
mediat överlever.
I mitten av 80-talet, i och med persondatorns inträde på marknaden, uppstod det
problem när varje tillverkare av datorprogram föredrog sina egna proprietära
filformat. Hittills hade detta inte varit ett problem, men i och med en ökad
användning av persondatorer, måste standarder för filformat upprättas, så att de
kan avläsas även efter att hårdvaran eller mjukvaran övergetts.
Den internationella standardiseringsorganisationen (ISO) upprättade 1986 en
filformatsstandard för detta ändamål. Det var önskvärt att det rörde sig om ett
filformat som inte var beroende av operativsystem eller program och dessutom
skulle det vara läs- och skrivbart för människor samt enkelt att lära. Man kom
upp med SGML (Standard Generalized Markup Language) som fungerade som
en rosettasten för filformat. (Claesson & Larsson 2001)
När internet slog igenom på 90-talet var det viktigt att alla plattformar skulle
förstå innehållet på webbsidorna. Lösningen var HTML (HyperText Markup
Language) som bygger på SGML-standarden. (Claesson & Larsson 2001)
Mjukvarutillverkare var inte lika öppna till standardisering. De fortsatte att
använda sina egna proprietära filformat i syftet att tvinga konsumenterna att
använda endast program av en specifik tillverkare, ett indirekt tvång som
inverkade negativt på framtidsstödet av digital information. Bästa exemplet av
detta har varit mjukvaruföretaget Microsofts motstånd mot att använda öppna
filformat i sitt kontorspaket Office. (Kosek 2008: 51-55)
14
2.6.1 OOXML vs. ODF
Microsoft har sedan mitten av 90-talet varit ledande inom kontorsapplikationer
med sitt Office-paket. Filformaten har dock alltid varit proprietära, vilket i stort
sett betyder att man är bunden till Microsofts produkter för att läsa och ändra
filerna. Microsoft Office var dock så populärt att dessa filformat, trots deras
proprietära natur, blev en sorts informell standard. (Kosek 2008: 51-55)
Samtidigt utvecklades, baserat på öppen källkod och SGML, en basstruktur för
arkivering av kontorsapplikationsfiler kallad XML. På denna grund skapade
flera av de största aktörerna på webben, bl.a. Google, Sun Microsystems och
IBM, ett öppet filformat för kontorsapplikationer kallat Open Document Format
(ODF). Denna filtyp, som godkändes som standard 2005, specificerade hur
dokument skall formateras så att de lätt kan läsas på webben, utan att behöva
installera kommersiella program. (Kosek 2008: 51-55)
Microsoft insåg snabbt att denna filformatsstandard hotade deras starka ställning
på marknaden, men istället för att adoptera den, föreslog de att deras nuvarande
filformat, OOXML (Office Open XML), skulle standardiseras. Tack vare
Microsofts starka ställning och trots många protester från resten av IT-
branschen, godkändes OOXML våren 2008 under stor dramatik. (Kosek 2008:
51-55)
OOXML har, till skillnad från andra XML-baserade filformat, olika
licensieringskrav, vilket i sin tur medför ett status quo i standardiserings-
processen, när det nu finns två tävlande filformat. Microsofts stängda men
populära OOXML och det öppna men inte långt implementerade ODF. Detta är
ett exempel på hur ekonomiska intressen kan låsa in användare i format vars
framtid inte kan garanteras. (Kosek 2008: 51-55)
15
3 LAGRINGSMEDIA
Lagringsmedia är den fysiska lagringshårdvaran för data. I dag finns endast tre
sätt att lagra digital information på; magnetiskt, med flashminne eller optiskt.
Alla tre metoder har sina egna för- och nackdelar. När man bestämmer sig för
lagringsmedia finns det några faktorer som man måste observera som t.ex.
hållbarhet, framtidssäkring samt kostnad i tid och pengar.
Det har genom tiderna funnit många sorters lagringsmedia och många av dessa
har redan försvunnit. Många lagringsmedia som t.ex. hålkort och disketter har
föråldrats när nya och bättre media tagits fram. Andra försök att introducera nya
lagringsmedium har misslyckats på grund av proprietär teknik, där endast en
tillverkare har tillgången eller rättigheten till teknologin, eller bristen på
standardisering mellan tillverkarna, t.ex. Minidisc och Zip Disk, båda formaten
utvecklade av Sony. (Sorrel 2008)
3.1 Magnetisk media
De stora framstegen inom magnetisk media har spelat en stor roll i utvecklandet
av dagens IT-samhälle. I dagens läge sparas 90% av världens information på
magnetisk media. Magnetisk lagringsmedia delas in i två kategorier, hård media
och mjuk media. Till hård media räknas hårdskivor, till mjuk media räknas
disketter, kasetter och magnetband. All magnetisk media har en yta som är
belagt med ett ferromagnetiskt material. Genom att utsätta mediat för
elektromagnetiska fält, kan digital information lagras eller skrivas över med ny
data. Möjligheten att återanvända mediat, genom att radera gammal data, har
gjort magnetisk media mycket populärt. (Ross & Gow 1999: 1-9; Pinheiro,
Weber & Barroso 2007)
16
Utan uppsyn och skötsel är magnetisk media dock inte ideal för
långtidsarkivering av information. Oavsett media avtar magnetismen med tiden,
mjuk magnetisk media har ett tunnare lager ferromagnetiskt material och avtar
därför snabbare än hård magnetisk media. De kemiska materialen som främst
används i de mjuka magnetiska media orsakar även oxidation och korrosion
vilket påverkar magnetismen negativt. Långtidsförvaring av hård magnetisk
media har också nackdelar eftersom de, förutom oxidation och korrosion, kan få
mekaniska och mjukvarufel. (Ross & Gow 1999: 1-9)
3.1.1 Magnetband
Magnetband hör till de stabilare magnetiska arkiveringsmedia, dess livslängd
kan vara upp till 75 år. Tidiga versioner av magnetband hade dock dåliga
magnetiska egenskaper, vilket ledde till användningen av mera kemikalier,
oxider och järnbaserade partiklar i tillverkningsprocessen. Dessa kemikalier
hade bra magnetiska egenskaper men orsakade polymererna, som håller ihop
själva bandet, att upplösas efter bara några år. Man började då använda tjockare
band, vilket i sin tur ger mindre utrymme för data. Det uppstod t.o.m. företag
som kemisk processade magnetbanden före arkiveringen, i hopp om att de skulle
hålla längre. På 80-talet hade man finslipat magnetbandsteknologin, men då
hade redan hårdskivan slagit igenom. Varför har magnetband då inte en högre
användningsgrad, då den har en god hållbarhet och ett väldigt lågt pris?
(Gilheany 2007; Jääskeläinen 2007: 38; Ross & Gow 1999: 1-9)
Till skillnad från övriga lagringsmedia finns det ingen enhetlig standard på
magnetband. Sedan 1951 har det funnits 33 olika magnetbandsstandarder och
varje tillverkare har sina egna proprietära format. Till varje format krävs även
skild hårdvara, som innebär höga initiella hårdvarukostnader för att skriva och
läsa av den digitala informationen. Dessa formatförändringarna medför därför,
trots magnetbandets relativt goda säkerhet och låga kostnad, en stor risk när det
kommer till långtidsarkivering, speciellt jämfört med hårdskivan. (Brodkin
2008: 22)
17
3.1.2 Hårdskivor
Hårdskivan har länge använts jämsides med magnetband. Den erbjuder till
skillnad från magnetband en snabb och enkel åtkomst av data. Hårdskivor
kräver inte heller skild hårdvara för att läsa eller skriva data, vilket är fallet med
mjuk magnetisk media. Hårdskivan innehåller nämligen färdigt drivmotor, läs-
och skrivhuvud, elektroniska kretsar och mjukvara. All denna mekanik och de
snabbt roterande skivorna medför dock en större risk för komplikationer som
man bör vara medveten om. (Jääskeläinen 2007: 38)
Eftersom hårdskivan oftast är i daglig användning skulle man tro att de även
förstörs lättare. En undersökning gjord av Google mellan 2002 och 2007 visar
att det inte finns någon märkbar skillnad i krascher med hårdskivor i daglig
användning och hårdskivor som arkiverats på bokhyllan. Samma undersökning
visar också att risken för krascher endast ökar marginellt med tiden. Med
moderna hårdskivor kan man räkna med en livslängd på upp till fem år, om de
används dagligen och bevaras under optimala förhållanden. (Pinheiro, Weber &
Barroso 2007)
Diagram 1, risken för hårdskivskrascher ligger mellan 6 och 9 procent per år.
(Pinheiro, Weber & Barroso 2007)
0 %
2 %
4 %
6 %
8 %
10 %
1 år 2 år 3 år 4 år 5 år
18
Ännu på tidigt 90-tal befann sig hårdskivan i utvecklingsstadiet och var långt
ifrån lämplig för långtidsdatalagring. Till de större problemen hörde
sammansmältning av läs- och skrivhuvudet, som sitter på ett avstånd av 15
miljondelar av en millimeter från de snurrande plattorna. De kunde fysiskt fästa
sig vid de snurrande plattorna och orsaka mekanisk skada, s.k. stiction, som
gjorde hårdskivan obrukbar. Moderna hårdskivor sätter automatiskt
skrivhuvudet i viloposition när de inte är i användning. (Ross & Gow 1999: 1-9)
De nya hårdskivor har fått bukt med barnsjukdomarna som plågade de tidiga
hårdskivorna, samtidigt som man sett en signifikant ökning av lagrings-
kapaciteten. Magnetbanden som länge tävlat med hårdskivorna gällande
lagringskapaciteten har lämnat på efterkälken. Mark Kryder från Carnegie
Mellon Universitys Data Storage Systems Center, och numera teknologichef för
Seagate Technologies, den ledande hårdskivstillverkaren, myntade, i mitten av
80-talet, Kryder’s Law: mängden data som kan sparas på en hårdskiva,
fördubblas varje år. (Walter 2005: 32-33)
Diagram 2, lagringskapacitetens utveckling för hårdskivor. (Walter 2005: 33)
0,01
0,1
1
10
100
1000
1980 1985 1990 1995 2000 2005 2010
GB
1980 1985 1990 1995 2000 2005 2010
GB
19
Mätestickan för lagring är dock inte lagringskapacitet utan kostnad per gigabyte.
Följande är utvecklingen och prognosen för kostnad per gigabyte för hårdskivor
från 1992 till 2010. (Gilheany 2003)
Diagram 3, hårdskivans kostnadsutveckling i euro per gigabyte. (Gilheany
2003)
Utvecklingen visar en kostnadsminskning på 45 procent per år. Idag är
hårdskivan den mest kostnadseffektiva metoden för arkivering av digital
information.
20
3.2 Flashbaserade minnen
Flashminnen bygger på transistorteknik och följer därför Moore’s Law som
säger att transistorernas effektivitet fördubblas vartannat år. Transistorer, eller
halvledare som de också kallas, är grundstenen inom modern elektronik och
väldigt flexibla. Vanligtvis används transistorer för databeräkning men i och
med den snabba utvecklingen används de i allt större grad även för datalagring.
Flashminnen består av miljontals transistorer som håller en svag elektrisk
laddning beroende på om de representerar en binär etta eller nolla. (Walter 2005:
32-33)
Till denna minnestekniks fördelar hör en snabb läs- och skrivhastighet, en låg
energikonsumtion och låga produktionskostnader, därför används den för
lagring av digital information i vardagselektronik, där dessa egenskaper har stor
betydelse, t.ex. mp3-spelare, digitalkameror och USB-stickor.
Nackdelarna är den relativt låga lagringskapaciteten, att de påverkas av
magnetiska störningar, t.ex. statisk elektricitet och det faktum att den svaga
elektriska laddningen i transistorerna långsamt avtar med tiden, man kan räkna
med att ett flashminne inte behåller data längre än tio år. Det största problemet
med flashminnen är dock att de har ett begränsat antal skriv- och läscykler.
Dessa nackdelar har kanske påverkat möjligheten att använda flashminnen för
långtidsdatalagring, men de många fördelarna har förstärkt denna teknologis
popularitet i vardagligselektroniken, där långtidsdatalagringen inte är av stor
betydelse. (Lai 2008)
21
3.2.1 SSD-minne
SSD (Solid State Drive) bygger på samma transistorteknik som flashbaserade
minnen, men är anpassade för användning i bärbara datorer. Eftersom de inte
har några rörliga delar, t.ex. snurrande skivor, läs- och skrivhuvuden, är de
mycket robusta och energisnåla, vilket i sin tur betyder bättre stöttålighet och
batteritid. (Jääskeläinen 2007: 38)
Utåt påminner SSD-minnet om en vanlig hårdskiva, men består egentligen av en
mängd mindre flashminnen. Tack vare flashteknikens robusthet har SSD-
minnen använts i rymdforskningen, sjöfarten och räddningsverksamhet i åratal,
t.ex. svarta lådor i flygplan. Jämfört med hårdskivor tål de även höga
temperatur- och tryckskillnader. Vanliga hårdskivor kan inte användas på höjder
högre än 3 kilometer eftersom tryckskillnaden ändrar fysiskt hårdskivans
karaktär. (Jääskeläinen 2007: 38)
Det finns många fördelar med SSD-minnen, de är snabbare, tystare och kan ta
mera stryk än hårdskivor, men de har samma problem som flashminnen,
nämligen en begränsad livslängd. Beroende på tillverkare utlovas 1-5 miljoner
skriv- och läscykler, vilket är betydligt mindre än hårdskivor. SSD-minnen
befinner sig dock i en tidig utvecklingsperiod och elektroniken i nyare SSD-
minnen styr minnet så att varje transistor är i lika stor användning, detta
resulterar i att minnet tärs jämnare. SSD-minnen med mindre lagringskapacitet
tärs således också snabbare än de med större kapacitet. (Jääskeläinen 2007: 38)
Utvecklingstakten är som sagt fortfarande hög inom flashminnesteknologin och
2008 började man sälja bärbara konsumentdatorer med denna teknik. Det går
även att köpa hybridskivor som består till hälften av SSD-minne och andra
hälften av en vanlig hårdskiva. SSD-minnen har ungefär samma förutsättningar
för långtidslagring av data som magnetisk och optisk media, kostnaden är dock
ännu för hög. (Jääskeläinen 2007: 38)
22
3.3 Optisk media
Optisk lagring använder sig av laser för att skriva och läsa digital information.
På grund av att de flesta optiska media inte kan återanvändas kallas detta format
WORM (Write Once, Read Many), det finns dock versioner som kan
återanvändas, men livslängden och antal skrivcykler på dessa är långt ifrån
optimala. (Jääskeläinen 2007: 38)
3.3.1 CD
CD-skivan (Compact Disc) var en av de första optiska lagringsmedia som
standardiserades och introducerades i slutet av 80-talet. Dessa tidiga versioner
av CD-skivan var inte anpassade för lagring, men tio år senare hade tekniken
mognat och priserna sjunkit till den grad att man började använda dem för
dagliga lagringsändamål. CD-skivor kommer i ett antal olika format varav CD-r
och CD-rw är de vanligaste, det sistnämnda formatet kan återanvändas men har
en betydligt kortare livslängd. (Emanuelsson 2006)
Tyvärr gjorde man kostnadsinbesparingar genom att använda billiga material-
kombinationer som zink, aluminium och plast, istället för den optimala material-
kombinationen guld och glas. Tidiga CD-skivor hade, och billiga CD-skivor har
än idag, problem med oxidation. Även de tryckta etiketterna på skivorna kan
medföra kemiska reaktioner som försämrar eller förstör läsbarheten. CD-skivor
av god kvalitet är svåra att hitta och oftast mer än dubbelt så dyra som de billiga.
Man kan därför säga att den teoretiskt förväntade livslängden på 20-50 år i
verkligheten bara är ungefär 10 år. (Emanuelsson 2006)
Med endast 600 megabyte utrymme och en relativt kort fysisk livslängd, i
kombination med allt större filstorlekar och mängd digital information som
skulle sparas, gav CD:n snabbt vika för DVD:n. (Emanuelsson 2006)
23
3.3.2 DVD
DVD, eller Digital Versatile Disc, introducerades i mitten av 90-talet och hann
snabbt ikapp CD:ns popularitet. DVD:n bygger på samma teknologi, men dess
lagringskapacitet överstiger CD:ns 7 till 14 gånger om. Till skillnad från CD:n
använder DVD:n ett flertal lager för att lagra data, detta ger DVD:n en kapacitet
på 4,5 och 9 gigabyte, beroende på antal lager. (Emanuelsson 2006)
Både CD:n och DVD:n är format som länge föredragits av musik- och
filmbranschen. Eftersom både CD:n och DVD:n hade ett stort genomslag på
marknaden och de sedan länge är etablerade format, kan man säga att deras
tekniska livslängd är god, dvs. stödet för formaten är starkt förankrat. Tyvärr
lider de båda formatens fysiska livslängd på grund av billiga produktions-
metoder och material. (Emanuelsson 2006)
3.3.3 Blu-ray Disc
Blu-ray är den senaste generationen optisk media, och förkortas BD. Precis som
CD och DVD finns det flera format av Blu-ray, det vanligaste formaten håller
25 eller 50 gigabyte data. Beroende på antal lager kan en Blu-ray skiva hålla upp
till 8 lager data vilket skulle ge möjligheten att lagra upp till 200 gigabyte på en
skiva. Vi befinner oss ännu i ett tidigt skede i utvecklingen av denna teknik och
kostnaderna är ännu höga, man har dock lärt sig av de tidiga problemen med CD
och DVD-formaten. Blu-ray konsortiet, som kom upp med formatet, kräver att
tillverkarna av skivorna måste hålla sig till strikta standarder, med godkända
material och kemikalier i tillverkningsprocessen, som inte fräter eller oxiderar
skivan. (Järvinen 2008: 26)
Som man lärt sig av tidigare lanseringar av lagringsmedia som senare
misslyckats, är det inte själva tekniken som avgör om det lyckas utan
implementeringen kring det nya formatet. Det är ännu för tidigt att säga om Blu-
ray formatet har en strålande framtid, eller om det är en teknik som håller mera
än den kan lova.
24
3.4 Framtidens media
Enligt många är det omöjligt för lagringskapaciteten i magnetisk media att
fördubblas varje år, ifall inte nya lagringsmetoder utvecklas. Den teknik som
används i dagens lagringsmedia har krympt till den partikelstorlek, att det är
svårt att rymma data på det minimala fysiska utrymmet, utan att de olika
magnetiska mönstren börjar påverka varandra eller inte går att avläsa. (Bartels
2001)
Teorin om holografisk lagring har funnits i decennier men först nu har man
börjat inse att utvecklingen måste påskyndas. Holografisk lagring bygger på
optisk lagring, men istället för endimensionell media (t.ex. CD- och DVD-
skivor) använder man tredimensionell lagring. Utvecklingen är ännu i ett så
tidigt stadium att man inte bestämt sig för hurudant format mediat kommer att
ha eller vilket material det kommer att bestå av, de tidiga prototyperna av
holografisk media har varit i skivformat. Problemet man stött på, är att utveckla
ett material som det går att lagra holografisk data på, men som inte sönderfaller i
samma takt som andra optiska media. (Ashley 2000: 341)
25
3.5 Digitala lagringskostnader
Ur nedanstående diagram, gällande lagringskostnader, kan man se att den
magnetiska lagringstekniken är förmånligast per gigabyte, följt av optiska och
flashminnestekniken. Magnetbanden är billigast, men hårdvaran som krävs till
dessa kan kosta flera tusen euro. De optiska skivorna kräver också skild
hårdvara för att läsas och skrivas, men de är betydligt billigare. När det gäller
hårdskivor och flashminnen ger diagrammet en exakt kostnad, då dessa kan
användas utan någon extra hårdvara.
Diagram 4, lagringskostnader för olika media. (Tudor 2005; Järvinen 2008: 26)
0,00 € 0,50 € 1,00 € 1,50 € 2,00 € 2,50 € 3,00 €
CD-R
DVD-R
DVD-r 2
BD-R
BD-R 2
Flash
SSD
Hårdskiva
Magnetband
26
4 LÖSNINGAR
Val av rätt media och hårdvara är inte den slutgiltiga lösningen för
långtidslagring av digital information. Eftersom ingen av de nuvarande
lagringsmedia teknikerna kan garantera att de håller data över en längre tid
krävs det även bra strategier för långtidslagring.
De ord som man stöter mest på när man pratar om datalagringslösningar och
strategier är redundans, diversifiering och migrering. Redundans går ut på att ha
fler än en kopia på den lagrade informationen, detta benämns ofta också som
säkerhetskopior. Säkerheten ökar dock inte ju fler kopior man har, kopiorna
måste även vara så diversifierade som möjligt. (Kennedy 2008: 34-35)
Diversifiering betyder lagring av viktig data på olika lagringsmedia i olika
fysiska utrymmen. Om alla säkerhetskopior är lagrade på samma sorts media
och även i samma fysiska utrymme sker en drastisk minskning av säkerheten.
Orsaken är att om det uppstår fel i lagringsmedia, ökar risken att felet upprepar
sig i de andra medierna av samma typ och om alla säkerhetskopior bevaras i
samma utrymmen kan de förstöras i t.ex. en brand eller naturkatastrof. (Kennedy
2008: 34-35)
Migrering är en viktig strategi för långtidslagring av digital information och går
ut på att överföra data från en, oftast äldre lagringsmedia, till en nyare. Själva
proceduren är lätt, eftersom den nya lagringsmedia oftast har större kapacitet
och är både billigare och snabbare. Det svåra är att finna rätt tid för migreringen,
man kan inte vänta för länge, tills det inte finns något stöd för den äldre
lagringsmedia eller den förstörts. Man kan inte heller migrera för ofta, eftersom
detta leder till onödiga kostnader. (Tristram 2002: 36-43)
Det gäller alltså att hitta rätt balans mellan redundans, diversifiering och
migrering samtidigt som man tar kostnad, livslängd, åtkomst och andra
riskfaktorer i beaktande. (Kennedy 2008: 34-35)
27
4.1 Lagringsklimat
Uppbevaring av digital lagringsmedia kan delas in i två metoder, passiv och
aktiv. Den passiva lagringsmetoden påminner mycket om hur analog
information uppbevaras; ostört i kalla och mörka klimatkontrollerade utrymmen.
Vid aktiv uppbevaring är lagringsmediet i ständig användning och kräver därför
extra säkerhetsåtgärder.
För passiv uppbevaring gäller det, för såväl analoga som digitala lagringsmedia,
att ha ett lämpligt lagringsklimat, så att deras fysiska livslängd skall hållas så
lång som möjlig. Dessa utrymmen bör ha en kontrollerad luftfuktighet, under
60%, och en temperatur några grader under vanlig rumstemperatur. Stora
temperatur och luftfuktighetsskillnader bör också undvikas. Optisk
lagringsmedia skall helst förvaras i något svalare utrymmen medan magnetisk-
och flashmedia även bör skyddas mot elektrostatisk och magnetisk påverkan.
(Arkivverkets föreskrifter 2007, 15)
En fördel med magnetisk lagringsmedia är att de, istället för att vara inlåsta i
arkiv, ofta är i flitig användning. En stor del hårdskivorna som används för
arkiveringsändamål är kopplade till nätverk, ofta i serverutrymmen. Dessa
utrymmen måste därför uppfylla högre krav än de som är anpassade för passiv
långtidslagring. Bland annat krävs strömtillförsel som inte fluktuerar eller bryts
vid eventuella strömavbrott. Lagringsmedia i aktiv användning kräver också
speciella brandsläckningssystem för elektronik, skydd för elektromagnetiska
störningar och ett luftkylningssystem så att man undviker överhettning.
(Shimonski 2003: 47-48)
28
4.2 Hårdvarulösningar
De flesta stora datortillverkare erbjuder lösningar för datalagring och nästan alla
är baserade på magnetisk lagringsmedia. Mindre företag och privatpersoner där
kostnaden spelar en stor roll och där den lagrade informationen är av mindre
betydelse kan använda sig av optiska lagringsmedia.
Moderna datalagringslösningar bygger på tre metoder, RAID, Nätverkslagring
och Cloud computing. Dessa tre metoder löser problemen med redundans,
diversifiering och migrering till olika grad och alla bygger de på nätverks-
teknologi. (Bartels 2007)
4.2.1 RAID
RAID (Redundant Array of Independent/Inexpensive Disks) var en av de första
largringslösningarna som började erbjudas i början av 90-talet. Genom att
använda sig av ett flertal koordinerade hårdskivor ger RAID en redundans som
en ensam hårdskiva inte kan ge, dessutom ger användningen av RAID-lösningar
bättre prestanda, speciellt snabbheten att läsa och skriva data när de används i
videoediteringssyfte. Det finns flera olika implementeringar av RAID beroende
på om det är effektiviteten eller säkerheten som prioriteras. (Morris &
Truskowski 2003: 206)
29
4.2.1.1 RAID 0
RAID 0 är den enklaste lösningen och ger ingen egentlig säkerhetsförbättring,
trots att den använder sig av flera hårdskivor, tvärtom ökar säkerhetsrisken.
Eftersom moderna hårdskivor har flaskhalsar, i och med begränsade läs- och
skrivhastigheter, är de inte ideala för t.ex. editering av stora högupplösta
videofiler. Genom att använda ett flertal hårdskivor i RAID 0 konfiguration,
fördubblas hastigheten då flera hårdskivor delar på bördan, men eftersom
hårdskivorna innehåller gemensam data, går allt förlorat om en av hårdskivorna
skulle råka krascha. Ju fler hårdskivor som tillsätts desto bättre prestanda, men
även en större risk för krascher och förlorad data. Vid användningen av RAID 0
bör den digitala information som producerats därför genast överföras till en
lösning där lagring är prioriterad. (Farley 2002: 159-207)
Bild 1, RAID 0 konfigurering.
RAID 0
DISK 0 DISK 1
30
4.2.1.2 RAID 1
RAID 1 innebär en spegling eller kloning av data över två eller fler hårdskivor,
det som skrivs på den primära hårdskivan överförs bit för bit till den, eller de,
sekundära hårdskivorna. Detta ger en dubbel redundans, men ingen
diversifiering. Denna sorts RAID-lösning är bäst då en hårdskiva kraschar eller
andra problem uppstår. (Farley 2002, 159-207)
Denna RAID-konfiguration används ofta i företag och organisationer där det är
viktigt att snabbt komma tillbaka efter en krasch. Beroende på vad som
prioriteras kan man säkerhetskopiera hela system inklusive operativsystem och
programvara eller endast den viktiga informationen. Den senare versionen tar
upp mindre utrymme, men ominstallationen av programvaran är en extra
kostnad både i tid och pengar, vilket många helst vill undvika. (Farley 2002:
159-207)
Bild 2, RAID 1 konfigurering.
RAID 1
DISK 0 DISK 1
31
4.2.1.3 RAID 5
RAID 5, eller egentlig RAID, använder sig av tre eller flera hårdskivor, men
lagringskapaciteten är procentuellt mindre än andra RAID-lösningar. Varje
hårdskiva har en ständigt uppdaterad checksumma för innehållet i de andra
hårdskivorna och om en hårdskiva skulle råka krascha, kan man genom
informationen i de andra checksummorna återskapa den förlorade datan. RAID
5 är den säkraste och mest förekommande lösningen för datalagring och erbjuds
i ett flertal former från datortillverkare. (Farley 2002: 159-207)
Bild 3, RAID 5 konfigurering.
Nackdelen med denna lösning är att den är långsam, svår att implementera och
oftast inte tillräckligt fysiskt diversifierad. RAID 5 löser problemet med
redundans och migrering men bara delvis diversifieringen. RAID-lösningar
bevaras ofta i samma fysiska utrymmen, bränder, magnetiska och elektriska
störningar och liknande fall påverkar på så vis hela populationen av
lagringsmedia och inte enskilda media. (Farley 2002: 159-207)
DISK 0 DISK 1 DISK 2 DISK 3
RAID 5
32
4.2.2 Nätverkslagring
Användning av nätverk för lagringsändamål har länge varit aktuellt, men inte
alltid praktiskt. I och med bättre ethernet tekniker, såsom gigabit ethernet, är
nätverkslagringslösningar nu mycket populära. Det är inte längre stora företag
som använder sig av filservrar för åtkomsten av information, denna teknik har
även börjat uppenbara sig i våra hem tack vare en stor ökning av digital
multimedia. Det räcker inte längre att bara ha en hylla för DVD-filmer,
nuförtiden förses nästan all hemelektronik med nätverksportar för uppkoppling
mot resten av hemelektroniken, inklusive lagringsmedia. Vi vill ha
informationen snabbare, enklare och överallt. Det finns tre olika nätverks-
lagringslösningar som används idag och de kan i sin tur ha olika RAID-
konfigurationer, oberoende av åtkomstsätt. (Alabi 2004)
33
4.2.2.1 DAS
DAS (Direct Attached Storage) är den enklaste lösningen och går ut på att
lagringsmedia kopplas upp mot en server eller dator i ett nätverk. Lagringsmedia
är inte direkt uppkopplad till nätverket och kan inte nås om servern eller datorn
är urkopplad. För att komma åt den lagrade informationen måste klienten ha
behörighet till servern eller datorn, som i sin tur överför data från lagringsmediet
genom en ethernet anslutning. Servern eller datorn använder eget operativ-
system för att konfigurera den externa lagringsmedia. (Alabi 2004)
DAS
Bild 4, DAS arkitektur.
Denna lösning passar för hemmanätverk och mindre företag med få servrar.
DAS är svår att skala uppåt och om man räknar med att utöka antalet servrar bör
man satsa på NAS eller SAN-lösningar. (Alabi 2004)
34
4.2.2.2 NAS
Ethernet NAS (Network Attached Storage) kan vara allt ifrån en hårdskiva, en
grupp hårdskivor eller en filserver, med eller utan RAID-konfiguration som
kopplats upp mot ett nätverk. Till skillnad från en DAS är lagringsmedia direkt
uppkopplat mot nätverket och fungerar som en dedikerad filserver, med ett eget
IP-nummer, enligt klient-server modellen. Det är sedan möjligt för personer med
åtkomst till nätverket att använda den för datalagring. (Alabi 2004)
Ethernet NAS kan ha flera konfigurationer, den används ofta som ett område för
säkerhetskopierade filer, medan originalen finns på den lokala hårdskivan. På
läroanstalter används denna lösning ofta som lagringsutrymme för studerande.
Eftersom ethernet NAS har sitt eget multiplattform operativsystem, är det
möjligt för datorer med olika filsystem, t.ex. Windows, Mac och Unix, att
använda sig av denna lösning samtidigt. (Alabi 2004)
NAS
Bild 5, NAS arkitektur.
35
4.2.2.3 SAN
SAN (Storage Area Network) är steget upp från en NAS och består av flera
ihopkopplade datalagringsenheter över ett eget nätverk, ofta ljusfiber-
kabelnätverk. Denna lösning kan hantera stora datamängder som används av
bl.a. internet operatörer, mediebolag och superdatorer på forskningsanstalter
med stora lagrings- och distributionsbehov. (Alabi 2004)
Genom att använda sig av egna nätverk belastar inte SAN-lösningen existerande
nätverk. SAN-lösningar används ofta som lastbalanserare i stamnät för att jämna
ut trafiken till populära eller överbelastade servrar. Till skillnad från DAS och
NAS fungerar SAN inte på filsystemsnivå, utan överför alltid stora block av
data, istället för enskilda filer. (Alabi 2004)
SAN
ASIEN
EUROPA
USA
Bild 6, SAN arkitektur.
36
4.2.3 Cloud computing
Trenden bland såväl företag som privatpersoner är att köpa nättjänster, istället
för att själva sköta driften av dyra servrar och krångliga applikationer.
Nättjänster är ofta mera kostnadseffektiva och låter företagen rikta in sig på sin
kärnverksamhet, istället för underhåll av sina egna IT-system. Dessutom
erbjuder de säkerhet genom redundans, diversifiering och migrering.
(Danielsson 2008)
Enligt en undersökning gjord av InformationWeek är lagring, arkivering och
säkerhetskopiering den tjänst som företag är mest intresserade av att utlokalisera
till utomstående nätföretag. (George 2007: 40)
Diagram 5, intresse för utlokalisering av tjänster på nätet, på skalan 0 till 5
(George 2007: 40)
0 1 2 3 4
Säkerhet och administration
Databaser
Server utrymmen
Databeräkning
Servrar
Kontorsapplikationer
Lagring och arkivering
2,6
2,7
2,8
2,9
3,0
3,2
3,3
37
Cloud computing beskriver användningen av internet för de saker som tidigare
krävde installerad programvara på en lokal dator, server eller nätverk. Internet,
som i diagram ofta illustreras som ett moln, har flyttat fokusen från traditionella
mjuk- och hårdvaruprodukter till nätbaserade tjänster. Denna, relativt snabba
anpassning till nättjänster, har skapat många nya företag samtidigt som de
traditionella IT-företagen har haft stora anpassningsproblem. (Danielsson 2008)
Bland de första tjänster som flyttade ut på nätet var e-post och idag sker
majoriteten av e-post-trafiken via webbmail. Fördelen med webbmail är att
användaren har tillgång till sin e-post var än han eller hon befinner sig och
dessutom behöver man inte bekymra sig om säkerhetskopiering eftersom de
flesta nättjänster sköter säkerhetskopieringen för en. Nackdelen är tillgången till
tjänsten om denna ligger nere en längre tid, nättjänsteföretaget går under eller
om användaren saknar internetanslutning. Detta kan dock undvikas genom att
synkronisera innehållet på nätet med den lokala datorn. (Danielsson 2008)
Det är inte bara e-post som flyttat ut på nätet, vanliga redskapsprogram och
andra icke processorintensiva program används i allt större utsträckning på
nätet. Affärsmodellen för dessa tjänster går vanligen ut på reklamfinansiering
eller abonnemang. Den information som produceras, vare sig det är e-post,
textdokument eller kalkylblad, sparas även de på nätet. Nätföretaget Google,
som är ledande inom cloud computing, erbjuder upp till 7 gigabyte
lagringsutrymme för sina fria nättjänster, utrymmet går dock att utökas mot
betalning. För företag och privatpersoner är detta dock inte tillräckligt, eftersom
de ofta har mycket större behov. (George 2007: 40)
38
5 IMPLEMENTERING AV S3 OCH JUNGLE DISK
Nätföretaget Amazons S3-tjänst (Simple Storage System), är ett populärt
multiplattformsystem för säkerhetskopiering och arkivering. Denna nättjänst
introducerades i USA i början av 2006 och i Europa i slutet av 2007. Företaget
har lång erfarenhet och en bra utbyggd infrastruktur för digital arkivering.
(Chaganti 2008)
Jämfört med andra stora konkurrenter som erbjuder datalagring på webben är
Amazons priser bara en bråkdel och baserar sig på den mängd data som laddas
upp, sparas och laddas ner. Den initiella kostnaden är hög eftersom det oftast är
en stor mängd data som överförs, men när allt väl är säkerhetskopierat är det
endast filer, där ändringar ägt rum, som uppdateras på S3. (Chaganti 2008)
Redundans uppkommer genom en RAID 5 konfigurering på Amazons servrar.
Problemet med diversifiering löses genom att distribuera den lagrade datan
mellan s.k. serverfarmer runtom i världen via en SAN och migrering underlättas
av att man använder standardiserade internetprotokoll. (Chaganti 2008)
Amazon S3 erbjuder endast lagringtjänster, hur man väljer att kommunicera
med tjänsten är upp till användaren själv. Genom att erbjuda programutvecklare
en API (Application Programming Interface) har Amazon gett tredje parter
möjlighet att utveckla och erbjuda klientprogram som sköter kommunikationen
mellan användaren och tjänsten. Det finns flera olika sorters program,
användargränssnitt och protokoll att välja emellan, beroende på användarens
behov. Man har utvecklat allt från webbapplikationer och FTP-lösningar (File
Transfer Protocol) till säkerhetskopierings- och synkroniseringsprogram för
kommunikation med tjänsten. (Chaganti 2008)
39
Eftersom Amazon S3 är en internetbaserad lagringstjänst är det även möjligt att
direktlänka till filer. Själva webbutiken Amazon.com och andra populära sidor
använder S3-tjänsten när de serverar informationen till sina besökare. Genom att
använda S3 som en CDN (Content Delivery Network) underlättas nerladdningen
av bland annat bilder, som vanligtvis kräver stor bandbredd. Genom att sprida ut
bilderna på S3 servrar runtom i världen laddas de ner från den närmast belägna
serverfarmen. (Chaganti 2008)
Jag har i denna del av lärdomsprovet implementerat en Amazon S3-lösning med
det kommersiella programmet Jungle Disk som erbjuder mångfaldiga funktioner
till Amazons S3-tjänst.
40
5.1 S3-tjänsten
S3 är en av flera tjänster som erbjuds av Amazon Web Services (AWS).
Registreringen är enkel och sker på internetadressen http://aws.amazon.com/s3/.
Alla transaktioner är SSL krypterade med 128-bitar och certifierade av Verisign.
Denna procedur utförs endast då ett nytt konto skall registreras, konfigureringen
av S3-tjänsten utförs på klientsidan.
Bild 7, registrering vid Amazons S3-tjänst.
41
Betalning sker via kreditkort, direktdebitering från bankkonto eller via Amazons
eget betalsystem. Prissättningen varierar beroende på var man vill att den
fysiska lagringen skall ske men transaktionerna beräknas alltid i amerikanska
dollar. Kostnaden för tjänsten är något lägre i USA på grund av bättre utbyggd
infrastruktur och mera konkurrens. Det är dock möjligt för europeiska användare
att lagra data på de billigare amerikanska servrarna, men på grund av de långa
avstånden kommer tjänsten då att vara långsammare.
Bild 8, debitering i S3-tjänsten.
42
Debiteringen sker månadsvis och baserar sig på flera faktorer. Priset beräknas
huvudsakligen på mängden gigabyte data som lagras på kontot. Detta pris
varierar beroende på den totala mängd data som lagras. Den lägsta nivån man
kan få mängdrabatt på är 50 terabyte, vilket i praktiken betyder att endast
företag omfattas av rabatten.
Lagring USA Europa
< 50 TB 0,15 0,18
50 - 400 TB 0,14 0,17
400 – 500 TB 0,13 0,16
> 500TB 0,12 0,15
Tabell 1, månadskostnad i dollar för lagring per gigabyte.
Den andra faktorn som påverkar priset är transportkostnaden. Detta är en
engångskostnad och beräknas per gigabyte som laddas upp till tjänsten.
Beroende på hur ofta säkerhetskopieringar eller uppdateringar görs kan denna
kostnad variera stort.
Uppladdning USA Europa
0,10 0,10
Tabell 2, uppladdningskostnad i dollar per gigabyte.
43
Nerladdningskostnaden är något högre än uppladdningskostnaden eftersom det
då är Amazons servrar som sköter transporten. Det är även möjligt att få
mängdrabatt på nerladdnings-kostnaderna, detta baseras då på mängden terabyte
per månad som laddas ner. De stora datamängderna det är frågan om betyder att
det igen främst är företag som omfattas av rabatterna.
Nerladdning USA Europa
< 10 TB 0,17 0,17
10 – 50 TB 0,13 0,13
50 – 150 TB 0,11 0,11
> 150 TB 0,10 0,10
Tabell 3, nerladdningskostnad i dollar per gigabyte.
Om S3-tjänsten används för lagring för webbinnehåll, t.ex. multimedia, som
tillgås direkt från Amazons servrar, kan nerladdningsmängden bli mycket stor.
Flera largringskrävande webbsidor använder sig av S3-tjänsten, bland annat
använder många webbalbum tjänsten för att servera digital fotografier.
Om S3-tjänsten används för servering av webbinnehåll tillkommer en liten
extrakostnad som baserar sig på antalet kommandon som skickas till Amazons
servrar. Om en besökare till ett webbalbum efterfrågar ett fotografi, skickas ett
GET kommando till S3-tjänsten. Denna lilla extrakostnad beräknas per 10 000
efterfrågningar.
Kommandon USA Europa
1.000 CUT, COPY, POST och LIST kommandon 0,01 0,01
10.000 GET och övriga kommandon 0,01 0,01
DELETE kommandot 0,00 0,00
Tabell 4, kostnad i dollar för utförande av kommandon.
44
När man registrerat ett konto på S3-tjänsten får man ett användarnamn och
lösenord, men på grund av säkerhetsrestriktioner får man inte själv välja dessa.
Access Key ID fungerar som användarnamn och Secret Access Key som
lösenord. Det är dock möjligt att ha flera lösenord till ett konto om man har flera
användare.
Bild 9, användarnamn och lösenord.
45
5.2 Jungle Disk
Nästa steg är att installera ett program som skall sköta kommunikationen mellan
den lokala datorn och S3 tjänsten. Det längst utvecklade programmet för detta
ändamål är Jungle Disk som kan laddas ner från http://www.jungledisk.com/.
Bild 10, installation av Jungle Disk.
Jungle Disk är ett kommersiellt program med en engångskostnad på 20
amerikanska dollar, men finns även tillgänglig som en demoversion som är aktiv
i 30 dagar. Programmet är multiplattform vilket betyder att den kan köras på
Microsoft Windows, Apple OS X och Unix/Linux operativsystem. Jungle Disk
är inte bundet till antalet användare, endast till ett specifikt konto på Amazon
S3. Detta betyder att det kan köras av flera användare samtidigt, så länge de är
uppkopplade till samma Amazon S3 konto.
46
Alternativa program är Bucket Explorer som kostar 50 dollar eller S3Drive som
har öppen källkod och är gratis. Eftersom S3 tjänsten är så flexibel finns det
även program som ger tillgång till S3 kontot som kan köras via kommandolinjen
i DOS och Linux. Det finns även FTP-program, plug-ins för webbläsare och
java-klienter på webbsidor som kan ge tillgång till S3 kontot.
Det finns tre versioner av Jungle Disk. Desktop versionen är till för
privatanvändare, workgroup versionen riktar in sig på företag och home server
versionen säkerhetskopierar informationen på en hemserver eller NAS. Detta
arbete gjordes i hemmiljö och således valdes desktop versionen.
Bild 11, användarnamn och lösenord.
För att få tillgång till lagringsutrymmet på Amazons servrar fyller man i Access
Key ID och Secret Access Key som man fick när man registrerade sig vid
tjänsten.
47
Konfigureringsmenyn ger tre alternativ till hur Jungle Disk kan användas. Man
kan bestämma vilka mappar som automatiskt skall säkerhetskopieras till S3,
detta alternativ väljs om man inte manuellt vill flytta över filer. Eftersom
säkerhetskopieringen sker automatiskt kan det vara svårt att hålla uppsyn över
vilka filer och hur mycket information laddas upp till S3. Man kan dock
bestämma om hur ofta och om det bara är ändrade filer som skall laddas upp.
Bild 12, konfigurering av Jungle Disk.
Det andra alternativet är att använda S3 som ett virtuellt nätverksområde. I
denna konfiguration syns S3 som ett eget område, med mappar och filer, i den
lokala filhanteraren. Det går även att använda en kombination av båda. I detta
arbete används alternativ två där S3 agerar som ett eget nätverksområde.
48
Eftersom S3 fungerar globalt måste man bestämma var geografiskt det är bäst
att lagra informationen. I detta arbete, där S3 simuleras som ett lokalt
nätverksområde, prioriteras snabbheten, därför väljs Amazons europeiska
serverfarmer, trots något högre lagrings- och transportkostnader.
Bild 13, geografiska lagringsplatser.
49
Nästa steg i processen är att namnge det simulerade lokala området som
kommer att synas i filhanteraren, i detta arbete namnges området Jungle Disk.
Amazon S3 erbjuder ingen kryptering så eventuell känslig information måste
krypteras före den laddas upp. Jungle Disk ger användaren två alternativ när det
kommer till kryptering. Antingen är det endast uppladdningen som är krypterad
eller så krypteras både uppladdningen och all den information som lagras på
tjänsten. Jungle Disk använder sig av en 256-bits AES krypteringsalgoritm och
ingen annan än användaren har åtkomst till den krypterade informationen, inte
ens Amazon.
Bild 14, kryptering.
Den konfiguration som används i detta arbete är till för hemanvändare så
snabbheten prioriteras högre än säkerheten, därför väljs standard alternativet där
endast uppladdningen är krypterad.
50
Nu är Jungle Disk färdigt konfigurerad. Om man vill ändra t.ex. namn på
området, antalet områden eller kryptering kan man göra det i efterhand i
applikationsfönstret.
Bild 15, konfigurationen färdigställd.
Jungle Disk fungerar i bakgrunden och kräver endast lite processorkraft.
Programmet startar upp automatiskt och påminner användaren om sin närvaro
genom en liten ikon i aktivitetsfältet.
51
När Jungle Disk är rätt installerat syns lagringsutrymmet S3 som ett eget område
i filhanteraren. Härefter kan man manuellt flytta över viktiga dokument till och
från det nya området.
Bild 16, Jungle Disk i filhanteraren.
Amazon S3 har ett eget filsystem där data lagras i så kallade keys och buckets.
En key kan jämföras med en fil och en bucket motsvarar en katalog. På grund av
filsystemet som tjänsten använder finns det inte något hierarkiskt katalogdjup,
men Jungle Disk kan simulera detta med ett virtuellt filsystem. Detta syns i
filhanteraren när installationen är slutförd. Amazon S3 har inte heller stöd för
namnbyten efter att filer laddats upp på tjänsten. Namnbyten måste ske på det
lokala området och därefter laddas upp på nytt till lagringstjänsten.
52
6 AVSLUTNING
Under de senaste 50 åren som man skapat digital information har vi haft dålig
erfarenhet med långtidslagringen. Först nu i och med IT-revolutionen och
informationssamhällets framfart, ser vi försök att lösa detta problem som
påverkar allt från det nationella kulturarvet till det globaliserade arbetssamhället.
Internets framgång har öppnat många nya portar, men har också skapat många
hinder. Framgången har till stor del berott på dess globala och öppna standarder,
något som hittills saknat motpart i den icke uppkopplade delen av
informationssamhället. Digitaliseringen har också påverkat vårt synsätt på hur
den digitala informationen skall lagras och de problem som uppstår i processen.
Beslut som berör långtidslagringen av digital information skall uppfylla tre
kriterier: tekniken, strategin och kostnaden. Tekniken och strategierna finns,
men som vi har sett är det ofta bristen på kunskap och vilja och således
finansiering som leder till försvinnandet av värdefull digital information eller
dess kostsamma återvinnande. Från mjukvarutillverkarnas sida har vi sett en
ökad, men motvillig förståelse för öppna standarder vilket är hoppingivande,
trots att det ofta krävs politisk påtryckning. Det verkar som om tillverkarna
kommit över det gamla synsättet med att binda sina kunder till lösningar som
endast gynnar dem och inte slutanvändaren, oavsett om det är nu eller om
hundra år.
Fördelarna med digitaliseringen är en överväldigande och snabb tillgång till
digital information, vilket passar vårt nya informationsdrivna samhälle. Den
digitala informationen kräver dock ett synsätt med långtidsperspektiv och
ständig uppmärksamhet. De dyra och invecklade strategierna med
långtidslagringen har visat sig kräva politiska beslut, men allt fler privatpersoner
ser nödvändigheten med dessa när den digitala informationen börjat påverka
deras egna liv. Detta är uppenbart från de hårdvarulösningar och nättjänster som
skapats under de senaste åren i hopp om att erbjuda svaret på frågan hur dagens
digitala information skall framtidssäkras för kommande generationer.
53
KÄLLFÖRTECKNING
Tryckta verk och artiklar:
Anderson Ian G. & Tedd, Lucy A. 2005. Digital histories. s. 299
(http://site.ebrary.com/lib/vamklibrary/Doc?id=10103484&ppg=2)
Arkivverkets föreskrifter och anvisningar angående arkivutrymmen 2007.
s. 15 (www.narc.fi/Arkistolaitos/a/tiedostot/PDF/arkistotilamaarays_se.pdf)
Arkivverkets Årsberättelse 2007. s. 8-9, 17-18
(www.narc.fi/Arkistolaitos/a/tiedostot/PDF/vk2007.pdf)
Ashley, J. m.fl. Holographic data storage. IBM Journal of Research and
Development 3/2000. s. 341 (www.research.ibm.com/journal/rd/443/ashley.pdf)
Brodkin, John 2008. IBM, Sun each claim 'first' 1TB tape drive. Network
World. Vol. 25, nr. 28 s. 22
http://proquest.umi.com/pqdweb?did=1522796871&sid=1&Fmt=6&clientId=46
965&RQT=309&VName=PQD
Farley, Marc 2002. Building Storage Networks. s. 159-207
(http://site.ebrary.com/lib/vamklibrary/Doc?id=5008161&f00)
George, Randy. Cloud Storage’s Top Uses. Information Week 8/2007 s. 40
(proquest.umi.com/pqdweb?did=1585424621&sid=4&Fmt=6&clientId=46965
&RQT=309&VName=PQD)
Järvinen, Petteri. Blu-ray, viimeinen elokuvalevy. Tietokone 11/2008. s.26
Jääskeläinen, Ossi. Tallennustekniikan vallankumous. MikroPC 6/2007 s. 38
54
Kennedy, Dennis. Master Your Disasters. ABA Journal 9/2008 s. 34-35
(proquest.umi.com/pqdweb?did=1557161061&sid=2&Fmt=3&clientId=46965
&RQT=309&VName=PQD&cfc=1)
Kosek, Jirka 2008. From the Office Document Format Battlefield. IT
Professional Magazine 3/2008 s. 51-55
(proquest.umi.com/pqdweb?did=1501873941&sid=2&Fmt=6&clientId=46965
&RQT=309&VName=PQD)
Lai S.K. Flash memories: Successes and challenges. IBM Journal of Research
and Development 5/2008 (www.research.ibm.com/journal/rd/524/lai.pdf)
Morris R. & Truskowski B. The evolution of storage systems. IBM Systems
Journal 2/2003 s. 206 (www.research.ibm.com/journal/sj/422/morris.pdf)
Ross, Seamus & Gow, Ann 1999. Electronic Libraries (eLib) Programme on the
Preservation of Electronic Materials s. 1-9
(www.ukoln.ac.uk/services/elib/papers/supporting/pdf/p2.pdf)
Shimonski, Robert 2003. Windows 2000 & Windows Server 2003 Clustering
and Load Balancing s. 47-48
(http://site.ebrary.com/lib/vamklibrary/Doc?id=10045497&f00)
Smith, Bernard. Preserving Tomorrow’s Memory: Preserving Digital Content
for Future Generations. International Preservation News 5/2003 s. 4-10
(www.ifla.org/VI/4/news/ipnn29.pdf)
Tristram, Claire. Data Extinction. Technology Review 8/2002 s. 36-43
(proquest.umi.com/pqdweb?did=195539721&sid=2&Fmt=6&clientId=46965&
RQT=309&VName=PQD)
55
Walter, Chip. Kryder´s Law. Scientific American 8/2005 s. 32-33
(www.chipwalter.com/articles/profiles/kryder.pdf)
Internetkällor:
Alabi, Duran 2004. NAS, DAS or SAN? – Choosing the Right Storage
Technology for Your Organization (www.storagesearch.com/xtore-art1.html)
Arkivverket pressmeddelande 8/2008. Järnvägsverket först med elektronisk
arkivering.
(www.narc.fi/Arkistolaitos/sve/aktuellt/meddelande/meddelande_120808.html)
Bartels, Anna 2007. Datalagring, affärssystem, hållbarhet – långsiktigt digitalt
bevarande. (www.ida.liu.se/~HIIC70/exam/Framl0712/07BartelsManus.pdf)
Chaganti, Prabhakar 2008. Cloud Computing with Amazon Web Services
(www.ibm.com/developerworks/architecture/library/ar-
cloudaws1/index.html?S_TACT=105AGX20&S_CMP=EDU
Claesson, Henrik & Larsson, Karin 2001. Arkivering av digital information.
(https://gupea.ub.gu.se/dspace/bitstream/2077/1384/1/Henrik_Claesson-
Karin_La..pdf)
Danielsson, Lars 2008. Molnet som skuggar allt.
(www.idg.se/2.1085/1.184163/molnet-som-skuggar-allt)
Emanuelsson, Charlotte 2006. Digitalisering av kulturarvet – En studie av
digitalisering vid två museer. (bada.hb.se/bitstream/2320/1480/1/06-65.pdf)
Gilheany, Steve 2003. Projecting the Cost of Magnetic Disk Storage Over the
Next 10 Years (www.archivebuilders.com/whitepapers/22011p.pdf)
56
Herwig, Malte 2007. Putting the World’s Books On The Web.
(www.spiegel.de/international/business/0,1518,473529,00.html)
Miyashita, Makiko 2003. The Impact of the Internet on Globalization.
(courses.washington.edu/com538/2003/student_presentations/MakikoMiyashita.
ppt)
Pinheiro, Eduardo & Weber, Wolf-Dietrich & Barroso, Luiz André 2007.
Failure Trends in a Large Disk Drive Population.
(research.google.com/archive/disk_failures.pdf)
Sorrel, Charlie 2008. 5 Obsolete Storage Formats.
(blog.wired.com/gadgets/2008/06/five-obsolete-s.html)
Stander A. & van der Merwe N. 2002. Long Term Data Storage: Are We
Getting Closer to a Solution? (www.codata.org/codata02/09info/Stander-
slides/Stander-paper.pdf)
Stepanek, Marcia 1998. Data Storage: From Digits to Dust.
(www.businessweek.com/archives/1998/b3574124.arc.htm)
Tudor, Marius 2005. Are flash solid state driver ready for the enterprise?
(www.embeddedstar.com/articles/2005/2/article20050207-1.html)