standardi za zapisovanje dokumentov v d-knjižnici

39
Standardi za zapisovanje dokumentov v d-knjižnici Standardi za besedila, slike in video, zvok.

Upload: odelia

Post on 25-Jan-2016

36 views

Category:

Documents


3 download

DESCRIPTION

Standardi za zapisovanje dokumentov v d-knjižnici. Standardi za besedila, slike in video, zvok. Pomen standardov za zapisovanje e-dok. Pri gradnji d-knj. si nasprotujeta dve načeli: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za besedila,

slike in video,

zvok.

Page 2: Standardi za zapisovanje dokumentov v d-knjižnici

Pomen standardov za zapisovanje e-dok.

Pri gradnji d-knj. si nasprotujeta dve načeli: hiter razvoj tehnologije povzroča hitre spremembe

pri produkciji in lastnostih e-dokumentov, ki jim mora d-knj. slediti;

vsaka pomembna odločitev v d-knj. ima dolgoročne posledice.

Odločitev o uporabljenih standardih za zapisovanje e-dok. je fundamentalna odločitev.

Standardni načini zapisovanja e-dok. omogočajo njihovo rabo danes in povečujejo možnost dolgoročnega ohranjanja.

Page 3: Standardi za zapisovanje dokumentov v d-knjižnici

Pomen standardov za zapisovanje e-dok.

Standardizacija je potrebna na dveh nivojih: standardi za zapisovanje znakov (standardno

poimenovanje – oštevilčenje – znakov), ki omogočajo uporabo različnih pisav,

standardi za zapisovanje dokumentov (standardni formati), ki omogočajo predvidljivo rabo dokumentov.

Page 4: Standardi za zapisovanje dokumentov v d-knjižnici

Pomen standardov za zapisovanje e-dok.

Od načina zapisovanja dokumentov v d-knj je odvisna tudi uporabnost uporabnikove programske opreme za rabo dokumentov.

Za d-knjižnico je enostavneje, da se omeji na en standard zapisovanja znakov in nekaj standardnih formatov zapisovanja dokumentov.

S tem si poenostavi najpomembnejše postopke gradnje zbirk, posredovanja dokumentov in njihovega ohranjanja.

Najbrž je ceneje, če dokumente v ostalih “pisavah” in formatih pretvori v izbrane standarde.

Page 5: Standardi za zapisovanje dokumentov v d-knjižnici

Pomen standardov za zapisovanje e-dok.

Mednarodne org. za standardizacijo podpirajo standarde in standardne postopke, ki ne vključujejo programske kode s komercialnimi licencami.

To ne gre vedno; standardi GIF, JPEG in MPEG vključujejo tudi lastniško programsko kodo, česar pa lastniki licenc zaenkrat ne izkoriščajo.

Page 6: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapis besedil

V d-knj. lahko funkcionira le besedilo, ki je enako berljivo v poljubnem računalniškem okolju.

Na začetku razvoja ni bilo standarda, ki bi urejal zapisovanje besedil, ki zato niso bila prenosljiva med različnimi operacijskimi sistemi.

Standard določa predvsem kateri znaki sodijo v pisavo in katere kode (zaporedne številke) jih določajo.

Standard za zapis besedila ne določa oblike črk.

Page 7: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapis besedil

Prva standarda: ASCII in EBCDIC. ASCII prevladal (standard iz 1963).

Osnovni ASCII: 128 kod za znake angleške pisave, interpunkcije in kontrolne znake.

ASCII je bil velik napredek z nesluteno dolgoročnimi posledicami, vendar je omejeval neangleške pisce.

Razširitev ASCII na 256 kod je omogočila kodiranje precejšnjega števila neangleških znakov.

Page 8: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapis besedil

Razširjen ASCII: ISO-8859-1: zahodnoevropske pisave, ISO-8859-2 srednje in vzhodnoevropske

latinične pisave. Problem ISO-8859-n je v tem, da iste kode v

podstandardih kodirajo različne znake . Besedila je sicer mogoče zapisati z vsemi znaki,

pravilno berljivo pa je le v okolju, ki uporablja isti podstandard.

Page 9: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapis besedil

Za slovenska besedila so obstajali do sedaj vsaj 3 načini: “YUSCII” – prilagoditev izvornega 7-bitnega

ASCII, ki je nadomestil z našimi znaki nekatere manj uporabljane znake v ASCII:

WIN-1250 – Microsoftov “standard” ISO-8859-2 (latin-2) - mednarodni standard.

~ = č ^ = Č } = ć ] = Ć{ = š [ = Š | = đ \ = Đ´ = ž @ = Ž

Page 10: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapis besedil

Neevropske pisave imajo druge, popolnoma različne standarde, ali pa so brez njih.

D-knjižnica bi morala biti neodvisna od načinov zapisovanja besedil.

Naravno stanje zbirk dokumentov je večjezičnost, ki lahko pomeni tudi različne pisave.

Neobstoj globalnega standarda za zapisovanje besedil je otežkočal gradnjo mednarodnih d-knjižnic.

Page 11: Standardi za zapisovanje dokumentov v d-knjižnici

Unicode

Idealen standard bi kodiral vse svetovne pisave – problem zapisovanja besedil bi s tem izginil.

Od 1988 razvoj takega standarda – Unicode. Na začetku konzorcij Apple in Xerox, kasneje

velik konzorcij komercialnih in vladnih organizacij.

L. 1993 standard – ISO-10646.

Page 12: Standardi za zapisovanje dokumentov v d-knjižnici

Unicode

Trenutno Unicode pokriva vse svetovne jezike, ki so zdaj v rabi.

Poteka vključevanje zgodovinskih pisav (egipčanski hieroglifi...), znakov glasbene notacije in zelo redkih kitajskih ideogramov.

Zaenkrat Unicode kodira 94.000 različnih znakov.

Page 13: Standardi za zapisovanje dokumentov v d-knjižnici

Unicode

Unicode podpirajo vse zadnje verzije pomembnih OS, vsi pomembnejši programski jeziki (vsaj kot

dodatne knjižnice funkcij) in, zelo pomembno, zadnje verzije spletnih brskalnikov. Unicode je

privzet nabor v zadnjih verzijah HTML in XML.

Page 14: Standardi za zapisovanje dokumentov v d-knjižnici

Unicode

Sodobna d-knj bi morala imeti dokumente zapisane v Unicode.

To seveda pomeni, da mora biti vsa programska oprema, ki dela z dokumenti (zbirke, iskalniki, uporabniški vmesniki, klasifikacijski sistemi...), prilagojena Unicode.

Unicode omogoča tudi svobodno mešanje zelo različnih pisav v istem dokumentu.

Page 15: Standardi za zapisovanje dokumentov v d-knjižnici

Mešanje pisav: testni dokumenthttp://www.windspun.com/unicode-test/unicode.xml

Page 16: Standardi za zapisovanje dokumentov v d-knjižnici

Formati za zapis dokumentov

V široki rabi so številni formati, le redke med njimi so standardizirale mednarodne inštitucije:

Bolj standardno se obnašajo formati, ki določajo strukturo dokumenta, kot tisti, ki določajo obliko.

Skrajno nestandarden: Word za Windows, Bolj standardni: RTF, LaTeχ, Postscript, PDF, Standardni: HTML, XML. O standardnih formatih več v predavanju o

označevalnih jezikih.

Page 17: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje mirujočih slik

Standardi za zapisovanje nebesedilnih podatkov združujejo zapisovanje podatkovnih elementov in formatiranje (nebesedilnih) dokumentov.

Zapis slike na zaslonu ali papirju je sestavljen iz opisov posameznih slikovnih elementov (picture elements, pixels).

Kvaliteta slike odvisna predvsem od dveh parametrov: ločljivosti ali števila pikslov na dolžinsko enoto

(običajno na colo – dots per inch – dpi) in števila bitov, porabljenih za opis posameznega

piksla.

Page 18: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje mirujočih slik

Tipične ločljivosti Rač. zaslon s slabo ločljivostjo: 72*72 dpi, rač. zaslon z običajno ločljivostjo: 92*92 dpi, fax: 200*200 dpi, skener: 300*300 dpi do 600*600 dpi, laserski tiskalnik: 600*600 dpi, zadovoljiva kvaliteta tiska: 1200*1200 dpi, fotostavčni stroj: 4800*4800 dpi.

Page 19: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje mirujočih slik

Število bitov na piksel: za črno-bele slike brez sivin: 1, za črno-bele slike s sivinami: 8, za barvne slike: 8 – 32.

Page 20: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje mirujočih slik

Velikosti datotek: Slika velikosti A4, ločljivost 300 dpi:

1 bit/piksel: >1 Mb, 8 bit/piksel: 9 Mb, 24 bit/piksel: 28 Mb.

Slika velikosti A4, ločljivost 600 dpi: 24 bit/piksel: >100 Mb (šele to je solidna

kvaliteta slike za resnejše aplikacije). Te velikosti veljajo za nestisnjene slike.

Page 21: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje datotek s slikami

Slike so vedno shranjene v stisnjeni (komprimirani) obliki.

Dva načina stiskanja: brez izgube in z izgubo informacije.

Izbira načina bi morala biti odvisna le od načina rabe slike; v praksi je velikokrat odvisna od kapacitete pomnilnika, ki je na voljo.

Page 22: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje datotek s slikami

Stiskanje brez izgube: raztegnjenje (dekomprimiranje) vedno da originalno sliko, piksel za pikslom.

Vedno uporabljeno za stiskanje besedila. Vedno uporabljeno kadar mora biti vsaka kopija

enaka originalu: medicinske aplikacije, pomembni dokumenti, pravno veljavni dokumenti, arhiviranje...

Page 23: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje datotek s slikami

Stiskanje z izgubo: prihranki prostora so lahko zelo veliki, vendar raztegnjena slika nikoli ni enaka originalu.

Uporablja se pri aplikacijah, kjer manjše spremembe niso usodne; sem sodi tudi večina načinov rabe dokumentov v d-knj.

Če pričakujemo rabo slik tudi v bodočnosti, stiskanje z izgubo ni upravičeno.

Stiskanje najuspešnejše pri fotografskih sivih in barvnih slikah.

Page 24: Standardi za zapisovanje dokumentov v d-knjižnici

Kaj je stiskanje

Načelo stiskanja: če si je več zaporednih pikslov dovolj podobnih,

jih lahko predstavimo kot eno vrednost. Naenostavnejša varianta: piksle primerjamo kot

zaporeden bitni niz – tako kot so v datoteki. Boljši rezultati: piksle primerjamo

dvodimenzionalno – kot površine dovolj podobnih pikslov.

Page 25: Standardi za zapisovanje dokumentov v d-knjižnici

Kaj je stiskanje

Pogosto uporabljan algoritem pri stiskanju je LZW (Lempel, Ziv, Welch).

V osnovi je bil razvit za besedila. Med branjem besedila poišče vzorce, ki se

pogosto ponavljajo – zaporedja črk ali besed. Vzorce uvrsti v tabelo, ponavljajoč se niz v

besedilu pa predstavi le kot indeks celice tabele. Tudi ponavljajoče se zaporedje pikslov je

vzorec.

Page 26: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje brez izgube: GIF, PNG, TIFF

GIF (Graphical Interchange Format), 1987. V prvih letih spleta zelo razširjen za omrežno

izmenjavo slik, ki jih lahko prikaže poljubna programska in strojna oprema.

Primeren za slike, pri katerih je vsak piksel opisan z 8 ali manj biti (sive ali barvne slike z manjšim številom različnih barv).

Page 27: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje brez izgube: GIF, PNG, TIFF

GIF (nadaljevanje) Vsaka slika ima tabelo z identifikacijami 256

različnih barv V sliki je vsak piksel opisan z indeksom celice v

tej tabeli. Zaporedje indeksov je stisnjeno z algoritmom

LZW.

Page 28: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje brez izgube: GIF, PNG, TIFF

PNG (Portable Network Graphics). Boljši od GIF, ker lahko kodira in stiska slike s

piksli, opisanimi z 48 biti (ali manj). Stiska površine pikslov in ne linearnih zaporedij

z algoritmom gzip (varianta algoritma LZ77). Manj razširjen, ker ga stare verzije spletnih

brskalnikov ne znajo prikazati.

Page 29: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje z izgubo: JPEG

JPEG (Joint Photographic Expert Group). Namenjen stiskanju slik s postopnimi prehodi

vrednosti. Take so običajno fotografije. Slabo se obnese (malo stisne) pri slikah s

ponavljajočim se vzorcem (opečnat zid, travne bilke...).

Daleč najbolj razširjen format na katerem temelji večina spletnih in ne-spletnih aplikacij za vizualne informacije.

Je tudi osnovni format večine strojne opreme, ki producira slike (digitalne kamere...).

Page 30: Standardi za zapisovanje dokumentov v d-knjižnici

Stiskanje z izgubo: JPEG

Zelo učinkovito stiskanje: piksel, opisan z 32 biti, zasede 1 bit.

Kvaliteta slike odlična za človeško oko. Izgube so izbrane tako, da se pojavljajo

predvsem pri lastnostih slik, ki jih človeški možgani najmanj zaznajo.

Subjektivno izguba informacije pogosto ni zaznavna, objektivno pa taka slika seveda ni enaka originalu.

Algoritem za kodiranje in stiskanje zapleten.

Page 31: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje zvokov in gibljivih slik

Podatkovni tipi s časovno komponento zahtevajo še za nekaj redov velikosti večje datoteke od statičnih slik.

Kvaliteta podatkov (in velikost datotek) odvisna od gostote vzorčenja in števila bitov, porabljenih za en vzorec.

Absolutno nujno je stiskanje datotek, večinoma z izgubo.

Page 32: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje zvokov in gibljivih slik

Vzorčenje: telefonski pogovor – 8000 vzorcev/sek., 8

bitov/vzorec; Zvok na CD – 44.000 vzorcev/sek., 16

bitov/vzorec; video posnetek: najmanj 24 slik/sek.

Page 33: Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje zvokov in gibljivih slik

Program, namenjen kodiranju in dekodiranju, se imenuje codec.

Codec je lahko standarden za nek tip podatkov, ali pa nestandarden in se prenese skupaj s podatki.

Uporabnikova oprema lahko prikaže podatke, le če ima ustrezen codec, sicer ga mora dobiti in instalirati.

Page 34: Standardi za zapisovanje dokumentov v d-knjižnici

MPEG-1

Prevladujoči standardi za zvočne in video posnetke sodijo v družino MPEG (Moving Picture Experts Group).

MPEG-1 je nastal 1988 z namenom, da bi standardizirali odprt digitalen format, primerljiv z VHS.

Kodira slike 352*240 pikslov, po 30/s. Stisnjen tok slik zasede 1,5 Mb/s, mogoče pa ga

je raztegniti v realnem času z opremo, ki ima le 512 Kb pomnilnika.

Page 35: Standardi za zapisovanje dokumentov v d-knjižnici

MPEG-1

MPEG-1 lahko kodira avdio in video skupaj ali posamič.

Del standarda za avdio zapis ima več nivojev, odvisnih od kvalitete in tipa posnetka (govor, glasba različnih kvalitet...).

Tretji nivo, MP3, je splošno razširjen za zapisovanje digitalizirane glasbe.

Page 36: Standardi za zapisovanje dokumentov v d-knjižnici

MPEG-2

MPEG-2 zapisuje video posnetke visoke kvalitete.

Uporablja se za zapisovanje na DVD. Način zapisa je zelo primeren tudi za

predvajanje na TV s prenosom podatkov v realnem času, zato bo uporabljen tudi pri HDTV (High Definition TV).

Page 37: Standardi za zapisovanje dokumentov v d-knjižnici

MPEG-4, -7

MPEG-4 je namenjen prenosu zvokov in slik po komunikacijskih kanalih z majhno prepustnostjo, npr. mobilnih telefonih.

MPEG-7 je namenjen standardnemu zapisu metapodatkov o podatkih, kodiranih z MPEG-1, 2 ali 4.

Page 38: Standardi za zapisovanje dokumentov v d-knjižnici

Nestandardni formati

Nestandardni načini zapisovanja slik, zvoka in videa izvirajo iz časov, ko interoperabilnost (in s tem standardizacija) ni bila tako pomembna.

Še vedno se precej uporabljajo ker jih zna dekodirati večina predvajalnikov in kodirati večina programov za oblikovanje multimedijskih dokumentov.

AVI (Audio Video Interleave) – Microsoft, QuickTime – Apple: zelo zmogljiv sistem,

soroden MPEG.

Page 39: Standardi za zapisovanje dokumentov v d-knjižnici

Predvajanje s prenosom v realnem času

Prepustnejše komunikacijske linije omogočajo predvajanje multimedijskih podatkov v realnem času – streaming delivery.

Najbolj znan je RealSystems, uporabljan tudi ločeno kot RealAudio in RealVideo.

Podatke predvajalnik dobiva preko omrežja, dekodira in predvaja sproti, z manjšo vmesno shrambo zaradi morebitnih zakasnitev prenosa.

RealSystems vključuje codece za večino obstoječih formatov, tudi MPEG.