standardi za zapisovanje dokumentov v d-knjižnici

Post on 25-Jan-2016

36 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Standardi za zapisovanje dokumentov v d-knjižnici. Standardi za besedila, slike in video, zvok. Pomen standardov za zapisovanje e-dok. Pri gradnji d-knj. si nasprotujeta dve načeli: - PowerPoint PPT Presentation

TRANSCRIPT

Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za besedila,

slike in video,

zvok.

Pomen standardov za zapisovanje e-dok.

Pri gradnji d-knj. si nasprotujeta dve načeli: hiter razvoj tehnologije povzroča hitre spremembe

pri produkciji in lastnostih e-dokumentov, ki jim mora d-knj. slediti;

vsaka pomembna odločitev v d-knj. ima dolgoročne posledice.

Odločitev o uporabljenih standardih za zapisovanje e-dok. je fundamentalna odločitev.

Standardni načini zapisovanja e-dok. omogočajo njihovo rabo danes in povečujejo možnost dolgoročnega ohranjanja.

Pomen standardov za zapisovanje e-dok.

Standardizacija je potrebna na dveh nivojih: standardi za zapisovanje znakov (standardno

poimenovanje – oštevilčenje – znakov), ki omogočajo uporabo različnih pisav,

standardi za zapisovanje dokumentov (standardni formati), ki omogočajo predvidljivo rabo dokumentov.

Pomen standardov za zapisovanje e-dok.

Od načina zapisovanja dokumentov v d-knj je odvisna tudi uporabnost uporabnikove programske opreme za rabo dokumentov.

Za d-knjižnico je enostavneje, da se omeji na en standard zapisovanja znakov in nekaj standardnih formatov zapisovanja dokumentov.

S tem si poenostavi najpomembnejše postopke gradnje zbirk, posredovanja dokumentov in njihovega ohranjanja.

Najbrž je ceneje, če dokumente v ostalih “pisavah” in formatih pretvori v izbrane standarde.

Pomen standardov za zapisovanje e-dok.

Mednarodne org. za standardizacijo podpirajo standarde in standardne postopke, ki ne vključujejo programske kode s komercialnimi licencami.

To ne gre vedno; standardi GIF, JPEG in MPEG vključujejo tudi lastniško programsko kodo, česar pa lastniki licenc zaenkrat ne izkoriščajo.

Standardi za zapis besedil

V d-knj. lahko funkcionira le besedilo, ki je enako berljivo v poljubnem računalniškem okolju.

Na začetku razvoja ni bilo standarda, ki bi urejal zapisovanje besedil, ki zato niso bila prenosljiva med različnimi operacijskimi sistemi.

Standard določa predvsem kateri znaki sodijo v pisavo in katere kode (zaporedne številke) jih določajo.

Standard za zapis besedila ne določa oblike črk.

Standardi za zapis besedil

Prva standarda: ASCII in EBCDIC. ASCII prevladal (standard iz 1963).

Osnovni ASCII: 128 kod za znake angleške pisave, interpunkcije in kontrolne znake.

ASCII je bil velik napredek z nesluteno dolgoročnimi posledicami, vendar je omejeval neangleške pisce.

Razširitev ASCII na 256 kod je omogočila kodiranje precejšnjega števila neangleških znakov.

Standardi za zapis besedil

Razširjen ASCII: ISO-8859-1: zahodnoevropske pisave, ISO-8859-2 srednje in vzhodnoevropske

latinične pisave. Problem ISO-8859-n je v tem, da iste kode v

podstandardih kodirajo različne znake . Besedila je sicer mogoče zapisati z vsemi znaki,

pravilno berljivo pa je le v okolju, ki uporablja isti podstandard.

Standardi za zapis besedil

Za slovenska besedila so obstajali do sedaj vsaj 3 načini: “YUSCII” – prilagoditev izvornega 7-bitnega

ASCII, ki je nadomestil z našimi znaki nekatere manj uporabljane znake v ASCII:

WIN-1250 – Microsoftov “standard” ISO-8859-2 (latin-2) - mednarodni standard.

~ = č ^ = Č } = ć ] = Ć{ = š [ = Š | = đ \ = Đ´ = ž @ = Ž

Standardi za zapis besedil

Neevropske pisave imajo druge, popolnoma različne standarde, ali pa so brez njih.

D-knjižnica bi morala biti neodvisna od načinov zapisovanja besedil.

Naravno stanje zbirk dokumentov je večjezičnost, ki lahko pomeni tudi različne pisave.

Neobstoj globalnega standarda za zapisovanje besedil je otežkočal gradnjo mednarodnih d-knjižnic.

Unicode

Idealen standard bi kodiral vse svetovne pisave – problem zapisovanja besedil bi s tem izginil.

Od 1988 razvoj takega standarda – Unicode. Na začetku konzorcij Apple in Xerox, kasneje

velik konzorcij komercialnih in vladnih organizacij.

L. 1993 standard – ISO-10646.

Unicode

Trenutno Unicode pokriva vse svetovne jezike, ki so zdaj v rabi.

Poteka vključevanje zgodovinskih pisav (egipčanski hieroglifi...), znakov glasbene notacije in zelo redkih kitajskih ideogramov.

Zaenkrat Unicode kodira 94.000 različnih znakov.

Unicode

Unicode podpirajo vse zadnje verzije pomembnih OS, vsi pomembnejši programski jeziki (vsaj kot

dodatne knjižnice funkcij) in, zelo pomembno, zadnje verzije spletnih brskalnikov. Unicode je

privzet nabor v zadnjih verzijah HTML in XML.

Unicode

Sodobna d-knj bi morala imeti dokumente zapisane v Unicode.

To seveda pomeni, da mora biti vsa programska oprema, ki dela z dokumenti (zbirke, iskalniki, uporabniški vmesniki, klasifikacijski sistemi...), prilagojena Unicode.

Unicode omogoča tudi svobodno mešanje zelo različnih pisav v istem dokumentu.

Mešanje pisav: testni dokumenthttp://www.windspun.com/unicode-test/unicode.xml

Formati za zapis dokumentov

V široki rabi so številni formati, le redke med njimi so standardizirale mednarodne inštitucije:

Bolj standardno se obnašajo formati, ki določajo strukturo dokumenta, kot tisti, ki določajo obliko.

Skrajno nestandarden: Word za Windows, Bolj standardni: RTF, LaTeχ, Postscript, PDF, Standardni: HTML, XML. O standardnih formatih več v predavanju o

označevalnih jezikih.

Standardi za zapisovanje mirujočih slik

Standardi za zapisovanje nebesedilnih podatkov združujejo zapisovanje podatkovnih elementov in formatiranje (nebesedilnih) dokumentov.

Zapis slike na zaslonu ali papirju je sestavljen iz opisov posameznih slikovnih elementov (picture elements, pixels).

Kvaliteta slike odvisna predvsem od dveh parametrov: ločljivosti ali števila pikslov na dolžinsko enoto

(običajno na colo – dots per inch – dpi) in števila bitov, porabljenih za opis posameznega

piksla.

Standardi za zapisovanje mirujočih slik

Tipične ločljivosti Rač. zaslon s slabo ločljivostjo: 72*72 dpi, rač. zaslon z običajno ločljivostjo: 92*92 dpi, fax: 200*200 dpi, skener: 300*300 dpi do 600*600 dpi, laserski tiskalnik: 600*600 dpi, zadovoljiva kvaliteta tiska: 1200*1200 dpi, fotostavčni stroj: 4800*4800 dpi.

Standardi za zapisovanje mirujočih slik

Število bitov na piksel: za črno-bele slike brez sivin: 1, za črno-bele slike s sivinami: 8, za barvne slike: 8 – 32.

Standardi za zapisovanje mirujočih slik

Velikosti datotek: Slika velikosti A4, ločljivost 300 dpi:

1 bit/piksel: >1 Mb, 8 bit/piksel: 9 Mb, 24 bit/piksel: 28 Mb.

Slika velikosti A4, ločljivost 600 dpi: 24 bit/piksel: >100 Mb (šele to je solidna

kvaliteta slike za resnejše aplikacije). Te velikosti veljajo za nestisnjene slike.

Stiskanje datotek s slikami

Slike so vedno shranjene v stisnjeni (komprimirani) obliki.

Dva načina stiskanja: brez izgube in z izgubo informacije.

Izbira načina bi morala biti odvisna le od načina rabe slike; v praksi je velikokrat odvisna od kapacitete pomnilnika, ki je na voljo.

Stiskanje datotek s slikami

Stiskanje brez izgube: raztegnjenje (dekomprimiranje) vedno da originalno sliko, piksel za pikslom.

Vedno uporabljeno za stiskanje besedila. Vedno uporabljeno kadar mora biti vsaka kopija

enaka originalu: medicinske aplikacije, pomembni dokumenti, pravno veljavni dokumenti, arhiviranje...

Stiskanje datotek s slikami

Stiskanje z izgubo: prihranki prostora so lahko zelo veliki, vendar raztegnjena slika nikoli ni enaka originalu.

Uporablja se pri aplikacijah, kjer manjše spremembe niso usodne; sem sodi tudi večina načinov rabe dokumentov v d-knj.

Če pričakujemo rabo slik tudi v bodočnosti, stiskanje z izgubo ni upravičeno.

Stiskanje najuspešnejše pri fotografskih sivih in barvnih slikah.

Kaj je stiskanje

Načelo stiskanja: če si je več zaporednih pikslov dovolj podobnih,

jih lahko predstavimo kot eno vrednost. Naenostavnejša varianta: piksle primerjamo kot

zaporeden bitni niz – tako kot so v datoteki. Boljši rezultati: piksle primerjamo

dvodimenzionalno – kot površine dovolj podobnih pikslov.

Kaj je stiskanje

Pogosto uporabljan algoritem pri stiskanju je LZW (Lempel, Ziv, Welch).

V osnovi je bil razvit za besedila. Med branjem besedila poišče vzorce, ki se

pogosto ponavljajo – zaporedja črk ali besed. Vzorce uvrsti v tabelo, ponavljajoč se niz v

besedilu pa predstavi le kot indeks celice tabele. Tudi ponavljajoče se zaporedje pikslov je

vzorec.

Stiskanje brez izgube: GIF, PNG, TIFF

GIF (Graphical Interchange Format), 1987. V prvih letih spleta zelo razširjen za omrežno

izmenjavo slik, ki jih lahko prikaže poljubna programska in strojna oprema.

Primeren za slike, pri katerih je vsak piksel opisan z 8 ali manj biti (sive ali barvne slike z manjšim številom različnih barv).

Stiskanje brez izgube: GIF, PNG, TIFF

GIF (nadaljevanje) Vsaka slika ima tabelo z identifikacijami 256

različnih barv V sliki je vsak piksel opisan z indeksom celice v

tej tabeli. Zaporedje indeksov je stisnjeno z algoritmom

LZW.

Stiskanje brez izgube: GIF, PNG, TIFF

PNG (Portable Network Graphics). Boljši od GIF, ker lahko kodira in stiska slike s

piksli, opisanimi z 48 biti (ali manj). Stiska površine pikslov in ne linearnih zaporedij

z algoritmom gzip (varianta algoritma LZ77). Manj razširjen, ker ga stare verzije spletnih

brskalnikov ne znajo prikazati.

Stiskanje z izgubo: JPEG

JPEG (Joint Photographic Expert Group). Namenjen stiskanju slik s postopnimi prehodi

vrednosti. Take so običajno fotografije. Slabo se obnese (malo stisne) pri slikah s

ponavljajočim se vzorcem (opečnat zid, travne bilke...).

Daleč najbolj razširjen format na katerem temelji večina spletnih in ne-spletnih aplikacij za vizualne informacije.

Je tudi osnovni format večine strojne opreme, ki producira slike (digitalne kamere...).

Stiskanje z izgubo: JPEG

Zelo učinkovito stiskanje: piksel, opisan z 32 biti, zasede 1 bit.

Kvaliteta slike odlična za človeško oko. Izgube so izbrane tako, da se pojavljajo

predvsem pri lastnostih slik, ki jih človeški možgani najmanj zaznajo.

Subjektivno izguba informacije pogosto ni zaznavna, objektivno pa taka slika seveda ni enaka originalu.

Algoritem za kodiranje in stiskanje zapleten.

Standardi za zapisovanje zvokov in gibljivih slik

Podatkovni tipi s časovno komponento zahtevajo še za nekaj redov velikosti večje datoteke od statičnih slik.

Kvaliteta podatkov (in velikost datotek) odvisna od gostote vzorčenja in števila bitov, porabljenih za en vzorec.

Absolutno nujno je stiskanje datotek, večinoma z izgubo.

Standardi za zapisovanje zvokov in gibljivih slik

Vzorčenje: telefonski pogovor – 8000 vzorcev/sek., 8

bitov/vzorec; Zvok na CD – 44.000 vzorcev/sek., 16

bitov/vzorec; video posnetek: najmanj 24 slik/sek.

Standardi za zapisovanje zvokov in gibljivih slik

Program, namenjen kodiranju in dekodiranju, se imenuje codec.

Codec je lahko standarden za nek tip podatkov, ali pa nestandarden in se prenese skupaj s podatki.

Uporabnikova oprema lahko prikaže podatke, le če ima ustrezen codec, sicer ga mora dobiti in instalirati.

MPEG-1

Prevladujoči standardi za zvočne in video posnetke sodijo v družino MPEG (Moving Picture Experts Group).

MPEG-1 je nastal 1988 z namenom, da bi standardizirali odprt digitalen format, primerljiv z VHS.

Kodira slike 352*240 pikslov, po 30/s. Stisnjen tok slik zasede 1,5 Mb/s, mogoče pa ga

je raztegniti v realnem času z opremo, ki ima le 512 Kb pomnilnika.

MPEG-1

MPEG-1 lahko kodira avdio in video skupaj ali posamič.

Del standarda za avdio zapis ima več nivojev, odvisnih od kvalitete in tipa posnetka (govor, glasba različnih kvalitet...).

Tretji nivo, MP3, je splošno razširjen za zapisovanje digitalizirane glasbe.

MPEG-2

MPEG-2 zapisuje video posnetke visoke kvalitete.

Uporablja se za zapisovanje na DVD. Način zapisa je zelo primeren tudi za

predvajanje na TV s prenosom podatkov v realnem času, zato bo uporabljen tudi pri HDTV (High Definition TV).

MPEG-4, -7

MPEG-4 je namenjen prenosu zvokov in slik po komunikacijskih kanalih z majhno prepustnostjo, npr. mobilnih telefonih.

MPEG-7 je namenjen standardnemu zapisu metapodatkov o podatkih, kodiranih z MPEG-1, 2 ali 4.

Nestandardni formati

Nestandardni načini zapisovanja slik, zvoka in videa izvirajo iz časov, ko interoperabilnost (in s tem standardizacija) ni bila tako pomembna.

Še vedno se precej uporabljajo ker jih zna dekodirati večina predvajalnikov in kodirati večina programov za oblikovanje multimedijskih dokumentov.

AVI (Audio Video Interleave) – Microsoft, QuickTime – Apple: zelo zmogljiv sistem,

soroden MPEG.

Predvajanje s prenosom v realnem času

Prepustnejše komunikacijske linije omogočajo predvajanje multimedijskih podatkov v realnem času – streaming delivery.

Najbolj znan je RealSystems, uporabljan tudi ločeno kot RealAudio in RealVideo.

Podatke predvajalnik dobiva preko omrežja, dekodira in predvaja sproti, z manjšo vmesno shrambo zaradi morebitnih zakasnitev prenosa.

RealSystems vključuje codece za večino obstoječih formatov, tudi MPEG.

top related