warc 1.1 - co přinese nová verze?
TRANSCRIPT
![Page 1: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/1.jpg)
WARC 1.1je skoro tady - co přinese nová verze?
Mgr. Jaroslav Kvasnica
![Page 2: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/2.jpg)
Web ARChive (WARC)
• evoluce formátu ARC
• standard ISO 28500:2009
• otevřený formát!
![Page 3: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/3.jpg)
Proces vzniku nové verze
• každý standard by měl projít revizí ideálně každých 5 let
• v roce 2014 ISO odhlasovalo revizi standardu
• dvě pracovní skupiny: IIPC & ISO
![Page 4: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/4.jpg)
Změny v nové verzi
1. Rozšíření normy
2. Oprava chyb
3. Odstranění redundantních částí
4. Úpravy stávajícího znění standardu
Nová verze = pouze “minor update”
![Page 5: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/5.jpg)
Rozšíření: deduplikace
• zefektivnění deduplikace + prostorová deduplikace
WARC-Refers-To-Target-URI
V tomto poli je zapsáno URI záznamu, který je deduplikován.
WARC-Refers-To-Date
V tomto poli by měl být zapsán časový údaj deduplikovaného
záznamu.
Obě pole pouze pro hlavičku “revisit”.
![Page 6: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/6.jpg)
Deduplikace
• funkce, která umožňuje, aby se stejný obsah nemusel opakovaně ukládat
• statický obsah (loga firem, fotogalerie atd.)
• velká úspora místa pro webové archivy
![Page 7: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/7.jpg)
Rozšíření: timestamps
• větší variabilita pro zápis časového údaje:
• 2007-11-02T15:20:44Z
• 2007-11
• 2007-11-02T15:20:44.5Z
• 2007-11-02T15:20:44.23453Z
![Page 8: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/8.jpg)
příklady:
WARC-Target-URI: http://example.com
text standardu:
WARC-Target-URI: <http://example.com>
Oprava: text standardu vs. příklady
![Page 9: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/9.jpg)
Odstranění: definice MIME type
• definice MIME type v ISO standardu bude odstraněna
• nově v registru MIME, který spravuje AINA
• pouze formální změna
• application/warc, application/warc-fields
![Page 10: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/10.jpg)
Odstranění: názvová konvence
• prefix “iipc_” pro členy konsorcia bude odstraněn
• neujalo se v praxi
![Page 11: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/11.jpg)
Úpravy znění
1. vytváření vlastních názvových polí je možné, ale je doporučené to konzultovat s IIPC
2. standard využívají i jiné instituce než webové archivy
3. zaznamenání https není součástí standardu
![Page 12: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/12.jpg)
Úpravy znění
4. v hlavičce “warcinfo” je nyní možné uvést použitý algoritmus u kontrolního součtu
WARC-Block-Digest: sha1:AB2CD3EF4GH5IJ6KL7MN8OPQ
WARC-Block-Digest: sha1_Base32:AB2CD3EF4GH5IJ6KL7MN8OPQ
![Page 13: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/13.jpg)
Co bude dál?
Hlasování končí 22. listopadu a hlasují jen zúčastněné země.V4: jen Maďarsko.
![Page 14: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/14.jpg)
• 100 % ano -> formát vstoupí v platnost
• po redakčních úpravách bude vydána nová verze standardu
• v případě negativního výsledku:
• další kolo připomínek, další hlasování
• hypotetická možnost úplného zrušení revize
![Page 15: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/15.jpg)
Co to bude znamenat v praxi?
• změny budou reflektovány v základních nástrojích
• již se na tom pracuje -> Heritrix, openWayback
• nutnost opravit vlastní nástroje (?)
• zpětná kompatibilita !
![Page 16: WARC 1.1 - co přinese nová verze?](https://reader036.vdocuments.pub/reader036/viewer/2022092622/587745d51a28ab84388b4687/html5/thumbnails/16.jpg)
w w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav [email protected]
webarchiv.czfacebook.com/webarchivcz