Download - Budoucnost českého webového archivu
![Page 1: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/1.jpg)
WebarchivBudoucnost českého webového archivu
![Page 2: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/2.jpg)
Jsme Webarchiv
digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.
![Page 3: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/3.jpg)
Jak archivujeme?
Provádíme kompletní archivaci“celého” českého webu.
WWWWWWWW
Souběžně probíhá výběrováa tematická archivace.
![Page 4: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/4.jpg)
Bohužel!
Ne všechna data jsou dostupná online. w
Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.
![Page 5: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/5.jpg)
Budoucnost
Webový archiv není jen skladiště URL, na které usedá prach. Pracujeme na vytvoření fulltextu celého archivu. Potřebujeme porozumět tomu, co nesou jednotlivé digitální objekty a co budou znamenat historicky. wwWČeká nás otevření Webarchivu analytickému výzkumu a propojení našich dat s jinými archivy.
![Page 6: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/6.jpg)
Bude možné studovat 90. léta a dál bez webových archivů?
Ian Milligan
![Page 7: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/7.jpg)
Webový archiv Živý web
![Page 8: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/8.jpg)
Bude možné studovat 90. léta a dál bez webových archivů?
Ne.
![Page 9: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/9.jpg)
~210 TB komprimovaných dat~4 miliardy digitálních objektů~1,2 miliónu webových stránek
*.cz
![Page 10: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/10.jpg)
méně jak ~1% webových stránekWebarchivu, je volně přístupnéz Internetu
w
![Page 11: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/11.jpg)
METADATA
WWWWWWWW
![Page 12: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/12.jpg)
URL, Timestamp, SHA-1, Size, Outlinks, Content-Type, IP, Response, Title, Author ...
WWW
![Page 13: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/13.jpg)
Ian Milligan, opět
![Page 14: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/14.jpg)
![Page 15: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/15.jpg)
Identifikace formátu jednotlivých dig. objektů
verze PDF, HTML, MS Word apod.
Extrakce plného textu
z HTML, PDF, DOC apod.
![Page 16: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/16.jpg)
Rozponání žánru např. recenze, rozhovor, článek apod.
Identifikace entit např. místa, osoby, události apod.
Identifikace témat a klíčových slov např. Volby 2013, Útok ISIS, Ukrajinská krize
Rozpoznání jazyka dokumentu
![Page 17: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/17.jpg)
Obrazový hash hledání podobných obrázků
Audio2text prohledávání audiovizuáních dokumentů
Slovní popis obrázků včetně klíčových slov
černé a ryšavé koťátko si hrají na zelené trávě
Rozpoznávání tváří
![Page 18: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/18.jpg)
A co zajímá vás?
![Page 19: Budoucnost českého webového archivu](https://reader033.vdocuments.pub/reader033/viewer/2022042701/55c29aa4bb61eb31698b4589/html5/thumbnails/19.jpg)
w w w
w w w
Děkujeme za pozornost!
Jaroslav KvasnicaRudolf Kreibich