![Page 1: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/1.jpg)
Das Webarchiv Österreich
Andreas Predikaka
Österreichische Nationalbibliothek
[email protected] https://webarchiv.onb.ac.at
Kulturerbe Web, 29.03.2019 1
![Page 2: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/2.jpg)
2
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
![Page 3: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/3.jpg)
Rechtliche Basis
• 1998 ezines.onb.ac.at 1
• 1999 Pilotprojekt AOLA 2
• 2005 Anregung einer Novelle zum Mediengesetz
• 2007 Machbarkeitsstudie
• 2008 Begutachtungsverfahren abgeschlossen und Projektstart Webarchiv Österreich
• Herbst 2008 Neuwahlen
• 2009 Mediengesetznovelle
3
(1) https://webarchiv.onb.ac.at/web/20120203110731/http://ezines.onb.ac.at:8080/quint/
(2) https://www.ifs.tuwien.ac.at/~aola/
Das Webarchiv Österreich, 16.05.2019
![Page 4: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/4.jpg)
Mediengesetz (Sammlung)
• Novelle 1. März 2009 1
• Ablieferungspflicht für Online-Medien
• Berechtigt 4x jährlich die generelle Sammlung von Medieninhalten unter .at oder Domains mit inhaltlichen Bezug zu Österreich
• Berechtigt auch einzelne Medieninhalte zu sammeln, wenn der Medieninhaber davor schriftlich in Kenntnis gesetzt wird
• Passwort geschützte Seiten, wenn archivierungswürdig
4
(1) https://www.ris.bka.gv.at/Dokument.wxe?Abfrage=BgblAuth&Dokumentnummer=BGBLA_2009_I_8
Das Webarchiv Österreich, 16.05.2019
![Page 5: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/5.jpg)
5
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
![Page 6: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/6.jpg)
Domain Crawl
Domain-Listen von Registrierungsstellen
Top-Level Domain .at (1,3 Mio)
TLD .wien (15.000)
TLD .tirol (4.000)
Andere Domains mit Österreich-Bezug (11.000, manuelle Auswahl)
Durchführung anfangs alle zwei Jahre (2009/11/13/15), seit 2017 jährlich
6 Das Webarchiv Österreich, 16.05.2019
![Page 7: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/7.jpg)
Selektive Crawls
Medieninhaber wird per Email informiert
Medienkollektion (täglich)
Politikkollektion (täglich)
Frau / Gender (mehrmals jährlich)
Demnächst Crawl on demand
7 Das Webarchiv Österreich, 16.05.2019
![Page 8: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/8.jpg)
Event Crawls
EU-Wahl 2009, 2014, 2019
Bundespräsidenten-Wahl 2010, 2016
Olympia 2010, 2014
Gedenkjahr Erster Weltkrieg 2014
Song Contest 2015
Flüchtlingskrise 2015
EU-Ratsvorsitz 2018
100 Jahre Republik 2018
8 Das Webarchiv Österreich, 16.05.2019
![Page 9: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/9.jpg)
9
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
![Page 10: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/10.jpg)
Software
• NetarchiveSuite 5.5
• Heritrix 3.3
• Umbra (dockerized)
• Openwayback 2.3.2
• Elasticsearch 6.5
• Kibana 6.5
10
Betriebssystem
• CentOS
Das Webarchiv Österreich, 16.05.2019
![Page 11: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/11.jpg)
NetarchiveSuite
• Entwicklung http://netarchive.dk 2004
• Open Source seit 7/2007 (LGPL)
• Kooperation:
• KB Dänemark (Kopenhagen/Aarhus)
• Bibliothèque nationale de France
• Spanische Nationalbibliothek
• KB Schweden
• Österreichische Nationalbibliothek
Das Webarchiv Österreich, 16.05.2019 11
![Page 12: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/12.jpg)
NetarchiveSuite
• Java 8 (auch OpenJDK)
• Postgresql
• Heritrix 3.3 (eigener Fork) voll integriert
• ARC und WARC Support
• Umbra Support
• Horizontal skalierbar
• Keine Benutzerverwaltung
• Domain steht im Zentrum
• Domains nicht löschbar
12 Das Webarchiv Österreich, 16.05.2019
![Page 13: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/13.jpg)
NetarchiveSuite
13 Das Webarchiv Österreich, 16.05.2019
![Page 14: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/14.jpg)
14
NetarchiveSuite
![Page 15: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/15.jpg)
15
NetarchiveSuite
![Page 16: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/16.jpg)
16
NetarchiveSuite
![Page 17: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/17.jpg)
17
NetarchiveSuite
![Page 18: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/18.jpg)
Infrastruktur
• 8 Server für NetarchiveSuite (8 GB, 500 GB)
• 7 Server für Volltext (4-24 GB RAM)
• 4 Server für Tests, Umbra, Reporting und Administration (4-8 GB RAM)
• 3 Server für Zugriff (4 GB RAM) Zur Zeit Infrastrukturänderung: Server mit 16 GB für NetarchiveSuite. Die alten Server werden den Volltextcluster erweitern
• Speicher bis 2017 im Bundesrechenzentrum
• Seit 2017 im ZID (gespiegelt, Kopie ZAS)
• Speicherbudget: 6 TB pro Jahr
18 Das Webarchiv Österreich, 16.05.2019
![Page 19: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/19.jpg)
19
1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF
Das Webarchiv Österreich, 16.05.2019
![Page 20: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/20.jpg)
Mediengesetz (Benützung)
• Benützung nur am Standort von berechtigten Bibliotheken
• Nur Ausdruck, kein elektronisches Verarbeiten
• Passwortgeschützte Seiten nur Einzeluser
• Sperren bis 1 Jahr möglich
• Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers)
20
Das Webarchiv Österreich, 16.05.2019
![Page 21: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/21.jpg)
Zugänge
Online Suche https://webarchiv.onb.ac.at
API https://webarchiv.onb.ac.at/api.html
Metadaten (auch kein Vorschautext)
Suche an Uni- und Landesbibliotheken
Daten aus den Domaincrawls
Suche an ÖNB und Administrativer Bibliothek des Bundeskanzleramtes
Alle Daten
21
Das Webarchiv Österreich, 16.05.2019
![Page 22: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/22.jpg)
Berechtigte Bibliotheken
Administrative Bibliothek des Bundeskanzleramtes
Burgenländische Landesbibliothek
Kärntner Landesbibliothek
Niederösterreichische Landesbibliothek
Oberösterreichische Landesbibliothek
Österreichisches Staatsarchiv
Parlamentsbibliothek
Salzburger Landesarchiv (Bibliothek)
Steiermärkische Landesbibliothek
Tiroler Landesarchiv (Bibliothek)
Universitäts- und Landesbibliothek Tirol
Universitätsbibliothek der Universität Klagenfurt
Universitätsbibliothek Graz
Universitätsbibliothek Linz
Universitätsbibliothek Salzburg
Universitätsbibliothek Wien
Vorarlberger Landesbibliothek
Wienbibliothek im Rathaus
22 Das Webarchiv Österreich, 16.05.2019
![Page 23: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/23.jpg)
Zugriff von berechtigten Bibliotheken
VPN (demnächst Zwei-Faktor Authentifizierung)
RDP-Session auf einen Terminalserver ohne Internet
Wayback mit eigenem Domain-Crawl Index
Zwischenablage-Funktion deaktiviert
Keine vertragliche Regeln mit Bibliothek
Bibliothek bestätigt nur, dass Weitergabe der Zugangsdaten ausgeschlossen ist
Elektronische Verarbeitung über Screenshots kann nicht ausgeschlossen werden
23 Das Webarchiv Österreich, 16.05.2019
![Page 24: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/24.jpg)
webarchiv.onb.ac.at
24 NetarchiveSuite Meeting, Aarhus, 29./30.10.12
![Page 25: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/25.jpg)
25 Kulturerbe Web, 29.03.2019
![Page 26: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/26.jpg)
26 Das Webarchiv Österreich, 16.05.2019
![Page 27: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/27.jpg)
27 Das Webarchiv Österreich, 16.05.2019
![Page 28: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/28.jpg)
28 Kulturerbe Web, 29.03.2019
![Page 29: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/29.jpg)
Monat Unique Visitors
7/2016 29
7/2017 529
7/2018 556
8/2018 547
9/2018 653
10/2018 776
11/2018 895
12/2018 760
1/2019 911
2/2019 757
3/2019 814
4/2019 734
![Page 30: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/30.jpg)
Kennzahlen
127 TB Speicher (komprimiert & dedupliziert 57,5 TB)
> 2 Mio. Domains
> 3,46 Mrd. Dateien
16 % ohne PUID (541 Mio. Dateien)
> 600.000 Arc Dateien
> 110 Mio. Objekte im Volltext (zur Zeit reduziert auf knapp 8 Mio.)
30 Das Webarchiv Österreich, 16.05.2019
![Page 31: Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio) TLD .wien (15.000) TLD .tirol (4.000) Andere Domains mit Österreich-Bezug (11.000,](https://reader033.vdocuments.pub/reader033/viewer/2022051916/60081292afcc9f3019251daa/html5/thumbnails/31.jpg)
Fragen?
Danke!
Kulturerbe Web, 29.03.2019 31
Andreas Predikaka
Österreichische Nationalbibliothek
[email protected] https://webarchiv.onb.ac.at