8. workshop - internetarchivierung 3.1. erfassung/bewertung/transfer 07.02.2006 sabine widmaier,...
Post on 05-Apr-2015
104 Views
Preview:
TRANSCRIPT
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 1
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Problembereiche bei der Spiegelung der Websites mit Offline Explorer Pro:
2. Teile der Website befinden sich auf einem zweiten Server(häufig css oder Bilddateien)
3. Mouseover-Grafiken müssen nachgeladen werden(JavaSkript-Navigation)
4. Session-Id‘s (schon vorhandene Dateien werden nicht als solche erkannt, da sie eine neue Session-ID haben)
5. Ursprüngliche xml-Dateien werden nicht als html-Dateien erkannt und „geparst“
6. Dynamisch aufgebaute Webseiten werden in statische html-Seiten umgewandelt (großes Datenaufkommen, Interaktionsmöglichkeiten sind zum Teil auf den gespiegelten Webseiten nicht mehr möglich)
1. Die Website liegt nicht auf dem gedachten Server(es befindet sich dort nur eine Weiterleitung)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 2
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
1. Die Website liegt nicht auf dem gedachten Server
Beide URLs werden in das Spiegelungsprogramm eingegeben. Letztere mit der Einschränkung auf den Unterordner „der“.
Die Homepage des SPD-Unterbezirks Dresden-Elbe-Röder
http://www.spd-der.de/
liegt eigentlich auf
http://spdnet.sozi.info/sachsen/der/
Beispiel: Mögliche Lösung:
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 3
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
http://spdnet.sozi.info/sachsen/der/
Beispiel zu Punkt 1
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 4
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
2. Teile der Website befinden sich auf einem zweiten Server
Homepage des ehemaligen NRW-Landtagsabgeordneten Georg Scholz
http://www.georg-scholz.de/
Css-Dateien und ein Teil der Bilder liegen auf der RuhrOstSPD.
Beispiel:
Das Spiegelungsprogramm „darf“ Css- und Bilddateien auch von anderen Servern holen.
Mögliche Lösung:
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 5
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Beispiel zu Punkt 2 (ohne css und Bilder)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 6
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Beispiel zu Punkt 2 (mit css und Bildern von anderem Server)Beispiel zu Punkt 2 (mit css und Bildern von anderem Server)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 7
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
3. Mouseover-Grafiken müssen nachgeladen werden
Homepage des SPD-Ortsvereins Bad Sooden-Allendorf
http://www.badsoodenallendorf.de/
JavaScript-Navigation verwendet Buttons, die beim Mouseover ausgetauscht werden. Die Mouseover-Buttons fehlen nach der Spiegelung.
Beispiel:
Mit Hilfe des „LogWindow“ im Spiegelungsprogramm lassen sich die Namen und Pfade fehlender Dateien ermitteln und nachträglich gezielt nachladen.
Mögliche Lösung:
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 8
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Beispiel zu Punkt 3 (ohne Mouseover-Bilder)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 9
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Beispiel zu Punkt 3 (mit Mouseover-Bildern)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 10
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
4. Session-Id‘s
Beispiel:
Der Offline Explorer bietet die Möglichkeit, Teile der URL beim Spiegelungsprozess zu entfernen bzw. auszutauschen (URL Substitutes...).In diesem Falle wurde die Session-ID entfernt.
Mögliche Lösung:
Homepage des SPD-Ortsvereins Wulfen
http://www.spd-wulfen.de/
Schon vorhandene Dateien werden nicht als solche erkannt, da sie eine neue Session-ID haben. Der Spiegelungsprozess kommt nicht zum Ende und die Dateien sind, jeweils unter einem neuen Ordner abgelegt, mehrfach vorhanden.
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 11
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
http://www.spd-wulfen.de/.net/DGPPKGPTGPTTVVGQGCPCQC/html/1967/welcome.html
Beispiel zu Punkt 4 (Session-Id in rot)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 12
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Vergleich der Dateistruktur mit (links) und ohne (rechts) Session-ID
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 13
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
5. Ursprüngliche xml-Dateien werden nicht als html-Dateien erkannt und „geparst“
Homepage des SPD-Landesverbandes Sachsen-Anhalt
http://www.spd-sachsen-anhalt.de/
Mit Ausnahme der durch das Spiegelungsprogramm angelegten Startseite (default.htm), wird beim Aufruf der Dateien mit dem Browser eine Fehlermeldung ausgegeben, da den Dateien sowohl die Dateiendung .htm als auch ein Starttag <HTML> fehlt.
Beispiel:
Der Offline Explorer bietet die Möglichkeit, ein komplettes „Spiegelungsprojekt“ zu exportieren. Dabei werden die Dateien analysiert und automatisch ein <HTML>Tag an den Anfang des Quelltextes gesetzt. Der Browser erkennt dann die Datei als html.
Mögliche Lösung:
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 14
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Beispiel zu Punkt 5 (Fehlermeldung bei den gespiegelten Seiten vor dem Export)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 15
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
<?xml version="1.0" encoding="iso-8859-1"?>
Quelltext vor dem Export
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 16
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Webseite nach dem Export
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 17
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
<HTML>
<?xml version="1.0" encoding="iso-8859-1"?>
Quelltext nach dem Export
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 18
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Homepage der hessischen Landtagsabgeordneten Heike Habermann
http://www.heike-habermann.de/
Durch das Aneinanderreihen verschiedener Übergabeparameter im Dateinamen werden im Laufe der Spiegelung sehr viele Dateien angelegt, welche sich oft nur in Nuancen unterscheiden.
Beispiel:
Durch URL-Substitutes, Ausschluss bestimmter Dateinamen oder auch durch eine Verringerung der Linktiefe lässt sich der Umfang einer solchen Spiegelung verringern. Dennoch bleibt ein hohes Datenaufkommen (eventuell auch mit vielen Redundanzen) bei relativ geringem inhaltlichen Gewinn
Mögliche Lösung:
6. Dynamisch aufgebaute Webseiten werden in statische html-Seiten umgewandelt (großes Datenaufkommen, Interaktionsmöglichkeiten sind zum Teil auf den gespiegelten Webseiten nicht mehr möglich)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 19
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Interaktion ohne Client-Server-Dynamik:
ServerServer
Client 1Client 1 Client 2Client 2 Client 3Client 3
Anfragen
Vorproduzierte statische Inhalte(html-Seiten)
Statische Standard-WebseitenClientseitige Interaktivität (JavaScript, JavaApplets, skriptfähige Animationen wie Flash)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 20
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Interaktion mit Client-Server-DynamikDynamische Webseiten
ServerServer
Client 1Client 1 Client 2Client 2 Client 3Client 3
Anfragen
Dynamische Webseiten (zum Teil datenbankgestützt), die beim Browser des Clients als html-Seiten ankommen
1. Serverseitiges Skripting (ASP, JSP, PHP) 2. Serverseitig installierte Zusatzprogramme
(plugins, cgis)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 21
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
• www.heike-habermann.de\ redsys\pub_content.asp@content=2&menu=01000000&y=2005&c=w&w=4&id=335
• www.heike-habermann.de\• redsys\pub_content.asp@content=2&menu=02000000&y=2005&c=w&w=4&id=335
„ Die Edith-Stein-Schule werde “
Beispiel zu Punkt 6 (zwei Dateien einer dynamischen Webseite)
07.02.2006 Sabine Widmaier, Friedrich-Ebert-Stiftung, Bonn 22
8. Workshop - Internetarchivierung3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r3
.1. E
rfassu
ng/B
ew
ertu
ng/T
ransfe
r
Die Suche in den Dateien der Spiegelung www.heike-habermann.de nach einem bestimmten Artikel ergab 50 Treffer:
top related