»arme nachlassverwalter…« herausforderungen, erkenntnisse und lösungsansätze bei der...
TRANSCRIPT
![Page 1: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/1.jpg)
»Arme Nachlassverwalter…« –
Herausforderungen, Erkenntnisse
und Lösungsansätze bei der Aufbereitung
komplexer digitaler Datensammlungen
Weimar, 11. März 2014
[email protected]@dla-marbach.de
![Page 2: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/2.jpg)
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler):
• 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc.
• 26.700 Originaldateien mit 14 GB
![Page 3: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/3.jpg)
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler):
• 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc.
• 26.700 Originaldateien mit 14 GB
Adler, Hans Günther; Berbig, Roland;Claudius, Hermann; Delius, FriedrichChristian; Domin, Hilde; Elias, Norbert;Gadamer, Hans-Georg; Goldschmidt,Georges-Arthur; Gumbrecht, Hans Ulrich;Hentig, Hartmut von; Iser, Wolfgang; Jauss,Hans Robert; Kaufmann, Hans; Koselleck,Reinhart; Kronauer, Brigitte; Lengemann,Jochen ; Lübbe, Hermann; Mattenklott, Gert;Mickel, Karl; Naumann, Manfred; Novak,Helga M.; Olden, Balder; Pastior, Oskar;Richartz, Walter Erich; Ritter, Henning;Rowohlt-Verlag; Rüegg, Walter; Rühmkorf,Peter; Schlöndorff, Volker; Schnabel, Ernst;Schumann, Michael; Schwarz, Egon;Schwenger, Hannes; Strittmatter, Thomas;Zimmer, Heinrich;
![Page 4: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/4.jpg)
Friedrich Kittler: Mengen
- Fünf (sieben?) PCs
- Sechs Festplatten(-Images) mit 10 Partitionen (»hd«)
- 336 Disketten (»fd«)
- 104 optische Medien (CD-R, »od«)
- 4 Dateisammlungen auf externen [DLA-]Medien, »xd«)
- ca. 250 Dateien mit Video-Mitschnitten (DV, AVI)
Ca. 1,7 Mio. Dateien, ca. 1,1 TB
![Page 5: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/5.jpg)
»arme Nachlaßverwalter…«
![Page 6: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/6.jpg)
FK: Anzahl Datenträger
FK: 444
Bisher: 281
![Page 7: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/7.jpg)
FK: Anzahl Dateien (ohne Mediendok.)
FK: ca. 1,7 Millionen
Bisher: ca. 26.700
![Page 8: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/8.jpg)
DLA Workflow 1.0: Grenzen
Der bisherige Workflow skaliert nicht:
1. Eine implizite Relevanzzuschreibung für das gesamte digitale Material existiert nicht.
2. Kittlers unkonventionelle Arbeitsweise (root) und kreative Benennungsschemata lassen einfache Schlüsse jedoch nicht zu (so ist z.B. /home idR. irrelevant, /usr/ich aber sehr relevant).
3. Eine Dateiformatmigration für alle Dateien ist wegen des Umfangs unmöglich, eine Auswahl muss getroffen werden.
![Page 9: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/9.jpg)
Lösungsansatz
Ironmaiden»Intelligent Read-Only Media Identification Engine«
»Intelligent Recursive Online Metadata and Indexing Engine«
(aka »Indexer«)
Autor: Jürgen Enge, ZIMT (HAWK Hildesheim/Holzminden/Göttingen)
Status: reifer Prototyp auf VM des DLA, alle (ca. 300) mountbaren Datenträger-Images als Loopback-Devices im Zugriff, Dateianalyse und Volltext-Indexierung nahezu abgeschlossen; nur (sehr) interner Zugang wg. sehr privater Dokumente.
![Page 10: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/10.jpg)
Ziel
Werkzeug zur Erfassung unstrukturierter digitaler Datenbestände in der Vorstufe zur Archivierung
• Niederschwelliger Zugang
• Hoher Automatisierungsgrad
• Leichte Erweiterbarkeit
• Performanz
• Transparente Systematik
![Page 11: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/11.jpg)
Niederschwelliger Zugang
• Webfrontend
• Einfacher Zugang
• Nutzbarkeit mit verschiedenen Komplexitätsebenen
![Page 12: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/12.jpg)
Niederschwelliger Zugang
![Page 13: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/13.jpg)
Niederschwelliger Zugang
![Page 14: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/14.jpg)
Hoher Automatisierungsgrad /
Leichte Erweiterbarkeit
• Logisches Vorgehen
• Dateistruktur in Datenbank einlesen
• Prüfsummen erstellen
• Identifizieren
• Libmagic
• Gvfs-info
• Tika
• Detex
![Page 15: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/15.jpg)
Dateisystem / Prüfsumme
![Page 16: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/16.jpg)
libmagic
![Page 17: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/17.jpg)
Gvfs-info
application/octet-stream
![Page 18: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/18.jpg)
Apache Tika
![Page 19: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/19.jpg)
Image Magick
![Page 20: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/20.jpg)
avconv/ffmpeg
![Page 21: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/21.jpg)
Weitere Volltexte
![Page 22: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/22.jpg)
Erkennungs-resultate(MySQL)
IndexerIndexerErkennungs-
kaskade
Dateisystem-indizierung
Volltextindex(SOLR)
Webserver
Webclient
Autonomes
Subsystem
Systemarchitektur
Sektor-Images(Quelle)
Mountpoints(Ordner)
Cache
![Page 23: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/23.jpg)
Webfrontend
AutocompleteFacette
![Page 24: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/24.jpg)
Webfrontend
![Page 25: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/25.jpg)
Webfrontend
Anzahl DauerSOLR Query
Paging
![Page 26: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/26.jpg)
Webfrontend
MIME-Type
Dateigröße
Dateiname
Interne SignaturDatenträger
Änderungs-datum
Gefundene Textstelle(n)
![Page 27: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/27.jpg)
Webfrontend
#4078.1749383, text/x-csrc (1990-07-06T02:00:00Z). CALLTEST.C,
in: Bestand A:Kittler/DLA Marbach. fd077:// [fd, 389 B].
![Page 28: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/28.jpg)
Webfrontend
![Page 29: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/29.jpg)
National Software Reference Library
sessionid 4078 = Floppy 077, 3,5“, vfat,
ca. 1992
![Page 30: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/30.jpg)
Mögliche Fragestellungen (Beispiele)
- Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als Dubletten ausgeschieden werden?
- Welche Dateien haben die Größe 0 Bytes und können/müssen nicht weiter bearbeitet werden? [live]
- Welche Bilder gibt es im Datenträger-Nachlass? Audio-Dateien? Videos? [live1, live2, live3]
- Welche Textverarbeitungsprogramme hat Kittler benutzt?
- Auf welchen Datenträgern gibt es Ordner des Namens »ich«? [live]
- Welche Dateien sind MS-Word-Dateien, obwohl sie nicht den Typ ».doc« tragen? [live]
- Welche E-Mails vom, an das oder über das DLA Marbach hat Kittler aufgehoben? [live]
![Page 31: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/31.jpg)
Mögliche Fragestellungen (Beispiele)
- Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel »FAK« im Volltext), obwohl sie in typischen Systemordnern liegen? [live]
- In welchen Varianten kommt die Datei »komment« in den verschiedenen Backup-Medien und Festplattengenerationen vor? [live]
- Ist die SGI-Workstation-Festplatte hd06 wirklich komplett irrelevant?
- (Wann) hat Kittler einen Vortrag beim Chaos Computer Club Hamburg gehalten? (Und worüber hat er gesprochen? Ist der Text erhalten?) [live1, live2, live3, weiter]
![Page 32: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/32.jpg)
Download
![Page 33: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/33.jpg)
![Page 34: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/34.jpg)
![Page 35: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/35.jpg)
Download
![Page 36: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/36.jpg)
![Page 37: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/37.jpg)
Destillation der relevanten Dateien
![Page 38: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/38.jpg)
Fazit
Ironmaiden aka Indexer
• Einfach erweiterbar
• Robust
• Skalierbar
• Benötigt einfaches Refactoring
• Einfacher Zugriff auf Inhalte
• Ist KEIN Archiv
![Page 39: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen](https://reader030.vdocuments.pub/reader030/viewer/2022032620/55c57dc6bb61ebc25d8b45de/html5/thumbnails/39.jpg)
Zusammenfassung und Ausblick
Bitstream Preservation:
Dateiformatanalyse:
Bewertung, Erschließung:
Dateiformat-Migration:
Emulation:
Benutzung: