forschungsdatenmanagement in den naturwissenschaften
DESCRIPTION
Die vorliegende Arbeit soll einen Einblick in den aktuellen Stand des Forschungsdatenmanagements in den Naturwissenschaften geben. Da die Disziplinen zu zahlreich und unterschiedlich für den Umfang dieser Arbeit sind, musste der Autor sich auf einzelne Fachbereiche beschränken, um so exemplarisch den jetzigen Stand zu vermitteln. Bevor die Beispiele aus den Disziplinen erläutert werden, soll in Kapitel 2 auf die Problematiken, die einem effektiven Forschungsdatenmanagement im Wege stehen, eingegangen werden. Es folgt die Bestandsaufnahme in den Bereichen Chemie, Ast- ronomie und den Geowissenschaften. Für jedes Forschungsgebiet sollen die disziplinspezifischen Anforderungen an das Forschungsdatenmanagement beschrieben werden, die nötigen Metadaten und Metadatenstandards. Die Kapitel schließen mit der Vorstellung eines Repositoriumsaus dem jeweiligen Fachbereich.TRANSCRIPT
-
Forschungsdatenmanagement in den
Naturwissenschaften
Schriftliche Studienarbeit
im Seminar Forschungsdatenmanagement
Bibliothek- und Informationsmanagement
Prof. Magnus Pfeffer
Vorgelegt von:
Tobias Thelen
Email: XXXXX
Matr.-Nr.: XXXXX
Hochschule der Medien Stuttgart
Bibliotheks- und Informationsmanagement (Bachelor)
Wintersemester 2013/14
Abgabedatum:
15. Januar 2014
-
Inhaltsverzeichnis 2
Inhaltsverzeichnis
Inhaltsverzeichnis ....................................................................................................... 2
Abbildungsverzeichnis ............................................................................................... 3
1 Einleitung .......................................................................................................... 4
2 Problematik ....................................................................................................... 6
3 Fachbereich Chemie ........................................................................................ 8
3.1 Forschungsgegenstand der Chemie ................................................................... 8
3.2 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Chemie ............................................................................................................... 8
3.3 Metadaten und Metadatenstandards .................................................................. 9
3.4 Beispiel International Crystallographic Structure Database .............................. 11
4 Fachbereich Astronomie................................................................................ 15
4.1 Forschungsgegenstand der Astronomie ........................................................... 15
4.2 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Astronomie ....................................................................................................... 15
4.3 Metadaten und Metadatenstandards ................................................................ 16
4.4 Beispiel Sloan Digital Sky Survey ..................................................................... 17
5 Fachbereich Geowissenschaften .................................................................. 19
5.1 Forschungsgegenstand der Geowissenschaften .............................................. 19
5.2 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in den Geowissenschaften .......................................................................................... 19
5.3 Metadaten und Metadatenstandards ................................................................ 20
5.4 Beispiel PANGAEA .......................................................................................... 21
6 Fazit ................................................................................................................. 24
7 Relevante Forschungsliteratur ...................................................................... 26
7.1 Forschungsdatenmanagement Allgemein......................................................... 26
7.2 Literatur zum jetzigen Stand des Forschungsdaten-managements in den Naturwissenschaften ........................................................................................ 26
7.3 Literatur zu den Datenformaten und Standards ................................................ 27
7.4 Literatur zu den einzelnen Repositorien ........................................................... 27
Glossar ....................................................................................................................... 28
Literaturverzeichnis .................................................................................................. 29
Ehrenerklrung .......................................................................................................... 32
-
Abbildungsverzeichnis 3
Abbildungsverzeichnis
Abb. 1 ScienceDirect-Vorschauseite auf einen Artikel mit Verlinkung der Forschungsdaten auf PANGAEA (rechts im Bild) ............................................... 7
Abb. 2 Graphische Darstellung der Messkurve eines spektrographischen Datensatzes ....................................................................................................... 9
Abb. 3 Aufbau eines einfachen Blocks einer JCAMP-DX-Datei mit Core- und Notes-Feldern .................................................................................................. 11
Abb. 4 Struktur einer JCAMP-DX-Datei mit mehreren unabhngigen Blcken ............ 11
Abb. 5 Suchinterface der Webanwendung der ICSD ................................................... 13
Abb. 6 Darstellung eines Datensatzes in der Webanwendung der ICSD ..................... 13
Abb. 7 Bildersuche im Webinterface des SDSS Data Release 7 ................................. 18
Abb. 8 Suchformular des PANGAEA-Webinterfaces ................................................... 22
-
1 Einleitung 4
1 Einleitung
Die Naturwissenschaften versuchen Naturphnomene und die Natur an sich durch
Beobachtungen, Messungen und Analysen zu erklren. Auerdem versuchen Forscher
die Natur fr den Menschen nutzbar zu machen. Durch ihre Forschung bilden die Na-
turwissenschaften die theoretischen Grundlagen fr Technik, Medizin und viele weitere
Felder des tglichen Lebens.1
Es unterscheiden sich mehrere Hauptrichtungen wie die Astronomie, Geowissenschaf-
ten, die Biologie, Chemie und die Physik. Die Methoden zum Erkenntnisgewinn in den
Fachbereichen knnen sehr unterschiedlich sein, jedoch gilt fr einen Groteil, dass
Daten, die durch Messungen, Beobachtungen und Experimente entstehen die Grund-
lage fr die wissenschaftliche Forschung in den Naturwissenschaften sind. Sie dienen
der Beweisfhrung, Kontrolle und auch der Inspiration fr neue Forschungsanstze.
Die Forschungsdaten sind so unterschiedlich wie die Fachbereiche an sich. Jedoch
haben sie oft gemeinsam, dass ihre Gewinnung oft mit einem hohen personellen und
auch finanziellen Aufwand verbunden ist. In einigen Disziplinen knnen Daten auch
mglicherweise nur einmal und sonst nie wieder erhoben werden, wie etwa bei der
Beobachtung von Sternenkonstellationen in der Astronomie. Diese Tatsachen machen
Forschungsdaten so wertvoll und allein das sollte schon Grund genug sein, sich ber
die Erschlieung, Aufbereitung, Archivierung und Zugnglichkeit, kurz also dem For-
schungsdatenmanagement, Gedanken zu machen.
Auerdem wurde erkannt, dass Forschungsdaten, die aus ffentlichen Geldern finan-
ziert wurden, auch der wissenschaftlichen ffentlichkeit zur Verfgung stehen sollten.
Oftmals knnen Daten unabhngig von ihrem ursprnglichen Verwendungszweck als
Grundlage eigenstndiger Forschung wiederverwendet werden. Dieser Ansatz im Zei-
chen des Gemeinsinns bildet laut der Denkschrift Grundstze zum Umgang mit For-
schungsdaten der Allianz der deutschen Wissenschaftsorganisationen eine strategi-
sche Aufgabe, zu der Wissenschaft, Politik und andere Teile der Gesellschaft gemein-
sam beitragen mssen.2 Die Sicherung von Daten, die aus ffentlich gefrderten Pro-
jekten hervorgehen und deren grundstzlich offener Zugang3 ist ein wichtiges Ziel um
die Qualitt, Produktivitt und Konkurrenzfhigkeit der Wissenschaft in Deutschland zu
frdern.
Die vorliegende Arbeit soll einen Einblick in den aktuellen Stand des Forschungsda-
tenmanagements in den Naturwissenschaften geben. Da die Disziplinen zu zahlreich
und unterschiedlich fr den Umfang dieser Arbeit sind, musste der Autor sich auf ein-
1 Vgl. Ledoux, S. F. (2002): Defining Natural Sciences, S. 34
2 Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Umgang mit
Forschungsdaten, S.2
3 Ebd., S. 2
-
1 Einleitung 5
zelne Fachbereiche beschrnken, um so exemplarisch den jetzigen Stand zu vermit-
teln. Bevor die Beispiele aus den Disziplinen erlutert werden, soll in Kapitel 2 auf die
Problematiken, die einem effektiven Forschungsdatenmanagement im Wege stehen,
eingegangen werden. Es folgt die Bestandsaufnahme in den Bereichen Chemie, Ast-
ronomie und den Geowissenschaften. Fr jedes Forschungsgebiet sollen die disziplin-
spezifischen Anforderungen an das Forschungsdatenmanagement beschrieben wer-
den, die ntigen Metadaten und Metadatenstandards. Die Kapitel schlieen mit der
Vorstellung eines Repositoriums4 aus dem jeweiligen Fachbereich.
4 Repositorium (engl. Repository): Verzeichnis zur Verwaltung von Forschungsdaten und/oder
Publikationen.
-
2 Problematik 6
2 Problematik
Die von der DFG5 aufgestellten Empfehlungen zur Sicherung guter wissenschaftlicher
Praxis besagen, dass Forschungsdaten, die Grundlage einer wissenschaftlichen Pub-
likation sind, fr zehn Jahre von den zustndigen Institutionen aufbewahrt und zugng-
lich gemacht werden sollen, um die berprfung von Forschungsergebnissen zu er-
mglichen.6 Auch verschiedene wissenschaftliche Institutionen haben hier mit speziel-
len institutional policies nachgezogen, die den Umgang mit den Forschungsergebnis-
sen regeln sollen. Allerdings werden die Daten aus Zeitgrnden hufig nur in ihrer
Rohform archiviert und sind ohne die entsprechenden Metadaten nur schwer zu inter-
pretieren. Die hohe Fluktuation von Forschern an den Hochschulen sorgt dafr, dass
der Forscher, der die Daten erhoben hat, in vielen Fllen schon lngst in einem ande-
ren Projekt an einer anderen Hochschule arbeitet und bei der Entschlsselung der Da-
ten nicht mehr behilflich sein kann.
Grundstzlich besteht in den Wissenschaften durchaus die Bereitschaft Forschungsda-
ten interdisziplinr zu verffentlichen und zugnglich zu machen. Allerdings ist es zur
Zeit unblich, dass die erforderliche Mehrarbeit fr Aufbereitung, Kontextdokumentati-
on und Qualittssicherung im Wissenschaftsbetrieb anerkannt wird.7 Die Leistung ei-
nes Wissenschaftlers wird vorwiegend durch die Anzahl seiner Verffentlichungen und
vor allem durch die Hufigkeit, mit der diese von seinen Kollegen in deren Publikatio-
nen zitiert werden, bewertet. Hierfr werden die citation indexes8 herangezogen, in
dem die Zitierungen seiner wissenschaftlichen Arbeiten aufgefhrt sind. Von ihm er-
zeugte Forschungsdaten, die von anderen Wissenschaftlern genutzt und entsprechend
zitiert wurden, werden in einem solchen Index in der Regel nicht bercksichtigt. Des-
halb besteht in dieser Hinsicht nur ein geringer Anreiz fr den Forscher den Mehrauf-
wand fr eine vollstndige, mit Metadaten versehene Verffentlichung von Datenst-
zen zu betreiben. Generell lsst sich sagen, dass Forscher ihre Zeit am liebsten mit
Forschung verbringen, da auch der Druck zu verffentlichen sehr hoch ist und sich die
Anzahl seiner Verffentlichungen direkt auf die zuknftige Vergabe von Forschungs-
geldern auswirken kann. Michael Diepenbroek und Hannes Grobe, die am Alfred-
Wegener-Institut fr Polar- und Meeresforschung fr die in den Geowissenschaften
bekannte PANGAEA-Datenbank verantwortlich sind, vertreten die Meinung, dass die
Trennung von wissenschaftlichen Publikationen und zugrunde liegenden Primrdaten 5 DFG: kurz fr Deutsche Forschungsgemeinschaft. Eine Einrichtung zur Frderung der Wis-
senschaft und Forschung in Deutschland. 6 Vgl. Deutsche Forschungsgesellschaft (2013): Sicherung Guter Wissenschaftlicher Praxis :
Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft", S. 21
7 Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primr-
daten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 35 8 citation index: Datenbank, die Zitationen von wissenschaftlichen Publikationen untereinander
verzeichnet. Kann als Messinstrument fr die Produktivitt und Qualitt eines Wissenschaft-lers herangezogen werden.
-
2 Problematik 7
[] als gravierendes strukturelles Problem in den empirischen Wissenschaften gese-
hen werden [kann].9 Inzwischen gibt es Projekte, die sich bemhen eine Lsung fr
diese Problematik zu finden. Der Elsevier-Verlag ist einer der weltweit fhrenden Ver-
lage fr wissenschaftliche Zeitschriften und Fachbcher und bietet mit dem Internetpor-
tal ScienceDirect einen Online-Dokumentenlieferdienst an. In einer Kooperation mit
PANGAEA wird bei jeder Publikation, die auf diesem Portal verfgbar ist, automatisch
geprft, ob fr diesen Artikel Forschungsdaten verfgbar sind, die mit einem DOI10 re-
gistriert wurden, und ggf. [wird] ein Verweis direkt auf die Vorschauseite des Artikels
platziert.11
Abb. 1 ScienceDirect-Vorschauseite auf einen Artikel mit Verlinkung der Forschungsdaten auf
PANGAEA (rechts im Bild)12
Dieses Beispiel knnte ein Schritt in die Zukunft sein, denn sollte es sich in den Natur-
wissenschaften durchsetzen, dass Forschungsdaten zitierfhig werden, so wrde ein
Anreiz fr den Wissenschaftler geschaffen, seine Daten in den entsprechenden Struk-
turen zu publizieren. Die Anerkennung von Forschungsdaten als eigenstndige wis-
senschaftliche Leistung erscheint hier durchaus als gerecht, da viel Zeit und For-
schungsgelder in deren Gewinnung flieen.
9 Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliothekssystem
fr wissenschaftliche Daten, S. 149 10
DOI: kurz fr Digital Object Identifier. Ein eindeutiger, standortunabhngiger Identifikator fr digitale Objekte, um ber lange Zeitrume und eventuelle Systemwechsel hinweg einen zu-verlssigen Zugriff auf diese Ressourcen gewhrleisten zu knnen.
11 Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primr-
daten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 59 12
Abb. vom Autor selbst auf der Internetseite von ScienceDirect aufgenommen. URL: http://www.sciencedirect.com/science/article/pii/S0025322704000829 (10.01.2014)
-
3 Fachbereich Chemie 8
3 Fachbereich Chemie
3.1 Forschungsgegenstand der Chemie
Forscher in der Chemie beschftigen sich mit dem Aufbau, den Eigenschaften und der
Umwandlung von Stoffen. Traditionell unterscheidet man innerhalb des Fachbereichs
zwischen der organischen und der anorganischen Chemie. Es gibt sehr spezifischen
Teildisziplinen und interdisziplinre Forschungsgebiete wie die Biochemie, theoretische
Chemie, prparative Chemie, analytische Chemie und technische Chemie.
3.2 Disziplinspezifische Eigenheiten beim Umgang mit
Forschungsdaten in der Chemie
In den Laboren fallen tagtglich groe Mengen der unterschiedlichsten Daten von den
Mess- und Grogerten an. Ein Groteil dieser speziellen Messergebnisse dienen
nicht dem wissenschaftlichen Erkenntnisgewinn, sondern eher der Qualittskontrolle
laufender Prozesse. Die eigenstndige Publikation fr Forschungsdaten in der Chemie
ist als eher zweitrangig anzusehen.13 Die Daten sind fr die wissenschaftliche Ge-
meinschaft eher von geringer Bedeutung. Hier bietet sich die Speicherung in institutio-
nellen Repositorien an. Erst wenn chemische Messdaten die Grundlagen fr wissen-
schaftliche Forschungen sind ist die Verffentlichung interessant.
Kooperative Strukturen sind in der Chemie weniger weit verbreitet als in anderen na-
turwissenschaftlichen Disziplinen, weshalb der Austausch von Forschungsdaten hier in
der Vergangenheit keine allzu groe Rolle gespielt hat. Die hngt natrlich auch damit
zusammen, dass ein groer Teil der Forschung in Industriekonzernen stattfindet und
dort unter Verschluss gehalten wird. Das Bestreben Betriebsgeheimnisse zu bewahren
ist hier natrlich verstndlich, wenn man bedenkt, dass die Chemieindustrie eine der
innovativsten und auch lukrativsten Industriezweige darstellt. Nichtsdestotrotz gibt es
Bemhungen eine Infrastruktur fr den Austausch von Forschungsdaten zu schaffen.
In einer Studie von 2010 haben die Technische Informationsbibliothek Hannover, das
Fachinformationszentrum Chemie Berlin und die Universitt Paderborn den aktuellen
Stand des Forschungsdatenmanagements in der Chemie untersucht und ein Konzept
fr die Langzeitarchivierung chemischer Primrdaten erstellt, das aber durch die Ab-
wicklung des FIZ Chemie Berlins im Jahr 2011 so noch nicht in die Tat umgesetzt wer-
den konnte.14
13
Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primr-daten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 30
14 Der Bund und das Land Berlin, die bisherigen Eigentmer, zogen sich 2011 aus dem FIZ
Chemie zurck, da man nach man es nach deren Meinung versumt hatte sich auf dem
-
3 Fachbereich Chemie 9
3.3 Metadaten und Metadatenstandards
So vielfltig die verschiedenen Fachbereiche der Chemie sind, so vielfltig sind auch
die Methoden, die zur Gewinnung von Daten angewandt werden. Die verwendeten
Datenstandards der verschiedenen Fachbereiche zu betrachten wrde den Rahmen
dieser Arbeit bersteigen. Aus diesem Grund soll nur exemplarisch ein Format genauer
vorgestellt werden.
Die Spektrographie gehrt zu den gngigsten Analysemethoden in der Chemie und so
entsteht ein groer Teil der Daten in spektrographischen Laboren der verschiedensten
Forschungseinrichtungen. Diese Messdaten dienen der genauen Beschreibung der
Zusammensetzung eines, meist im Labor synthetisierten, Stoffes. Die Rohdaten wer-
den hufig direkt nach der Erfassung in einen an das Messgert angeschlossenen
Server hochgeladen. Der Zugang auf die Daten ist zu diesem Zeitpunkt uerst einge-
schrnkt. Die Rohdaten werden im Anschluss so aufbereitet, dass es im Anschluss
mglich ist mittels spezieller Software eine graphische Reprsentation der Messung
darzustellen.
Abb. 2 Graphische Darstellung der Messkurve eines spektrographischen Datensatzes15
Problematisch ist hierbei, dass potentiell jeder Hersteller, zum Teil auch jedes Gert,
ein eigenes, hufig proprietres Dateiformat nutzt. Dies ist fr die Verffentlichung der
Daten ein groes Problem. Hierzu ist ein Austauschformat ntig, das es ermglicht die
Daten mit den erforderlichen Metadaten zu versehen und so unabhngig von ihrem
ursprnglichen Dateiformat lesbar zu machen. Man kann die Metadaten grob in zwei
Markt zukunftsgerecht zu positionieren. 2013 wurden Teile des FIZ vom Wiley-Verlag ber-nommen, der Rest wurde abgewickelt.
15 Abb. entnommen aus Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzept-
studie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 68
-
3 Fachbereich Chemie 10
Kategorien unterteilen interne und externe Metadaten. Die externen Metadaten ent-
sprechen in etwa den Daten eines Bibliothekskatalogs. Sie umfassen den Identifier, mit
dessen Hilfe die Daten eindeutig identifiziert werden knnen (z.B. DOI), die techni-
schen Daten (Formatangabe und Datentyp), Inhaltsbeschreibung (Titel, Thema,
Abstract, Fachrichtung), Personenangaben (Urheber der Datei, Herausgeber) und Ver-
netzung der Daten.16 Interne Metadaten beziehen sich unmittelbar auf die Probe und
die Erzeugung chemischer Forschungsdaten [].17 In der Chemie ist es blich, dass
die Forschungsdaten und die Metadaten in einer Datei gespeichert werden. Ein einzi-
ges Standardformat gibt es noch nicht, allerdings ist bei spektrographischen Messun-
gen das JCAMP-DX-Format18 weit verbreitet. Dieses Format wurde 1988 mit dem Ziel
eingefhrt ein Dateiformat anzubieten, mit welchem Infrarotspektrometer und die dazu-
gehrigen chemischen und physikalischen Informationen ausgetauscht werden kn-
nen. Schon bei der Einfhrung wurde bereits Wert darauf gelegt, dass auch andere
Spektrometer, die mit anderen Messmethoden gewonnen wurden, dargestellt werden
knnen. Die Daten werden in definierten Textfeldern mit beliebiger Lnge gespeichert
und knnen mit einem einfachen Texteditor verndert und erweitert werden. Um die
Informationen zu schreiben werden ausschlielich ASCII-Zeichen verwendet, um eine
Kompatibilitt mit allen damaligen Computer- und Datensystemen zu gewhrleisten.
Eine JCAMP-DX-Datei kann entweder eine einfache oder eine zusammengesetzte
Struktur aufweisen.
Bei der einfachen Struktur besteht die Datei aus einem Block der aus Core-Metadaten
und Notes besteht. Die Core-Daten sind essentiell und mssen zwingend maschinen-
lesbar sein und knnen von Notes ergnzt werden. Sie enthalten generelle und metho-
denspezifische Informationen und relevante technische Spezifikationen des benutzten
Spektrometers. Notes sind von Menschen lesbare Dateien, die das Experiment und die
zu Grunde liegende Methodik genauer beschreiben. Sie knnen sehr stark in ihrem
Umfang variieren, da sie von der Messtechnik und dem Forscher, der sie erstellt, ab-
hngig sind.19 Die Abbildung 3 auf der nchsten Seite zeigt die Struktur, die einer
JCAMP-DX-Datei zugrunde liegt.
16
Vgl. Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 48ff
17 Ebd. S. 60
18 JCAMP-DX: kurz fr Joint Committee of Atomic and Molecular Physical Data Exchange
19 McDonald, R. S., Wilks Jr., P. A. (1988): JCAMP-DX. A Standard Format for Exchange of
Infrared Spectra in Computer Readable Form, S. 151ff
-
3 Fachbereich Chemie 11
Abb. 3 Aufbau eines einfachen Blocks einer JCAMP-DX-Datei mit Core- und Notes-Feldern20
Weist die Datei eine zusammengesetzte Struktur auf, so werden mehrere solcher Bl-
cke, die jeweils Core- und Notes-Informationen erhalten, in einer Datei gespeichert. So
ist es mglich auch mehrere Datenstze unterschiedlicher Messmethoden innerhalb
eines Projekts in diesem Format zu speichern. Eine solche Struktur ist in Abbildung 4
dargestellt.
Abb. 4 Struktur einer JCAMP-DX-Datei mit mehreren unabhngigen Blcken21
Obwohl das Format inzwischen ber 25 Jahre alt ist, ist es auch heute noch das am
Weitesten verbreitete Austauschformat fr spektroskopische Dateien. Jeder relevante
Softwarehersteller bietet Programme an mit denen JCAMP-DX-Files ausgewertet und
dargestellt werden knnen. Somit ist davon auszugehen, dass JCAMP-DX auch in Zu-
kunft das wichtigste Dateiformat in diesem speziellen Forschungszweig bleiben wird.
3.4 Beispiel International Crystallographic Structure Database
Das Fachinformationszentrum Karlsruhe stellt die weltweit grte kristallographische
Datenbank fr die Wissenschaft und Industrie zur Verfgung. Da der Groteil chemi-
scher Literatur auf Englisch verffentlicht wird, ist dies auch die Sprache der Daten-
bank. Sie enthlt Datenstze kristallographischer Strukturen, die vor allem fr materi-
alwissenschaftliche Untersuchungen herangezogen werden. Die Informationen in der
International Crystallographic Structure Database (kurz ICSD) umfassen die Struktur-
20
Abb. entnommen aus aus Technische Informationsbibliothek Hannover, Hrsg. (2010): Kon-zeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 60
21 Abb. entnommen ebd., S. 61
-
3 Fachbereich Chemie 12
daten von Elementen, Mineralen und Metallen. Seit 2003 werden auch organische
Strukturen in begrenztem Ausma aufgenommen.22 Zustzlich werden noch bibliogra-
phische Daten bereitgestellt, die Aufschluss ber die ursprngliche Verffentlichung
der Strukturdaten geben. Um in die Datenbank aufgenommen zu werden, muss ein
Datensatz sehr ausfhrlich durch eine Vielzahl von Parametern beschrieben sein. Die-
se sehr strikten Anforderungen und die berprfung durch ein Team wissenschaftli-
cher Mitarbeiter gewhrleisten eine hohe Qualitt der angebotenen Daten. Eintrge die
den Anforderungen nicht entsprechen werden so bald wie mglich gelscht. Die im
Moment mehr als 166 000 Eintrge in der ICSD sind nur in Ausnahmefllen standardi-
siert. Grundstzlich gilt, dass Datenstze in der Form gespeichert werden, in der sie
von ihrem Urheber verffentlicht wurden.23 In der Regel werden vor allem Datenstze
aufgenommen, die bereits in Fachzeitschriften verffentlicht wurden. Nur sehr selten
stammen die Eintrge aus privaten Quellen.24
Die ICSD ist ein kostenpflichtiges Repositorium und kann entweder ber eine DVD-
Rom oder ein Webportal benutzt werden. Die jhrlichen Lizenzkosten betragen zwi-
schen 460 Euro fr den akademischen Nutzer bis zu 3850 Euro pro Jahr fr Mehrfach-
lizenzen industrieller Forschungseinrichtungen.25 Es besteht die Mglichkeit einen Pro-
beaccount ber 30 Tage einzurichten, bei dem das Angebot der ICSD in begrenztem
Ausma getestet werden kann.
Der Nutzer kann ber ein Webinterface die verschiedensten Parameter bei seiner Su-
che bercksichtigen. Zur Erluterung der Suchfunktionen wurde vom FIZ Karlsruhe
eine Anleitung herausgegeben. Es kann ganz regulr ber den chemischen Namen
(z.B. Natriumchlorid) oder die chemische Formel (z.B. NaCl) einer Verbindung gesucht
werden. Wie oben schon erwhnt, stammen die meisten Eintrge aus Verffentlichun-
gen, weshalb auch nach Datenstzen aus bestimmten Journals gesucht werden kann.
Natrlich ist auch die Suche nach dem Urheber der Daten mglich. Dem Forscher ste-
hen auerdem noch eine groe Anzahl von fachspezifischen Parametern wie Zellpa-
rameter, Dichte, Atomkoordinaten und Wyckoff-Positionen zur Verfgung. Zustzlich
knnen auch Remarks (dt. Anmerkungen) durchsucht werden, die vom Verfasser, der
wissenschaftlichen Redaktion oder vom Testprogramm an den Datensatz angefgt
wurden. Die Abbildung auf der nchsten Seite zeigt einen Screenshot des Suchinter-
faces des Webangebots.
22
Vgl. FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual, S.4 23
Vgl. FIZ Karlsruhe, Hrsg. (o.J.): Inorganic Crystal Structure Database 24
Vgl. FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual, S.4 25
Preise entnommen von der Webseite der International Crystallographic Structure Database: http://www.fiz-karlsruhe.de/icsd_price_list.html?&L=hjiaxatprkt ( 10.01.2014)
-
3 Fachbereich Chemie 13
Abb. 5 Suchinterface der Webanwendung der ICSD26
Bei einer Suchanfrage werden die Ergebnisse dann in einer Liste angezeigt, aus der
ein Datensatz fr die Detailansicht ausgewhlt werden kann.
Abb. 6 Darstellung eines Datensatzes in der Webanwendung der ICSD27
26
Abb. wurde vom Verfasser selbst auf der Seite der ICSD aufgenommen. URL: http://icsd.fiz-karlsruhe.de/ (10.01.2014)
-
3 Fachbereich Chemie 14
Der Datensatz enthlt neben Namen, Strukturformeln, Journal-Referenz und spezifi-
schen Messdaten auch verschiedene graphische Darstellungen. So kann die dreidi-
mensionale chemische Struktur der Verbindung mit dem Java-Plugin Jmol angezeigt
werden. Andere graphische Darstellungen sind zum Beispiel Diffraktogramme28 die der
Identifizierung kristalliner Substanzen dienen (in Abbildung 6 mit dem englischen Be-
griff Powder Pattern bezeichnet). Der gesamte Datensatz kann mittels einer CIF-
Datei29 aus der Datenbank exportiert werden.
27
Abb. wurde vom Verfasser selbst auf der Webseite der ICSD aufgenommen. URL: http://icsd.fiz-karlsruhe.de/ (10.01.2014)
28 Diffraktogramm: graphische Aufzeichnung einer chemischen Untersuchung in der Kristallo-
graphie 29
CIF: kurz fr Crystallographic Information File. Standardformat fr Textdateien, die kristallo-graphische Daten enthalten.
-
4 Fachbereich Astronomie 15
4 Fachbereich Astronomie
4.1 Forschungsgegenstand der Astronomie
Die Astronomie untersucht die Eigenschaften der Himmelskrper im Universum, der
interstellaren Materie und der im Weltall auftretenden Strahlung. Die Forschung strebt
danach, das Universum und seinen Aufbau als Ganzes zu verstehen. Der groe For-
schungsbereich der Astronomie unterteilt sich in verschiedene Fachgebiete, unter an-
derem die beobachtende Astronomie, die Astrophysik, die Astrometrie und die Him-
melsmechanik.
4.2 Disziplinspezifische Eigenheiten beim Umgang mit
Forschungsdaten in der Astronomie
Im Gegensatz zu den meisten anderen Naturwissenschaften knnen in der Astronomie
nur in Ausnahmefllen Experimente durchgefhrt werden. Schon seit den Anfngen
dieser Wissenschaft beobachten Forscher Ereignisse im Weltall, sammeln Daten und
versuchen diese zu verstehen, zu interpretieren und auf dieser Basis Vorhersagen zu
treffen. Auch aufgrund der Tatsache, dass viele Ereignisse im Weltall nur einmal oder
sehr selten auftreten und manchmal nur von bestimmten Orten und mit bestimmten
Mitteln zu beobachten sind, ist der Austausch von Forschungsergebnissen schon im-
mer Bestandteil der astronomischen Forschungsgemeinschaft. Die Forscher haben
schon frh die Vorteile von kooperativer und vernetzter Forschung erkannt und dem-
entsprechend sind kooperative Infrastrukturen in der Astronomie im Vergleich zu ande-
ren Wissenschaften sehr gut ausgebaut. In Deutschland wurde beispielsweise bereits
1863 die Astronomische Gesellschaft gegrndet. Kooperationen haben hufig auch
konomische Grnde, da die Messgerte, die zu detaillierten Beobachtungen ntig
sind, sehr hohe Kosten in der Beschaffung und der Instandhaltung verursachen. Mo-
derne Teleskope werden meist von internationalen Forschungskooperationen betrie-
ben und so ist es wichtig, dass die gewonnen Daten auch schnell fr alle Forscher ver-
fgbar sind, die zum Teil ber den ganzen Globus verteilt sitzen.
Forschungsdaten entstehen in der Astronomie auf verschiedene Art und Weise. Zum
einen durch Einzelbeobachtungen von Forschern und kleineren Arbeitsgruppen. Hier
werden die Daten meist durch den Forscher selbst in seinem Institut nach den DFG-
Richtlinien archiviert. Die hier anfallenden Datenmengen sind verhltnismig gering.
Anders verhlt es sich bei systematischen Beobachtungen und Surveys, die von gr-
eren internationalen Forschungskooperationen und Satellitenmissionen durchgefhrt
werden. Hier ist das Forschungsdatenmanagement hufig schon eine eigene Position
-
4 Fachbereich Astronomie 16
im Gesamtplan des Projekts. Leider muss festgestellt werden, dass es hufig versumt
wird dieser Position spezielle Mittel zuzuteilen. Ein Groteil der Daten fllt auerdem
bei Computersimulationen an. Die grten Simulationen bentigen so viel Rechenleis-
tungen, dass sie nicht von einem einzelnen Supercomputer, sondern von einem globa-
len Netzwerk an Supercomputern durchgefhrt werden mssen. Die Simulation von
grorumigen Strukturen im Universum bentigt bis zu 20 50 Millionen CPU-
Rechenstunden. Das Datenvolumen ist entsprechend gro und kann beim jetzigen
Stand einen Umfang von bis zu einem Petabyte haben.30
4.3 Metadaten und Metadatenstandards
Computer spielen in der Astronomie schon seit ihrer Einfhrung eine wichtige Rolle.
Das kann unter Umstnden bedeuten, dass viele der genutzten IT-Strukturen schon
sehr lange genutzt werden und zum Teil nicht mehr auf dem aktuellen Stand der Tech-
nik sind. Viele Standards funktionieren in diesen Strukturen sehr gut und so haben es
neue Formate hufig schwer sich bei der Forschungsgemeinschaft durchzusetzen.
Ein weit verbreiteter Standard in der Astronomie ist das FITS Flexible Image Trans-
port System. Dieses Standardformat wurde in den spten siebziger Jahren fr den
Austausch von Daten zwischen verschiedenen Observatorien entwickelt. Obwohl das
Wort Image Bestandteil des Namens ist, enthalten viele FITS hufig auch Datenstze
die keine Bilder sind.
Bilder in der Astronomie sind fr die Forscher mehr als eine Aufnahme, die man sich
anschauen kann, sie sind die Basis der wissenschaftlichen Forschung dieses Fachbe-
reichs. Der Inhalt der Dateien knnen eindimensionale Spektren, zweidimensionale
Bilder, mehrdimensionale Datenanordnungen oder Tabellen sein.31 Ein typisches FITS
besteht aus einem oder mehreren Headern (berschrift) und den Data
Units (Datenstzen). Diese Kombination aus Header und Data Unit wird als
HDU bezeichnet. Die erste HDU wird primary HDU genannt und enthlt den eigentli-
chen Datensatz in Form von Pixelanordnungen von Spektren, Bildern und mehrdimen-
sionalen Datenanordnungen. Die folgenden HDUs werden extensions (Erweiterungen)
genannt und knnen aus Tabellen und Bilderweiterungen bestehen.32
Ein Problem fr ein effektives Forschungsdatenmanagement ist die Mglichkeit eine
Vielzahl von eigenen Metadaten hinzuzufgen, ohne dass es eine vorgegebene Sys-
tematik gibt. Diese Parameter werden so geschrieben, dass sie von Mensch und Com-
puter gleichermaen gelesen werden knnen.33 Dadurch sind Metadaten sehr inhomo-
gen, da jeder Forscher die Daten sehr individuell gestaltet. FITS-Dateien sind weit ver-
30 Vgl. Enke, H., Wambsgan,. (2012): Astronomie und Astrophysik, S. 289 31
Vgl. Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport System, S. 363
32 Vgl. Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0
33 Vgl. Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport
System, S. 363
-
4 Fachbereich Astronomie 17
breitet und knnen von den meisten astronomischen Anwendungen und Instrumenten
erzeugt und gelesen werden. Sie sind ebenfalls mit den in den Fachrichtungen verbrei-
teten Bildverarbeitungsprogrammen und Script-Sprachen kompatibel. Aufgrund der
weiten Verbreitung des Formats, wird das FITS auch in Zukunft der Standard in der
Astronomie bleiben.
4.4 Beispiel Sloan Digital Sky Survey
Die Sloan Digital Sky Survey (SDSS) war eine internationales Projekt, bei der ungefhr
ein Viertel des Himmels systematisch durchmustert wurde. In einer Kooperation von
Forschungsinstituten aus den USA, Japan, Sdkorea und Deutschland lieferte das
eigens fr dieses Projekt gebaute Teleskop am Apache Point Observatory in New
Mexico, USA, von 2000 bis 2008 hinweg Daten, die von Forschern auf der ganzen
Welt fr ihre Verffentlichungen herangezogen wurden. Zum Zeitpunkt ihrer Durchfh-
rung verwendete die SDSS die modernste Technik und war so in der Lage Messungen
von einer Qualitt zu machen, wie es bei vorigen Surveys noch nicht mglich war.34
Um Daten aufzunehmen wurde entweder das Teleskop benutzt oder Kameras, die
darauf montiert wurden. Das Endprodukt waren entweder Bilder oder photometrische
Spektren von Objekten im Weltall. Auerdem wurde ein Katalog von den in den Auf-
nahmen abgebildeten Objekten angefertigt. Whrend der Projektlaufzeit entstanden so
Bilder, Spektren und ein- und zweidimensionale Karten von mehr als 930 000 Galaxi-
en. Diese Daten wurden von den Forschern der SDSS aufbereitet und jhrlich verf-
fentlicht, so dass es der Forschungsgemeinschaft stets mglich war auf aktuelle und
qualitativ hochwertige Daten zuzugreifen. Jedes der so genannten Data Releases hat
eine eigene Homepage, auf der ihr Inhalt und eventuelle Neuerungen in den Standards
beschrieben werden.
Fr die Verffentlichung der Datenstze wurde das in Kapitel 4.3 vorgestellte FITS-
Format verwendet. Zugriff auf die Inhalte der Data Releases ist ber diverse Webinter-
faces mglich. Hierbei wird unterschieden ob es sich um Bilddaten (auch Spektren)
oder Objektdaten handelt. Die in Tabellen gespeicherten Objektdaten wurden auf dem
Catalog Archive Server (CAS) abgelegt. Dabei handelt es sich um eine leistungsstarke,
auf SQL basierende Datenbank.35 Deshalb ist es auch mglich SQL-Anfragen ber das
Webinterface oder direkt mit einem Client an den Server zu stellen. Zur Vereinfachung
steht eine Liste mit vorgefertigten Suchanfragen zur Verfgung, die der Nutzer nach
Belieben modifizieren kann.
Dateien wie Bilder und Spektren sind auf dem Data Archive Server (DAS) abgelegt.
Auch hier wird die Suche ber das Webinterface abgewickelt. Der Nutzer hat die Mg-
lichkeit ein Suchformular speziell fr den von ihm gesuchten Datentyp auszuwhlen.
Das bedeutet, dass es unterschiedliche Suchformulare fr Bilder und Spektren gibt, bei
34
Vgl. Sloan Digital Sky Survey (o.J.): The Sloan Digital Survey. Mapping the Universe 35
Vgl. Sloan Digital Sky Survey (2008): SDSS Data Release 7. SDSS Data Products
-
4 Fachbereich Astronomie 18
denen eine Vielzahl von Parametern zur Verfgung steht, um so die Suche einzu-
schrnken.
Abb. 7 Bildersuche im Webinterface des SDSS Data Release 736
Die Webseiten der Data Releases sind so gestaltet, dass sie vor allem den Anspr-
chen professioneller Astronomen gengen. Die Suchfunktionen sind sehr komplex und
deshalb fr Laien schwer verstndlich. Interessierte Amateurforscher knnen jedoch
ber den Sky Server auf die Daten der SDSS zugreifen. Auf dieser Webseite wurden
die Forschungsdaten so aufbereitet, dass sich auch Laien einen berblick ber die
Arbeit des Projektes verschaffen knnen und vereinfacht Zugriff auf die Ergebnisse der
Survey erhalten.
36
Abb. vom Autor selbst aufgenommen auf der Internetseite des SDSS Data Release 7. URL: http://cas.sdss.org/astrodr7/en/tools/search/IQS.asp (10.01.2014)
-
5 Fachbereich Geowissenschaften 19
5 Fachbereich Geowissenschaften
5.1 Forschungsgegenstand der Geowissenschaften
Die Geowissenschaften widmen sich der Erforschung der naturwissenschaftlichen As-
pekte des Erdsystems. Sie unterteilen sich in viele Teildisziplinen wie Geodsie, Geo-
graphie, Geophysik, Glaziologie, Geologie, Meteorologie, Hydrologie und Ozeanogra-
phie, um nur einige Bereiche zu nennen. Die Forschung ist stark interdisziplinr ge-
prgt. Die Ergebnisse der geowissenschaftlichen Forschung haben eine hohe Rele-
vanz fr die Umwelt, da sie eine tragende Rolle dabei spielen, die Natur fr den Men-
schen nutzbar zu machen. Es gibt neben den bereits oben genannten Teilbereichen
auch sehr anwendungsbezogene Forschungsgebiete wie die Hydrogeologie, bei der
das Flieverhalten und die Wasserqualitt untersucht werden oder die Ingenieurgeolo-
gie, die sich mit der Statik von Untergrnden befasst. Auerdem spielen die Geowis-
senschaften eine tragende Rolle fr die Energie- und Rohstoffversorgung.
5.2 Disziplinspezifische Eigenheiten beim Umgang mit
Forschungsdaten in den Geowissenschaften
Die Daten, die in den Geowissenschaften gewonnen werden, haben hufig gemein,
dass sie durch die Beobachtung und Untersuchung von Phnomenen entstehen, die
hufig einzigartig und nicht wiederholbar sind. Diese Tatsache macht solche Daten
besonders wertvoll fr die Forschungsgemeinschaft. Des Weiteren knnen For-
schungsdaten hufig nur durch einen groen finanziellen und personellen Aufwand
gewonnen werden, da sich die Messorte oft an sehr abgelegenen Orten der Erde be-
finden. Deshalb findet Forschung hufig in groen kooperativen Projekten statt, um so
die Kosten zu verteilen und die logistischen Herausforderungen zu bewltigen. Bei-
spielweise werden in der Antarktis mehrere internationale Forschungsstationen betrie-
ben um Messungen und Experimente durchzufhren. Die Kosten fr die Unterhaltung
solcher Stationen sind immens und machen die dort gewonnen Daten sehr wertvoll.
Deshalb wre die erneute Gewinnung beim Verlust von Daten zwar theoretisch mg-
lich, ist aber aus konomischen Gesichtspunkten unbedingt zu vermeiden.37
In der 2012 erschienenen Bestandsaufnahme zur Langzeitarchivierung von For-
schungsdaten des nestor-Projekts unterscheidet bei den Geowissenschaften drei ver-
schiedenen Arten der Datenentstehung: Daten aus Sensorsystemen, Dateninfrastruk-
turen und Groinstrumenten mit automatisierter Prozessierung, Daten aus numerischer
Modellierung, und individuell hergestellte Datenstze aus Labordaten, Felderhebungen
37 Vgl. Klump, J. (2012): Forschungsdaten in den Geowissenschaften, S. 180
-
5 Fachbereich Geowissenschaften 20
und Literaturrecherchen.38 In den automatisierten Prozessen der Groinstrumente
fallen sehr groe Mengen an Daten an, die meist ber standardisierte Daten- und Me-
tadatenformate verfgen. Diese Tatsache begnstigt die Archivierung dieser Daten.
Allerdings wurde in den letzten Jahren festgestellt, dass auch hier, wie in anderen na-
turwissenschaftlichen Fachbereichen, die Kapazitt zur Erzeugung neuer Daten
schneller wchst als die Mglichkeit, diese lngerfristig zu speichern.39 Die Daten-
mengen die von einzelnen Forschern individuell erzeugt werden, sind im Vergleich
hierzu uerst gering. Nicht das Volumen ist hier problematisch, sondern die Art der
Erfassung, die sich eher an den Anforderungen des einzelnen Forschers orientiert.
Deshalb kommen standardisierte Datenformate eher selten zur Anwendung.40
Die Archivierung und der Austausch von Forschungsdatenmanagement haben eine
lange Tradition in den Geowissenschaften. Anlsslich des geophysikalischen Jahres
1957 grndeten sich mehrere weltweit verteilte Datenzentren. Dieses System der
World Data Centers (WDC) existiert auch heute noch und gab Impulse fr den Auf- und
Ausbau neuer Systeme zum Management von Forschungsdaten.41 Eines davon ist das
PANGAEA-Netzwerk, das im Unterpunkt 5.5 noch genauer vorgestellt werden soll.
Die noch in den 1970er-Jahren verbreitete Praxis Forschungsdaten im Anhang von
wissenschaftlichen Publikationen mit zu verffentlichen, wurde aufgrund der immer
umfangreicheren Datenmengen und den damit einhergehenden steigenden Druckkos-
ten als impraktikabel eingestuft und zugunsten von elektronischen Publikationen auf-
gegeben.42
5.3 Metadaten und Metadatenstandards
Wie in den anderen Disziplinen auch, sind in den Geowissenschaften die Messmetho-
den zahlreich und darum gibt es eine Vielzahl von verschiedenen Daten- und Metada-
tenformaten, die zu beschreiben den Rahmen dieser Arbeit sprengen wrden. Aus
diesem Grund soll auch hier nur ein Beispiel stellvertretend genauer vorgestellt wer-
den.
Das Format GeoTIFF findet vor allem in der Fernerkundung Anwendung und ist eine
Erweiterung des TIFF (Tagged Image File Formats). Normale TIFF-Dateien sind auf-
grund der Mglichkeit Bilddateien verlustfrei zu archivieren in der Printindustrie weit
verbreitet. Die hohe Auflsung macht dieses Format auch fr die Geowissenschaften
interessant, da es so mglich ist, extrem detailreiche Satellitenaufnahmen zu speichern
und auszutauschen. Hierzu werden allerdings noch Daten bentigt, die es ermglichen
die Aufnahme z.B. im Koordinatensystem der Erde zu referenzieren. Die zustzlichen
38
Klump, J. (2012): Forschungsdaten in den Geowissenschaften, S. 184 39
Vgl. ebd. S. 184 40
Vgl. ebd. S. 185 41
Vgl. Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliotheks-system fr wissenschaftliche Daten, S. 148f
42 Vgl. ebd. S. 149
-
5 Fachbereich Geowissenschaften 21
Informationen werden direkt in Metadatentags der TIFF-Datei gespeichert. Es sind kei-
ne zustzlichen Dateien mit Referenzdaten ntig. Dies kann bei einfachen Bildformaten
durch die Ergnzung mit einer kleinen Textdatei, einem World File43, erreicht werden
oder aber durch das Format GeoTIFF, bei dem die Georeferenzdaten direkt in den
Metatags des TIFFs gespeichert werden. Das Anhngen einer Extradatei entfllt.
Der Grundstein fr das GeoTIFF-Format wurde in den neunziger Jahren durch Diskus-
sionen in geowissenschaftlichen Mailinglisten gelegt und die Spezifikationen des neuen
Formats wurden 1995 auf einer Konferenz von Vertretern verschiedener Institutionen
festgelegt.44 Auch heute noch ist GeoTIFF das in den Geowissenschaften am weites-
ten verbreitete Bildformat.
5.4 Beispiel PANGAEA
Entstanden ist das Publishing Network for Geoscientific and Environmental Data, kurz
PANGAEA, im Jahr 1992 als Reaktion auf die immer umfangreicheren Datenmengen,
die mit dem informationstechnischen Fortschritt und der Verbreitung des Internets ein-
hergingen.45 Initiatoren des Projekts waren Forscher des Alfred-Wegener-Instituts fr
Polar- und Meeresforschung in Bremerhaven, das auch heute noch in Zusammenarbeit
mit dem Zentrum fr Marineforschung der Universitt Bremen (MARUM) die Daten-
bank betreibt.
Die Daten die in den Geowissenschaften anfallen sind meist ortsbezogene Messdaten,
bei denen es sich anbietet sie in Tabellen einzutragen. Diesen Vorteil macht sich
PANGAEA zu Nutze. Die Archivierung von Forschungsdaten in PANGAEA wird mithilfe
von relationalen Datenbanken realisiert. Hierzu wird das Datenmanagementsystem
SYBASE des Softwareherstellers SAP genutzt. Der Datenimport durch dieses proprie-
tre Programm ist das zentrale Werkzeug der Datenkuratoren, der Export von For-
schungsdaten wird ber verschiedene webbasierende Clients durchgefhrt.46 Forscher,
die ihre Messdaten in PANGAEA verffentlichen wollen, knnen sich ber die Websei-
te der Datenbank direkt an die Kuratoren wenden. Diese bieten dem Forscher im Ge-
genzug eine Langzeitarchivierung und die Referenzierbarkeit seiner Daten ber DOI.
Die Metadatenstrukturen in PANGAEA sind ber lange Zeit erprobt und auch das Vo-
kabular der, fr die Beschreibung der Forschungsdaten ntigen, Parameter ist auf dem
neusten Stand.
Mit Hilfe der Websuchmaschine PangaVista kann jeder ber die Internetseite
www.pangaea.de auf die hinterlegten Daten zugreifen. Es ist mglich ber eine einzel-
43
World File: kleine Textdatei die Georeferenzdaten eines Bildes enthlt und als Ergnzung zu einfachen Bildformaten dient.
44 Vgl. Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification
45 Vgl. Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliotheks-
system fr wissenschaftliche Daten, S. 149 46
Vgl. Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and Distributing Earth-Science Data with the PANGAEA Information System, S. 2
-
5 Fachbereich Geowissenschaften 22
ne Suchzeile die Datenbestnde zu durchforsten oder man nutzt die komplexere Ad-
vanced Search.
Abb. 8 Suchformular des PANGAEA-Webinterfaces47
Hier kann man den Zeitraum der Messdaten einschrnken oder nach bestimmten For-
schungsprojekten, Parametern und Referenzierungen suchen. Der Nutzer kann auch
auswhlen ob die Forschungsdaten nach Wasser-, Luft-, Gesteins- oder Eisproben
durchsucht werden soll. Es ist auch mglich mithilfe eines Googlemaps-Plugins das
Gebiet, aus dem die Proben stammen sollen, auszuwhlen.
Der Groteil der Daten in PANGAEA ist frei verfgbar und nur einige wenige Datenst-
ze sind passwortgeschtzt, zumeist deshalb weil das zugehrige Projekt noch nicht
abgeschlossen ist.48 Die Messdaten werden in streng normierten Tabellen gespeichert
und sind georeferenziert in Zeit und Raum. Die Integration neuer Messgren ist un-
problematisch, da das Datenformat schon bei seiner Konzipierung so offen wie mglich
gehalten wurde. Aus diesem Grund kann es jederzeit um neue Parameter erweitert
werden und sich damit neuen wissenschaftlichen Entwicklungen anpassen [].49
47
Abb. vom Autor selbst auf der PANGAEA-Website aufgenommen. URL: http://www.pangaea.de/ (10.01.2014)
48 Vgl. PANGAEA (o.J.): PANGAEA. Datapublisher for Earth & Environmental Science
49 Vgl. Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet, S. 2
-
5 Fachbereich Geowissenschaften 23
PANGAEA ist ein gutes Beispiel wie die Zukunft des Datenmanagements in anderen
Fachgebieten der Naturwissenschaften aussehen knnte. Es gehrt in den Geowis-
senschaften inzwischen zur guten Praxis die Daten aus Forschungsprojekten hier zu
verffentlichen. Das bedeutet, dass hier die Wissenschaftler auf die Betreiber des
Repositoriums zugehen um ihre Daten zu verffentlichen und nicht andersherum.
-
6 Fazit 24
6 Fazit
Der Stand des Forschungsdatenmanagements in den Naturwissenschaften ist so un-
terschiedlich wie die Disziplinen selbst. Fachbergreifend lsst sich festhalten, dass
durch den technischen Fortschritt die Masse an Daten betrchtlich gestiegen ist und
die technischen Mittel zur Speicherung in manchen Feldern, wie den Geowissenschaf-
ten, geradeeben noch ausreichend sind. Das Forschungsdatenmanagement funktio-
niert besonders in jenen naturwissenschaftlichen Disziplinen gut, in denen kooperative
Strukturen schon vor lngerer Zeit als Notwendigkeit erkannt wurden. Dafr wurden
schon frh Infrastrukturen geschaffen, die den Austausch von Forschungsdaten be-
gnstigen. Die Gewinnung von Daten in Disziplinen wie der Astronomie und den Geo-
wissenschaften ist meist mit einem hohen personellen, logistischen und finanziellen
Aufwand verbunden, weshalb sich Wissenschaftler aus diesen Fachgebieten schon
immer untereinander austauschen. Luft die Forschung einer Wissenschaft vor allem
in der Industrie ab und bedeuten Forschungsdaten eventuell einen Vorsprung gegen-
ber der Konkurrenz, so fllt den Wissenschaftler die Verffentlichung von For-
schungsdaten verstndlicherweise schwer, wie das Beispiel aus der Chemie in Kapitel
2 zeigt.
Aufgrund der vielen verschiedenen Messmethoden in den Naturwissenschaften und
der Vielfalt der Messgerte ist es schwierig einheitliche Standards fr Metadaten zu
finden. Auch hier sind die Wissenschaften im Vorteil, die schon lnger eine gut funkti-
onierende Kooperationsstruktur besitzen. Dadurch sind viele Formate schon seit lan-
gem im Einsatz und wurden idealerweise im Laufe der Jahre an die neuen technischen
Mglichkeiten und Anforderungen angepasst. Allerdings wurden manche Formate, die
heute noch als Standard gelten, ohne den Gedanken an die Langzeitarchivierung der
Daten im Hinterkopf entwickelt. Im Falle von FITS in der Astronomie, hat dies zur Fol-
ge, dass das Format zu offen gehalten wurde, so dass eine Interpretation der Daten
hufig schwierig ist, wenn die vom Datenersteller eingegeben Parameter nicht mehr zu
deuten sind.
Bei den Repositorien fllt vor allem PANGAEA auf, das es geschafft hat zum Standard
in den Geowissenschaften zu avancieren. Hier gehrt es inzwischen zur Standardpro-
zedur, dass die Forschungsdaten die einer Publikation zu Grunde liegen auf
PANGAEA publiziert werden. Dieser Idealzustand kann natrlich nicht in allen Diszipli-
nen erreicht werden. In der Astronomie werden hufig projektbezogene Datenbanken
angelegt, da man es hier hufig mit riesigen Datenmengen und einer Vielzahl von
komplexen Dateiformaten zu tun hat, wie die Data Releases der Sloan Digital Sky Sur-
vey zeigen.
Es scheint so als habe in den Naturwissenschaften ein Umdenken begonnen, so dass
vielerorts die Notwendigkeit von Forschungsdatenmanagement erkannt wurde. Trotz-
dem wird vorrausichtlich in Zukunft noch viel berzeugungsarbeit ntig sein, die nti-
-
6 Fazit 25
gen Mittel fr effektive und qualitativ hochwertige Infrastrukturen zu werben. Informati-
onsdienstleister sollten hier nicht den Anschluss verlieren, da in diesem Bereich sicher-
lich Bettigungsfelder fr die Zukunft liegen.
-
7 Relevante Forschungsliteratur 26
7 Relevante Forschungsliteratur
7.1 Forschungsdatenmanagement Allgemein
Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Um-
gang mit Forschungsdaten. URL:
http://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten (10.01.2014)
Bttner, S., Hobohm, H.-C., Mller, Lars (2011): Handbuch Forschungsdatenma-
nagement. Bad Honnef, Bock und Herchen. URL:
http://www.forschungsdatenmanagement.de/ (10.01.2014)
Deutsche Forschungsgemeindschaft (2013): Sicherung Guter Wissenschaftlicher
Praxis : Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft". Er-
gnzte Auflage. Weinheim, Wiley. URL:
http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/em
pfehlung_wiss_praxis_1310.pdf (10.01.2014)
Pampel, H., Goebelbecker, H.-J., Vierkant, P. (2012): re3data.org. Aufbau eines Ver-
zeichnisses von Forschungsdatenrepositorien. Ein Werkstattbericht. In: Mittermaier,
B. (Hrsg.): Vernetztes Wissen Daten, Menschen, Systeme. 6. Konferenz der
Zentralbibliothek, Forschungszentrum Jlich 5. 7. November 2012. Jlich, For-
schungszentrum, S.: 61-74. URL: http://juwel.fz-
juelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014)
7.2 Literatur zum jetzigen Stand des Forschungsdaten-
managements in den Naturwissenschaften
Neuroth, Heike, Hrsg. (2012): Langzeitarchivierung von Forschungsdaten. Eine Be-
standsaufnahme. Boizenburg, Hlsbusch. URL: http://nestor.sub.uni-
goettingen.de/bestandsaufnahme/index.php (10.01.2014)
Klump, Jens (2012): Forschungsdaten in den Geowissenschaften. In: Altenhner, R.,
Oellers, Claudia, Hrsg.: Langzeitarchivierung von Forschungsdaten. Standards und
disziplinspezifische Lsungen. Berlin, Scivero, S.169-179.
Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Ver-
netzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Che-
mie. Hannover, Technische Informationsbibliothek. URL: http://www.tib-
hannover.de/fileadmin/projekte/primaer-
chemie/Konzeptstudie_Forschungsdaten_Chemie.pdf (10.01.2014)
-
7 Relevante Forschungsliteratur 27
7.3 Literatur zu den Datenformaten und Standards
Brase, J., Klump, J. (2007): Zitierfhige Datenstze. Primrdaten-Management durch
DOIs. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz
der Zentralbibliothek. Jlich, Forschungszentrum, S. 159-167. URL: http://juser.fz-
juelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014)
Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0 URL:
http://www.digitalpreservation.gov/formats/fdd/fdd000317.shtml (10.01.2014)
Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification. URL:
http://www.remotesensing.org/geotiff/spec/geotiffhome.html (10.01.2014)
McDonald, Robert S., Wilks Jr., Paul A. (1988): JCAMP-DX. A Standard Format for
Exchange of Infrared Spectra in Computer Readable Form. In: Applied Spectrosco-
py. Vol. 42/1, S. 151-162. URL: http://jcamp-dx.org/protocols/dxir01.pdf
(10.01.2014)
Technische Informationsbibliothek Hannover, Hrsg. (o.J.): Digital Object Identifier
fr Technik und Naturwissenschaften. Ein Service der TIB. URL: http://www.tib-
hannover.de/fileadmin/aktuell/DOI_Folder_online.pdf (10.01.2014)
Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport
System. In: Astronomy and Astrophysics Supplement, Vol. 44, S. 363-370.
URL:http://articles.adsabs.harvard.edu/cgi-bin/nph-
iarti-
cle_query?1981A%26AS...44..363W&defaultprint=YES&page_ind=0&filetype=.pdf
(10.01.2010)
7.4 Literatur zu den einzelnen Repositorien
Diepenbroek, Michael, Grobe, Hannes (2007): PANGAEA als vernetztes Verlags-
und Bibliothekssystem fr wissenschaftliche Daten. In: WissKom 2007. Wissen-
schaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, For-
schungszentrum, S. 147-158. URL: http://juser.fz-
juelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014)
FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual.
Karlsruhe, FIZ. URL: http://juwel.fz-
juelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014)
Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and
Distributing Earth-Science Data with the PANGAEA Information System. In: Ftter-
er, D.K. [], Hrsg.: Antarctica. Contributions to Global Earth Sciences. Berlin,
Springer, S. 403-406. URL: http://epic.awi.de/10983/1/Gro2004f.pdf (10.01.2014)
Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet. Sybase. URL:
http://epic.awi.de/17005/1/Gro2007g.pdf (09.12.2013)
-
Glossar 28
Glossar
Citation Index (dt. Zitationsdatenbank): Datenbank, die Zitationen von wissenschaft-
lichen Publikationen untereinander verzeichnet. Knnen als Messinstrument fr die
Produktivitt und die Qualitt der Forschung eines Wissenschaftlers herangezogen
werden. Je hufiger der Forscher von seinen Kollegen zitiert wird, desto besser.
Beispiele fr solche Datenbanken sind der Science Citation Index oder auch
Google Scholar.
CIF (kurz fr Crystallographic Information File): Standardformat fr Textdateien, die
kristallographische Daten enthalten. Viele Programme zur Ansicht von Molekl-
strukturen (z.B. Jmol) sind kompatibel mit diesem Format.
Diffraktogramm: Die graphische Aufzeichnung in der Kristallographie. Entsteht bei der
Untersuchung von kristallinen Substanzen in Pulverform mit dem Debye-Scherrer-
Verfahren. Jede kristalline Struktur hat ein ganz spezifisches Diffraktogramm.
Digital Object Identifier (kurz: DOI): siehe Identifier
Identifier (auch: persistent identifier): eindeutige, standortunabhngige Identifikato-
ren fr digitale Objekte, um ber lange Zeitrume und eventuelle Systemwechsel
hinweg einen zuverlssigen Zugriff auf diese Ressourcen gewhrleisten zu knnen.
Beispiel: Digital Object Identifier (DOI).
Institunional Policy (dt.): Hochschul- oder institutsinterne Richtlinien, die den Um-
gang mit Forschungsdaten reglementieren.
nestor-Projekt Kompetenznetzwerk in dem Bibliotheken, Archive und Museen ge-
meinsam an Konzepten mit dem Thema digitale Langzeitarchivierung arbeiten.
nestor bietet auerdem Aus-, Fort- und Weiterbildungen in diesem Bereich an.
Repositorium (engl. repository): Verzeichnis zur Verwaltung von Forschungsdaten
und/oder Publikationen. Hufig auch mit Suchfunktion mittels Software- oder We-
binterface.
World File: Eine kleine Textdatei die Georeferenzdaten eines Bildes enthlt und als
Ergnzung zu einfachen Bildformaten wie JPEG, GIF und TIFF dient. Anbieter ist
der US-amerikanische Softwareanbieter ESRI.
-
Literaturverzeichnis 29
Literaturverzeichnis
Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Um-
gang mit Forschungsdaten. URL:
http://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten (10.01.2014)
Apache Point Observatory (o.J.): Welcome to Apache Point Observatory. URL:
http://www.apo.nmsu.edu/ (10.01.2014)
Bttner, S., Hobohm, H.-C., Mller, Lars (2011): Handbuch Forschungsdatenma-
nagement. Bad Honnef, Bock und Herchen. URL:
http://www.forschungsdatenmanagement.de/ (10.01.2014)
Brase, J., Klump, J. (2007): Zitierfhige Datenstze. Primrdaten-Management durch
DOIs. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz
der Zentralbibliothek. Jlich, Forschungszentrum, S. 159-167.
Deutsche Forschungsgemeindschaft (2013): Sicherung Guter Wissenschaftlicher
Praxis : Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft". Er-
gnzte Auflage. Weinheim, Wiley. URL:
http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/em
pfehlung_wiss_praxis_1310.pdf (10.01.2014)
Diepenbroek, Michael, Grobe, Hannes (2007): PANGAEA als vernetztes Verlags-
und Bibliothekssystem fr wissenschaftliche Daten. In: WissKom 2007. Wissen-
schaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, For-
schungszentrum, S. 147-158. URL: http://juser.fz-
juelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014)
Enke, Harry, Wambsgan, Joachim (2012): Astronomie und Astrophysik. In: Neuroth,
Heike, Hrsg.: ): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnah-
me. Boizenburg, Hlsbusch, S. 275-294. URL: http://nestor.sub.uni-
goettingen.de/bestandsaufnahme/index.php (10.01.2014)
FIZ Karlsruhe, Hrsg. (o.J.): Inorganic Crystal Structure Database. URL: http://www.fiz-
karlsruhe.de/icsd_content.html?&L=hjiaxatprkt (10.01.2014)
FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual.
Karlsruhe, FIZ. URL: http://juwel.fz-
juelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014)
Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and
Distributing Earth-Science Data with the PANGAEA Information System. In: Ftter-
er, D.K. [], Hrsg.: Antarctica. Contributions to Global Earth Sciences. Berlin,
Springer, S. 403-406. URL: http://epic.awi.de/10983/1/Gro2004f.pdf (10.01.2014)
Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet. Sybase. URL:
http://epic.awi.de/17005/1/Gro2007g.pdf (09.12.2013)
-
Literaturverzeichnis 30
Klump, Jens (2012): Forschungsdaten in den Geowissenschaften. In: Neuroth, Heike
(Hrsg.): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme.
Boizenburg, Hlsbusch, S. 179-194. URL: http://nestor.sub.uni-
goettingen.de/bestandsaufnahme/index.php (10.01.2014)
Ledoux, Stephen F. (2002): Defining Natural Sciences. In: Behaviorology Today. Vol.
5. Number 1. Arizona, TIBI, S.: 34-36. URL:
http://www.faculty.english.vt.edu/Collier/sciwrite/pdfs/ledoux_2002.pdf (10.01.2014)
Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0
URL: http://www.digitalpreservation.gov/formats/fdd/fdd000317.shtml (10.01.2014)
McDonald, Robert S., Wilks Jr., Paul A. (1988): JCAMP-DX. A Standard Format for
Exchange of Infrared Spectra in Computer Readable Form. In: Applied Spectrosco-
py. Vol. 42/1, S. 151-162. URL: http://jcamp-dx.org/protocols/dxir01.pdf (10.01.2014)
Neuroth, Heike, Hrsg. (2012): Langzeitarchivierung von Forschungsdaten. Eine Be-
standsaufnahme. Boizenburg, Hlsbusch. URL: http://nestor.sub.uni-
goettingen.de/bestandsaufnahme/index.php (10.01.2014)
PANGAEA (o.J.): PANGAEA. Data Publisher for Earth & Environmental Sciences.
About. URL: http://www.pangaea.de/about/ (10.01.2014)
Pampel, H., Goebelbecker, H.-J., Vierkant, P. (2012): re3data.org. Aufbau eines Ver-
zeichnisses von Forschungsdatenrepositorien. Ein Werkstattbericht. In: Mittermaier,
B. (Hrsg.): Vernetztes Wissen Daten, Menschen, Systeme. 6. Konferenz der
Zentralbibliothek, Forschungszentrum Jlich 5. 7. November 2012. Jlich, For-
schungszentrum, S.: 61-74. URL: http://juwel.fz-
juelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014)
Pfeiffenberger, H. (2007): Offener Zugang zu wissenschaftlichen Primrdaten. In:
Zeitschrift fr Bibliothekswesen und Bibliographie 54, S. 207-210
Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification. URL:
http://www.remotesensing.org/geotiff/spec/geotiffhome.html (10.01.2014)
Sloan Digital Sky Survey (o.J.): The Sloan Digital Survey. Mapping the Universe.
URL: http://www.sdss.org/ (10.01.2010)
Sloan Digital Sky Survey (2008): SDSS Data Release 7. SDSS Data Products. URL:
http://www.sdss.org/dr7/products/index.html (10.01.2014)
Technische Informationsbibliothek Hannover, Hrsg. (o.J.): Digital Object Identifier
fr Technik und Naturwissenschaften. Ein Service der TIB. URL: http://www.tib-
hannover.de/fileadmin/aktuell/DOI_Folder_online.pdf (10.01.2014)
Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Ver-
netzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Che-
mie. Hannover, Technische Informationsbibliothek. URL: http://www.tib-
hannover.de/fileadmin/projekte/primaer-
chemie/Konzeptstudie_Forschungsdaten_Chemie.pdf (10.01.2014)
Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport
System. In: Astronomy and Astrophysics Supplement, Vol. 44, S. 363-370.
URL:http://articles.adsabs.harvard.edu/cgi-bin/nph-
iarti-
-
Literaturverzeichnis 31
cle_query?1981A%26AS...44..363W&defaultprint=YES&page_ind=0&filetype=.pdf
(10.01.2010)
-
Ehrenerklrung 32
Ehrenerklrung
Name: Thelen Vorname: Tobias
Matrikel-Nr.: 23720 Studiengang: BI
Hiermit versichere ich, Tobias Thelen, dass ich die beiliegende Arbeit ohne Hilfe Dritter
und ohne Benutzung anderer als der angegebenen Quellen und Hilfsmittel einschlie-
lich des Internets angefertigt und die den benutzten Quellen wrtlich oder inhaltlich
entnommenen Stellen als solche kenntlich gemacht habe.
Stuttgart, 15.01.2014
Ort, Datum Unterschrift