ontologien in den historischen wissenschaften. das problem datenbanken erfahrene umwelt,...
TRANSCRIPT
Ontologien in den historischen Wissenschaften
Das Problem
Datenbanken
Erfahrene Umwelt, Untersuchungsgegenstand
Erste Lösungsansätze
Erfahrene Umwelt, Untersuchungsgegenstand
Datenbanken
AbstraktionGebäude Therme
ist
Befindet sich in
Trier
Datenmodell
Umsetzu
ng
Ontologien
Erfahrene Umwelt, Untersuchungsgegenstand
Datenbanken
Abstraktion
Gebäude Thermeist
Befindet sich in
Trier
Datenmodell
Umsetzung
Reg
eln
Was ist eine Ontologie?
• Modell eines Teils der Welt• "Spezifikation einer Konzeptualisierung" • Ein formal definiertes System von
Konzepten und Relationen• Inferenz- und Integritätsregeln
Was muss eine Ontologie umfassen?
• Vokabular (Begriffe mit beschreibenden Attributen)
• Bedingungen zur Vollständigkeit und Richtigkeit der Begriffe
• Beziehungen zwischen den Begriffen
Wofür benötigen wir Ontologien
• Strukturierung komplexer Daten• Validierung der Datenmodelle• Datenaustausch Mensch/Mensch,
Mensch/Maschine, Maschine/Maschine– Zur Aufteilung komplexer Probleme auf
mehrer Bearbeiter– Verknüpfung bereits bestehender Daten
Wofür benötigen wir Ontologien?
• Um Rückschlüsse aus den vorhandenen Daten zu ziehen, Widersprüche in den Daten zu erkennen und fehlendes Wissen selbstständig aus dem Vorhandenem zu ergänzen“ (Wikipedia)
• Ontologisches Lernen (KI – sich selbst erweiternde Ontologien)
Semantic Web
• „Erweiterung des World Wide Web (WWW) um maschinenlesbare Daten.“ (Wikipedia)
• Nicht nur das dargestellte Wort, sondern die Bedeutung der Inhalte (Semantik) wird formal definiert und so recherchierbar.
• Ziel:– Vollständige Beschreibung der Welt in einem
formalen inhaltsbezogenen System
„Die Aufgabe, alle Worte einer Sprache oder, was das selbe ist, alle Ideen, die ausgedrückt werden wollen, zu klassifizieren, ist die gewaltigste aller logischen Herausforderungen. Jeder, auch der beste Logiker muss scheitern und auch für den stärksten Menschen ist es die härteste Probe seiner Fähigkeiten.“
Charles Sanders Peirce – „Brief an seinen Verleger“
Probleme bei Onthologien
„Domain of interest“
Modularisierung des Gesamtprojektes Semantik Web in unterschiedliche miteinander vernetzte Ontologien
Ontologien zur Beschreibung von:• Linguistic: GUM, Penman Upper Model, EuroWordNe, WordNet, GermaNet, DUDEN,
CoreLex, FrameNet, OntoWordNet• Languages + Linguistics: EMELD (Ontology components at U. Arizona), GOLD
(General Ontology for Linguistic Description)• Medicine: TAMBIS, UMLS, MuchMore, GALEN, Smith (Institute for Formal Ontology
and Medical Information Science, Saarbrücken)• Geography : GeoWorlds, SDTS (Spatial Data Transfer Standard), Smith,
EuroConference: Geographical Domain and Geographical Information Systems, Terrain Ontology, Geography Markup Language (GML), cultural heritage
• Translation: Pangloss (Sensus), MikroKosmos• Business: Enterprise, TOVE: Toronto integrated ontologies for Enterprise, OntoWeb,
Business Process Management Ontology (BPMO), OASIS Universal Business Language UBL 1.0
• General Knowledge: Cyc (starter page for regions), Pangloss (Sensus), WordNet, Sumo
• Process plant, engineering and science: Pangloss (Sensus), MikroKosmos, VerbMobil (gzipped project deliverable)
• …
Ontologien in den historischen Wissenschaften
CIDOC Conceptual Reference Model – Eine Initiative des Comité International pour la
Documentation des ICOM (International Council of museums)
– Beinhaltet 80 classes 132 properties – Angenommen von ISO TC46 in Sept. 2000,
momentan als Committee Draft ISO/CD 21127, als internationaler Standard vorgeschlagen.
– Momentan erhältlich auf englisch, französisch, griechisch und japanisch
– In Vorbereitung: deutsch, russisch, tschechisch, portugiesisch
Domain of interest ?
• Cultural heritage – Kulturelles Erbe• Primär museale Gegenstände• „The CRM is specifically intended to cover
contextual information: the historical and theoretical background in which individual items are placed and which gives them much of their significance and value“
Definition of the CIDOC object-oriented Conceptual reference Model and Crossreference manual. Version 3.4 – Introduction
Wie ist CIDOC CRM aufgebaut?
• 1 abstrakte Root-Entity die die Gesamtheit des Darzustellenden umfasst
• 5 Grundkategorien:– Zeitliche Entitäten (Events)– Geistige Entitäten– Physikalische Gegenstände– Teilnehmer– Räume
Struktur
Event
Geistige Entität Gegenstand
Bringt hervor
TeilnehmerOrteFi
ndet
sta
tt an
Wird
dur
chge
führ
t dur
chSonderfall: Katheogorisierende und dokumentierende Klassen
Properties
Vererbung• Hierarchisierung vom Allgemeinen zum
Speziellen• „Is a“ Property (Beziehung)• Subclass und Superclass• Alle Attribute einer Superclass müssen in
der Subclass vorhanden sein.
VererbungsbeispielE77
Persistant item
E73 Information
Object
E41 Apellation
E53 Title
E33 Linguistic
object
E53 Title
E73 Information
Object
E33 …
E53 Title
E28 Conceptual
object
E72 Legal object
E71Manmade
stuff
E70 Stuff
E1 …
E77…
E70 …
E1 …
E77…
E1 CRM Entity
Wichtige Prinzipien
• Monotonie: – Bei der Weiterentwicklung des Modells werden
vorhandene Strukturen beibehalten.• Einzigartigkeit:
– Keine Entity kann durch eine andere ersetzt werden
Wichtige Prinzipien II
• „Disjoint Entities“: Gegensatzpaare – Bsp.: “E2 Temporal Entity“ und „E77 Persistent
Item“ – Das bedeutet nicht, dass ein
Untersuchungsgegenstand nicht zeitlich und bestehend sein kann, sondern daß er doppelt modelliert werden muss, je nach Gesichtspunkt.
Wichtige Prinzipien III
• Mehrere Wege: mehrere Beziehungen zwischen zwei Entities je nach Gesichtspunkt
• Shortcuts: Properties die Entities überspringen ohne selbst eine neue Beziehung zu sein.– „P43 Has Dimension“ verbindet „E70 Stuff“ mit
„E43 Dimension“ ohne „E17 Measurement Event“
Wichtige Prinzipien IV
• „E55 Type“:– Metaklasse– Keine weitere Hinterfragung– Bsp.: zur Nennung einer Währungseinheit
• „P3 Has Note“– Zur Entlastung des Modells– Raum für freien Text– Problem: die Vorteile des Modells entfallen
Wie arbeite ich mit CIDOC CRM
Klärung des UntersuchungsgegenstandesListe der Kategorien (genaue Definition)
Diagramm (UML)Code (RDF, OWL, Topic maps
Klärung des UntersuchungsgegenstandesKlärung des Untersuchungsgegenstandes
Ausformulieren mit CIDOC CRM
XML – Struktur (Schema, DTD)Relationale Datenbank
Java Klassen
Umsetzung in eine Anwendung
Links• CIDOC CRM Home page:
– http://cidoc.ics.forth.gr• Die Praktische Einsetzbarkeit des CIDOC CRM in
Informationssystemen im Bereich des Kulturerbes: – http://www.ihk.uni-koeln.de/studium/MA/MA_nix.pdf
• Crofts, Nick / Doerr, Martin / Gill, Tony : The CIDOC Concepual Reference Model. A Standard for Communicating Cultural Contents. In Cultivative Interactive Bd. 9 2003.– http://cultivative-int.org/issue9/chios/