ontologiebasierte dokumentindizierung und -suche oktober 2000 jonny newald

17
Ontologiebasierte Ontologiebasierte Dokumentindizierung und -suche Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Upload: leberecht-gehling

Post on 06-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Ontologiebasierte Ontologiebasierte Dokumentindizierung und -sucheDokumentindizierung und -suche

Oktober 2000

Jonny Newald

Page 2: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 2

Einführendes Beispiel: Information RetrievalEinführendes Beispiel: Information Retrieval

Stellen Sie sich vor, Sie suchen im Internet Informationen über ein bestimmtes Thema.

Suchmaschinen bieten Volltextsuche, Metadatensuche und eine hierarchische Kategorisierung.

Dokumente über ein sehr spezielles Thema, wie z.B. „Fernsehen“, sind nur sehr schwer exakt auszumachen. Der Begriff „Fernsehen“ hat auch mehrere Bedeutungen und steht in einem gewissen Kontext. Meine ich „Fernsehgeräte“, das „Fernsehprogramm“ oder das Medium „Fernsehen“?

Die Volltextsuche liefert zu viel, die Metadatensuche ist ungenau und nicht verläßlich, die Kategorisierung ist oft zu oberflächlich und semantisch nicht eindeutig.

Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.

Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.

Page 3: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 3

AusgangsbasisAusgangsbasis

Lotus Notes ist

ein umfangreiches Dokumentenhaltungs- und Groupwaresystem

unternehmensweit einsetzbar

in das vorhandene Intranet integrierbar

über WEB-Browser benutzbar.

Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.

Lotus Notes hält die gesamte Information in strukturierten Dokumenten, die sich in Dokumentendatenbanken befinden.Lotus Notes hält die gesamte Information in strukturierten Dokumenten, die sich in Dokumentendatenbanken befinden.

Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.

Page 4: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 4

Ausgangsbasis Ausgangsbasis (Fortsetzung)(Fortsetzung)

Das Produkt Knowledger ist

eine spezialisierte Lotus Notes - Anwendung der Firma Knowledge Associates

eine Reihe spezieller Datenbankschablonen, die der Haltung verschiedenster Arten von Wissensdokumenten dienen

optimiert für die Benutzung über WEB-Browser.

KnowledgerKnowledger bietet weitergehende Hilfsmittel. bietet weitergehende Hilfsmittel.KnowledgerKnowledger bietet weitergehende Hilfsmittel. bietet weitergehende Hilfsmittel.

KnowledgerKnowledger´s Ansätze sind konventionell und einfach.´s Ansätze sind konventionell und einfach.KnowledgerKnowledger´s Ansätze sind konventionell und einfach.´s Ansätze sind konventionell und einfach.

Knowledger bietet Unterstützung bei der Bestimmung der Dokument-Metadaten und der Kategorie-Informationen.

Page 5: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 5

Wissensmanagement unter Lotus Notes / Wissensmanagement unter Lotus Notes / KnowledgerKnowledger

KnowledgerKnowledger ist ein einfaches Wissensmanagement-System. ist ein einfaches Wissensmanagement-System.KnowledgerKnowledger ist ein einfaches Wissensmanagement-System. ist ein einfaches Wissensmanagement-System.

Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.

Knowledger bietet

verschiedene, thematisch getrennte Datenbanken

Anwendergruppenorientierte Navigatoren (getrennt für Administratoren, Manager und normale Mitarbeiter)

im Dokument abgelegte, frei editierbare Zusatzfelder zur inhaltlichen Kurzbeschreibung

Lotus Notes bietet

eine automatische Pflege der Standard-Metadaten

gründsätzliche Möglichkeiten zur Definition spezifischer Ansichten auf Dokumentlisten (Views)

eine Suchmöglichkeit über Volltextsuche(auch in File-Attachments)

Page 6: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 6

Grundbefürfnisse effizienterer LösungenGrundbefürfnisse effizienterer Lösungen

Die Beschränkung auf ein kontrolliertes Vokabular beim Kategorisieren und Suchen vermeidet Inkonsistenzen und erhöht die Trefferquote.

Eine Projektion des Dokumentinhalts in das Wissensmodell des Unternehmens läßt sich formalisieren und durch Computerverarbeitung unterstützen.

Ansprechendere Benutzerschnittstellen fördern die Motivation der Mitarbeiter.

Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.

Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.

Page 7: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 7

Einfache ontologische ModelleEinfache ontologische Modelle

Eine abgegrenzte Wissensdomäne läßt sich formal und abstrakt durch eine Ontologie modellieren.

Hierzu überlegt man sich relevante Konzepte und Begriffe, die eindeutig sind, und die man miteinander in Beziehung setzt.

Die einfachsten Strukturen sind Hierarchien. In vielen Fällen genügt eine solche Struktur.

Dokumente werden durch eine bestimmte Auswahl aus der Begriffsmenge indiziert und sind somit in das Wissensmodell des Unternehmens projiziert.

Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.

Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.

Page 8: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 8

Komplexe BegriffsmodelleKomplexe Begriffsmodelle

Komplexe Modelle sind unter Umständen notwendig, ihre Unübersichtlichkeit kann jedoch gebrochen werden.

Abhilfe bieten hypertextmäßig verschachtelte Teilmodelle.

Ein solches Teilmodell wird dann nicht zusammen mit dem übergeordneten Modell dargestellt.

Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.

Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.

Beispiel einer komplexen Ontologie ohne SchachtelungBeispiel einer komplexen Ontologie ohne Schachtelung

Page 9: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 9

Erforderliche SoftwarekomponentenErforderliche Softwarekomponenten

Eine Benutzerschnittstelle zur ontologiebasierten Indizierung und Suche bietet guten Bedienkomfort:

das Index-Retrieval-Interface (IRI)

Ein graphischer Editor für den komfortablen Entwurf der Ontologien:

der Ontology Editor

Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.

Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.

Page 10: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 10

Das Index-Retrieval-Interface: IndizierenDas Index-Retrieval-Interface: Indizieren

1. Ein Lotus Notes - Dokument wird ganz normal im WEB-Browser präsentiert.

2. Nach Betätigung eines Buttons erfolgt die Indizierung über die graphische Selektion aus der durch einen JAVA-Frame dargestellten Ontologie.

3. Die Kategorisierungsinfor-mationen werden direkt in ein spezielles Feld übertragen.

Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.

Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.

1111

22223333

Page 11: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 11

Das Index-Retrieval-Interface: SuchenDas Index-Retrieval-Interface: Suchen

1. Nach Selektion des Vater-konzepts für die graphischen Modelle im Suchapplet befindet sich das IRI im Suchmodus.

2. Jede einzelne Knoten-Selektion führt zu einer neuen Abfrage.

3. Das Abfrageergebnis wird sofort als Liste präsentiert, aus der einzelne Dokumente geöffnet werden können.

Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.

Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.

1111

22223333

Page 12: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 12

Merkmale des Index-Retrieval-Interface im Merkmale des Index-Retrieval-Interface im ÜberblickÜberblick

reine Java-Komponente (in Knowledger eingebettet)

komfortable Oberfläche durch Ver-wendung der JAVA-Klassenbibliothek SWING

nahtloser Übergang zwischen Such- und Einstell-Anwendung: automatischer Moduswechsel

einfache Navigation durch komplexe Ontologien mittels einer synchronisierten Baum- und Graph-Darstellung (1, 2)

1111

2222

Page 13: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 13

Der Ontology EditorDer Ontology Editor

Der Editor erzeugt graphisch verschachtelte Teilmodelle, die über Linkbutton mitein-ander verbunden sind.

Die Darstellung und Inter-aktion ist der des IRI iden-tisch.

Er bietet die Möglichkeit der Definition beliebiger Quer-beziehungen und erklären-den Knotenkommentaren.

Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.

Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.

Page 14: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 14

Der OntologieflußDer Ontologiefluß

Eine im Editor erstellte Ontologie wird dem Knowledge Server übergeben, so daß er das Index-Retrieval-Interface mit den Modell-daten beliefern kann.

Das Konzept der Knowledge Servers stammt aus dem Das Konzept der Knowledge Servers stammt aus dem KnowNet-Projekt..Das Konzept der Knowledge Servers stammt aus dem Das Konzept der Knowledge Servers stammt aus dem KnowNet-Projekt..

Der Der Knowledge ServerKnowledge Server ist der zentrale Verwalter der Ontologiedaten. ist der zentrale Verwalter der Ontologiedaten.Der Der Knowledge ServerKnowledge Server ist der zentrale Verwalter der Ontologiedaten. ist der zentrale Verwalter der Ontologiedaten.

Page 15: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 15

Ausblick: OntologiemodifikationenAusblick: Ontologiemodifikationen

Im Editor umgesetzt ist bereits die Protokollierung der getätigten Änderungen.Nach der Speicherung einer geänderten Ontologie wird eine Änderungs-protokoll-Datei angelegt.

Die Datei liefert einen Ansatzpunkt zur weiteren Verarbeitung, wie– automatische Unterrichtung der Autoren über die

Ontologieänderungen– „intelligente“ Anpassung der Kategorisierungsinformationen der

betroffenen Dokumente an die neue Situation

Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.

Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?

Page 16: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 16

Ausblick: BeziehungssemantikenAusblick: Beziehungssemantiken

Beispiel:

In einer IT-Beraterfirma existiert ein Teilmodell, das eine Beziehungsstruktur verschiedener Softwareprodukte bestimmt. Man könnte sich eine Beziehungsart „isIncompatible“ vorstellen, die beispielsweise zwischen dem Datenbankprodukt „Informix“ und der Betriebssystemgruppe „MS Windows“ definiert ist.

Solche beliebige Beziehungen können im Editor zwar formal definiert werden, es fehlt jedoch noch eine entsprechende Verarbeitung einer zu definierenden Semantik der Beziehungen.

So könnte eine Dokument-Abfrage, die aus der Selektion beider Produkte besteht, im Vorfeld abgewehrt werden mit dem Kommentar der Inkompatibilität.

Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.

Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.

Page 17: Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald

Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 17

EssenzEssenz

Umsetzung des Prinzips der hypertextmäßig verschachtelten Teilmodelle

Vereinheitlichte Oberfläche in allen drei Anwendungen (Indizieren, Suchen, Editieren)

generell vereinfachte Bedienung

Einbettung der neuen Komponenten in das vorhandene Programmsystem von KnowNet

Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...