20.10.2001pg-402 wissensmanagement: ontologiebasierte wissensextraktion 1 ws2001/2002 klaus...
TRANSCRIPT
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
1
PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
WS2001/2002
Klaus Unterstein
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
2
Verlauf
• Begriffsklärung• Ontologiebasierte Wissensextraktion• Methoden• Vor- und Nachteile im Vergleich• Bewertung der Ansätze• Praxis/Trends• Schlußwort
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
3
Begriffsklärung
• Ontologie(n)
• (Wissens-) Extraktion
• Ontologiebasierte Wissensextraktion (OWE)
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
4
Ontologie(n)
1. Definition
2. Motivation
3. Zweck
4. Beschreibung
5. Einsatz
6. Bewertung
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
5
Ontologie(n) - Definition
Was ist eine Ontologie ?
Definition (Gruber):„An ontology is a formal, explicit specification of a shared conceptualization.“ [1993]
Eine Ontologie beschreibt explizit eine formale, verteilte Konzeptualisierung eines bestimmten, uns interessierenden Bereichs.
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
6
Ontologie(n) – Motivation (1)(allgemein)
Warum benutzen wir Ontologien ?
• Anzahl gespeicherter Informationsquellen wachsen
• Zugriff, Finden und Zusammenfassen von Informationen immer schwieriger
• Große Lücke zwischen Konzeptualisierung der Informationen und gespeicherte Form
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
7
Ontologie(n) - Motivation (2)(spezieller Zweck)
Warum benutzen wir Ontologien ? (Fortsetzung)• Kommunikationshilfe zwischen Mensch und Maschine, was
den Austausch von Semantik UND Syntax unterstützen soll• Knowledge sharing und Wiederverwendung• Zur Festlegung bestimmter Begriffe (Eindeutigkeit)• Sie erzwingen eine wohldefinierte Semantik auf solche
Konzeptualisierungen• Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die
Leistung von Informations-Extraktions-Systemen zu erhöhen• Formalisierung von implizit vorhandenem Wissen
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
8
Ontologie(n) - Motivation (3)
Symbol Dingsteht für
erweckt bezieht sich auf
Begriff
Semiotisches Dreieck
[Odgen, Richards, 1923]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
9
Ontologie(n) - Motivation (4)
Symbol Dingsteht für
erweckt bezieht sich auf
Begriff
Semiotisches Dreieck
Ontologie legt fest
[nach: S. Staab, 2001]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
10
Ontologie(n) – Beschreibung (1)
Eine Ontologie wird beschrieben durch:
• Eine Menge von Zeichenketten, die die lexikalen Einträge L für Konzepte und Relationen beschreiben
• Eine Menge von Konzepten C
• Eine Taxonomie von Konzepten (bei einigen Definitionen Heterarchie) HC
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
11
Ontologie(n) – Beschreibung (2) (Fortsetzung)
• Ein Satz an nicht-taxonomischen Relationen R (beschrieben durch ihre Domain)
• Relationen F und G, die Konzepte und Relationen verknüpfen
• Die Taxonomie der Relationen (bzw. Heterarchie HR) (optional)
• Axiome A, die weitere Constraints der Ontologie beschreiben und es erlauben, implizite Fakten explizit zu machen (optional)
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
12
Ontologie(n) - Zweck
Ontologien beschreiben:
• Domain-relevante Konzepte
• Beziehungen zwischen den Konzepten
• Axiome für die Konzepte und Beziehungen
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
13
Ontologie(n) - Einsatz
Einsatz von Ontologien in Informations-Extraktions-Systemen zur:
• Integration von Informationen aus heterogenen Quellen
• Extraktion weiterer Fakten durch „Schliessen“ (Inferenz)
• Generierung verschiedener Ziel-Strukturen zur Informationsspeicherung
• Einfache Anpassung/Änderung während der Laufzeit
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
14
Ontologie(n) – Bewertung
Vorteile:• Einfaches Prinzip• Betrachtung relevanter
Bereiche (Fokussierung)• Vorteile durch Nutzung
von Semantik und Hintergrundwissen
• Dynamische Entwicklung (siehe Such-Maschine)
• Semi-automatische Ansätze
Nachteile:
• (bisher) manuelle Erstellung
• Zeitliche Erstellung
• Problematik: Vollständigkeit vs. Minimalität
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
15
(Wissens-) Extraktion
• Definition• Extraktion von Informationen• Verschiedene Quellen (DB, WWW, Mail...)• Verschiedene Datenformate (HTML, XML,
unstrukturierter Text,...)• Verschiedene Extraktions-Methoden
(Anwendung abhängig vom Datenformat)
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
16
Wissensextraktion
Eine mögliche Definition:
Der Prozeß, in dem Information automatisch aus textuellen Dokumenten in eine zur Speicherung in Datenbanken geeignete Form generiert wird. [J. M. Lawler, 1998]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
17
Ontologiebasierte Wissensextraktion:
Was ist ontologiebasierte Wissensextraktion (kurz: OWE) ?
Die Verwendung von Ontologien zur Unterstützung des Wissensextraktionsprozesses auf verschiedene Weisen.
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
18
OWE
1. Allgemein
2. Informationsextraktion und Integration mittels Ontologien
3. Klassifikationskriterien
4. Verfahren
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
19
OWE - Allgemein
• Verwendung von Ontologien im Extraktionsprozeß
• Wahl der Ontologie abhängig vom Anwendungsbereich
• Flexible Extraktion abhängig von Ontologie• Extraktionsprozeß liefert Informationen für die
semantische Annotation der Texte• Annotation liefert als Nebenprodukt die
Klassifikation der Daten, die dadurch direkt integriert werden können
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
20
Informationsextraktion & Integration mittels Ontologien
DB
QUELLEN
DB`s
XMLHTML
Doku-mente
Strukturiert:
Semi-strukturiert:
Unstruk-turiert: Ontologie(n)
[nach S. Staab, 1999]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
21
OWE - Klassifikationskriterien• Autonomie-Grad
- manuell (durchführbar, aber zeit-intensiv)
- semi-automatisch (aktueller Stand)
- automatisch (Zukunftsvision)
• Verwendete Methoden
• Verschiedene Verfahren- Bottom-up
- Top-down
- Merging & Mapping
• Eingabedaten (Strukturiertheit)
• Extraktion on-demand vs. Vorab-Extraktion
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
22
Semi-automatischer Ontologie-Aneignungs-Prozeß (allgemein)
Quellen-wahl*
KonzeptLernen
DomainFokussierung
Evaluation
RelationenLernen
*=mögliche Quellen wären: Ontologien,Texte, semi-strukturierte Informationen= Startzustand
[J. Kietz,2000]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
23
Methoden
• NLP: (z.B. SMES): - morphologische Analyse (Stamm)*- Semantik-Analyse- Erkennung benannter Entitäten*- Nutzung domain-spezifischer Informationen
• Text-Clustering:- Reduktion der Text-Dimension durch NLP- Clusterbildung (iterativ)- Klassifikation anhand der Cluster
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
24
Methoden
• Muster-Abgleich• Induktive Verfahren
- Erkennung/Klassifikation unbekannter Konzepte
- Erkennung von Relationen zwischen Konzepten
• Inferenz (mit Description Logic)• Statistik
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
25
KDT - Beispiel-ArchitekturQuellen
(HTML, Text,...) Preprocessing (z.B. NLP)
Postprocessing
Clustering
XML-DTDXML-
Dokumente
[H. Graubitz, 2001]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
26
Vor- und Nachteile im Vergleich
• NLP+ orientiert sich an Sprache, Lexika- viele Heuristiken, manuelle Regelerstellung
• Text-Clustering+ iterative automatisierte Variante- Einschränkung auf eine Domain, Erklärbarkeit
• Muster-Abgleich+ allgemein anwendbar- viele Heuristiken, manuelle Regelerstellung
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
27
Vor- und Nachteile im Vergleich
• Induktive Verfahren+ Automatisierung- Erlernen der Regeln kompliziert
• Inferenz (mittels Description Logic)+ Ableitung von weiteren Regeln durch Inferenz & unvollständige/fehlerhafte Daten sind nutzbar- verschiedene Standards
• Statistik+ schnell, zuverlässig, bereits bekannt- manchmal absurde Ergebnisse, Verständlichkeit
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
28
Bewertung der Ansätze
Einzelne Anwendung einer Methode ist nicht optimal. Kombination mehrer Methoden, um die Stärken zu kombinieren und Nachteile einzelner Verfahren zu mildern.
Kombination von Text-Clustering und NLP hat sich in einigen Situationen bewährt.
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
29
OWE - Verfahren
Prozeß-Schritte (allgemein):
• Import/Wiederverwendung/Konvertierung von Ontologien (optional)
• Extraktion von Daten (bottom-up; top-down)
• Pruning (Beschneidung)
• Refining (Veredelung)
• Verifikation/Evaluation
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
30
Ontologie-Lernen: Prozeß-Schritte
OntologyLearning
Prune
RefineImport &Reuse
Extract
Application data
Tools
Apply
= Beginn[A. Mädche, 2001]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
31
OWE – Verfahren (Bottom-up)
Angefangen wird mit einem Datensatz, aus dem eine Ontologie erstellt wird, die die Daten strukturiert.
Genauer:1. Verwendung von zwei Text-Sammlungen
(domain-spezifische vs. allgemeine)2. Statistische Erfassung (Wörter,
Häufigkeit,...)
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
32
OWE – Verfahren (Bottom-up)
3. Dimensionsreduktion (NLP, Stammbildung, ...)
4. Erstellung eines domain-spezifischen Lexikons (Konzepte)
5. Anwendung heuristischer Verfahren zur Relationserstellung (semantische Analyse)
6. Pruning7. Refining
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
33
OWE – Verfahren (Top-down)
Anfangs hat man bereits eine allgemeine Ontologie, die dann im Verlauf durch bereichsbezogene Daten an den interessierenden Bereich angepaßt wird. (Domain-Fokussierung)
Genauer:
1. Wahl einer (allgemeinen) Ontologie und domain-spezifischen Quellen (Import)
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
34
OWE – Verfahren (Top-down)
2. Anwendung heuristischer Verfahren zur Konzept- und Relationsextraktion.
3. Erweiterung der bestehenden Ontologie durch gefundene Konzepte und Relationen (Fokussierung)
4. Pruning
5. Refining
Wahl der Kern-Ontologie hat starke Auswirkungen
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
35
Wissensextraktion – „Top Down“-Beispiel (allgemein)
DomainLexikon
Kern-ontologie Domain
Lexikon
erweiterteOntologie
StatistikMaschinelles Lernen
SMESIE System
Domaintexte
annotierte Domain Texte
Aneignungs-Algorithmen
[A. Mädche, 1999]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
36
Architektur für Ontologie – Lernen
Text & ProcessingManagement
Ontology Learning &Pruning Algorithms
Tools
Text ProcessingServer
Stemming
POS tagging
Chunk parsing
Information Extraction
Domainlexicon
LexicalDB
Multi StrategyLearning Result SetDomain
Ontology
[J. U. Kietz, 2000]
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
37
OWE - Verfahren
Merging:Zusammenführung von Ontologien zur Konstruktion einer neuen Ontologie.
Mapping:Erstellung von Regeln, die Entsprechungen aus den Ontologien zuordnen.
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
38
Praxis und Trends
• Vereinfachung in der Entwicklung fördert Verbreitung
• Verbesserung der Extraktionsfähigkeiten• Automatisierung des kompletten Prozesses• Steigende Integration und Verwendung von
Ontologien in vielen Bereichen• Semantic Web und Knowledge-Portale sind
wichtige Gebiete
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
39
Schlußwort• Hilfreiche Technik, die auf spezielle Bereiche
zugeschnitten wird
• Anpassung an Aufgabenstellung durch Änderung der Ontologie
• Unterschiedliche Ansätze zur Extraktion
• Verschiedene Methoden aus vielen Bereichen (Maschinelles Lernen, Assoziationsregeln, Clustering,...). Profitiert aus Erfolgen aus jedem dieser Bereiche
• Mißbrauch
• Verkettung vieler Verfahren, Komplexität, Aufwand
20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
40
Danke!
Literaturangaben[OBE98] D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents in CIKM'98.[OBI'99] A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and
Integration in DGfS/CL'99.[SOAC] J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology Acquisition from a corporate Intranet in EKAW‘2000.[STDS] H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of Domain-Specific Text Documents with DIAsDEM in DBFusion 2001.[OBTC] A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI‘2000.[LOSW] A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in ECML/PKDD2001.[DLOE] A. Todirascu. Using Description Logics for Ontology Extraction in Ontology Learning 2000 at ECAI2000.