text mining - wissensrohstoff...

34
Institut für Informatik Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig [email protected]

Upload: others

Post on 01-May-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Institut für Informatik

Text Mining -

Wissensrohstoff Text

Gerhard Heyer

Universität Leipzig [email protected]

Einführung

2 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Grundlagen und Begriff

Einführung

Informatik und ihre Anwendungen

3

1940-1960 Wissenschaftliches Rechnen

70er Datenbanken, Digitalisierung von Geschäftsprozessen (Wirtschaftsinformatik)

80er Digitalisierung von elektrotechnischen Anwendungen,

Beginn der Textverarbeitung, SGML

90er Digitalisierung von analogen Medien, Vernetzung von verteilten Ressourcen: http, HTML, XML

seit 2000 Internet basierte Dienste, Wissensmanagement

Einführung

Digitalisierungsprojekte

4 Prof. Dr. G. Heyer Bochum, 4. Februar 2010

Einführung

Das große Aber der Digitalisierung

What do you do with a million books? (Gregory Crane, DL Magazine 2006)

• Wer soll das alles lesen?

• Wie können die Inhalte genutzt werden?

• Wie können die Ergebnisse ins Netz zurückfliessen?

5 Prof. Dr. G. Heyer Bochum, 4.

Februar 2010

Einführung

6

Definition

„Process of deriving high-quality information from text“ (Feldman &

Sanger 2006)

Text mining [is] "distant reading" i.e. opposed to "close reading“ (ttasovac on twitter, Jul. 5th 2010)

Im weiteren Sinne:

Technologie für die

automatische Strukturierung

und Transformierung von

(meist sehr großen)

Textkollektionen

Prof. Dr. G. Heyer Bochum, 4. Februar 2010

Einführung

7 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Text Mining (Begriff): Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Zugriffsergebnis

bekannt

Zugriffsergebnis

nicht bekannt

Strukturierte

Daten

Unstrukturierte

Daten

Datenabfrage

Datenbank-Systeme

Datenanfrage

Suchmaschinen,

Data Mining

Inhaltsabfrage

Dokumenten-

management-Systeme

Inhaltsanfrage

Text Mining

Werkzeuge

Einführung

8 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

• Voraussetzung: Text ist digitaler Wissensrohstoff

• Wissensbasierte/ Regelbasierte Ansätze problematisch

– zu große Menge an Textdaten

– flexible Strukturen erforderlich

– Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von „Wissen“

• Text Mining

Forschungsbereich zwischen Information Retrieval und linguistischer Informatik

Text Mining

Einführung

9 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Einige Arbeitshypothesen

• Wissen wird hauptsächlich durch (digitalen) Text vermittelt

(Wissensgesellschaft)

• digitaler Text dient als Codierung von Wissen

• digitaler Text ist in sehr grossen Mengen verfügbar

• Text kann als digitaler Wissensrohstoff wiederverwendet

werden (vgl. translation memories)

• semantische Relationen können unter Verwendung

vorhandener Ressourcen (z.B. Lexika, Mark-ups u.a.

Wissensquellen) automatisch extrahiert werden

Text als Grundlage der Wissensverarbeitung

Einführung

10 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Erweitertes Text-Retrieval

– Finden von Definitionen, Erläuterungen, Referenzen, Zitaten

– ggf. mehrsprachig

– Unterstützung der explorativen Suche

Inhaltsanalyse

– Extrahieren von Eigennamen und Fachterminologie

– Finden von fachspezifischen Schlüsselbegriffen

– Entdecken latenter semantischer Gemeinsamkeiten

– Berechnung semantischer Relationen zwischen Entitäten

– Clustern und Klassifizieren von Termen, Entitäten und

Dokumenten

– Entdecken von „interessanten“ Konzepten und Trends

Aufgaben des Text-Mining

Einführung

11 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Anwendungsbereiche des Text-Mining

Konzeptbasierte Suche bzw. Finden „ähnlicher“ Texte (Dokumente, Definitionen, Produktbeschreibungen ...)

– WWW, Intranet, Portale

– Dokumenten-Management-Systeme, e/i/m-commerce

– Call Center, CRM

– Netzoptimierung und -verwaltung (Communities)

– Plagiatserkennung, Zitationsspuren, Text Reuse

Dokumentenklassifikation und Clustering

– Archivierung und Suche

– Workflow-Optimierung (emails, Geschäftsvorfälle, ...)

Informationsstrukturierung und –extraktion

– Aufbau von Ontologien

– Wissensakquisition

– Opinion Mining und Sentiment Analysis

– Trend und Topic Detection

Einführung

12 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Beispiele

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Text Classification

elektra.digicol.de

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Text Classification: Use

• assign new stories to person in charge

• personal profile

• distribute email to responsible person

• find scientific articles belonging to a topic

• find patents for a specific problem class

• …

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Similarity Search

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Similarity Search

• http://citeseer.ist.psu.edu/

• Back links: find follow-up work

• Reconstruct discourse

• Measure impact

• Search by co-citation, context of

reference

• Search contributions by author, etc.

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Text Clustering

• Cluster search

results

• Extract cluster

labels

• Hierachical

clusters

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Text Clustering: Grafical Representation

• Cluster web

sites

• Arrange by

similarity

www.kartoo.com

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Taxonomies

• Hierachical organization

of concepts

• Domains: patents,

computer science,

medical science

www.wipo.int

Tasks

• Assignment of phrases to

taxonomy concepts

• Automatic generation of

taxonomies

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Question Answering

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Information Extraction

http://joboter.de/

Identify …

• Names

• Locations

• Institutions

• Points in time, dates

• Amounts of money

• …

Einführung

Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Product Recommendations

Einführung

23 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Verfahren und ihre Voraussetzungen

Einführung

24 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Verfahren

• Stringbasierte Verfahren

– Editierdistanz und Alignment für N-Gramme (Buchstaben, Wortformen,

Phrasen)

– Text Reuse und Zitationsgraphen

• Musterbasierte Verfahren

– Patterns, bootstrapping

– NER, Informations- und Relationsextraktion

• Inhaltsanalysen

– Topic Modelle und latent semantic analysis

– Machine learning (clustering, classification)

– Kookkurrenzbasiertes Text Mining

– Graphbasierte Verfahren

• Hybride Verfahren

– Anwendungsspezifische Kombinationen aus o.g. Verfahren

Einführung

Voraussetzung Datenaufbereitung

Dokumente Ergebnis-

datenbanken

Analysis of text

1. Preprocessing: Säubern, LangID, Verweise, ...

2. Filter: Zerlegung, Markup, Metadaten, …

3. Verarbeitung:

- statistische Verfahren

dummy

- Muster basierte Verfahren

- Indexierung

Prof. Dr. G. Heyer Vorstellungsvortrag GESIS 2011 25

… … …

Einführung

Texte und Textparameter

• Text hat Struktur

• Wörter und ihre Reihenfolge nicht zufällig

• Satzfolge nicht zufällig

• Text hat Autor(en)

• Text hat Adressat(en)

• Text hat Entstehungskontext

• Text entsteht in einem Medium

• Entstehungskontext hat Zeit- und Raumkoordinaten

Bezug zu Konzept der Fachsprachen und Sprachregister

Rekonstruktion einzelner Textparameter interessante

Fragestellung fürs Text Mining

26 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Inhalt

Algorithmen in c++

Grundlagen ... Sortieren

Suchen

Elementare Sortierverfahren Quicksort ... ... ...

Grundalgorithmus

Leistungsmerkmale …

ACM Hierarchy

ACM CCS

Theory of Computation

Analysis of Algorithms and

Problem Complexity

Nonnumerical

Algorithms and

Problems

Sorting and

Searching

Quicksort

Pivot element

Textstruktur und Termhierarchie: Algorithmen in C++ (Sedgwick)

Einführung

Textparameter finden ihren Niederschlag in Textmerkmalen

• N-Gram Frequenzen und Signifikanzen

• Kookkurrenzen

• getypte N-Gramme und Kookkurrenzen

• relative Häufigkeiten von (getypten) N-Grammen und

Kookkurrenzen (z. B. relativer Anteil von Stopwörtern, Nomina

oder Mehrworttermen)

• Ähnlichkeiten von N-Gramme und Kookkurrenzen (z. B.

Editierdistanzen, Dice, …)

• Muster von (getypten) N-Gramme mit oder ohne Wildcards

• Veränderungen von Textmerkmalen über die Zeit

• … … …

28 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Patterns nach Winograd

Patterns

1. einfache oder literal patterns

2. open patterns

(Nutzung von Wildcards)

3. variable patterns

(Nutzung von Variablen u. Lexika)

4. Satzstruktur Patterns

- semantisch

- syntaktisch (LFG)

• Vergleiche Ausdrücke (gemäß eines Ähnlichkeitsmaßes) und

• matche (abgleichen) in Bezug auf Constraints

29

Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Weitere Textmerkmale

In der Literatur finden sich zahlreiche Beschreibungsparameter für Texte, die Einfluss auf die zu verarbeitenden Features haben, z.B.

– Entropy,

– Concentration,

– Dispersion,

– Repetition,

– Predictability,

– Grammaticality,

– Sentence Length,

– Spelling Accuracy u.v.m.

(vgl. Testilova 1992, Semino & Short 2004, Jockers et. al. 2011, Schierle 2011)

30 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Beispiel für Textmerkmale

31 Prof. Dr. G. Heyer Modul Linguistische Informatik

[Schierle 2011, S. 35]

Einführung

32 Prof. Dr. G. Heyer Modul Linguistische Informatik

Textmerkmale sind zentral fürs maschinelle Lernen im Text Mining

Einführung

Abschließendes Beispiel

Einfluss von Textmerkmalen auf die Qualität einer

Sachgebietsklassifikation

• Naiver Bayes’scher Klassifikator mit Unigrammen auf

Filmempfehlungen: ~ 70%

['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']

33 Prof. Dr. G. Heyer Modul Linguistische Informatik

• Selbe Anwendung-

sdomäne, aber mit

den top 10.000

most informative

features: ~ 93%

Einführung

34 Prof. Dr. G. Heyer Text Mining – Wissensrohstoff Text

Literatur

Heyer, G., Quasthoff, U., Wittig, Th., Text Mining –

Wissensrohstoff Text, W3L Verlag: Bochum 2006

Manning, C., Schütze, H., Foundations of Statistical Language

Processing, MIT Press: Cambridge (Mass.) 1999

Witten, I., Frank, E., Data Mining: Practical Machine Learning

Tools and Techniques with JAVA Implementations, Morgan

Kaufman: San Francisco 2000