pg 520 intelligence service gezielte suche im internet lehrstuhl für künstliche intelligenz...

PG 520Intelligence Service

Gezielte Suche im Internet

Lehrstuhl für künstliche Intelligenz

Forschung Praxis

Informationen im Internet

• Suchmaschinen:– Es werden nur Dokumente geliefert, die den

Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher

Qualität. – Vorwissen über zuverlässige Seiten und ihre

Struktur wird nicht ausgenutzt.

Intelligence Service

• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer

Entscheidung in der Politik kam.

• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende

Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

16.Wahlperiode, Drucksache, Antrag

Typ

Drs-Nr.

Fraktion

16.Wahlperiode, Drucksache, Antrag

Typ

Person

Drs-Nr.

16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5

16/267

16/2790

Direkte Fragebeantwortung

• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.

• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.

Für diese Antworten braucht man manuell 7 Stunden

PG-Arbeit

• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)

• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...

• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,

– maschinell Annotationsregeln lernen– Annotationsregeln anwenden

• Informationen zu den Entitäten zusammenstellen

Named Entity Recognition

• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten

• Traditionelle NE: Personen, Orte, Firmen

• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.

Tom arbeitet bei Mercedes Benz

PER O O ORG ORG

Probleme

• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich

• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort

umgebenden Kontextes

• Tom arbeitet bei Mercedes Benz

• intern/ extern

• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’

• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung

PERSON

Beispiele für interne/externe Evidenz

NER-Verfahren

• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten

• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF

• Bilden bestseparierende Hyperebene

• Lösen somit binäres Klassifikations-problem

• Können viele und hochdimensionale Daten verarbeiten

• Sind robust gegenüber overfitting

• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

Support Vector Machines

• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell

Hidden Markov Models

Y1 Y2 Y3 Labelsequenz Y

X1 X2 X3 Beobachtungs-sequenz X

T

iiiii yxpyypyxp

11 )|()|(),(

)(

),(maxargˆ

xp

yxpy y

• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell

– Label hängt vom Vorgänger und Beobachtung ab

Maximum Entropy Markov Models

Y1 Y2 Y3Y0

X1 X2 X3

Labelsequenz Y

Beobachtungs-sequenz X

• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell

– Labelsequenz hängt von Beobachtungs-sequenz ab

– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz

Conditional Random Fields

Labelsequenz Y

Beobachtungs-sequenz X

Y1 Y2 Y3

X

• YALE als grundlegende Lernumgebung

• Fast alle Lernverfahren vorhanden– u.a. auch SVM

• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den

sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER

Anwendung von NER-Verfahren

• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl

• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten

• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen

Statistische Textanalyse vs. NER

• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …

• Außerdem:– CRF-Model-Learner– CRF-Model-Applier

• Ziel:– modulare, allgemeinnutzbare Preprocessing-

Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen

des besten Experiment-Setups für versch. NER-tasks

Aktuell in YALE vorhanden

Rahmenterminplan 1. Semester

• 1. Seminarphase 08. – 12.10.2007• Lernverfahren

– SVM– MEMM– HMM– CRF

• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW

– Indexierung– XML (RSS)

• Werkzeuge der PG– Yale– Google API– CVS– Crawling


• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen

der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER

• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse


• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking

• u. U. noch andere Themen möglich!


• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem

Semester– Verbesserung der NER (?)

• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation

pg 520 intelligence service gezielte suche im internet lehrstuhl für künstliche intelligenz...

Documents