pg 520 intelligence service gezielte suche im internet lehrstuhl für künstliche intelligenz...
TRANSCRIPT
PG 520Intelligence Service
Gezielte Suche im Internet
Lehrstuhl für künstliche Intelligenz
Forschung Praxis
Informationen im Internet
• Suchmaschinen:– Es werden nur Dokumente geliefert, die den
Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher
Qualität. – Vorwissen über zuverlässige Seiten und ihre
Struktur wird nicht ausgenutzt.
Intelligence Service
• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer
Entscheidung in der Politik kam.
• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende
Textstelle gefunden werden! Forschungsthema Named Entity Recognition!
16.Wahlperiode, Drucksache, Antrag
Typ
Drs-Nr.
Fraktion
16.Wahlperiode, Drucksache, Antrag
Typ
Person
Drs-Nr.
16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5
16/267
16/2790
Direkte Fragebeantwortung
• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.
• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.
Für diese Antworten braucht man manuell 7 Stunden
PG-Arbeit
• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)
• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...
• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,
– maschinell Annotationsregeln lernen– Annotationsregeln anwenden
• Informationen zu den Entitäten zusammenstellen
Named Entity Recognition
• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten
• Traditionelle NE: Personen, Orte, Firmen
• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.
Tom arbeitet bei Mercedes Benz
PER O O ORG ORG
Probleme
• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich
• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort
umgebenden Kontextes
• Tom arbeitet bei Mercedes Benz
• intern/ extern
• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’
• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung
PERSON
Beispiele für interne/externe Evidenz
NER-Verfahren
• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten
• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF
• Bilden bestseparierende Hyperebene
• Lösen somit binäres Klassifikations-problem
• Können viele und hochdimensionale Daten verarbeiten
• Sind robust gegenüber overfitting
• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig
Support Vector Machines
• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell
Hidden Markov Models
Y1 Y2 Y3 Labelsequenz Y
X1 X2 X3 Beobachtungs-sequenz X
T
iiiii yxpyypyxp
11 )|()|(),(
)(
),(maxargˆ
xp
yxpy y
• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell
– Label hängt vom Vorgänger und Beobachtung ab
Maximum Entropy Markov Models
Y1 Y2 Y3Y0
X1 X2 X3
Labelsequenz Y
Beobachtungs-sequenz X
• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell
– Labelsequenz hängt von Beobachtungs-sequenz ab
– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz
Conditional Random Fields
Labelsequenz Y
Beobachtungs-sequenz X
Y1 Y2 Y3
X
• YALE als grundlegende Lernumgebung
• Fast alle Lernverfahren vorhanden– u.a. auch SVM
• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den
sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER
Anwendung von NER-Verfahren
• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl
• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten
• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen
Statistische Textanalyse vs. NER
• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …
• Außerdem:– CRF-Model-Learner– CRF-Model-Applier
• Ziel:– modulare, allgemeinnutzbare Preprocessing-
Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen
des besten Experiment-Setups für versch. NER-tasks
Aktuell in YALE vorhanden
Rahmenterminplan 1. Semester
• 1. Seminarphase 08. – 12.10.2007• Lernverfahren
– SVM– MEMM– HMM– CRF
• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW
– Indexierung– XML (RSS)
• Werkzeuge der PG– Yale– Google API– CVS– Crawling
Rahmenterminplan 1. Semester
• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen
der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER
• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse
Rahmenterminplan 2. Semester
• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking
• u. U. noch andere Themen möglich!
Rahmenterminplan 2. Semester
• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem
Semester– Verbesserung der NER (?)
• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation