themen- und trenderkennung in agenturmeldungen
DESCRIPTION
Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html http://topic-s.de/TRANSCRIPT
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Martin Voigt, Michael Aleythe, Peter Wehner
Wer sind wir?
fink & PARTNER Media Services GmbH
Medien Management für Verlage
Einige Kunde
Lehrstuhl für Multimedia Technologie, TU Dresden
Forschungsfelder
Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management
Friday, 14.06.2013 Topic/S Slide 1
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 2
Motivation
Newsroom
Montag, 23.09.2013 Topic/S @ LSWT Slide 3
Quelle: ringier.com
Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 Topic/S @ LSWT
DPA
Reuters
KNA
Blogs
…
Nachrichtenagenturen Web, Social Media
…
In-house Produktion
Archive
Online
Slide 4
Vision
Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)
Identifikation von Thementrends
Information-Push statt Pull
Montag, 23.09.2013 Topic/S @ LSWT Slide 5
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 6
Workflow
Montag, 23.09.2013 Topic/S @ LSWT Slide 7
Mehr in [Voigt2013]
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Slide 8
Source: onelanguageoneposter.com
Agentur Genauigkeit
KNA 80,3 %
DPA 94,4 %
EPD 80,3 %
Reuters 90,8 %
OTS 93,5 %
AFP 86 %
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN) Regelbasiert
Kategorisierung Quellenabhängig
Named Entity Recognition Wortlisten- & Statistik-basiert
Disambiguierung interne & externe Datenbasis
Slide 9
Source: onelanguageoneposter.com
Semantisches Model
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
Media SemItemMatch SemItem
Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de
Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013 Topic/S @ LSWT Slide 11
SemItem Anzahl (alternative Namen)
Person 1.504.341 (2.499.962)
Organization 63.332 (98.127)
Place 89.702 (95.178)
Keyword 1351
Speicherung
Oracle 11gR2 Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Montag, 23.09.2013 Topic/S @ LSWT Slide 12
Quelle: musingmonika.com
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall Trend
Slide 13
Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein
52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja
44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD
Ja
32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA
Ja
28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja
26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja
22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja
18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja
15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja
Slide 14
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 15
Live Demo
Montag, 23.09.2013 Topic/S @ LSWT Slide 16
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 17
Sum it up! Ergebnis Themenerkennung und Präsentation
gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English,
Kombination notwendig Stete Modeloptimierung hinsichtlich
der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund
von kausalen und temporalen Beziehungen
Montag, 23.09.2013 Topic/S @ LSWT Slide 18
Quelle: ooltapulta.com
http://www.w3.org/community/swisig/
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fragen?
http://topic-s.de/
Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013 Topic/S @ LSWT Slide 20