themen- und trenderkennung in agenturmeldungen

21
Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Martin Voigt, Michael Aleythe, Peter Wehner

Upload: martin-voigt

Post on 06-Jul-2015

431 views

Category:

Documents


0 download

DESCRIPTION

Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html http://topic-s.de/

TRANSCRIPT

Page 1: Themen- und Trenderkennung in Agenturmeldungen

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Martin Voigt, Michael Aleythe, Peter Wehner

Page 2: Themen- und Trenderkennung in Agenturmeldungen

Wer sind wir?

fink & PARTNER Media Services GmbH

Medien Management für Verlage

Einige Kunde

Lehrstuhl für Multimedia Technologie, TU Dresden

Forschungsfelder

Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management

Friday, 14.06.2013 Topic/S Slide 1

Page 3: Themen- und Trenderkennung in Agenturmeldungen

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 2

Page 4: Themen- und Trenderkennung in Agenturmeldungen

Motivation

Newsroom

Montag, 23.09.2013 Topic/S @ LSWT Slide 3

Quelle: ringier.com

Page 5: Themen- und Trenderkennung in Agenturmeldungen

Problem

Überwältigende Datenmenge für den Redakteur

z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)

Montag, 23.09.2013 Topic/S @ LSWT

DPA

Reuters

KNA

Twitter

Facebook

Blogs

Nachrichtenagenturen Web, Social Media

In-house Produktion

Archive

Online

Slide 4

Page 6: Themen- und Trenderkennung in Agenturmeldungen

Vision

Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)

Identifikation von Thementrends

Information-Push statt Pull

Montag, 23.09.2013 Topic/S @ LSWT Slide 5

Page 7: Themen- und Trenderkennung in Agenturmeldungen

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 6

Page 8: Themen- und Trenderkennung in Agenturmeldungen

Workflow

Montag, 23.09.2013 Topic/S @ LSWT Slide 7

Mehr in [Voigt2013]

Page 9: Themen- und Trenderkennung in Agenturmeldungen

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Slide 8

Source: onelanguageoneposter.com

Agentur Genauigkeit

KNA 80,3 %

DPA 94,4 %

EPD 80,3 %

Reuters 90,8 %

OTS 93,5 %

AFP 86 %

Page 10: Themen- und Trenderkennung in Agenturmeldungen

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Named Entity Recognition Wortlisten- & Statistik-basiert

Disambiguierung interne & externe Datenbasis

Slide 9

Source: onelanguageoneposter.com

Page 11: Themen- und Trenderkennung in Agenturmeldungen

Semantisches Model

Montag, 23.09.2013 Topic/S @ LSWT Slide 10

Media SemItemMatch SemItem

Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de

Page 12: Themen- und Trenderkennung in Agenturmeldungen

Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten

ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller

Triples ohne SemItems: 31,3 Mio.

Montag, 23.09.2013 Topic/S @ LSWT Slide 11

SemItem Anzahl (alternative Namen)

Person 1.504.341 (2.499.962)

Organization 63.332 (98.127)

Place 89.702 (95.178)

Keyword 1351

Page 13: Themen- und Trenderkennung in Agenturmeldungen

Speicherung

Oracle 11gR2 Benchmark von Triple Stores [Voigt2012]

Pros

Bereits im Unternehmen für große Datenmengen im Einsatz

Integrierte Anfrage an relationale und semantische Daten

Cons

Inferenz

Unvollständiger SPARQL 1.1 Support

Einsatz von eigenen Regeln kaum möglich

Montag, 23.09.2013 Topic/S @ LSWT Slide 12

Quelle: musingmonika.com

Page 14: Themen- und Trenderkennung in Agenturmeldungen

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Clustering hierarchisches, agglomeratives Verfahren

Grundlage: Artikel und deren Entitäten

Eigenimplementierung aufgrund spezieller Herausforderungen

Ausführung und Zusammenfassung im Intervall Trend

Slide 13

Page 15: Themen- und Trenderkennung in Agenturmeldungen

Top-Cluster (vom 19.09.2013)

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Artikel 5 wichtigsten SemItems HotTopic

68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein

52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja

44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD

Ja

32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA

Ja

28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja

26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja

22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja

18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja

15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja

Slide 14

Page 16: Themen- und Trenderkennung in Agenturmeldungen

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 15

Page 17: Themen- und Trenderkennung in Agenturmeldungen

Live Demo

Montag, 23.09.2013 Topic/S @ LSWT Slide 16

Page 18: Themen- und Trenderkennung in Agenturmeldungen

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 17

Page 19: Themen- und Trenderkennung in Agenturmeldungen

Sum it up! Ergebnis Themenerkennung und Präsentation

gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English,

Kombination notwendig Stete Modeloptimierung hinsichtlich

der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund

von kausalen und temporalen Beziehungen

Montag, 23.09.2013 Topic/S @ LSWT Slide 18

Quelle: ooltapulta.com

http://www.w3.org/community/swisig/

Page 20: Themen- und Trenderkennung in Agenturmeldungen

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Danke! Fragen?

http://topic-s.de/

Page 21: Themen- und Trenderkennung in Agenturmeldungen

Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012

[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013

Montag, 23.09.2013 Topic/S @ LSWT Slide 20