was tun, wenn ihre bank zusammenbricht? warum das verstehen von dokumenten notwendigerweise...
DESCRIPTION
Vortrag des BITKOM Arbeitksreis Document & Data Capture auf dem BITKOM ECM Solutions Park zur DMS Expo 2012. Referent: Dr. Alexander Görke, Vice President Semantic Technology Products "ABBYYTRANSCRIPT
Semantische Verfahren zum Dokumentenverstehen Alexander Goerke, ABBYY
Was tun wenn Ihre Bank zusammenbricht?
Stuttgart, 24.10.2012J
Semantische Methoden zum Dokumentenverstehen
2
1. Das Problem
2. Was ist Semantik ?
3. Methoden der Semantik
4. Technologischer Hintergrund
5. Anwendungen
Schritt 1: Inhalt verstehen – Semantische Bedeutung
Schritt 2: Angemessene Aktion planen
Was tun, wenn die Bank zusammenbricht?
3
Die Sprache ist mehrdeutig
Ein Wort steht für verschiedene Bedeutungsinhalte
Bank:
Sitzmöbel
Finanzinstitution
Weitere Beispiele
Läufer
Flügel
Schlag
Zug
Feder
4
Homonyme und Polysemie
English:
• a financial institution
• the building where a financial institution offers services
• a synonym for 'rely upon' (e.g. "I'm your friend, you can bank on me")
• a river bank is a homonym. It is a
completely different meaning.
Auflösung der Mehrdeutigkeit
Nötig um den Inhalt zu verstehen
Nötig um automatische Entscheidungen fällen zu können
Stufenweise Analyse durch
Syntax
Semantik
Pragmatik
Disambiguierung
5
Syntax:
Definiert die Struktur einer Sprache und die Bedeutung der Worte im Satz
Kann damit Mehrdeutigkeiten auflösen
„Strauss“, sagte Kohl „wird niemals Kanzler werden.“
Strauss sagte: „Kohl wird niemals Kanzler werden.“
„Weine nicht, sagte sie“. <-> „Ich mag diese Weine nicht, sagte sie“
Analyse:
Disambiguierung
6
Semantik
Beschreibt die Bedeutung von sprachlichen Zeichen
Für Dokumentenverstehen die Bedeutung von Wörtern
Bedeutung kann anhand eines Lexikalischen und Semantischen Baums bestimmt werden
Beispiel Bank:
Ich sitze auf die Bank –
Ich gehe auf die Bank –
Durch die Bank positiv.. –
Bedeutungsanalyse
7
Images courtesy of Master isolated images, adamr, nuttakit/ FreeDigitalPhotos.net
Pragmatik
Bedeutung in Abhängigkeit zur konkreten Situation
Der Kontext des Sprechers (Schreibers) und des Hörers (Lesers) ist entscheidend
Beispiel
Schlag zu!
„Weißt Du wie viel Uhr es ist?“ – „Viertel vor!“
Geschäftskorrespondenz
„Warten Sie mit der Ausführung noch bis morgen“
Banktransfer? Kaufvertrag? Export? Beschluss?
Kontext
8
Automatische Indexierung
Erzeugung von strukturierter Information aus unstrukturierten Daten
Benötigt für Big Data und Business Analytics
Automatisches Routing im Workflow basierend auf Inhalt
Automatische Entscheidungen und Antworten
Bisher hauptsächlich manuelle Tätigkeiten
Zu teuer, inkonsistent und schlicht nicht mehr möglich
Automatische Systeme sind nötig
Dokumentenverstehen
9
Aufwendig einzurichten
Pflegeintensiv
Funktioniert nur für wenig komplexe Systeme
Kann Ambiguitäten nicht auflösen
Regelbasierte Klassifikation und Extraktion
10
Funktioniert nur bis zu einem gewissen Grad
Ausnahmen können nicht gehandhabt werden
Sehr anfällig für mehrdeutige Begriffe
„Wir müssen sie feuern“
„Wir müssen sie anfeuern“
Unbefriedigend bei kurzen Texten
SMS und Nachrichtendienste
Soziale Medien
Texte mit mehreren Themen (Multitopic) sind problematisch
Negationen werden ignoriert
„Bitte senden Sie mir kein weiteres Angebot zu.“
„Ihrer Argumentation bezüglich Thema 1 und Thema 2 stimmen wir nicht zu.“
Statistische Klassifikation und Extraktion
11
Echtes Dokumentenverstehen
Nachbildung der menschlichen kognitiven Fähigkeiten
Funktionen
Wörter werden in ihrer Bedeutung erkannt
Einengung – Homonyme disambiguieren
Verbreiterung – Nach Bedeutungen suchen
Für Klassifikation
Für Extraktion
Für Suche
Entitäten und Fakten werden extrahiert
Themen werden erkannt
Mit der Compreno Technologie kann ABBYY unstrukturierten Text so verstehen, dass Geschäftsprozesse komplett automatisiert werden können.
Fazit: Semantik ist nötig
12
www.ecm-navigator.de www.bitkom.org/ecm
Vielen Dank für Ihre Aufmerksamkeit
Alexander Goerke
ABBYY [email protected]
www.abbyy.com
Shī Shì shí shī shǐ…
14
Chinesisch Pinyin Deutsch
⊃ 施 氏 食 獅 史 ∪
石 室 詩 士 施 氏 , 嗜 獅 , 誓 食 十 獅 。 氏 時 時 適 市 視 獅 。 十 時 , 適 十 獅 適 市 。 是 時 , 適 施 氏 適 市 。 氏 視 是 十 獅 , 恃 矢 勢 , 使 是 十 獅 逝 世 。 氏 拾 是 十 獅 屍 , 適 石
室 。 石 室 濕 , 氏 使 侍 拭 石
室 。 石 室 拭 , 氏 始 試 食 是
十 獅 。 食 時 , 始 識 是 十 獅 , 實 十 石 獅 屍 。
試 釋 是 事 。
„Shī Shì shí shī shǐ“ Shíshì shīshi Shī Shì, shì shī, shì shí shí shī. Shì shíshí shì shì shì shī. Shí shí, shì shí shī shì shì. Shì shí, shì Shī Shì shì shì. Shì shì shì shí shī, shì shǐ shì, shǐ shì shí shī shìshì. Shì shí shì shí shī shī, shì shíshì. Shíshì shī, Shì shǐ shì shì shíshì. Shíshì shì, Shì shǐ shì shí shì shí shī. Shí shí, shǐ shí shì shí shī, shí shí shí shī shī. Shì shì shì shì.
„Die Geschichte des Shi, der Löwen isst“
Steinhöhlendichter Shi, süchtig nach Löwen, schwört,
zehn Löwen zu essen.
Oft geht er auf den Markt, um Löwen zu sichten.
Um zehn Uhr passieren gerade zehn Löwen den Markt.
Zu dieser Zeit passiert auch Shi gerade den Markt.
Er sieht die zehn Löwen, kraft seiner Pfeile schickt er
die zehn Löwen in den Tod.
Er bringt die zehn Löwenleichen zur
Steinhöhle.
Die Steinhöhle ist feucht. Er befiehlt seinem Diener,
diese abzutrocknen.
Nachdem die Steinhöhle abgetrocknet worden ist,
versucht er, die zehn Löwen zu essen.
Beim Essen merkt er, dass diese zehn Löwen eigentlich
zehn Steinlöwenleichen sind.
Versuche dies zu erklären.
http://ecm-navigator.de/termine/was-tun-wenn-ihre-bank-zusammenbricht-warum-das-verstehen-von
1
Das Video zum Vortrag sowie weitere Informationen gibt es unter:
Vortrag auf dem Forum des BITKOM ECM Solutions Park zur DMS Expo 2012 25. Oktober 2012, 11:00-11:30 Uhr