produktbeschreibung exorbyte matchmaker · produktbeschreibung exorbyte matchmaker exorbyte gmbh...

26
Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Upload: doanhanh

Post on 04-Jun-2018

238 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker exorbyte GmbH

MatchMaker Version 5.2

Stand Oktober 2012

Page 2: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 2 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Produktbeschreibung exorbyte MatchMaker ............................................................. 1

MatchMaker ......................................................................................................................... 6

MatchMaker - Herausforderung 6

Was ist MatchMaker? 6

Wer verwendet MatchMaker? 6

Die vier Grundprinzipien von MatchMaker................................................................ 7

Effizienz 7

Transparenz 7

Flexibilität 7

Universalität 8

Zusammenfassung der Neuheiten seit MM 5.1 .......................................................... 9

Instant Update 9

FlexForm 9

Multi-Level-Search 9

XML Extraktion 9

Konfigurations-Wizard 9

Parallelisierung & Verteilung des Index 10

Farbabgleich mittels Farbmethode 10

Monitoring Erweiterung (exLog) 10

Algorithmen-Analyse (exPlain) 10

Zusammenfassung der Neuheiten in MM 5.0 ........................................................... 11

Zeichensätze im MatchMaker ....................................................................................... 12

Zeichenkodierungen 12

Umlaute, Groß- und Kleinschrift, Sonderzeichnen 12

Wortbearbeitung in MatchMaker ................................................................................ 12

Extraktionsbibliothek 12

Linguistische Verfahren und Clusterbildung 12

Phrasenextraktion 12

Page 3: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 3 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Transliteration 13

Morphologie 13

Fehlererkennung, Wortähnlichkeit ............................................................................. 13

Damerau-Levenshtein und verwandte Algorithmen 13

Longest-Common-Subsequence 14

Wildcards, Globstyle-Anfragen und reguläre Ausdrücke 14

Finite Automaten (DFA) 14

Treffer-Qualitäten 14

Mehrwortabgleich ............................................................................................................ 15

Freie Vertauschung von Wörtern 15

Berücksichtigung von Wortrelevanzen 15

Mehrwort-Scanner 15

Verschiebung von Wortteilen, Block-Edit-Berechnung 15

Volltextsuche 15

Phonetik, Klangähnlichkeit ............................................................................................ 16

Soundex, Metaphone, Kölner Phonetik 16

exorbyte Phonetik 16

Frei programmierbare Phonetik 16

Gestaltähnlichkeiten 16

Weitere Indexierungsalgorithmen .............................................................................. 17

Approximativer Datumsabgleich 17

Zahlenrelationen und Zahlenbereiche 17

Flags- und Optionsattribute 17

Geometrische Entfernungen 17

Sichten- und Berechtigungskonzept 17

OCR 17

Komplexe Indexierung.................................................................................................... 18

Strategien - Kombination von Algorithmen auf Feldern 18

Feldübergreifender Index zur schnellen Zerlegung der Anfrage 18

Alternative Indexierung 18

Mehrfeldabgleiche 18

Page 4: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 4 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Gewichtung und Konfidenz einzelner Felder 18

Approximative Schnittmengenbildung 19

Nachbewertungslogik bei geringer Ähnlichkeit 19

Boole‘sche Logik 19

Freie Einfeld-Suche (FreeSearch) 20

Freie Mehrfeld-Suche (FlexForm) 20

Bearbeitung großer Treffermengen 20

Schnelles Zählen, Navigatorbildung 21

Sortierungen (sprachabhängige Collations) 21

Vereinigung, Schnitt, Dedublizierung 21

Biasing von Begriffen und Feldern ............................................................................. 21

Erhöhung der Fehlertoleranz einzelner Begriffe 21

Relevanz-Boosting von Einträgen 21

Generelle Bevorzugung von Feldern 21

Taxonomien und Aliasse ................................................................................................ 22

Lokale Aliasse 22

Globale Aliasse 22

Systematische Aliasse 22

Schnittstellen ..................................................................................................................... 22

Datenimport aus ODBC, CSV und anderen Quellen. 22

Programmierschnittstelle MMI in mehreren Sprachen 22

Server-Side-Scripting in Java und Tcl 23

Konsolensteuerung für Fernwartung und OEM-Einbindung 23

Java-Administrations-Interface (JMMI) 23

Analysierbares Reporting-Format 23

Plattform ............................................................................................................................. 23

Analyse-Tools 23

Konfigurations-Tool 23

Überwachungs-Tool 23

Statistik-Daten 24

Zentrales Logging 24

Error Reporting 24

Page 5: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 5 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Ausfallsicherheit 24

Zentrale Verwaltung von verteilten Systemen 24

Skalierbarkeit ....................................................................................................................24

Datenparallelisierung 24

Automatische Anpassung an Serverbelastung 24

Parallelisierung der Anfragen 25

Aktualisierung der Daten 25

Inkrementelle Datenaktualisierung 25

Alternative Suchprofile 25

Unterstützung von 32- und 64-Bit-Architekturen 25

Unterstützung von Windows, Linux, Solaris 25

Lizenzierung....................................................................................................................... 26

Page 6: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 6 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

MatchMaker

MatchMaker - Herausforderung Nutzen Sie den Wert Ihrer Daten voll aus?

Erhalten Anwender und andere Applikationen unmittelbar die gewünschten

Informationen? Trotz Fehlschreibweisen?

Lassen sich Treffermengen schnell eingrenzen und auswerten?

Was ist MatchMaker? exorbyte’s Suchmaschine MatchMaker wurde speziell für die Suche in

strukturierten Daten entwickelt: Tabellenstrukturen werden in der

Suchmaschine abgebildet und lassen sich schnell und flexibel anpassen und

für das Ranking berücksichtigen. Hardware-Ressourcen werden effizient

ausgenutzt. Die unscharfe Suche ist weltweit einmalig: Auch bei Millionen

von Daten werden Ergebnisse in Sekundenbruchteilen zurückgegeben.

Wer verwendet MatchMaker? Unsere Kunden haben alle Eines gemeinsam: viele, viele Daten. MatchMaker

hilft Ihnen dabei, leichter fündig zu werden und weniger Zeit mit

Datenbanksuchen zu verbringen. Das Einsatzgebiet umfasst u. a.

Posteingangsbearbeitung (OCR), Stammdatenmanagement, Data Cleansing,

Site Search/Intranet Search, In-Shop-Suche und Fraud Protection. Kunden

aus den Bereichen eGovernment, Versicherungen, eCommerce, Online-

Verzeichnisse und Portalen vertrauen auf uns.

Ihre Vorteile

• Schnell und fehlertolerant, auch bei Millionen von Daten

• Einfach integrierbar durch Datenbankunabhängigkeit

• Sprachunabhängig

• Einfach konfigurierbar, individuell anpassbar

Page 7: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 7 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Die vier Grundprinzipien von MatchMaker

MatchMaker ist auf den vier Säulen Flexibilität, Effizienz, Transparenz und

Universalität aufgebaut:

Effizienz Trotz der leistungsfähigsten Ähnlichkeitsalgorithmen, die MatchMaker

beherrscht, beträgt die Abfragezeit wenige Millisekunden. Selbst bei großen

Datenmengen wie 30 Mio. Adressen mit 5-6 Feldern in der Abfrage. Alle für

die Suchauswertung notwendigen Daten werden hierbei äußerst effizient im

Speicher gehalten und benötigen weniger Platz als die originalen

Ausgangsdaten. MatchMaker ist leicht skalier- und parallelisierbar. Durch

die konsequente Nutzung der 64-Bit-Architektur gibt es keine Restriktion

hinsichtlich der Indexgröße. Ebenso selbstverständlich ist die Nutzung von

Multi-Core und Multi-Threading. So beantwortet ein Dual-CPU-Server bis zu

600 Anfragen pro Sekunde. Fehlertolerant. Die Technologie skaliert sowohl

horizontal als auch vertikal und bleibt dabei auch bei Cloud-Applikationen

gewohnt effizient.

Transparenz MatchMaker‘s Ranking von Suchergebnissen ist stets im Detail

nachvollziehbar, da alle angewandten Algorithmen bekannt sind und keine

"Geheimnisse" zu unerklärlichen Ergebnissen führen. Durch diesen „White-

Box“-Ansatz kann jedes Suchergebnis nachvollzogen werden und

zusätzliche Ranking-Kriterien können individuell hinzugefügt werden.

Transparenz ist eine wichtige Voraussetzung für die hohe Anpassbarkeit

von MatchMaker an individuelle Anforderungen. Diese

Schlüsselqualifikationen machen die MatchMaker Lösung zu einer

Anwendung für höchste Anforderungen.

Flexibilität Leicht und individuell kann MatchMaker an Ihre individuellen Bedürfnisse

angepasst werden. Die Anwendungsgebiete sind vielfältig: Suche und

Datenmanagement von Online-Verzeichnissen, Site-Search, Suche in

Produktkatalogen, Volltextsuche, Optimierung von Posteingangslösungen,

Fraud-Protection und mehr. Alle profitieren von der Intelligenz und der

Anpassungsfähigkeit des MatchMaker Systems. Besonders: im Gegensatz zu

klassischen Volltext-Suchlösungen lassen sich in MatchMaker

Tabellenstrukturen schnell abbilden und flexibel für das Ranking nutzen. Die

Technologie kann unverändert eingesetzt werden für extrem große

Datenmengen in einer monolithischen Backendlösung und genauso gut für

extrem viele Kunden in einem verteilten System (Multi-Tenancy). Damit ist

MatchMaker perfekt geeignet zum Aufbau von Cloud-Lösungen.

Page 8: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 8 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Universalität Je nach Anforderungen an die Suche stehen eine Vielzahl von Algorithmen

und Abfragearten zur Auswahl. MatchMaker speichert die Daten optimiert,

je nach geplanter Verwendung, lässt aber dennoch dynamisch viele

mögliche Evaluationsschemata zu. Durch die Möglichkeit der freien

Kombination von verschiedensten Funktionen, Algorithmen und

phonetischen Codes ist es möglich, leistungsstarke Applikationen

aufzubauen, die innerhalb weniger Millisekunden aus Millionen von

Datensätzen die relevanten Treffer finden. Und das alles auch in der Cloud.

Page 9: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 9 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Zusammenfassung der Neuheiten seit MM 5.1

Instant Update Das Instant Update stellt eine signifikante Verbesserung des inkrementellen

Updates dar. Während mit dem inkrementellen Update Datenupdatezyklen

von nur wenigen Minuten realisierbar sind, erlaubt Instant Update, die

Hauptelemente der geänderten Daten sofort in die Suche einzuspeisen und

somit auffindbar zu machen.

FlexForm Neben der extrem fehlertoleranten Mehrfeld-Suche und der Einfeld-Suche in

strukturierten Daten bietet exorbyte in der neuesten Version eine flexible

Formularsuche (FlexForm) an, die das Beste aus beiden Varianten

kombiniert: Der Benutzer kann in mehrere Felder Anfragen eintragen, die

korrekte Zuordnung zu den Daten leistet MatchMaker aber erst dynamisch

und abhängig von der besten "Interpretation" der Anfrage. Es können Vor-

und Nachnamensanteile in das jeweils falsche Feld eingetragen worden sein.

Ebenso kann ein Adressfeld automatisch zerlegt werden in Ort, Straße und

PLZ. Das alles ohne aufwändige Programmierung durch einfache

Konfiguration und in bekannt schneller Bearbeitungszeit.

Multi-Level-Search Multi-Level-Search ist ein mächtiges Suchwerkzeug, welches Suchanfragen

deutlich flexibler gestaltet. Mit Multi-Level-Search ist es möglich, innerhalb

definierter Hierarchie-Ebenen zu suchen. Wird in einer Personendatenbank

bspw. nach bestimmten Städten gesucht, werden auf der Hierarchie-Ebene

Städte entsprechend alle zur Suchanfrage passenden Städte oder

Straßennamen herausgefiltert, unabhängig von den hinterlegten Personen.

Aber auch Abfragen vom Typ „Liefere mir alle Straßen, in denen sowohl ein

Hr. Schmitz als auch Hr. Maier wohnt“ sind möglich.

XML Extraktion MatchMaker unterstützt nun auch die Datenextraktion aus XML-Dateien. Der

Konfigurationsprozess ist grafisch dargestellt und daher einfach zu

bedienen. Dieses Feature ist besonders hilfreich im Einsatz mit Multi-Level-

Search.

Konfigurations-Wizard Der Konfigurations-Wizard analysiert die in MatchMaker zu integrierenden

Daten statistisch hinsichtlich ihrer Struktur. Basierend auf dieser Analyse

unterbreitet der Wizard Vorschläge für eine sinnvolle MatchMaker-

Konfiguration und erleichtert so das Konfigurieren eines Projekts.

Page 10: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 10 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Parallelisierung & Verteilung des Index Dieses Features wirkt sich besonders vorteilhaft bei sehr großen

Datenmengen und kurzen Updatezyklen aus. Neben dem normalen

inkrementellen Update bietet der „Distributed Build“ die Möglichkeit, die

Indexierung auf mehrere Prozessoren und/oder Maschinen zu verteilen und

zusätzlich zum Teil zu parallelisieren. Durch die parallele Verarbeitung wird

der Indexierungsprozess erheblich beschleunigt.

Farbabgleich mittels Farbmethode Dieses neue Feature extrahiert automatisch Farbwerte aus Bildern, wie

z. B. Produktbildern und gestattet die Suche danach über Farbnamen

(„blau“), Farbbereiche („rötlich“) und RGB- oder HSV-Werte. Hierdurch ist es

möglich, nach farblich ähnlichen Bildern zu suchen, wie z. B. nach allen

„roten“ bzw. „rötlichen“ Produkten.

Monitoring Erweiterung (exLog) Mit dieser Erweiterung kann MatchMaker‘s Log-Server exLog nun auch

direkt an externe Monitoring-Systeme wie z. B. Nagios angebunden werden.

So lassen sich Logfiles zentral in einem Monitoring-System überwachen.

Algorithmen-Analyse (exPlain) Das neue Tool exPlain analysiert die Funktionsweise schwer

nachvollziehbarer Algorithmen, wie z. B. Levenshtein und stellt die

Zusammenhänge in grafischer Form dar. Das maßgeblich als Testumgebung

und Lerntool konzipierte exPlain dient dazu, die Strukturen von

MatchMaker und die Auswirkungen bestimmter Suchkonfigurationen besser

zu verstehen.

Page 11: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 11 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Zusammenfassung der Neuheiten in MM 5.0

Mit der Version 5.0 hat exorbyte die Suchmaschine MatchMaker zu einer

umfangreichen Suchplattform ausgebaut. Zu den wesentlichen Weiterent-

wicklungen zählen:

Strategien für die Kombination verschiedener Algorithmen Oftmals gibt es für einen Datenfeld nicht die eine optimale Methode, die zu

allen Daten in der Datenbank passt. Bei MatchMaker 5.0 muss sich der

Anwender nicht für eine einzige Methode entscheiden, den Index zu bilden.

Dafür stehen vier Strategien in MatchMaker zur Verfügung. Diese

vereinfachen es, auch komplexere Indexstrukturen aufzubauen. Ferner

sparen Strategien Zeit während der Suchanfrage, da nur solche Abgleiche

durchgeführt werden, die erfolgversprechend sind.

Freie Definition von komplexen Abhängigkeiten von Feldern MatchMaker 5.0 ermöglicht es, Zusammenhänge und Abhängigkeiten von

einzelnen Feldern bei den Suchergebnissen zu berücksichtigen. Jeder

beliebige Ausdruck der Boole’schen Logik kann über die Oberfläche einfach

eingegeben werden. Somit können auch komplexe Anfragen effizient

verarbeitet werden.

Linguistische Unterstützung für Phrasenextraktion und Cluster-Bildung Flexiblere Mechanismen beim Datenimport ermöglichen die automatische

Generierung von Schlagwortverzeichnissen für Freitexte in Deutsch und

Englisch, die als Datenbasis für eine erfolgreiche Navigationsunterstützung

geeignet sind, entweder als „Did-you-mean“ oder als SearchNavigator – den

interaktiven Suggest-Boxen von exorbyte.

Page 12: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 12 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Zeichensätze im MatchMaker

Zeichenkodierungen Für Anfragen und Daten unterstützt MatchMaker mehrere Einbyte-

kodierungen wie ISO-8859-1 (ISO Latin), aber auch Mehrbytekodierung

in UTF-8. Zeichenmappings zwischen Unicode-Code-Points sind für alle

Abgleichalgorithmen konfigurierbar, um die konsistente Behandlung von

Daten aus verschiedenen Quellen zu gewährleisten.

Umlaute, Groß- und Kleinschrift, Sonderzeichnen MatchMaker unterstützt auch das Mapping von einzelnen Zeichen auf mehrere Zeichen lange Zeichenketten, was besonders für die Unterstützung von Umlauten von Bedeutung ist. Automatische Deakzentuierung oder wahlweise separate Berücksichtigung von Akzenten ist möglich. Beispiel Transliterationen diakritischer Zeichen wie beispielsweise „Schäfer – Schaefer – Schafer“ werden in MatchMaker entsprechend der Konfiguration berücksichtigt. Oder die Akzente werden als einzelne Zeichen bearbeitet.

Wortbearbeitung in MatchMaker

Extraktionsbibliothek Das Aufbereiten der Daten für den Index ist dank der Extraktions-bibliothek

sehr bequem. Die indexierbaren Daten werden durch einfaches, interaktives

Auswählen der bereitgestellten Standardumwandlungsfunktionen und deren

Parameter generiert. Die Funktionen umfassen Standardnormalisierungen,

aber auch die Generierung von Aliasbegriffen u. ä.

Linguistische Verfahren und Clusterbildung MatchMaker erlaubt das Zusammenfassen ähnlicher Strings zu Clustern.

Dies wird benötigt, um qualitativ gute Suchvorschläge zu generieren und

damit die Benutzerfreundlichkeit zu erhöhen, da der Suchende den

Überblick bewahrt.

Phrasenextraktion Die automatische Phrasenextraktion extrahiert aus unstrukturiertem Text

sinnvolle Mehrwortbegriffe und Phrasen. Dies bietet die Möglichkeit, auch

unstrukturierte Daten zu durchsuchen und darin zu navigieren. Durch die

interaktive Anzeige von Navigationshilfen zur Verfeinerung der Suche wird

der Anwender zu den richtigen Treffern geleitet.

Page 13: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 13 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Transliteration Die Transliterationsfunktionen von MatchMaker beinhalten standardmäßig

die Übertragung von Koreanisch, Chinesisch (Mandarin und Cantonese),

Japanisch (Hiragana, Katakana), Devaganari u. a. in lateinische

Schreibweisen wie Romaji. Weitere Sprachen können kurzfristig bei Bedarf

aufgenommen werden. So ist sogar möglich, Indexe aufzubauen, auf die

sowohl mit Hiragana als auch mit Romaji zugegriffen werden kann und das

mit der gewohnten Fehlertoleranz von MatchMaker. Daher kann

MatchMaker für asiatische Anwendungen sofort eingesetzt werden.

Beispiel Ihre Datenbank hat internationale Kontaktdaten gespeichert. Angenommen,

ein Eintrag lautet „Sandra Donovan Khan“ - das sind Namenbestandteile aus

mehreren Sprachräumen. Was nun? Die Algorithmen von MatchMaker sind

sprachenunabhängig, Namen aus mehreren Sprachräumen werden über

Transliterationsregeln verglichen.

Morphologie MatchMaker bietet in vielen Sprachen die Abbildung von Wörtern auf ihren

Wortstamm an. Dafür wurde die Open-Source Stemming-Library Snowball

eingebunden und mit Regelwerken für ca. 30 Sprachen vorkonfiguriert.

Beispiel Bei Verwendung der Wortstammabbildung wird in einem Text auch „Haus“

gefunden, wenn nach „Häuser“ gesucht wird oder umgekehrt.

Fehlererkennung, Wortähnlichkeit

Damerau-Levenshtein und verwandte Algorithmen Ein wesentlicher Teil der hohen Fehlertoleranz von MatchMaker beruht auf der vielseitig nutzbaren Implementierung des Levenshtein-Algorithmus und dessen Abwandlungen, wie z. B. des Damerau-Levenshtein. Dabei berechnet MatchMaker alle möglichen Fehlersituationen zur Abfragezeit, ohne dass dafür spezielle Annahmen gemacht werden. Die nachfolgenden Editier-Operationen werden beim Wortvergleich direkt unterstützt: • Einsetzen von einzelnen Zeichen • Löschung von Zeichen • Substitution einzelner Zeichen • Vertauschung von benachbarten Zeichen (Damerau) • Vertauschungen von Worten und Zeichengruppen (Block-Edit-Distanz) • Gleichsetzen von Zeichen, Umlautexpansion • Deakzentuierung und Ignorieren von Sonderzeichen • Lokale Zeichenalternativen in der Abfrage (H[ao]mburg)

Page 14: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 14 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Darauf aufbauend bietet MatchMaker ein breites Spektrum an stringbasierten Algorithmen, die je nach spezieller Abfragesituation gewählt werden können: • Die erweiterte Levenshtein Edit-Distanz für Präfix-, Suffix-,

Infix- Suche und zwar für beide Situationen: die Abfrage ist Teil des gesuchten Eintrags und umgekehrt.

• Die Block-Edit-Distanz-Berechnung, bei der ganze Buchstabengruppen verschoben werden können.

• Positionsgebundene Abgleiche zum Lesen von festen Formularfeldern

• Phonetischer Abgleich u.v.m. Longest-Common-Subsequence Der LCS-Algorithmus, das Verfahren der „longest-common-subsequence“, wird verwendet, um unzusammenhängende übereinstimmende Zeichenketten zu finden. Beispiel Der Algorithmus findet eine Übereinstimmung von „xAzyxBCzrsuerbD“ mit „ABoCpD“, da in beiden Wörtern die Folge „ABCD“ enthalten ist.

Wildcards, Globstyle-Anfragen und reguläre Ausdrücke Mit derselben Index-Struktur können auch andere grundlegende

Algorithmen berechnet werden. Unter anderem erlaubt MatchMaker die

Benutzung von Wildcards und Globstyle-Matching.

Finite Automaten (DFA) Viele dieser Algorithmen können bei Beschränkung auf begrenzte Fehlertoleranz mithilfe von Finiten Automaten sogar noch schneller und effizienter implementiert werden. Diese Struktur lässt bis zu drei Fehler zu, die dynamisch korrigiert werden können, also völlig sprachunabhängig. Treffer-Qualitäten Für das Tuning der Suchapplikation bietet MatchMaker einen Satz von

Bewertungsfunktionen, die abhängig von der Länge der beteiligten Wörtern

und deren Übereinstimmung ein Qualitätsmaß berechnen, das das

gewünschte Suchverhalten und Ranking der Ergebnisse sicherstellt.

Sprachenunabhängige Berechnung

Page 15: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 15 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Mehrwortabgleich

Neben der reinen Editierähnlichkeit muss auch die Vertauschung von

Wörtern berücksichtigt werden.

Freie Vertauschung von Wörtern Ein Mehrwort-Index mit möglicher wortweiser Vertauschung für große Datenmengen steht als gesonderter Indextyp zur Verfügung. Dieser gewichtet einzelne Wörter über ihre Länge, lässt aber auch Einzelwort-Aliasse zu. Er beherrscht außerdem die automatische Stoppwort-Behandlung und das Verschmelzen benachbarter Anfragewörter.

Berücksichtigung von Wortrelevanzen Eine Fortentwicklung dieser erfolgreichen Mehrwort-Vergleichsstruktur

besitzt eine automatische Einzelwort-Relevanz-Berechnung. Sie erlaubt es,

Mehrwort-Datenmengen zu untersuchen, die auch größere Teile

irrelevanter Information enthalten, z. B. eine Liste mit Firmennamen, in

denen Anteile wie GmbH, Gesellschaft aber auch Spartennamen u. ä. sehr

häufig sind. Der Algorithmus passt sich dabei automatisch an die Daten an

und unterstützt Einzelwort-Aliasse, die gezielte Beeinflussung von

Einzelwort-Bewertungen und vieles mehr.

Mehrwort-Scanner Für die schnelle und fehlertolerante Extraktion von Schlüsselwörtern aus

langen Texten unterstützt MatchMaker eine schnelle Scannerfunktion, die

approximativ und besonders schnell auch über Worttrenner hinweg

Mehrwort-Treffer findet. Dies ermöglicht es, Texte mit passenden

Schlüsselwörtern zu markieren, die später die Arbeit des SuchNavigators

unterstützen.

Verschiebung von Wortteilen, Block-Edit-Berechnung Das Wortvertauschen ohne Berücksichtigung von Zeichentrennern kann

durch den Block-Edit-Algorithmus erledigt werden. Zum Beispiel erlaubt der

SUBSET und SUPERSET-Algorithmus das Erkennen von vertauschten

Wortteilen, wie z. B. in Tiefenschärfe->Schärfentiefe, ohne dabei Fehltreffer

zu generieren

Volltextsuche Schließlich verfügt MatchMaker über eine Volltext-Engine zur Indexierung

von einzelnen Dokumenten auf Dateibasis. Dabei werden die

Wortpositionen innerhalb eines Dokuments, die Häufigkeit des

Vorkommens der Wörter und andere Kriterien zur Bewertung herangezogen

(TFIDF). Auch die Generierung von „Teasern“ mit markierten

approximativen Treffern wird unterstützt. MatchMaker kann mit aus

MatchMaker gesteuerten Standardwebcrawlern Inhalte automatisch

auslesen und direkt übernehmen.

Page 16: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 16 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Das Volltextmodul von MatchMaker unterstützt: • Phrasenerkennung (auch bei Fehlern in einzelnen Wörtern) • Ausschlussbegriffe • Wortergänzungen und optionale Wörter • Approximative oder exakte Anfragen auf Wortbasis • Kombination und Aufsplittung von Wörtern • Einzelwort-Aliasse und Bias-Gewichtungen • Individuelle und automatisierte Skip- bzw. Stoppworte • Wildcard-, Prefix-, Infix- und Suffix-Suche

Phonetik, Klangähnlichkeit

Als wichtiges Hilfsmittel bei der approximativen Suche sind phonetische Codes bekannt, die meistens als alternativer Suchschlüssel verwendet werden. MatchMaker nutzt phonetische Codes, um die Wortähnlichkeit graduell zu unterstützen. Dabei können bekannte, aber auch speziell von exorbyte entwickelte, Kodierungsverfahren verwendet werden. Soundex, Metaphone, Kölner Phonetik Die bekannten Standardcodes SOUNDEX und METHAPHONE sowie auch die seltener verwendete „Kölner Phonetik“ sind per Knopfdruck verfügbar.

exorbyte Phonetik Am häufigsten wird in MatchMaker die hauseigene Phonetik (EXOPHONE) verwendet, die an die Art und Weise, wie MatchMaker Phonetiken bearbeitet, angepasst ist. Diese Kombination macht die phonetische Suche robust und gewichtet Fehler, die sich phonetisch nicht auswirken, geringer als phonetisch relevante Fehler. Frei programmierbare Phonetik Über das Server-Side-Scripting lassen sich aber auch selbst programmierte Phonetiken anbinden, die der Anwender frei definieren kann. Die Art der Einbindung sichert auch dann noch schnelle Laufzeiten zu.

Gestaltähnlichkeiten Eine spezielle Transformation, die keine echte phonetische Kodierung

darstellt, sich aber sehr ähnlich verhält, ist die Kodierung der Wortgestalt

(SHAPE-Transformation). Was die Phonetik für das gesprochene Wort ist, ist

die Gestalt für das geschriebene Wort. Beispielsweise gibt in einer OCR-

Anwendung die Form der Zeichen eine grobe Beschreibung der Zeichen,

ohne die genaue Bedeutung zu kennen. Diese Kodierung verwendet wenige

Zeichen, die nur Ober-, Unterlängen, Striche oder Rundungen darstellen, um

die Gestalt eines Wortes ungefähr darzustellen.

Page 17: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 17 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Weitere Indexierungsalgorithmen

Approximativer Datumsabgleich Felder mit Datumsangaben können in MatchMaker derart indexiert werden,

dass auch ähnliche Daten gefunden werden. Dabei sind verschiedenste

vordefinierte Formate zugelassen. Aber auch leicht fehlerhafte Eingaben

werden erkannt. Die Bestimmung der genäherten Vergleichswerte ist von

der zeitlichen Distanz abhängig, für die eine Skalierung individuell konfigu-

rierbar ist.

Zahlenrelationen und Zahlenbereiche Datenfelder mit numerischen Inhalten können mit Vergleichsfunktionen

abgefragt werden, wie “der Wert ist größer oder in der Nähe des

Abfragewertes”, wobei die Schärfe der Abfrage konfiguriert werden kann.

Ebenso sind Bereichsangaben zugelassen.

Flags- und Optionsattribute Strukturierte Daten enthalten häufig Ja/Nein-Attribute (Flags) oder

Optionsattribute, d. h. Attribute mit nur wenigen möglichen Werten. Diese

können von MatchMaker effizient in sogenannten Flagfeldern

zusammengefasst werden, so dass hunderte solcher Optionen in einem

Aufruf kombiniert und approximativ abgefragt werden können. Das

ermöglicht, mit nur einer einzigen Abfrage die Einträge in der Datenbasis zu

finden, welche die meisten Attribute korrekt gesetzt haben, ohne dass

verschiedene Attributmengen ausgetestet werden müssen. Dabei lassen

sich auch Wertemengen abfragen, z. B. in der Art: „Welche Personen

erfüllen die meisten der folgenden Eigenschaften? – Sie sind männlich,

besitzen einen Sportwagen oder SUV, sind vollkaskoversichert und hatten

in den letzten drei Jahren einen Unfall.“

Geometrische Entfernungen Koordinaten sind in MatchMaker als geometrische Nähe abfragbar. Die

örtliche Nähe wird dann approximativ berechnet und kann mit anderen

Kriterien kombiniert werden. Die Toleranz dieser Funktion lässt sich

konfigurieren. Gebietsabfragen sind ebenfalls möglich.

Sichten- und Berechtigungskonzept MatchMaker beherrscht den effizienten Abgleich von einzelnen Einträgen

gegen große Teilmengen von Kategoriebäumen, Taxonomien oder

Hierarchien. Auf diese Weise können Sichten- und Rollenkonzepte effizient

serverseitig umgesetzt werden.

OCR Für den Abgleich von Erkennungsergebnissen aus dem OCR-Umfeld stehen

in MatchMaker spezielle Indexierungsmethoden zur Verfügung. Der Abgleich

basiert auch auf dem Levenshtein-Algorithmus, bei dem die Qualitäten der

erkannten Zeichen graduell in das Bewertungsergebnis einfließen. An jeder

gelesenen Stelle können in der Abfrage mehrere alternative Zeichen

Page 18: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 18 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

zugelassen werden, wenn sich der Klassifikator nicht entscheiden konnte.

Ein Zeichen, das erkannt, aber nicht klassifiziert werden konnte, kann als

Platzhalter eingefügt werden, so dass eine Ersetzung eines solchen Zeichens

weniger ins Gewicht fällt als eine Einfügung oder Löschung. Außerdem

können zusätzliche Tabellen von Ähnlichkeiten hinterlegt und eine

Gestaltähnlichkeit der ganzen Worte berücksichtigt werden.

Komplexe Indexierung

Strategien - Kombination von Algorithmen auf Feldern Reicht eine der Standardindexierungsmethoden nicht aus, lassen sich in

MatchMaker verschiedene Algorithmen kombinieren. So erlaubt

MatchMaker beispielsweise die Verarbeitung von Feldern mit gemischten

Inhalten. Hierbei kann ein Feld z. B. ein Datum enthalten oder normale

Wörter. Je nach Inhalt wendet MatchMaker anschließend den passenden

Algorithmus bzw. die passende Suchmethode an, d. h. für Datumsangaben

den Datumsabgleich, für alles andere den Levenshteinabgleich.

Es stehen vier Strategien zur Auswahl: die Vote-, Prune-, Support- und

Switch-Strategie, wobei die Switch-Strategie für jeden Eintrag auf die

passende Abgleichsmethode verzweigt.

Feldübergreifender Index zur schnellen Zerlegung der Anfrage Häufig können die Eingaben für die Anfrage nicht festen Feldern

zugewiesen werden. Dafür unterstützt MatchMaker die feldübergreifende

Suche durch einen speziellen Index, der es erlaubt, in kürzester Zeit, die

Anfrage oder Teile davon einzelnen Datenfeldern zuzuordnen. Dies wird

noch durch eine schnelle Scanfunktion verstärkt, die Worte oder

Wortgruppen als Ganzes detektieren kann. MatchMaker erlaubt es dann, die

Anfrage mittels dieser Treffer zu zerlegen, selbst wenn Fehler in den

einzelnen gefundenen Teilen aufgetreten sind.

Alternative Indexierung Für jedes Feld können in MatchMaker zusätzlich noch zwei unabhängige

Suchstrategien definiert werden, die dynamisch ausgewählt werden können.

Mehrfeldabgleiche Eine der größten Stärken von MatchMaker ist das effiziente Kombinieren

von Resultaten auf mehreren Feldern.

Gewichtung und Konfidenz einzelner Felder Dabei kann der Vorgang durch Einstellung der Gewichtung, der

Verknüpfung von Felder mittels logischem „ODER“ oder „UND“, Verneinung

und weiteren Charakteristika beeinflusst werden. Beispielsweise können

Felder als „Mandatory“ oder „Optional“ markiert werden.

Interessantes Feature

Strategien sparen viel Zeit bei der Suchabfrage, da diese den Index dafür optimal vorbe-reiten. Oftmals gibt es für einen Datensatz keine opti-male Methode, die zu allen Feldern passt. Bei Match-Maker ist es nicht nötig, sich für eine einzige Methode zu entscheiden.

Page 19: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 19 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Approximative Schnittmengenbildung Das Schneiden von Trefferlisten ist normalerweise keine erwähnenswerte Aufgabe, wenn nur exakte Treffer auf jedem Feld generiert werden. Wenn aber auf jedem Feld viele Trefferlisten mit unterschiedlichen Bewertungen kombiniert werden müssen, explodiert die Anzahl der Möglichkeiten schnell und erschwert es erheblich, alle relevanten Ergebnisse in vernünftiger Suchzeit zu finden. Obwohl es möglich ist, durch Spezifikation von Index- und Nachbewer-tungskriterien die Laufzeit zu optimieren, findet MatchMaker auch automatisch heraus, wie die Einzelfeldergebnisse am besten und schnellsten zu kombinieren sind. Dies wird schon bei der Aufbereitung der Daten dadurch unterstützt, dass die Daten bzgl. der Felder mit wiederkehrenden Werten so optimiert werden, dass keine langen Trefferlisten entstehen, d. h. das Einschränken und Suchen auf Feldern wie dem Städtenamen nimmt nur sehr wenig Rechenzeit in Anspruch.

Nachbewertungslogik bei geringer Ähnlichkeit Das Besondere liegt in der Tatsache, dass fehlerbehaftete Ergebnisse auf einem Feld in Gänze mit allen anderen Ergebnissen auf anderen Feldern kombiniert und bewertet werden, bevor eines davon endgültig verworfen wird. Selbst wenn die Qualität auf einem Feld nicht ausreicht, über den internen Suchindex den richtigen Treffer zu finden, jedoch hoch genug ist, dass sie berücksichtigt werden sollte, sind die Einträge mit den entsprechenden Werten nicht verloren, sondern werden durch eine Nachbewertung auch auf niedrige Übereinstimmungswerte überprüft. Das ermöglicht eine sichere Erkennung selbst von stark fehlerhaften Anfragen auf ALLEN(!) abgefragten Feldern.

Boole‘sche Logik Mit MatchMaker können beliebige logische Zusammenhänge von Feldern in

der Suchfunktion definiert werden (Boole‘sche Logik). Hiermit können

Suchergebnisse auf einzelnen Felder durch Operationen wie UND, ODER und

NICHT und sogar als eine Mittelung von UND und ODER kombiniert werden.

Diese Operationen können durch einfache grafische Operationen innerhalb

des Konfigurationstools spezifiziert werden.

Interessantes Feature

Mit der Boole‘schen Logik

werden über die Oberfläche

komplexe Kombinationen

ausgewählt. Dies ermöglicht

Zusammenhänge und

Abhängigkeiten von Feldern

bei den Suchergebnissen zu

berücksichtigen.

Page 20: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 20 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Beispiel Angenommen, in einem Suchformular werden Land, Ländercode, PLZ,

Straße und Name abgefragt. Um zum besten Treffer zu gelangen, ist es

notwendig, die Relationen der einzelnen Felder zueinander abzubilden. Die

Logik für das Suchformular ist der Abbildung oben zu entnehmen. Sollte

also das Feld „Stadt“ freigelassen oder falsch sein, aber bei PLZ ein voller

Treffer vorliegen, wird das Suchergebnisse trotz eines fehlenden Feldes als

bester Treffer gewertet. Der Ländercode kann wahlweise auch als

zusätzliche Identifikation für einen Namen dienen, wobei die Kombi-nation

von Land und Stadt oder PLZ dennoch höher zu bewerten ist.

Freie Einfeld-Suche (FreeSearch) MatchMaker bietet eine Suchfunktion, die es ermöglicht, automatisch eine

längere Anfrage auf mehrere Felder zu verteilen. Es ist nicht mehr nötig,

eine Zerlegung selbst zu programmieren, sondern es werden die besten

Treffer gefunden, auch wenn einige Felder gar nicht getroffen werden.

Zum Beispiel kann eine Anfrage „John Doe New York USA“ gegen die Felder

Nachname, Vorname, Staat, Land, Stadt und Straße abgeglichen werden. Die

Zuordnung auf die einzelnen Felder ist dabei nicht fest und wird nicht im

Vorfeld fixiert, sondern ist abhängig vom jeweiligen Treffer. Es werden also

alle John Does in der Stadt, aber auch im Land New York gefunden. Hierbei

lassen sich Treffer auf einzelne Felder sogar priorisieren.

Freie Mehrfeld-Suche (FlexForm) Neben der extrem fehlertoleranten Mehrfeld-Suche und der Einfeld-Suche

in strukturierten Daten bietet exorbyte eine flexible Formularsuche

(FlexForm) an, die das Beste aus beiden Varianten kombiniert: Der Benutzer

kann in mehrere Felder Anfragen eintragen, die korrekte Zuordnung zu den

Daten leistet MatchMaker aber erst dynamisch und abhängig von der

besten "Interpretation" der Anfrage.

Es können Vor-und Nachnamensanteile in das jeweils falsche Feld

eingetragen worden sein. Ebenso kann ein Adressfeld automatisch zerlegt

werden in Ort, Straße und PLZ. Das alles ohne aufwändige Programmierung

durch einfache Konfiguration und in bekannt schneller Bearbeitungszeit.

Bearbeitung großer Treffermengen MatchMaker ist nicht nur für das Finden von einzelnen Treffern geeignet,

sondern bietet auch die Möglichkeit, große Treffermengen (sogenannte

Kontexte) zu bearbeiten und zu speichern sowie On-The-Fly-Statistiken zu

erstellen.

Interessantes Feature

Die durchsuchten Felder sind

abhängig vom Treffer und

nicht vorab festgelegt. Dies

ermöglicht dem Anwender

maximale Flexibilität bei der

Eingabe und intelligente

Treffer.

Page 21: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 21 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Schnelles Zählen, Navigatorbildung Felder können bzgl. eines Kontextes ausgezählt werden. Dabei können

alphabetische Trefferlisten, nach Häufigkeit sortierte Listen, aber auch nach

Stringähnlichkeit bewertete Frequenzlisten dynamisch erzeugt werden. Zur

effizienten Bereitstellung von Navigationshilfen können ebenso

Wertegruppen (Preiskategorien etc.) dynamisch erzeugt werden.

Vorschauzählungen für mehrere Felder gleichzeitig ermöglichen die Anzeige

von Trefferhäufigkeiten für den Fall, dass der Anwender diesen oder jenen

Wert anklickt.

Sortierungen (sprachabhängige Collations) Felder können in MatchMaker so eingestellt werden, dass sie eine sehr

schnelle Sortierung von Kontexten bezüglich beliebiger Sprachen

unterstützen. Dabei werden Standard-Collations für mehr als 30 Sprachen

zur Verfügung gestellt

Vereinigung, Schnitt, Dedublizierung Kontexte können in MatchMaker über verschiedene Mechanismen erzeugt

werden: Ähnlichkeitssuche, Bereichsauswahl, explizites Aufzählen der

Einträge. Diese Kontexte können gespeichert werden und in die weitere

Bearbeitung einfließen, indem sie mit anderen Kontexten oder Suchen

mittels „UND“ oder “ODER“ verknüpft werden. Wichtig ist auch die

Deduplizierung eines Kontexts bzgl. der Werte eines bestimmten Feldes.

Biasing von Begriffen und Feldern

In MatchMaker gibt es mehrere Vorgehensweisen, um Einträge oder nur

einzelne Feldinhalte zu bevorzugen.

Erhöhung der Fehlertoleranz einzelner Begriffe Feldinhalte können schon durch Benutzung einer Strategie durch Erhöhung

ihrer Fehlertoleranz hervorgehoben werden, d. h. eine Stadt, die sehr häufig

angefragt wird, soll trotz Tippfehler relativ gut gewertet werden.

Relevanz-Boosting von Einträgen Das Gleiche gilt für ganze Mehrfeldeinträge. Auch diese können bezüglich

ihrer Fehlertoleranz aufgewertet werden. Dies geschieht durch Hinzugabe

eines Feldes, das den Bias-Wert beisteuert. Möglich ist auch, dieses Feld

generell zum „Boosten“ von Einträgen zu nehmen, unabhängig von den

gefundenen Fehlern.

Generelle Bevorzugung von Feldern Felder können in MatchMaker nicht nur gewichtet, sondern auch mit Strafen

(Penalties) versehen werden. Dies führt zur Bevorzugung ganzer Felder.

Page 22: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 22 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Taxonomien und Aliasse

Wortbeziehungen (Taxonomien) werden in MatchMaker durch Aliasse

abgebildet. Man unterscheidet zwischen verschiedenen Gültigkeits-

bereichen solcher Aliasse.

Lokale Aliasse Lokale Aliasse gelten nur für einen einzelnen Eintrag und können in die

Daten pro Feld eingefügt werden. So könnte beispielsweise eine Straße

umbenannt worden sein. Beide Bezeichnungen sind noch als Adresse

zugelassen.

Globale Aliasse Globale Aliasse sind immer gültig. Sie können über separate Dateien für

einzelne Indexstrukturen angegeben werden. Der Mehrwortalgorithmus

erlaubt auch Aliasse auf einzelnen Wörtern, z. B. sind Bob und Robert

immer gültige Aliasse. Die Richtung und die Kosten für die Ersetzung des

Alias kann mit angegeben werden, d. h. Bob trifft Robert mit Kosten 0, aber

Robert trifft Bob nur mit Kosten 10.

Systematische Aliasse Die generischste Art von Aliassen sind sogenannte systematische Aliasse,

wenn also jeder Eintrag in den Daten einen passenden Alias hat, z. B. ist in

einer Übersetzungstabelle jeder Eintrag in Deutsch und Englisch hinterlegt.

Anfragen können in Deutsch, Englisch oder undefiniert gestellt werden.

Diese Situation wird in MatchMaker durch Definition eines extra Feldes

behandelt, das mit dem Originalfeld mit einer ODER-Logik verknüpft wird.

Schnittstellen

Datenimport aus ODBC, CSV und anderen Quellen. Standardmäßig erlaubt MatchMaker den Import von Daten per ODBC, CSV

und Textdateien. Neue ODBC-Treiber außer den Standardtreibern können

leicht vom Anwender eingebunden werden.

Programmierschnittstelle MMI in mehreren Sprachen Anwendungen kommunizieren mit MatchMaker über ein API

(MatchMakerInterface, MMI), das intern über ein einfaches Socket-Protokoll

mit dem MatchMaker-Server verbunden ist. MMI gibt es in sechs Sprachen

(C++, Java, PHP, Python, COM, Tcl) und hat immer das gleiche einfache

Programmiermodell, so dass Code leicht von einem System auf ein anderes

transferiert werden kann.

Page 23: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 23 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Server-Side-Scripting in Java und Tcl MatchMaker unterstützt Server-seitig die Programmierung über Skripte in

den Programmiersprachen Tcl und Java. Dadurch kann ein großer Teil der

projektspezifischen Programmierung innerhalb von Skripten bewältigt

werden. Man kann die Standardsuchfunktionalität durch eine

benutzerdefinierte Logik ersetzen oder ergänzen. Benutzerdefinierte

Scripting-Filter auf einzelnen Feldern ermöglichen, komplexe Anfragen zu

modellieren, Ergebnisse zu modifizieren, mehrere Anfrageergebnisse zu

mischen und Treffermengen nachzubearbeiten. Zusätzlich werden

Templates für das Schreiben verschiedener Funktionen im Skript interaktiv

bereitgestellt.

Konsolensteuerung für Fernwartung und OEM-Einbindung Alle Verwaltungs-Funktionen von MatchMaker können auch ohne

interaktive Komponenten über das Command-Line-Interface (CLI)

ausgeführt werden. Das ermöglicht eine einfache Einbindung in

Fremdsysteme, Fernwartung u. v. a.

Java-Administrations-Interface (JMMI) Alle Funktionen des CLI sind wiederum in entsprechenden Java-Klassen

verfügbar, so dass auch die Steuerung der Prozesse von externen Java-

Programmen möglich ist.

Analysierbares Reporting-Format Jeder Suchprozess von MatchMaker schreibt auf Wunsch alle

Informationen, die angefragt wurden, in zentrale Log-Dateien, welche

einfach zu konfigurieren und zu analysieren sind.

Plattform

Analyse-Tools Die integrierten Entwicklungstools von MatchMaker erlauben es,

Projekteinstellungen zu analysieren und zu optimieren. Der

Ressourcenverbrauch kann visualisiert und dadurch Suchanfragedauer und

Speicherbedarf des Indexes verbessert werden. Entwickler sehen

z. B. sofort, wo Suchzeit unnötig verbraucht wird. Außerdem hat

MatchMaker einen eingebauten Speicherleckdetektor für Anwenderskripte,

der Programmierfehler leichter aufdeckt.

Konfigurations-Tool Das interaktive Konfigurator-Tool in MatchMaker (exTractor) ist

benutzerfreundlich aufgrund von Wizards, graphischer Unterstützung vieler

Konfigurationselemente und intuitiver Darstellung aller Parameter auf

entsprechenden Konfigurationsseiten.

Überwachungs-Tool Der eingebaute Monitor für die Prozessüberwachung ermöglicht,

Informationen über alle Prozesse eines Projektes zu visualisieren.

Scripting in Java MatchMaker unterstützt auch Server Side Scripting und Extraction Scripting in Java.

Hilfreiches Feature Es müssen nicht alle Daten in einem File vorliegen. Das spart viel Zeit bei der Datenaufbereitung.

Page 24: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 24 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Statistik-Daten Zusätzlich zum graphischen Monitor sind in MatchMaker Prozesse zum

Protokollieren und zur Analyse von Nutzungs-Statistiken vorhanden.

Administratoren sind somit informiert über die aktuelle Auslastung des

Systems und potentielle Hardware-Engpässe.

Zentrales Logging Alle Prozesse, ob sie remote oder lokal laufen, sind in MatchMaker an ein

zentrales Logging-System angeschlossen, das es erlaubt, die

Kommunikation zwischen den Prozessen zu überwachen und jede

Fehlerquelle schnell zu finden.

Error Reporting MatchMaker verfügt über eine zentrale Fehlerabhandlung. Durch allgemeine Fehlercodes kann MatchMaker leicht in externe Überwachungstools wie z. B. Nagios eingebunden werden.

Ausfallsicherheit Eine interne Prozessüberwachung detektiert fehlerhaft arbeitende Prozesse, stoppt und startet diese neu. Wird ein Abfrageprozess neu gestartet, liegt die Datenbasis bereits im Shared-Memory und der Prozess ist somit in wenigen Sekunden wieder voll einsatzfähig.

Zentrale Verwaltung von verteilten Systemen Mit MatchMaker besteht die Möglichkeit, auch größere Cluster mit vielen

Rechnern zu einem zentral verwalteten MatchMaker-System zusammen-

zubinden. Prozesse können remote gestartet, überwacht, installiert und

wieder gestoppt werden. Durch den zentralen Log-Server werden die

einzelnen Prozesse nur wenig belastet und können sich mit der

Verarbeitung der Anfragen beschäftigen.

Skalierbarkeit

Datenparallelisierung Sehr große Datenmengen kann MatchMaker auf mehrere Teilsysteme

verteilen. Diese werden dann durch einen Broadcast-Prozess angefragt und

die Ergebnisse gesammelt.

Automatische Anpassung an Serverbelastung MatchMaker erlaubt für komplexe Systeme eine automatische Anpassung

der Verarbeitungstiefe an die zur Verfügung stehende Laufzeit. Dies sorgt

für eine optimale Verteilung der Kapazitäten eines Servers. Bei

Kapazitätsengpässen können weniger aufwendige Algorithmen

angesprochen werden. In diesem Fall kann z. B. die Anzahl der Ergebnisse

reduziert werden. In Server-Side-Skripten kann diese Eigenschaft vom

Anwender ganz individuell genutzt werden.

Page 25: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 25 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Parallelisierung der Anfragen Bei hoher Anfragelast können in MatchMaker durch einen einfachen Klick

weitere Prozesse während des laufenden Betriebes hinzugefügt werden, die

sofort Teile der Anfragen übernehmen.

Aktualisierung der Daten Werden neue Daten in das MatchMaker-System eingespielt, geschieht das

vollständig im Hintergrund. Das Laufzeitsystem wird erst bei Fertigstellung

aller notwendigen Arbeiten über die Existenz neuer Daten informiert. Es

ersetzt die Daten zunächst nur für einen Abfragebearbeitungsprozess und

schaltet alle anderen einzeln um, wenn dies erfolgreich war. Hierdurch kann

unerwünschte Downtime vermieden werden.

Inkrementelle Datenaktualisierung MatchMaker kann auch inkrementelle Änderungen der Daten in sehr kurzer Zeit im Laufzeitsystem zur Verfügung stellen. Die Änderungen werden gesammelt und periodisch in die Originaldatenmenge eingepflegt. Dies geschieht im Hintergrund.

Alternative Suchprofile MatchMaker bietet die Möglichkeit, individuelle Suchprofile anzulegen.

Dadurch können sich Nutzer abhängig von ihrer Rolle über verschiedene

Schnittstellen mit derselben Datenbank verbinden. Diese Schnittstellen

unterscheiden sich in Gewichtung, Kombinationslogik, Skalierung,

Schwellwerten, virtuellen Feldern und weiteren Parametern. Der Benutzer

kann jedes dieser Profile dynamisch anfordern.

Unterstützung von 32- und 64-Bit-Architekturen MatchMaker nutzt in weiten Teilen die Vorteile der 64-Bit-Architektur voll

aus. Das ermöglicht die Verarbeitung von wesentlich größeren

Datenmengen, erhöht die Abfragegeschwindigkeit, reduziert den Bedarf an

Ressourcen und vereinfacht die Konfiguration komplexer Systeme.

Unterstützung von Windows, Linux, Solaris Getestete Installationen stehen auf folgenden Systemen zur Verfügung:

Windows OS: • Windows XP SP2 (32bit)

• Windows 2003 Server SP1 (32bit)

• Windows Vista SP1 (32bit, 64bit)

• Windows 2008 Server SP1 (32bit, 64bit)

• Windows 7 (32bit, 64bit)

• Windows Server 2008 R2 (64bit)

Page 26: Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH MatchMaker Version 5.2 Stand Oktober 2012

Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 26 / 26

exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de

Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01

Linux OS, empfohlene Distribution: • Debian >= 5.0, stable

• Red Hat Enterprise Linux (RHEL) als Version Entry Server (ES) oder

darauf basierenden Distributionen wie Cent OS

• Red Hat Enterprise Linux (RHEL) als Version Advanced Server (AS)

• Suse Linux Enterprise Server (SLES)

• OpenSuSE 11.0, x86_64, 32bit-compatible

Sun OS : • OpenSolaris (SunOS 5.11) x86

• Solaris 10 (SunOS 5.10) sparc

• Solaris 9 (SunOS 5.9) sparc

Lizenzierung

MatchMaker unterstützt mehrere Arten der Lizenzierung: Geschwindigkeit,

Anzahl der Anfragen und Größe der Daten spielen dabei eine Rolle. Die

Lizenz kann an eine Hardware, an einen Dongle oder an einen zentralen

Lizenzserver gebunden werden. Über eine spezielle OEM-Partner-Lizenz

können exorbyte-Partner selbst Endkunden-Lizenzen signieren, die nur die

Verarbeitung speziell aufbereiteter Daten erlaubt. Dem Endkunden ist es

nicht möglich, die Konfiguration zu ändern. Dadurch eignet sich

MatchMaker optimal für eine OEM-Integration.

In einer Lizenz werden folgende Werte festgeschrieben: • Die Anzahl der Datensätze im MatchMaker Index • Die Anzahl der Concurrent User • Die Gültigkeitsdauer der Lizenz • Leistungsparameter wie genutzte Prozessor-Geschwindigkeit (MHz)

oder Anzahl Queries pro Sekunde • Ggf. spezielle Such-Algorithmen Die Lizenz wird zusammen mit einem Hardware-Schlüssel (USB-Dongle) geliefert. Alternativ kann die Lizenz rechnerspezifisch ausgestellt werden. Bei der Konfiguration von verteilten Systemen kann die Lizenz auf einem Lizenz-Server installiert werden, so dass mehrere MatchMaker-Server auf eine zentrale Lizenz zugreifen können.