collaborative filtering.. für automatische empfehlungen
DESCRIPTION
Collaborative Filtering (kurz CF) beschreibt die Technologie um aus Präferenzen Vieler auf das Interesse des Einzelnen zu schließen. Dazu werden die gesammelten Informationen korreliert um Ähnlichkeiten zwischen Benutzern (\"User Based CF\") oder Items (\"Item Based CF\") zu ermitteln. Aus diesen Ähnlichkeiten werden Vorhersagen zur potentiellen \"Likeliness\" getroffen. Das ist die Bewertung, die ein Benutzer dem Item vermutlich geben würde.TRANSCRIPT
1
2
3Definition
● Collaborative Filtering schneidet Informationen automatisch auf den Betrachter zu
● Zeit der Informationsbeschaffung wächst im Alltag durch Menge verfügbarer Informationen
● Aussagen basieren auf Wissen über Ähnlichkeit zwischen Benutzern oder zwischen Items
● Genutzt zur Minimierung ungewollter oder zur Empfehlung neuer Items
4Informationsfilter
5Aggregation
6Funktionsweise
7Aggregation
● Aggregieren Daten sammeln≈
● Explizit durch Abgabe einer Bewertung
– zum Beispiel durch Sterneleiste– Mehraufwand für Anwender
● Implizit durch Kauf oder Weblog
– Komfortabel für Benutzer– Vertrauen in System? Transparenz?
AggregationKorrelationEmpfehlung
8Korrelation
● Korrelation ≈ Beziehung zwischen Präferenzen● Amazon Paradigma: „Ähnliche Produkte“
AggregationKorrelationEmpfehlung
9Korrelation
AggregationKorrelationEmpfehlung
10Korrelation
AggregationKorrelationEmpfehlung
11Korrelation
AggregationKorrelationEmpfehlung
12Empfehlungen
AggregationKorrelationEmpfehlung
13Empfehlungen
AggregationKorrelationEmpfehlung
14Empfehlungen
AggregationKorrelationEmpfehlung
15Modellierung
● Grundsätzliche Unterscheidung:● Memory Based: Alle Bewertungen live● Model Based: Verschiedene Abstraktionen
● Clusterverfahren● Singulärwertzerlegung (SVD)
● Vergleich verschiedener Ansätze durch Prognosefehler
16Model Based CF
● Clusterverfahren● KMeans = „partitionierendes Verfahren“
1) Clusterzentren werden zufällig platziert2) Bei jeder Iteration werden sie verschoben
17Model Based CF
● Singulärwertzerlegung
1) Zerlegung in 3 spezielle Matrizen
2) Ränge eliminieren
„S“ Matrix als Gewichtung absteigend sortiert
18Model Based CF
● Singulärwertzerlegung
19
20Normierung
● Mehrzahl der Bewertungen orientieren sich am Durchschnitt
● Normierung = Näherung an Durchschnittswerte
– Benutzerdurchschnitt (+6.6% Optimierung)– Itemdurchschnitt (+6.8 % Optimierung)– usw...
21Nachbarschaft
● weniger Nachbarn = weniger Verschwimmen● Auswahl nach Mindestähnlichkeit oder Grenze
Quelle: HERL02, 235
22Nachbarschaft
● Bestes Resultat: Sortierte Liste mit Limit=60
23Varianz
Item Varianz (0.4%)● hohe Kontroverse =
hohe Aussage
Benutzer Varianz (+0.7%)● hohe Varianz einer
Bewertung = ...
a) hohe Aussage?
b) Manipulation?
24Cross Domain
● Korrelation einer Domain (z.B. „News“) nutzen, um in anderer Domain (z.B. „Sport“) Empfehlungen zu geben
● Zentrale Plattform im Hintergrund● Domains besitzen getrennte Items● Überschneidungen nur bei Benutzern● Konfiguration je Domain möglich (z.B. Zeitlimit)
25Cross Domain
26Schlussbetrachtung
● plista!
BASIS
Test am MovieLens Datensatz [ML]
Normierung auf Schnittmenge
Limit auf 60 Nachbarn Vektoren
Distanz
Normierung an Skala
Nischenproduktezur Usersim
Anzahl gemeinsamerBewertungen als Faktor
● Normierung auf Schnittmenge● Limit auf 60 Nachbarn● Anzahl gemeinsamer Bewertungen als Auswahl
27Quellen
● [HERL02] Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, John Riedl, 1999, http://portal.acm.org/citation.cfm?id=312624.312682
● [ML] MovieLensProjekt, Universität Minnesota (USA), Datensatz mit 1 Mio Bewertungen, http://www.movielens.org (Stand 12.09.2008)
● [BELL2] Robert M. Bell and Yehuda Koren, 2007, http://www.cs.uic. edu/liub/KDDcup2007/proceedings/NeighborKoren.pdf
● [RESNICK] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl An Open Architecture for Collaborative Filtering of Netnews, 1994
● [BREESE] John S. Breese, David Heckerman, Carl Kadie, 1998, http://research.microsoft.com/research/pubs/view.aspx?tr_id=166 (Stand: 29.09.2008)