Download - Evaluierung von Web-Suchmaschinen
Evaluierung von Web-Suchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information [email protected]
1 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
2 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
3 | Dirk Lewandowski
Suchmaschinenmarkt: Deutschland 2011
(Webhits, 2011)
4 | Dirk Lewandowski
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.
• Qualität des Index – Größe des Datenbestands, Abdeckung des Web – Abdeckung bestimmter Bereiche (Sprachräume, Länder) – Überschneidungen der Indices – Aktualität des Datenbestands
• Qualität der Suchresultate – Retrievaleffektivität – Zuverlässigkeit der Suchergebnisse – Zufriedenheit der Nutzer – Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung – Aufbau der Trefferseiten
(Lewandowski & Höchstötter 2007; ergänzt)
5 | Dirk Lewandowski
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden.
• Qualität des Index – Größe des Datenbestands, Abdeckung des Web – Abdeckung bestimmter Bereiche (Sprachräume, Länder) – Überschneidungen der Indices – Aktualität des Datenbestands
• Qualität der Suchresultate – Retrievaleffektivität – Zuverlässigkeit der Suchergebnisse – Zufriedenheit der Nutzer – Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung – Aufbau der Trefferseiten
(Lewandowski & Höchstötter 2007; ergänzt)
6 |
Kernkomponenten einer Suchmaschine
(Risvik & Michelsen 2002)
7 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
8 |
Was soll eigentlich gemessen werden?
• Relevanz der Ergebnisse • Durchschnittliche Bewertung der Suchergebnisse (Systemseite) • Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur
Beantwortung der Suchanfrage. • Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der
Treffer kann verschleiert werden.
• Zufriedenheit der Nutzer mit einem Suchprozess • Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) • Bewertung jeder einzelnen Suchsession. • Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.
• Wissenszuwachs • Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) • Bewertung des Wissenszuwachses nach einer Suchsession. • Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.
9 |
Entscheidungen beim Design klassischer Retrievaltests
1. Welche Suchmaschine(n)?
2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage?
5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage?
8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden?
10. Mit welchen Kennzahlen soll gemessen werden?
10 | Dirk Lewandowski
Recall-Precision-Graph (top20 results)
(Lewandowski 2008)
11 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
12 | Dirk Lewandowski
x
(Eyetracking-Studie HAW-Hamburg 2010)
13 | Dirk Lewandowski
x
14 | Dirk Lewandowski 14 |
Results selection (top11 results)
(Granka et al. 2004)
15 | Dirk Lewandowski
x
16 | Dirk Lewandowski
x
17 |
x
18 |
x
Anzeigen
Nachrichten
Bilder
Videos
Blogbeiträge
19 |
Eye-Tracking
• x
20 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
21 | Dirk Lewandowski
Probleme des Standarddesigns
• Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen
anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall
• Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur
Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) – ...
22 | Dirk Lewandowski
Probleme des Standarddesigns
• Problematische Grundannahmen – Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen
anzuklicken und zu prüfen) – Nutzer wünscht sowohl hohe Precision als auch hohen Recall
• Der Testaufbau berücksichtigt nicht – wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur
Befriedigung des Informationsbedürfnisses benötigt werden. – wie häufig die in dem Test verwendeten Suchanfragen gestellt werden – dass Relevanzbeurteilungen differenziert erfolgen – verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer – verschiedene Anfragetypen – den Einfluss der Trefferbeschreibungen – das typische Selektionsverhalten – die unterschiedliche Präsentation der Ergebnisse – die Bevorzugung bestimmter Suchmaschinen durch die Nutzer – die Durchmischung der Trefferlisten (bzw. Top-Resultate) – ...
23 | Dirk Lewandowski
Precision-Recall-Graph (binär)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48
Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52
MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37
Ask 0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44
Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Pre
cisi
on
Number of results
Yahoo
MSN
Ask
Seekport
24 | Dirk Lewandowski
Precision-Recall-Graph (Fünferskala)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
0,00
0,50
1,00
1,50
2,00
2,50
3,00
Du
rch
sch
nit
tlic
he P
reci
sio
n
Trefferplatz
Vergleich der Precision nach Listenplatz (Top20; Skala)
Yahoo
MSN
Ask
Seekport
25 |
Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
26 |
Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert) – Nutzer möchte sich zu einem Thema informieren. – Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert) – Ziel ist es, eine bestimmte Seite (wieder) zu finden. – Typisch: Suche nach Homepage („Daimler Chrysler“). – Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert) – Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll. – Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
27 | Dirk Lewandowski
Successful answered queries on results position n
(Lewandowski 2011)
28 | Dirk Lewandowski
• Results selection simple
29 | Dirk Lewandowski
• results selection with descriptions
30 | Dirk Lewandowski
Precision of descriptions vs. precision of results (Google)
Google: Treffer vs. Beschreibungen (ja/nein)
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Treffer
Beschreibungen
31 | Dirk Lewandowski
Recall-precision graph (top20 descriptions)
32 | Dirk Lewandowski
Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)
33 | Dirk Lewandowski
Standardaufbau von Retrievaltests (für Suchmaschinen)
Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten
Erweiterung der Methodik der Retrievaltests
Fazit
Agenda
Einleitung: Wozu evaluieren?
34 | Dirk Lewandowski
Fazit
• Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind.
• Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab.
• Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.
Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen!
Vielen Dank für Ihre Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelles Buch: Handbuch Internet-Suchmaschinen 2
E-Mail: [email protected]