web-suchmaschinen: suchverhalten, informationsqualität, trends
DESCRIPTION
TRANSCRIPT
![Page 1: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/1.jpg)
Web-Suchmaschinen:Suchverhalten, Informationsqualität, TrendsProf. Dr. Dirk [email protected]
![Page 2: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/2.jpg)
1 |
Nutzerverhalten
Wie gut sind die gängigen Suchmaschinen?
Suche und Web 2.0
Fazit
Agenda
![Page 3: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/3.jpg)
2 |
Nutzerverhalten
Wie gut sind die gängigen Suchmaschinen?
Suche und Web 2.0
Fazit
Agenda
![Page 4: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/4.jpg)
3 |
Bedeutung der Suchmaschinen
• Suchmaschinen sind der Zugang zu Informationen im Netz.– Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung.– Suchmaschinen bestimmen über die sichtbaren Inhalte des Web.– Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
Informationssysteme).
![Page 5: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/5.jpg)
4 |
Drei Anfragetypen
Anfragetypen nach Broder (2002)
• Informational (informationsorientiert)– Nutzer möchte sich zu einem Thema informieren.– Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert)– Ziel ist es, eine bestimmte Seite (wieder) zu finden.– Typisch: Suche nach Homepage („Daimler Chrysler“).– Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert)– Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll.– Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
![Page 6: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/6.jpg)
5 |
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihresSuchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
• Boolesche Operatoren– Bei weniger als 10% der Anfragen; keine Veränderung im Lauf der Jahre
(Spink&Jansen 2004).– Nur etwa die Hälfte der Nutzer weiß, dass es Operatoren gibt (Machill et al.
2003).– 20% der Nutzer geben an, sie öfter zu verwenden (Machill et al. 2003).– Etwa die Hälfte der Anfragen mit Operatoren enthält Fehler (Spink et al. 2000),
bei der Verwendung von Plus-/Minuszeichen lag die Fehlerquote bei 2/3.
• Profisuche– 59% der Nutzer kennen die Profisuche (Machill et al. 2003).– Nur 14% nutzen sie öfter (Machill et al. 2003).
(Machill et al. 2003)
![Page 7: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/7.jpg)
6 |
Grunddaten zum Nutzerverhalten (2)
• Auswertung der Treffer– 80% der Nutzer betrachten nur die erste Ergebnisseite (= 10 Treffer)
(Spink&Jansen 2004).– Vor allem die Treffer auf den ersten Listenplätzen werden angesehen; möglichst
kein Scrollen– Pro Session werden nur etwa fünf Dokumente gesichtet (Spink&Jansen 2004).– Sessions dauern weniger als 15 Minuten.
• Kaum Veränderungen im Lauf der Zeit
![Page 8: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/8.jpg)
7 |
Google groß
![Page 9: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/9.jpg)
Google klein
![Page 10: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/10.jpg)
9 |
![Page 11: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/11.jpg)
10 |
Selektionsverhalten (Top11 Treffer)
(Granka et al. 2004)
![Page 12: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/12.jpg)
11 |
Eye-tracking
(Enquiro Eye Tracking Report II)
![Page 13: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/13.jpg)
12 |
Nutzerverhalten
Wie gut sind die gängigen Suchmaschinen?
Suche und Web 2.0
Fazit
Agenda
![Page 14: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/14.jpg)
13 |
Die Qualität von Suchmaschinen kann nur durch eineKombination unterschiedlicher Faktoren gemessen werden.Qualitätsfaktoren für Suchmaschinen
• Qualität des Index– Größe des Datenbestands, Abdeckung des Web– Abdeckung bestimmter Bereiche (Sprachräume, Länder)– Überschneidungen der Indices– Aktualität des Datenbestands
• Qualität der Suchresultate– Retrievaleffektivität– Zufriedenheit der Nutzer– Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)
![Page 15: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/15.jpg)
14 |
Web-Abdeckung
Keine Suchmaschine deckt das gesamte Web ab!– Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen.– Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
Milliarden Dokumente indexiert.– Wenig erforschter Bereich: Invisible Web.
Definitionen Invisible/Deep Web– “Text pages, files, or other often high-quality authoritative information available
via the World Wide Web that general-purpose search engines cannot, due totechnical limitations, or will not, due to deliberate choice, add to their indices ofWeb pages" (Sherman u. Price 2001).
– “The deep Web - those pages do not exist until they are created dynamically asthe result of a specific search“ (Bergman 2001).
![Page 16: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/16.jpg)
15 |
Country Bias
![Page 17: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/17.jpg)
16 |
Überschneidung der Datenbestände
• Überschneidung der Indices– Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen.
• Überschneidung der Suchergebnisse– Sehr gering innerhalb der Top10, 20.
![Page 18: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/18.jpg)
17 |
Überschneidung der Trefferlisten (Top10)
![Page 19: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/19.jpg)
18 |
Aktualität der Datenbestände
• Wichtig wegen– Auffinden und Erfassen neuer Dokumente.– Aktualisierung veränderter Dokumente; korrekte Repräsentation der URLs.
• Untersuchung 2005-2007– Beobachtungszeitraum jeweils sechs Wochen.– 40 täglich aktualisierte Seiten (+ 30 unregelmäßig aktualisierte).
![Page 20: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/20.jpg)
19 |
Auch aktuelle Seiten werden nicht zuverlässig regelmäßigindexiert.
![Page 21: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/21.jpg)
20 |
Aktualität der Datenbestände
![Page 22: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/22.jpg)
21 |
Aktualität der Datenbestände
Quelle: Lewandowski et al. 2006
![Page 23: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/23.jpg)
22 |
Retrievaleffektivität: Navigationsorientierte Anfragen
![Page 24: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/24.jpg)
23 |
Retrievaleffektivität: Informationsorientierte Anfragen
Klassische Tests
• Welche Suchmaschine liefert die besten Treffer?
• Test anhand von– einer bestimmten Anzahl von Suchanfragen (50).– einer bestimmten Anzahl von Treffern pro Suchmaschine (20).– Bewertungen durch Juroren (wichtige Frage: wer bewertet?).– Ja/Nein-Entscheidungen über Relevanz, verschiedenen Skalen.
![Page 25: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/25.jpg)
24 |
Precision ist das am häufigsten verwendete Retrievalmaß.
Klassische Retrievalmaße
• Precision– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der
ausgegebenen Treffer.– Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20).
• Recall– Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt
vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente).– Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden).
• Fallout– Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht
relevanten Treffer im Datenbestand.• Generality
– Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.
![Page 26: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/26.jpg)
25 |
Precision@10 zwischen 0,43 und 0,60.
![Page 27: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/27.jpg)
26 |
Skalenbewertung zeigt die Gruppierung der Suchmaschinennoch deutlicher.
![Page 28: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/28.jpg)
27 |
Keine klare Reihung der Suchmaschinen, wenn einzelneAnfragen betrachtet werden.
![Page 29: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/29.jpg)
28 |
Offene Frage: Wie können Retrievalmaße dem spezifischenVerhalten der Suchmaschinen-Nutzer angepasst werden?Problembereiche
• Such-Sessions– Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich)
werden angesehen.– In der Regel werden maximal fünf Dokumente angesehen.– Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern
angepasst werden?
• Zusammensetzung der Trefferlisten– Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.Wie kann in der Evaluierung auf Facetten eingegangen werden?
• Interaktion– Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess
anzusehen.Wie können die Maße an den tatsächlichen Suchprozess angepasst werden?
![Page 30: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/30.jpg)
29 |
Nutzerverhalten
Wie gut sind die gängigen Suchmaschinen?
Suche und Web 2.0
Fazit
Agenda
![Page 31: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/31.jpg)
30 |
„Such-Ansätze“ des Web 2.0
• Social Bookmarking– Nutzer speichern Lesezeichen online und machen diese öffentlich zugänglich.– Lesezeichen werden mit tags verschlagwortet.– Beispiele: Mr. Wong; del.icio.us
• Frage-Antwort-Dienste– Nutzer stellen Fragen, Community antwortet.– Fragen und Antworten werden mit tags verschlagwortet.– Beispiele: Yahoo Clever, Lycos IQ
![Page 32: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/32.jpg)
31 |
Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste
(Gammer et al. 2008)
Suchmaschinen
F&A-Diente
Social Bookmarking
![Page 33: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/33.jpg)
32 |
Fazit Web 2.0 Dienste für die Suche
• Web 2.0 Dienste bieten bisher keine den Suchmaschinen vergleichbareTrefferqualität.
• Bislang kaum Ausnutzung der klassischen IR-Verfahren in diesenAnwendungen.
• Mashup der Ergebnisse aus allen Quellen könnte zu Qualitätssteigerungführen.
![Page 34: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/34.jpg)
33 |
Nutzerverhalten
Wie gut sind die gängigen Suchmaschinen?
Suche und Web 2.0
Fazit
Agenda
![Page 35: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/35.jpg)
34 |
Fazit
• Suchmaschinen prägen das Nutzerverhalten auch für andereInformationssysteme.
– „Google kann das doch auch!“
• Qualität der Suchmaschinen ist nur durch eine Kombination verschiedenerFaktoren messbar.
– Empirische Untersuchungen zeigen deutliche Unterschiede.– Beliebtheit von Google lässt sich nicht allein durch die Qualität erklären.
• Web 2.0 Dienste verbessern die Suche bislang nicht.– Potential ist aber durchaus vorhanden.
![Page 36: Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends](https://reader033.vdocuments.pub/reader033/viewer/2022061223/54c44b224a7959e6408b45b5/html5/thumbnails/36.jpg)
Vielen Dank für IhreAufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Alle in der Präsentation genanntenArtikel zum Download.
Bücher:Handbuch Internet-Suchmaschinen(erscheint im Oktober)
Web-2.0-Dienste als Ergänzung zualgorithmischen Suchmaschinen
E-Mail:[email protected]