information retrieval
Post on 04-Jan-2016
37 Views
Preview:
DESCRIPTION
TRANSCRIPT
Information Retrieval
IR-Grundlagen von Suchmaschinen im Überblick
Björn Gustavs
Information Retrieval - Seminar Web Suchmaschinen 2
Was ist IR?
„Information Storage and Retrieval”Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können.
Für Suchmaschinen „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben
Information Retrieval - Seminar Web Suchmaschinen 3
Motivation Einblick: Web Traversierung IR-Probleme
Methoden der Index-Erstellung Methoden des IR auf dem Index
Zusammenfassung
Inhalt / Ausblick
Information Retrieval - Seminar Web Suchmaschinen 4
Informationsgehalt im Internet: Mai 2003 Anzahl der Seiten > 6 Milliarden verdoppelt sich alle 4-8 Monate rund 40% des Internets verändert sich
monatlich um dieses Potential zu nutzen gewünschte
Inhalte effizient & gezielt finden Textinformation rechnergestützt auswerten
Motivation
Information Retrieval - Seminar Web Suchmaschinen 5
Dokumentensuche im Web
1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider,
knownbot) traversieren das Web pro Anfrage Nutzer gibt Suchbegriff an Roboter durchsucht systematisch das Web nach
Dokumenten Relevanzberechnung Rückgabe einer rang-sortieren Liste
Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich
Information Retrieval - Seminar Web Suchmaschinen 6
2. vorbereiteter Index wird durchsucht Index ist ein durchsuchbares Archiv mit
Referenzen zu Dokumenten im Web Suche wird auf dem Index ausgeführt
Dokumentensuche im Web
Information Retrieval - Seminar Web Suchmaschinen 7
Der Index (1)
Index ist eine Dokumentenrepräsentation Dokumente durch Inhaltsbeschreibung und
enthaltenen Termen repräsentiert Terme dienen zu Ermittlung der Relevanz bei
Suchanfragen Terme können automatisch oder von
Spezialisten erzeugt werden
Information Retrieval - Seminar Web Suchmaschinen 8
Index-Erzeugung (1)
Seiten sammelnAnalysieren,AufbereitenIndex Programme (Robots, Crawler) suchen „alle“
Webseiten Ausgehend von einer Anfangsadresse werden alle URLs in
Tiefen- oder Breitensuche verfolgt. von Menge von Anfangsadressen aus- abhängig von der
Popularität der jeweiligen Seite Partitionierung des WWW- ausgehend von Internetnamen
oder Landesgrenzen - wird das WWW rekursiv durchsucht. Auslesen von Metaangaben (manuell erstellte
Beschreibungen) Textanalyse
Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit
Information Retrieval - Seminar Web Suchmaschinen 9
Index-Erzeugung (3)-Qualität
Effektivität eines Indexing Systems wird bestimmt über: Indexing exhaustivity: Erfassungsgrad der
Dokumententhemen in den Index- exhaustive: alle Aspekte der Themen erfassen- nonexhaustive: weniger, aber die Kernthemen
Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden allgemeine/umfassende Terme viele nützliche & viele
unnütze Resultate genaue Terme weniger Resultate, evtl. auch verpasste
gute Ergebnisse
Information Retrieval - Seminar Web Suchmaschinen 10
IR Qualität (1)
Genannte Parameter haben Auswirkung auf das Indexierungssystem:
Resultierende Retrieval Effiziens über 2 Parameter beschrieben: Recall (Vollständigkeit)
Precision (Trefferquote)
Information Retrieval - Seminar Web Suchmaschinen 11
IR Qualität (2) - Recall
Recall (Vollständigkeit)Wieviele der relevanten Dokumente werden erfasst?
Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente
Information Retrieval - Seminar Web Suchmaschinen 12
IR Qualität (3) - Precision
Precision:wieviele relevante Dokumente werden erfasst
Verhältnis der - Anzahl erfasster, relevanter Dokumentezur- Anzahl erfasster Dokumente
Information Retrieval - Seminar Web Suchmaschinen 13
IR Qualität (2)
Optimal: hohe Recall & Precision Aber gehen jeweils auf Kosten des anderen Effektivität wird gemessen anhand verschiedenen
Precision, bei festen Recall-Werten Kompromiss:
Recall
Speed
Precision
Information Retrieval - Seminar Web Suchmaschinen 14
Der Index (4)
Suchmaschinen nutzen „inverted index“ besteht aus
durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält # Vorkommen Verweis auf „ inverted list“ des Wortes
„ inverted list“ für jedes Wort im Index, enthält Verweise auf Dokumente Häufigkeit des Wortes im Dokument weitere Optimierungen, z.B. Position/Offset des Wortes im
Dokument
Information Retrieval - Seminar Web Suchmaschinen 15
„Inverted Index“, Beispiel
Lexikon inverted index list
Information Retrieval - Seminar Web Suchmaschinen 16
„Index Builder“
„Index Builder“Sortierung, 1. nach Term, dann nach DocID,…
Information Retrieval - Seminar Web Suchmaschinen 17
Indexierungsmethoden
Automatische Indexierungsmethoden: Single Term Indexierung
Statistische Methoden Informationstheoretische Methoden Probabilistische Methoden
Mutli-Term / Phrasen – Indexierung Statistische Methoden Probabilistische Methoden Linguistische Methoden
Information Retrieval - Seminar Web Suchmaschinen 18
Single Term Indexing (1)
Welche Wörter eines Dokumentes in den Index?
1. alle Worte herauslösen
2. unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…)
3. evtl. Rückführung auf Wortstamm
4. Häufigkeit im Dokument ermitteln
Information Retrieval - Seminar Web Suchmaschinen 19
Single Term Indexing (2)
pro Dokument wird analysiert Menge der auftretenden Wörter deren Häufigkeiten
Ziel: hohes Recall Vorgehensweisen, Wörter zu gewichten:
Statistisch informations-theoretisch probabilistische
Information Retrieval - Seminar Web Suchmaschinen 20
Single Term Indexing(3)-statistisch
Statistische Methode
z.B. basiert rein auf Termhäufigkeit
wij = tfij * log(N / dfj)
tfij – Term Frequency, des Terms j im Dokument i
dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten
Information Retrieval - Seminar Web Suchmaschinen 21
Single Term Indexing (4)-inf.th.
Informationstheoretische Methode
basiert auf Aussage:„Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“
Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme
Information Retrieval - Seminar Web Suchmaschinen 22
Single Term Indexing(5)-probal.
Probabilistische Methode basiert auf Relevanz-Wahrscheinlichkeit erfordert „Training“ für
Berechnungsgrundlage Benutzer bewerten Relevanz von Suchresultaten aus Trainingsergebnissen wird Termgewichtung
basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet
Information Retrieval - Seminar Web Suchmaschinen 23
Multi-Term/Phrase Indexing (1)
„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang
Term trägt spezifischere Bedeutung soll Precision erhöhen Methoden zur Erzeugung von Phrasen für
Index: statistisch probabilistisch sprachtheoretisch
Information Retrieval - Seminar Web Suchmaschinen 24
Multi Term Indexing (2) -statistisch
Statistische Methode
„Phrase“ besteht aus Kopf und Zusätzen Hier muss der Kopf in weiteren Dokumenten
auftretenund weiteren Komponenten im gleichen Satz
wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert
(dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig
Information Retrieval - Seminar Web Suchmaschinen 25
Multi Term Indexing (3) –lingust.
Linguistische Methode
Einsatz von sprachlicher Analyse für Term- Zusammenhängen(Adjektive, Substantive, Verben)
verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge
Einbringen semantischer Faktoren in die Gruppierung
Information Retrieval - Seminar Web Suchmaschinen 26
Multi Term Indexing (4) -probabil.
Probabilistische Methode
erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme
man müsste exponentielle Anzahl von Term-Kombinationen betrachten
daher kaum Anwendung
Information Retrieval - Seminar Web Suchmaschinen 27
Information Retrieval
Rückblick auf Indexerzeugung Auffinden von Dokumenten im Netz Analyse des Inhaltes
Metainformationen Textinformationen (Inhalt) auswerten Kurzbeschreibung erstellen (Terme)
Single- vs. Multi-term Indexing
jetzt: RetrievalSuchmechanismen auf dem Index
Information Retrieval - Seminar Web Suchmaschinen 28
Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten
bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback
4 Verfahren: Boolesche Verfahren Statistische Verfahren
Vektorraum Verfahren Probabilistisches Verfahren
Hybrid Verfahren
Information Retrieval Modelle
Information Retrieval - Seminar Web Suchmaschinen 29
basiert auf Mengenlehre und boolescher Algebrabekannteste Verfahren, oft von IR Systemen genutzt
Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren
Term aus Query im Dokument enthalten? Dokument ist Treffer, wenn boolesche
Auswertung der Query wahr ist
Boolesches Modell (1)
Information Retrieval - Seminar Web Suchmaschinen 30
Boolesches Modell (2)-Beispiel
DocID Term „A“ Term „B“ Term „C“ Term „D“
1 ٧ ٧
2 ٧ ٧
3 ٧ ٧
4 ٧
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
Information Retrieval - Seminar Web Suchmaschinen 31
Boolesches Verfahren (3)
Vorteile: leicht implementierbar effizient in Anwendung (Computer & DB)
Nachteile: nicht triviale Queries schwierig zu formulieren „Ganz oder gar nicht“
keine Gewichtung keine Reihenfolge
Information Retrieval - Seminar Web Suchmaschinen 32
Boolesches Verfahren,erweitert (3)
„Smart Boolean“ Anwender gibt sprachliche Frage ein, wird dann
automatisch in ein boolesches Konstrukt umgewandelt
Techniken, um Abfragen einzuschränken & zu erweitern
Information Retrieval - Seminar Web Suchmaschinen 33
Boolesches Verfahren,erweitert (4)
Fuzzy-Mengen Modell Ziel: Boolesche Strenge aufweichen & Ranking Fuzzytheorie
auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist
Ergebnisstufen zwischen 0 und 1 Aufweichung des GoG
Stufe beschreibt, wie stark Term dem Query entspricht
Information Retrieval - Seminar Web Suchmaschinen 34
Vektorraumverfahren (1)
Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet
Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst
Dimensionen sind die Terme des Dokumentenindexes
Vektoren enthalten Gewichte aller Terme Terme in Query können gewichtet werden
Information Retrieval - Seminar Web Suchmaschinen 35
Vektorraumverfahren (2)
Dokument 1
QueryDokument 2
Term2
Dokument 3
Term3
Term1
Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert.Nähe zum Query-Vektor bestimmt Suchresultat &-Reihenfolge.
Information Retrieval - Seminar Web Suchmaschinen 36
Vektorraumverfahren (3)
im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse
Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren Vergleich z.B. cosinus-basiert
Information Retrieval - Seminar Web Suchmaschinen 37
Vektorraumverfahren (4)
Vorteile: Relevanzabstufungen möglich (durch
Termgewichtungen) Sortierung nach Ähnlichkeitsgrad möglich Rang
Nachteile: es wird vorausgesetzt, dass Therme
wechselseitig unabhängig sind
Information Retrieval - Seminar Web Suchmaschinen 38
Hybrid-Modell (extended boolean)
Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung
Idee: Nutzer kann boolesche Anfrage stellen zusätzlicher Parameter steuert die Interpretation; wie
strikt AND,OR ausgewertet werden von 2 bis unendlich 2 keine Unterscheidung zwischen AND,OR unendlich binäres „Ranking“ (Treffer, nicht Treffer) beste Werte, empirische Untersuchungen: 2 <= p <= 5
Information Retrieval - Seminar Web Suchmaschinen 39
Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist
Training erforderlich Berechnung stützt sich auf Parameter:
Wahrscheinlichkeit der Relevanz UND Irrelevanz eines Dokumentes auf die Query Kostenparameter. Verlust bei
Auffinden eines irrelevanten Dokumentes Nichtauffinden eines relevanten Dokumentes
Probabilistisches Verfahren (1)
Information Retrieval - Seminar Web Suchmaschinen 40
Probabilistisches Verfahren (2)
Vorteile: Gefundene Dokumente werden nach
Wahrscheinlichkeit ihrer Relevanz sortiert
Nachteil: ist so gut, wie die Wahrscheinlichkeitsberechnung
eingepegelt ist (Training) Häufigkeit eines Terms im Dokument ist irrelevant
Information Retrieval - Seminar Web Suchmaschinen 41
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet.
Information Retrieval - Seminar Web Suchmaschinen 42
Relevanz der Ergebnisse
alle relevanten Dokumente gefunden? Ranking hilfreich?
Relevanz-Feedback vom Anwender gewünscht
Anwender bewertet Dokument des Suchergebnisses 2-Level: brauchbar – nicht brauchbar Multi-Level: Zwischenstufen & im Bezug zu
anderen Dokumenten (weniger relevant als…)
Information Retrieval - Seminar Web Suchmaschinen 43
Relevanz-Feedback-Nutzung
1. Query anpassen
Gewichtungen der Query verändern (Termgewichte des Queryvektors)
Query Erweiterung (Hinzufügen von Termen) Query Splitting
Information Retrieval - Seminar Web Suchmaschinen 44
Relevanz-Feedback-Nutzung (2)
2. Index verändern Index manipulieren (Gewichtungen im Index)
Information Retrieval - Seminar Web Suchmaschinen 45
Relevanz-Feedback (4)
kein Suchdienst bietet heute Relevanz-Feedback Techniken!
Gefahren?
Information Retrieval - Seminar Web Suchmaschinen 46
Zusammenfassung
Rückblick: versch. Methoden zur Bestimmung der Relevanz
von Query zu indexierten Dokumenten damit verbunden, Ranking-Verfahren Hilfe vom Benutzer wünschenswert
Information Retrieval - Seminar Web Suchmaschinen 47
IR und das WWW
IR viele Einsatzfelder Besonderheiten im Web:
riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend)
oft nicht-statische Seiten (generierte Seiten, DB) Dynamik (verdoppelt sich alle 4-8 Monate)
tote Links Sprachenvielfalt Duplikate hohe Verlinkung (~8Links/Seite) Indexierungsaufwand Benutzerverhalten kennen (Geschwindigkeit,
Ergebnisseiten)
Information Retrieval - Seminar Web Suchmaschinen 48
Noch Fragen ?
Information Retrieval - Seminar Web Suchmaschinen 49
Literaturangaben
Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68
Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June 2000. pp 144-173.
IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF „Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000
top related