geschichte der suchmaschinen und heutige vernetzungsstrukturen · 2018-03-04 · thomas sliwa...
Post on 12-Aug-2020
2 Views
Preview:
TRANSCRIPT
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Geschichte der Suchmaschinen undheutige Vernetzungsstrukturen
Seminar Web Suchmaschinen - WS0304
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
I. Was gab es vor den WWW SuchmaschinenII. Die Geschichte der WWW SuchmaschinenIII. Zusammenfassung und Fragen der Hörer
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
I. Was gab es vor den WWW Suchmaschinen
• Internettimeline (bis 1990)• Archie (1990)• Gopher (1991)• Veronica (1992)• Das WWW kommt (ab 1991)
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Internettimeline (bis 1990)
• ARPANET startet mit 4 Knoten (Hosts, 1969)• NCP – erstes host-to-host protocol (1970)• 23 Hosts (1971)• RFC‘s für telnet und email (1972)• RFC für ftp (1973)• RFC für TCP (1974)• TCP wird geteilt in TCP/IP (1978)• Domain Name System (DNS, 1984); hosts > 1,000• Internet Engineering Task Force (1986)• hosts > 10,000 (1987)• IRC (1988)• hosts > 100,000 (1989); hosts > 1,000,000 (1992)
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Archie
• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan• McGill University, Montreal• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server• Dazu Programm, dass nach FTP-Servern sucht• 3 Möglichkeiten, um Programme zu bekommen• Dienst, um Programme über FTP zu bekommen
• Index jedoch größtenteils manuell gepflegt
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Gopher
• 1991 von McCahill, University of Minnesota• Protokoll zum Bereitstellen von Textdokumenten• Menüstruktur• Später Dateien direkt zu finden (Archiefunktionalität)• Index manuell gepflegt
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Veronica
• 1992, University of Nevada• Wie Archie aber für Gopherserver• Über Veronica konnte man den „Gopherspace“absuchen
• Bedienung wie bei Gopher
•Index jedoch größtenteils manuell gepflegt
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Das WWW entsteht
• 1991, Tim Berners-Lee, CERN• http Protokoll und html Format• Dokument können mit multimedialen Inhalten,miteinander Verknüpft für alle bereitgestellt werden
• 1993 Mosaic der erste grafische Browser für dasWWW
• Riesen Vorteil: Informationen können für allebereitgestellt werden
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
II. Die Geschichte der WWW Suchmaschinen
• Systeme um Informationen anzubieten• Websuchmaschinen• Metasuchmaschinen• Wer mit wem und wo kommt die Antwort einerSuchanfrage heute her
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Wie erfasst man das World Wide Web?
• Generell zwei Techniken:
• Robots/Spiders:• Programm das automatisch Daten im Netz aufspürt• Waren am Anfang des WWW „verpönt“
• Directory• Die Einträge im Index werden manuell eingetragen
• Heute meist Kombination von beiden
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
World Wide Web Wanderer
• 1993, Matthew Gray, MIT• erster WWW-Robot • erst nur Erfassung von Servern, dann auch URLs• Entstandener Index durchsuchbar
• Diskussion kam auf: Sind Robots gut oder schlecht?
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Aliweb
• 1993, Martijn Koster• „Archie fürs WWW“• Manuell aufgebaut• Webmaster schicken besondere DateiNachteil:• Indexdatei war schwer aufzubauen• Nicht viele EinträgeVorteil:• Beschreibungen zu den Einträgen
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Jump Station• Neben URL auch Titel und Header indiziert• Index linear durchsucht
World Wide Web Worm• URL und Titel indiziert• Index linear durchsucht
Repository-Based Software Engineering (RBSE)• Suche mit „ranking system“ des Suchstrings
Die nächsten Robots
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Excite (Architext)
• Anfang 1993 in Stanford begonnen• Idee: Durch Statische Analyse von Ausdrückenbessere Suchergebnisse
• Ab 1995 für Webmaster verfügbar• Suche auf eigenen Seiten
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Yahoo!
• 1994, Filo und Yang, Stanford• Aus „Meine Links“-Seiten entstanden• sehr beliebt• durchsuchbares Verzeichnis entsteht• später: robots unterstützen Verzeichnisaufbau
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
WebCrawler
• 1994, Pinkerton, University of Washington• Dokumente werden komplett indiziert• so beliebt, dass Bandbreitenprobleme an Uni
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Lycos
• 1994, Mauldin, Carnegie Mellon University• schnellster wachsender Index dieser Jahre• Suche unterstützte „prefix matching“ und „word proximity“
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
AltaVista
• 1995, DEC• sehr schnell• viele Neuerungen, darunter• „natural language queries“• bool‘sche Operatoren• andere Medien (Bilder, Newsgroups, Java Applets)• Tipps für Benutzer auf der Suchseite
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
GoTo (Overture)
• 1997, Gross• auf das reine Indizieren fokussiert• einfache Suche im Index• seit 1998 Verkauf von Platzierungen im Index• Seitdem Fokus darauf
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Open Directory
• 1998• offener Katalog• komplett manuell gepflegt von Freiwilligen
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
• 1998, Page und Brin, Stanford• PageRank als neue Technik• Leistungsfähige Textsuche• Leistungsfähige Indizierung des WWW
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
MetaCrawler
• 1995, Selburg, University of Washington• Interface, um mehrere Suchmaschinen abzufragenProbleme:• nicht alle Suchmaschinen einverstanden• Formatierung der SuchanfragenVorteil:• Man durchsucht mehrere Indexe
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Und Heute?
• Extreme Verflechtungen untereinander• Nur noch wenige „große“ Seiten• „Ergebniskauf“ vs. Eigene Indexergebnisse • „Portale“ vs. reine Suchseiten
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Rechneraufwand am Beispiel AltaVista
• 1 GB Text / pro Stunde• 40 GB Gesamtindex• 3 Mio. Seiten / Tag gescannt• 16 Maschinen für Index und Suche im Index• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Zusammenfassung
• Es gab Suchmaschinen vor dem WWW• Fast alle Suchmaschinen an Unis entwickelt• daraus Firmen entstanden• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Benutzte Quellen
• A History of Search Engineshttp://www.wiley.com/legacy/compbooks/sonnenreich/history.html
• Hobbes' Internet Timeline - the definitive ARPAnet & Internet historyhttp://www.zakon.org/robert/internet/timeline/
• NetHistory: Searchhttp://nethistory.urldir.com/search.php
• History of Search Engines and Directorieshttp://www.seoconsultants.com/search-engines/history.asp
• Die Suchfibelhttp://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm
• History of Search Engines - Evolution & Revolutionhttp://webhome.idirect.com/~glenjenn/search/history1.htm
• A Brief History of the Internethttp://www.walthowe.com/navnet/history.html
• EFF's (Extended) Guide to the Internethttp://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204
Thomas Sliwa Institut für Informatik – Freie Universität Berlin
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Noch Fragen ?
top related