geschichte der suchmaschinen und heutige vernetzungsstrukturen · 2018-03-04 · thomas sliwa...

Thomas Sliwa Institut für Informatik – Freie Universität Berlin

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Geschichte der Suchmaschinen undheutige Vernetzungsstrukturen

Seminar Web Suchmaschinen - WS0304

I. Was gab es vor den WWW SuchmaschinenII. Die Geschichte der WWW SuchmaschinenIII. Zusammenfassung und Fragen der Hörer

I. Was gab es vor den WWW Suchmaschinen

• Internettimeline (bis 1990)• Archie (1990)• Gopher (1991)• Veronica (1992)• Das WWW kommt (ab 1991)

Internettimeline (bis 1990)

• ARPANET startet mit 4 Knoten (Hosts, 1969)• NCP – erstes host-to-host protocol (1970)• 23 Hosts (1971)• RFC‘s für telnet und email (1972)• RFC für ftp (1973)• RFC für TCP (1974)• TCP wird geteilt in TCP/IP (1978)• Domain Name System (DNS, 1984); hosts > 1,000• Internet Engineering Task Force (1986)• hosts > 10,000 (1987)• IRC (1988)• hosts > 100,000 (1989); hosts > 1,000,000 (1992)

Archie

• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan• McGill University, Montreal• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server• Dazu Programm, dass nach FTP-Servern sucht• 3 Möglichkeiten, um Programme zu bekommen• Dienst, um Programme über FTP zu bekommen

• Index jedoch größtenteils manuell gepflegt

Gopher

• 1991 von McCahill, University of Minnesota• Protokoll zum Bereitstellen von Textdokumenten• Menüstruktur• Später Dateien direkt zu finden (Archiefunktionalität)• Index manuell gepflegt

Veronica

• 1992, University of Nevada• Wie Archie aber für Gopherserver• Über Veronica konnte man den „Gopherspace“absuchen

• Bedienung wie bei Gopher

•Index jedoch größtenteils manuell gepflegt

Das WWW entsteht

• 1991, Tim Berners-Lee, CERN• http Protokoll und html Format• Dokument können mit multimedialen Inhalten,miteinander Verknüpft für alle bereitgestellt werden

• 1993 Mosaic der erste grafische Browser für dasWWW

• Riesen Vorteil: Informationen können für allebereitgestellt werden

II. Die Geschichte der WWW Suchmaschinen

• Systeme um Informationen anzubieten• Websuchmaschinen• Metasuchmaschinen• Wer mit wem und wo kommt die Antwort einerSuchanfrage heute her

Wie erfasst man das World Wide Web?

• Generell zwei Techniken:

• Robots/Spiders:• Programm das automatisch Daten im Netz aufspürt• Waren am Anfang des WWW „verpönt“

• Directory• Die Einträge im Index werden manuell eingetragen

• Heute meist Kombination von beiden

World Wide Web Wanderer

• 1993, Matthew Gray, MIT• erster WWW-Robot • erst nur Erfassung von Servern, dann auch URLs• Entstandener Index durchsuchbar

• Diskussion kam auf: Sind Robots gut oder schlecht?

Aliweb

• 1993, Martijn Koster• „Archie fürs WWW“• Manuell aufgebaut• Webmaster schicken besondere DateiNachteil:• Indexdatei war schwer aufzubauen• Nicht viele EinträgeVorteil:• Beschreibungen zu den Einträgen

Jump Station• Neben URL auch Titel und Header indiziert• Index linear durchsucht

World Wide Web Worm• URL und Titel indiziert• Index linear durchsucht

Repository-Based Software Engineering (RBSE)• Suche mit „ranking system“ des Suchstrings

Die nächsten Robots

Excite (Architext)

• Anfang 1993 in Stanford begonnen• Idee: Durch Statische Analyse von Ausdrückenbessere Suchergebnisse

• Ab 1995 für Webmaster verfügbar• Suche auf eigenen Seiten

Yahoo!

• 1994, Filo und Yang, Stanford• Aus „Meine Links“-Seiten entstanden• sehr beliebt• durchsuchbares Verzeichnis entsteht• später: robots unterstützen Verzeichnisaufbau

WebCrawler

• 1994, Pinkerton, University of Washington• Dokumente werden komplett indiziert• so beliebt, dass Bandbreitenprobleme an Uni

• 1994, Mauldin, Carnegie Mellon University• schnellster wachsender Index dieser Jahre• Suche unterstützte „prefix matching“ und „word proximity“

AltaVista

• 1995, DEC• sehr schnell• viele Neuerungen, darunter• „natural language queries“• bool‘sche Operatoren• andere Medien (Bilder, Newsgroups, Java Applets)• Tipps für Benutzer auf der Suchseite

GoTo (Overture)

• 1997, Gross• auf das reine Indizieren fokussiert• einfache Suche im Index• seit 1998 Verkauf von Platzierungen im Index• Seitdem Fokus darauf

Open Directory

• 1998• offener Katalog• komplett manuell gepflegt von Freiwilligen

Google

• 1998, Page und Brin, Stanford• PageRank als neue Technik• Leistungsfähige Textsuche• Leistungsfähige Indizierung des WWW

MetaCrawler

• 1995, Selburg, University of Washington• Interface, um mehrere Suchmaschinen abzufragenProbleme:• nicht alle Suchmaschinen einverstanden• Formatierung der SuchanfragenVorteil:• Man durchsucht mehrere Indexe

Und Heute?

• Extreme Verflechtungen untereinander• Nur noch wenige „große“ Seiten• „Ergebniskauf“ vs. Eigene Indexergebnisse • „Portale“ vs. reine Suchseiten

Rechneraufwand am Beispiel AltaVista

• 1 GB Text / pro Stunde• 40 GB Gesamtindex• 3 Mio. Seiten / Tag gescannt• 16 Maschinen für Index und Suche im Index• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD

Zusammenfassung

• Es gab Suchmaschinen vor dem WWW• Fast alle Suchmaschinen an Unis entwickelt• daraus Firmen entstanden• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse

Benutzte Quellen

• A History of Search Engineshttp://www.wiley.com/legacy/compbooks/sonnenreich/history.html

• Hobbes' Internet Timeline - the definitive ARPAnet & Internet historyhttp://www.zakon.org/robert/internet/timeline/

• NetHistory: Searchhttp://nethistory.urldir.com/search.php

• History of Search Engines and Directorieshttp://www.seoconsultants.com/search-engines/history.asp

• Die Suchfibelhttp://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm

• History of Search Engines - Evolution & Revolutionhttp://webhome.idirect.com/~glenjenn/search/history1.htm

• A Brief History of the Internethttp://www.walthowe.com/navnet/history.html

• EFF's (Extended) Guide to the Internethttp://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204

Noch Fragen ?

geschichte der suchmaschinen und heutige vernetzungsstrukturen · 2018-03-04 · thomas sliwa...

Documents

vorlesung softwaretechnik - informatik · lutz prechelt,...

bachelor thesis dokumentengenerierung mit jasperreports...

os v11 operating system design - inf.fu-berlin.de ·...

teil 1 kurzgeschichte des benutzerinterfaces · 1...

george sliwa 2001. angielski bez błędów. poradnik 648s

foto: alex sliwa · de cria del lince iberico 1. definir la...

mit sicherheit für die menschen - lwl | lwl ... · und...

sliwa documentos cervantinos 2005

wieland rhenau, rhenau@inf.fu-berlin.de 1 seminar über...

holy name of jesus · · 2018-04-30john pytel peter pytel...

segmentation based multi-view stereo...

steganographie - inf.fu-berlin.de · einge-bettete daten...

1 frederik bässmann, baessman@inf.fu-berlin.de seminar...

vorlesung softwaretechnik buchkapitel 14 projektmanagement...

cezary sliwa´ - ifpan.edu.pl · alizacją informatyki...

sozialraum- und lebensweltorientierte vernetzung und … ·...

'i ~. i - inf.fu-berlin.de

vorlesung softwaretechnik - inf.fu-berlin.de · lutz...

risiken bei informatiksystemen - inf.fu-berlin.de · lutz...

4 verteilte algorithmen - w3.inf.fu-berlin.de