� Nicht nur die Inhalte im Internetwachsen, auch die Suchdienstan-
bieter lassen sich immer neue Funktioneneinfallen. Wir haben für Sie einige belieb-te deutsche und internationale Suchma-schinen ausgewählt, um Ihnen derzeit ge-bräuchlicheSonderfunktio-nen zu erläutern.In der Tabelle aufSeite 92 können Sieaußerdem die wich-tigsten Befehle undFeatures der Suchma-schinen nachschlagenund vergleichen.
Acoon.deDie Suchmaschine bietet fürden deutschsprachigen Raumnicht nur sehr gute Such-ergebnisse, sondern präsen-tiert diese auch mit beein-druckender Geschwindigkeit.Ein besonderes Feature,das das Suchen erleich-tern soll, ist der intelli-gente Such-Assistent. Da-hinter verbirgt sich eine Trup-pe von Web-Scouts, die Ihnen bei derSuche behilflich ist. Über ein Chat-Fensteräußern Sie Ihre Suchwünsche gegenüberdem Scout, und dieser macht sich für Sieauf die Suche. Nach rund 30 Minuten wer-den Ihnen an eine zuvor angegebeneeMail-Adresse mehrere Suchergebnissegesandt. Die komplette Dienstleistungwird von Acoon kostenlos angeboten.
Altavista.deAltavista gehört zu den Klassikern unterden Suchmaschinen und hat deren Syntaxmaßgeblich geprägt. Seit dem Relaunchbietet Altavista einige zusätzliche Funk-tionen an, die Ihnen vor allem bei der Auf-bereitung der Ergebnisse weiterhelfen. So
können Sie über die Profisuche extra Sor-tierkriterien definieren, nach denen IhreSuchergebnisse aufbereitet werden. Dar-über hinaus stehen Ihnen auch nach derDarstellung der Suchergebnisse weitereKlassifikationskriterien zur Verfügung:Über die Registerkarten können Sie dieResultate nach deutschsprachigen oderweltweiten Funden, Bildern, Musikoder Videos unterscheiden.
FastSearchNeben guten Suchergebnissen istdie Möglichkeit zur Eingabe vonSuch-Strings eine maßgeblicheStärke von FastSearch. Unter-stützt wird die Filterung von31 Sprachen via ISO-Codeund eine bequeme Filte-
rung von Domains. Erstnut-zern steht ein einfaches Tool für
das Zusammenstellen desSuch-Strings per Aus-
wahlbox zur Verfü-gung. Nahezu ein-zigartig ist die Cu-
stomizing-Funktiona-lität. Via Cookie werden
die Einstellungen zu Sprache,Content Reduction und Wortfilter
lokal auf Ihrem Rechner abgelegt.
GoogleDie aus einem Forschungsprojekt entstan-dene Suchmaschine ist inzwischen mehrals ein Geheimtip. Interessant sind beiGoogle besonders zwei Funktionen, wel-che die Aufbereitung der Ergebnisse be-treffen. Oft entspricht die von der Such-maschine indizierte Seite nicht mehr demInhalt, der sich aktuell auf der Seite be-findet. Gerade bei Einstiegsseiten größe-rer Sites findet zum Teil im Minutenab-stand ein Wechsel der Daten statt. Mit derFunktion „Im Cache“ zeigt Ihnen Googledie Seite an, die indiziert wurde und den
Treffer ausgelöst hat. Überdies ist jederTreffer in der Ergebnisliste mit einem Linkzum GoogleScout ausgestattet. Über dieseVerknüpfung liefert Ihnen Google Seitenmit verwandten Ergebnissen.
LycosBenutzerfreundlichkeit wird bei Lycosgroßgeschrieben. „NEAR“, „FAR“, „+“und „–“ haben ausgedient. Zur Steuerungdes Strings steht Ihnen eine Auswahlboxzur Verfügung. Damit gehen zwar Kombi-nationsmöglichkeiten verloren, dafür mußnicht die Suchmaschinen-spezifische Syn-tax erlernt werden. Interessant ist die Su-che im Wörterbuch, die Ihnen die aktuel-le deutsche Rechtschreibung und zuFremdwörtern die passende Erklärung lie-fert. Erwähnenswert sind bei Lycos nochdie Relevanzkriterien: Sechs Möglichkei-ten stehen zur Verfügung, um den Einga-ben mit den Attributen „wichtig“, „mittel“und „unwichtig“ eine Bedeutung zuzu-weisen und das Ergebnis zu gewichten.
Northern LightNahezu einzigartig sind die Auswahlkri-terien, die bei der Zusammenstellung ei-nes Suchergebnisses zur Verfügung ste-hen. Zum einen offeriert Northern Lightneben Standard- und Power-Suche mit Bu-siness- und Investment-Suche weitere the-menspezifische Optionen. Nicht einzigar-tig, aber im Zusammenspiel mit den Ka-tegorisierungen innerhalb der einzelnenSektionen selten zu finden. Über die Po-wer-Suche können Sie für die Inhalte derHTML-Seiten aus bis zu 16 Sparten aus-wählen, kategorisiert nach Inhalten ste-hen weitere 15 Checkboxen zur Verfügung.So lassen sich schnell und individuell oh-ne lange Befehlszeilen die gewünschtenSeiten zusammenklicken.
= Andreas Hitzig
90 internet world januar 2001
praxis recherche im netz
URLs
SuchmaschinenAcoon – http://www.acoon.de
Altavista – http://www.altavista.de
FastSearch – http://www.alltheweb.com
Google – http://www.google.com
Lycos – http://www.lycos.de
Northern Light –
http://www.northernlight.com
Die Kunst des Suchens
Viele große Suchmaschinen sind in den letzten Monaten
um interessante neue Funktionen erweitert worden.
92
inte
rne
t w
orl
dja
nu
ar 2
001
suchmaschinen-logik
Die Funktionen der wichtigsten Suchmaschinen im ÜberblickName URL Allgemeine Einstellungen Logische Operatoren Suchbereiche Sonstiges
Suche Suche nach Sortierung Variable UND ODER NOT NEAR kom- Titel Web- eMail- Meta- Links Domains Applet Bild Audio Video Wildcard Phrase Zusammen- Sortierung Sonder-nach allen mindestens nach Anzahl von plettes Adresse Adresse Begriffe /MP3 fassung funktionenWörtern einem Wort Domains Suchergeb- Doku-
nissen/Seite ment
Acoon http://www.acoon.de � � � � +A+B A B -B � auto- � � � � � � � � � � inter* � � nach WAP-Suche,
matisch Relevanz Suchassistent
Altavista.de http://www.altavista.de � � Profi- � A AND B A OR B NOT B A NEAR B auto- title: url: mailto: � link: domain:DE applet: Menü/ Menü Menü inter* „internet (A OR B) Profisuche verschiedene
suche matisch Begriff Adresse Adresse URL_Text Name image: world“ AND C frei Themensuchen,
Name wählbar Offline-Suchguide
Excite.de http://www.excite.de � � � � A AND B A OR B NOT B � auto- � � � � � � � Menü Menü Menü inter* Menü (A OR B) nach Suche nach Hotel,
matisch Power- AND C Relevanz Flügen und
suche oder URL eMail-Adressen
FastSearch http://www.alltheweb.com � � � � A+B A B NOT B � Menü Menü Menü � � Menü Menü � eigene eigene eigene inter* Menü � eigene Suche nach WAP,
Suche Suche Suche Logik FTP, MP3 und
Multimedia
Fireball http://www.fireball.de � � Profi- � A AND B A OR B NOT B A NEAR B Profi- Profi- Profi- Profi- Profi- Profi- Profi- applet: image: � � inter* „internet (A OR B) Profisuche Katalog-Suche,
suche suche suche suche suche suche suche suche Name Name world“ AND C Live-Suche, Datum
als Suchkriterium
Go http://www.go.com � � � � A AND B A OR B NOT B � auto- title: url: � � link: Menü � Menü Menü Menü inter* „internet � nach Suche innerhalb
matisch Begriff Adresse URL_Text world“ Relevanz Ergebnissen, Suche
oder Datum nach Rubriken
Google http://www.google.com � � � � A B � -B � auto- � � � � link: � � � � � � „internet � nach 16 Sprachen,
matisch URL_Text world“ Relevanz Anzeige ähnlicher
Seiten, Cache
HotBot http://www.hotbot.com � � � � A AND B A OR B NOT B � Menü Menü Menü � � Menü Menü � Menü Menü Menü inter* „internet (A OR B) keine umfangreiche
world“ AND C Angaben Suchkriterien
Lycos.de http://www.lycos.de � � � � A AND B A OR B NOT B A NEAR B Menü Menü Menü � � � Menü � Menü Menü � inter* „internet (A OR B) nach eigene
world“ AND C eigenen Relevanzkriterien,
Angaben 38 Sprachen
Northern Light http://www.northernlight.com � � � � A AND B A OR B NOT B � auto- Menü Menü � � � � � � � � inter* „internet (A OR B) nach umfangreiche
matisch world“ AND C Relevanz Menüselektion zur
Einschränkung der
Suchergebnisse
Web.de http://www.web.de � � � � +A+B A B -B � auto- Menü Menü � Menü � Menü Menü Menü � � inter* „internet (A OR B) k. A. Speicherung von
matisch world“ AND C Such-Layout, WAP-
Suche, Live-Suche
Yahoo.de http://www.yahoo.de � � � � A+B A B -B � auto- t: u: � � � � � � � � inter* „internet (A OR B) nach zeitliche
matisch Begriff Adresse world“ AND C Kategorien Einschränkung
der Ergebnisse
� = vorhanden � = nicht vorhanden
✂
� Web-Sites, die stetig wachsen, wer-den leicht unübersichtlich, und ge-
rade ältere Informationen sind kaum mehrauffindbar. Allerspätestens dann, wennSie selbst nicht mehr wissen, wo sich wel-che Seiten in Ihrem Web befinden, solltenSie sich Gedanken über die Integration ei-ner Suchmaschine machen.
Je nach Ausgangssituation stehen da-bei verschiedene Lösungen zur Verfügung.Zwei Punkte gilt es zu beachten: � Haben Sie vollen Zugriff auf den Web-
Server und können Sie dort beliebigSoftware installieren?
� Wie groß ist die Site, welches Budgetsteht zur Verfügung?
Im Prinzip funktioniert der Aufbau einerSuchmaschine für die eigene Site immernach dem gleichen Muster, unabhängigvon der jeweils eingesetzten Technologie:Der Site-Master definiert eine Reihe vonParametern und schickt anschließend ei-nen sogenannten Parser durch seine Sei-ten. Dieser digitale Spürhund erstellt ei-nen Index, in dem er wichtige Schlüssel-wörter sammelt. Greift der Benutzer on-line auf die Suchmaschine zu, dann wer-den nicht die Seiten selbst, sondern dieserIndex durchsucht. Das spart eine MengeZeit. Systeme, die nicht einen Index, son-dern die Dateien selbst durchforsten, funk-tionieren nur bei kleinen Sites. Für ganzgroße Sites ab 10.000 Seiten sollten pro-fessionelle Systeme eingesetzt werden.Welches System sich am besten eignet,hängt in hohem Maß vom eingesetztenServer ab.
Unser Focus richtet sich auf kleine undmittlere Sites. Für diese stehen aus tech-
nologischer Sicht vier ver-schiedene Möglichkeitenzur Verfügung: Suchdien-ste, Java, Perl und pro-prietäre Software. Die er-sten beiden Varianten funk-tionieren praktisch immer,sind allerdings von der Per-formance her ziemlich begrenzt. DiePerl/CGI-Variante ist die Standardlösung.Um sie nutzen zu können, muß der Web-Master freien Zugriff auf das CGI-Ver-zeichnis des Web-Servers haben, und die-ser wiederum muß Perl unterstützen. Vie-le Hoster bieten bereits vorgefertigte Such-Scripts an, die Dokumente im Volltextdurchforsten. Spezialisierte Such-Soft-ware muß parallel zum Web-Server in-stalliert werden. Eine solche Installationsollten jedoch nur Profis durchführen.
Der einfachste und schnellste Weg, umzur eigenen Suchmaschine für die Web-Site zu kommen, ist der Rückgriff auf ei-nen Dienstleister. Es gibt eine Reihe vonAnbietern im Netz, die dem BenutzerSuchdienste zur Verfügung stellen.Während die Eingabemaske auf der eige-nen Web-Site steht, erscheint die Ant-wortseite in der Regel beim Dienstleister.Bei den kostenlosen Varianten wird dortmeist Werbung eingeblendet. Außerdemprofitiert der Dienstleister natürlich vomTraffic. Einer dieser Dienstleister, Freefind,erlaubt die Anpassung der Antwortseite andas eigene Layout. Der Benutzer erkenntnur an der URL, wo er gelandet ist, undkommt mit dem nächsten Klick zurück.Beim Einsatz von Frames ändert sich nichteinmal die URL.
Das Basis-Setup für Freefind ist eine Sachevon Minuten. Auf der Homepage des Dien-stes befindet sich ein Formular, in dem nurdie Domain, eine eMail-Adresse und eineRubrik für die Site angegeben werden müs-sen. Alles weitere erledigt die Maschine:Nach 24 Stunden landet die Bestätigungs-Mail im Briefkasten.
Im ControlCenter auf der Freefind-Sitewird nun zunächst die Indexierung aus-gelöst. Dieser Vorgang kann in einem be-stimmten Rhythmus automatisiert wer-den, so daß der Index auch von Neuerun-gen erfährt. Es empfiehlt sich, die Inter-valle nicht zu kurz zu wählen, denn jederBesuch des Robot frißt selbstverständlichauch Server-Leistung. Ist die Site an mehrals eine Domain angebunden, lassen sichweitere Domain-Namen über die Feinein-stellungen – erreichbar im ControlCenterüber den Button „Next“ – angeben.
Im zweiten Schritt wird der Code in dieeigene Web-Site eingebaut. Es handelt sichum ein einfaches Formular, das den oderdie Suchbegriffe an ein Perl-Script auf demFreefind-Server übergibt. Dieses durch-sucht den erstellten Index und liefert dieErgebnisseite. Das Ergebnis entsprichtdem, was man von den großen Suchma-schinen gewohnt ist. Als Link dient derTitel der Seiten, als Beschreibung werdendie „Description“ aus den Meta-Tags oder
94 internet world juli 2000
praxis lokale suchmaschine
Eine integrierte Suchmaschine hilft, spezielle
Informationen auf der Web-Site leichter zu
finden. Wir sagen, wie’s geht.
PersönlicherSSppüürrhhuunndd
die ersten Textzeilen innerhalb der Seiteaufgeführt. Bei der Generierung von Meta-Tags sollte daher darauf geachtet werden,jeder Seite eigene Keywords und eine ei-gene Beschreibung zu geben. Ein Klick aufeinen der Links führt postwendend zurückzur Web-Site.Hier das Formular:<form action=“http://search.freefind.com/ find.html“ method=“GET“ target=“_top“><center><font size=“-1“> <font color=“#FF6666“>Der Sitefinder </font> powered by FreeFind</font> <input type=“HIDDEN“ name=“id“ size=“-1“ value=“1234565“><input type=“HIDDEN“ name=“pid“ size=“-1“ value=“r“><input type=“HIDDEN“ name=“mode“ size=“-1“ value=“ALL“><input type=“TEXT“ name=“query“ size=“20“> </center> <font size=“-1“> <font face=“Courier New, Courier, mono“><input type=“radio“ name=“t“ value=“s“ checked>Site search <input type=“radio“ name=“t“ value=“w“>Web search </font></font> <input type=“SUBMIT“ value=“ Such „ name=“SUBMIT“> </form>In diesem Code lassen sich die Beschrif-tungen „Site Search“ und „Web Search“sowie der „value“ des „Submit“-Buttonändern. Auch der Titel (hier: „Der Sitefin-der“) kann inklusive Farbe direkt im Codegeändert werden.
Um das Erscheinungsbild der Ergeb-nisseite zu ändern, gehen Sie ins Control-Center und dort in die Abteilung „Custo-mize“. Schritt für Schritt werden Sie durchdie Änderungsmöglichkeiten geführt. Da-bei kommt vor allem dem Hintergrundbildund den Schriftfarben besondere Bedeu-tung zu, um eine einheitliche, zu IhrerWeb-Site passende Optik zu erhalten. Daseinzufügende Logo erscheint ganz obenauf der Seite, wo es etwas verloren wirkt.Eventuell lohnt es sich, eine grafische An-passung vorzunehmen und einen breitenStreifen von geringer Höhe (30–40 Pixel)als Logo zu definieren. Sie müssen dieseDatei auf Ihrem Web-Server plazieren undFreefind die exakte URL mitteilen. Die Aus-wahl der Texte auf der Ergebnisseite erfolgt
nicht hier, sondern in einem anderen Menünamens Search Setup.
Spannendstes Feature von Freefind sinddie Reports. Hier berichtet der Dienst, wel-che Suchanfragen er erhalten hat, und sor-tiert diese. Außerdem registriert er, welcheLinks geklickt wurden, und listet die mitden Seiten verbundenen Keywords auf.Das ist ein wertvolles Hilfsmittel bei derAnalyse der Besucherströme.
Der Site-Betreiber kann Freefind nochetwas genauer steuern. Sollen einige Da-teien ausgeklammert werden, so hat erzwei Möglichkeiten: Zum einen kann erdas Tag <!— FreeFind No Index Page —>im Kopf der jeweiligen Seite plazieren, be-vor die Site indiziert wird. Soll nur ein Teileiner Seite ausgeklammert werden, so lau-tet das Tag-Paar:<!— FreeFind Begin No Index —><!— FreeFind End No Index —>Alles außerhalb dieser Klammern wird in-diziert. Die andere Möglichkeit ist die Er-stellung einer Robots-Datei. Dazu muß ei-ne Datei namens robots.txt im Stammver-zeichnis des Web-Servers liegen. In dieserDatei steht, welche Ordner und Dateiennicht von den Suchmaschinen indiziertwerden sollen (siehe Kasten). Das giltnicht nur für Freefind, sondern auch fürdie meisten großen Suchdienste im Web.
Um die Reihenfolge der Treffer zu ma-nipulieren, muß man wissen, wie Freefindindiziert. Jedes gefundene Wort wird re-gistriert. Die Anzahl der Treffer bestimmtdie Reihenfolge des Erscheinens aufder Ergebnisseite. Die Begriffe im
internet world juli 2000 95
info
robots.txtDie Norobots-Datei muß im Basisverzeich-
nis des Web-Servers gespeichert werden. Es
trägt zu Beginn einen Titel, dann folgen die
angesprochenen Suchmaschinen (User
Agent) mit den Zutrittsverboten.
# robots.txt for http://www.beispiel.de/User-agent: *Disallow: /testeiten/alle/Disallow: /tmp/ Disallow: /pass.htmlDiese Datei besagt, daß alle Suchmaschinen
Seiten, die innerhalb der Ordner „testsei-
ten/alle“ und „tmp/“ liegen, ignorieren sol-
len. Das gilt auch für die darin enthaltenen
Unterordner. Außerdem wird die Einzelsei-
te „pass.htm“ vom Zugriff ausgenommen.
Titel der Seite und in den Meta-Tags zählendoppelt. Um die Wertigkeit einer Seitenoch weiter zu steigern, kann man einKeyword künstlich wiederholen:<!—FreeFind keywords words=“word1 word2 etc etc“ count=“5“—>Einen Nachteil hat Freefind allerdings: DieBoolschen Suchoperatoren gelten hiernicht, und Wildcards können ebenfallsnicht eingegeben werden. Die String-Definition mit Anführungszeichen (z. B.„Valerien Beckenbauer“) führt nicht wiegewohnt zur passenden Zeichenkette, son-dern wird per AND verbunden. Grundsätz-lich gilt für jede Suchanfrage mit mehre-ren Begriffen, daß zunächst AND vermu-tet wird. Wenn das nicht funktioniert,kommt OR zum Tragen.
Eine mögliche Java-Lösung ist Quest-Agent von JObjects. Die Software kann fürnichtkommerzielle Anwendungen kosten-los genutzt werden. Für kommerzielleAnwender gibt es verschiedene Lizenz-modelle, je nachdem, ob es sich um einen
Hoster oder einen einzelnen Site-Betreiberhandelt. Für die Benutzung von Quest-Agent sind nur wenige Voraussetzungenzu erfüllen. Der Site-Betreiber benötigt aufseinem Rechner eine funktionierende ak-tuelle Virtual Machine. Fehlt diese, ist dasnicht so schlimm, denn das große Down-load-Päckchen von JObjects (6,5 MByte)enthält einen Interpreter. Die fertige Suchefunktioniert mit jedem gängigen Java-fähigen Browser. Nur beim Internet Ex-plorer 3 erlebten wir zwei Abstürze, aberdieser Browser dürfte wohl kaum noch ei-ne Rolle spielen.
Ein einfaches Interface fragt Schritt fürSchritt die nötigen Informationen ab understellt sowohl den Index als auch die Ap-plets und die passende HTML-Seite. Letz-tere kann – wie bei allen Lösungen – nachdem eigenen Design gestaltet werden.Wahlweise läßt sich ein neues Projekt er-stellen oder ein bestehendes bearbeiten.Ein Wizard führt den Benutzer durch dasProgramm. Nach Auswahl und Benen-nung des Profils wird der Benutzer aufge-
fordert, den Zielordner für die Suche zudefinieren. Des weiteren fragt QuestAgentdie URL des Web-Servers ab. Diese Ein-gabe ist allerdings in den meisten Fällenüberflüssig.
Nach dem Klick auf „Next“ steht dieErstellung des Index an. Prüfen Sie dieDaten, die der QuestAgent anzeigt, undklicken Sie auf „Start Indexing“. DasProgramm durchforstet nun den ausge-wählten Ordner und alle Unterordner.
praxis lokale suchmaschine
96 internet world juli 2000
Die Konsole von QuestAgent ermöglicht die
einfache Programmierung der Suche, ohne in
den Quellcode gehen zu müssen
QuestAgent erstellt eine Index-Datei, diezur Steuerung der Suchanfragen dient, so-wie mehrere unterschiedliche Inhaltsda-teien. Eine davon ist für die Links und Sei-tentitel verantwortlich. Aus dieser Dateiwird die Ausgabeliste generiert. Die wei-teren Dateien sind für die alphabetischeIndizierung zuständig. Mit der Funktion„Deploy“ wird der komplette Ordner in-klusive Java-Klassen und Suchmaske nacherfolgter Indizierung unter dem Namen„jobjects“ in das durchsuchte Basis-verzeichnis gelegt. Dem Site-Betreiberbleibt nun nur noch, die Suchseite namens„search2.html“ zu öffnen, den deutlichmarkierten Applet-Code zu kopieren undin eine eigene Suchseite einzufügen.QuestAgent bietet dabei auch gleich nochHinweise zur Suchhilfe an, die übernom-men werden können.
Die Java-Suche mit NetQuest ist rechtpassabel. Unser Index erreichte bei einerSite mit 100 HTML-Seiten insgesamt rund110 KByte. Die Suche funktioniert zuver-lässig. Als Ergebnis wird allerdings nur der
Seitentitel angezeigt. Das ist etwasdürftig und muß beim Aufbau derSite bedacht werden. Hier liegt dieeinzige erkennbare Schwäche desProgramms. Seine volle Leistungs-fähigkeit entfaltet das Tool, wennihm Sonderaufgaben gestellt wer-den; diese werden vor der Inde-xierung unter „Settings“ definiert.Die wichtigste Funktion ist derAusschluß von einzelnen Seitenund Ordnern. Dafür ist „Exclu-sion“ zuständig. Gehen Sie auf „Browse“,ermitteln Sie die gewünschte Datei, be-stätigen Sie mit „OK“ und fügen Sie dieDatei mit „Add“ der Ausschlußliste hinzu.Grundsätzlich durchsucht QuestAgentHTML- und TXT-Dateien. Weitere Web-fähige Dateiformate müssen bei den „FileTypes“ mit ihrem Mime-Type registriertwerden. Über einen kleinen Trick gelingtQuestAgent auch die Indizierung vonWord-Dokumenten und anderen pro-prietären Dateien: Kopieren Sie die Dateiund geben Sie der Kopie die Endung
„.dochtml“. Geben Sie diesen Dateityp beiden „File Extensions“ an, und schon wirddie Datei durchsucht.
Die Option für Datenbankprofis lautet„Handler“. Hier werden die zu lesendenFelder eines Dokuments näher bezeichnetund definiert. Auch die Priorität wird hierfestgelegt. Dabei ist der Handler nicht auffeste Tags wie Meta oder Body limitiert.QuestAgent kann auch mit selbstdefinier-ten XML-Strukturdaten umgehen. DemSuchenden stehen die wichtigstenBoolschen Verknüpfungen AND und
ak
tue
lle
sm
ag
azi
np
rax
iste
stse
rvic
e
internet world juli 2000 97
Die Berichte von Freefind geben Auskunft darüber, was
gesucht wurde
OR zur Verfügung. Begriffe, die ohne Ver-knüpfung eingegeben werden, bekommenper se die AND-Bedingung, was den Such-komfort deutlich steigert. Außerdem kannder Benutzer der Suchmaschine mit Wild-cards arbeiten, etwa um auch einen mög-lichen Plural eines Suchbegriffs anzuzei-gen: „Pferd*“ liefert Ergebnisse wie Pferdund Pferde, aber auch Pferdehalfter.
Eine Server-basierte Suche benutzt inaller Regel die CGI-Schnittstelle und Perlals Programmiersprache. Bevor Sie zuWerke gehen, erkundigen Sie sich beiIhrem Web-Master, welche Perl-Versionder Web-Server verarbeiten kann. Kosten-lose CGI-Scripts unterschiedlichster Qua-lität gibt es im Web zuhauf. Wir be-schränken uns hier auf ein einfachesScript, das eine Volltextsuche durchführt.Boolsche Operatoren sind darin erlaubt,eine spezifische Rangordnung der Seitenerfolgt aber nicht. Eine etwas aufwendi-gere Lösung haben wir in Ausgabe 3/2000auf Seite 90 vorgestellt. Der Code steht aufder Web-Site der INTERNET WORLD un-ter http://www.internetworld.de/iw/magazin_listings_0300.htm zur Verfügung.
Der Vorteil der CGI-Lösung ist, daß der Ser-ver und nicht der Client die Sucharbeit lei-stet. Zudem lassen sich derartige Scriptssehr gut konfigurieren und den eigenen Be-dürfnissen anpassen. Nachteil allerdings:Die Volltextsuche dauert recht lange.
Wir benutzen ein Script namensSimpleSearch von Matt Wright. Das Scriptkommt in einer Zip-Datei zusammen miteiner Erklärung im Readme-File und einerHTML-Seite als rudimentäre Suchmaske.
Öffnen Sie zunächst die HTML-Seite.Sie sehen ein Formular mit der Aktion: <form method=POST action=“http://world widemart.com/scripts/cgi-bin/demos/ search.cgi“>Ändern Sie die Adresse des Links so, daßer auf Ihr CGI-BIN-Verzeichnis zeigt, zumBeispiel:<form method=POST action=“http://www.domain.de/cgi-bin/search.cgi“>Kopieren Sie nun das komplette Formularvon <FORM> bis <FORM>in eine eigene Sei-te und passen Sie das Layout an. Nunkommt die Datei search.pl an die Reihe.Öffnen Sie diese Datei mit einem Text-Edi-tor, der ungefragt keine Formatierungs-zeichen in der Seite hinterläßt. Auf Win-dows-Ebene eignet sich der „Editor“, fürgehobenere Ansprüche wäre zum BeispielTextpad von Helios zu empfehlen.
Der wesentliche Bereich befindet sichgleich im Kopf des Scripts:$basedir = ‘/www.domain.de/html/’;$baseurl = ‘http://www.domain.de/’;@files = (‘*.html’,’*.htm’, ‘intface/’);$title = „Franks Suche“;$title_url = ‘http://www.domain.de/;$search_url = ‘http://www.domain.de /search.html’;Problematisch sind nur die ersten beidenZeilen. Das Base-Directory ist das Grund-verzeichnis der zu durchsuchenden Da-teien. Die Base-URL ist die Domain. Bei-de werden vom späteren Script aneinan-dergehängt. Wie Sie sehen, wird in diesemBeispiel die Domain doppelt aufgeführt.Das ist häufig bei virtuellen Servern derFall, wo die Betreiber die Server einfachnach den Domain-Namen sortieren. ImZweifel müssen Sie ein bißchen testen, umden richtigen Pfad zu finden.
Auch die „@files“ werden dem Such-pfad beigefügt. Das Script von Wright führteine Positivsuche aus, es widmet sich al-so nur Dateien und Ordnern, die hierexplizit aufgeführt werden. Bei größerenWeb-Sites empfiehlt sich ein Script, das
statt dessen die aufgeführten Bereiche beider Suche ausläßt. In den Dateinamen sindWildcards erlaubt. Die Angabe des Ord-ners „intface/“ führt zum Durchsuchen al-ler darin enthaltenen Dateien. Die unterendrei Zeilen sind für den Seitentitel, denLink zur Homepage und den Link zurückzur Suchseite gedacht, die allesamt auf derErgebnisseite erscheinen. Im letzten Drit-tel des Scripts befinden sich einige Print-Anweisungen. Diese formatieren die Aus-gabeseite. Alles, was innerhalb der dop-pelten Anführungszeichen steht, istnormaler HTML-Code und kann ersetztwerden.
Das knifflige bei CGI-Scripts ist, daß sienicht einfach per se funktionieren, sobaldman sie auf den Server übertragen hat. Beidieser Übertragung ist übrigens unbedingtdarauf zu achten, daß sie im ASCII-Modusvonstatten geht, sonst wird die Dateizerstört. Perl-Scripts müssen auf demServer freigeschaltet werden. Bei gutenFTP-Clients, wie zum Beispiel Cute-FTP,ist diese Funktion bereits integriert, dochsie wird nicht von allen Servern unter-stützt. Mitunter ist die Eingabe von Handin der Kommandozeile nötig, zum Beispielwenn Sie einen Telnet-Zugriff auf einenUnix-Server haben. Fragen Sie imZweifelsfall lieber bei Ihrem Webmasternach, auf welche Weise Sie die Scriptsfreischalten können. = Frank Puscher
98 internet world juli 2000
praxis lokale suchmaschine
info
SuchoperatorenAND: Alle Worte müssen im selben Doku-
ment vorhanden sein.
OR: Eines der Worte muß vorhanden sein.
NOT: Dieses Wort darf nicht vorkommen.
STRING „“: Worte in Anführungszeichen
müssen in genau dieser Kombination in
der Seite erscheinen.
NEAR: Die beiden Suchbegriffe dürfen
höchstens 25 Worte auseinander liegen.
FAR: Die beiden Begriffe müssen mehr als
25 Worte auseinander liegen.
ADJ: Die beiden Worte müssen in beliebiger
Reihenfolge direkt nebeneinander lie-
gen.
BEFORE: Wie AND, aber mit fester Reihen-
folge.
ORDER: Die Ergänzung „O“ vor den anderen
Operatoren verlangt ebenfalls eine feste
Reihenfolge, etwa ONEAR.
WILDCARD „*“: Pferd* findet auch Pferde
und Pferdewagen.
URLs
Alle Links zum ThemaÜbersichten
http://service.freepage.de/cgi-bin/feets/
freepage_ext/41030x030A/rewrite/achim98
/suchm.htm
http://marcbauer.purespace.de/
suchmaschinen/eigene/index.htm
http://www.suchfibel.de/
Excite Web Search
http://www.excite.com/navigate/download.
html
C|Net-Workshop zur Meta-Suchmaschine
http://www.builder.com/Programming/
Scripter/110199/?tag=st.bl.3883.linksgp
Textpad
http://www.textpad.com/
Freefind
http://www.freefind.com/indexa.html
QuestAgent und andere Java-Lösungen
http://gamelan.earthweb.com/javaprogram
ming/applets/dir.utilsearchengines2.html
SimpleSearch
http://www.worldwidemart.com/scripts/
search.shtml#Downloading
� Search-Engines sind integraler Be-standteil des World Wide Web. Denn
nur mitdem Einsatz dieser Helfer ist es Sur-fern möglich, der Informationsflut Herr zuwerden. Doch was auf den ersten Blick alsalltäglich und gegeben hingenommenwird, ist in Wahrheit nur durch ein Zu-sammenspiel komplexer Algorithmen undausgefeilter Technologien realisierbar.
Prinzipiell existieren zwei verschie-dene Typen von Suchmaschinen, die sichin ihrer Funktionsweise jedoch wesentlichunterscheiden:
Zum einen gibt es die sogenanntenDirectories. Die Datenbestände werdenausschließlich von Menschen gepflegt, dieentweder die Beschreibung einer Seite zurKatalogisierung einreichen oder aber – wasdie Aufgabe von Redakteuren ist – Seitenbegutachten und diese in die Datenbankenaufnehmen. Später wird die gesammelteInformation in eine hierarchisch organi-sierte Struktur von Kategorien eingeord-net, in denen der Benutzer gezielt in Spar-ten suchen und seine Suchanfrage belie-big spezialisieren kann, bis er schließlichdie gesuchte Information gefunden hat.Der Nachteil der Directories ist klar: Es istfür Menschenhand schier unmöglich, mit
dem explosionsartigen Wachstum des In-ternet Schritt zu halten. Nur wenige Siteskönnen indiziert werden, das Gros fälltdurchs Raster. Hier kommt die Rolle dereigentlichen Search-Engines zum Tragen:Diese erstellen ihren Datenbestand voll-
automatisiert mit Hilfe von Robots, die dasWeb durchwandern und die gesammeltenInformationen für Suchanfragen aufberei-ten und katalogisieren. Darum bezeichnetman jene auch gelegentlich als Web-Crawler.
Generell kann der interne Aufbau einerSearch-Engine in drei große Teile geglie-dert werden: Der erste ist der Spider, einspezialisierter Robot, der das Web durch-schreitet, Seiten besucht, diese zur späte-ren Indizierung vorbereitet und dann denLinks der Seite zu anderen Inhalten folgt.Die gesammelten Informationen desSpider finden schließlich im zweitengroßen Teil einer Search-Engine, demIndex, Verwendung. Diesen kann man sichals einen Katalog von immensem Ausmaßvorstellen, der Informationen zu allen ge-fundenen Web-Seiten, den darin enthalte-nen Schlüsselwörtern und etlichen weite-ren Daten enthält. Dieser Index bildet dieBasis für den dritten Part, das Suchwerk-zeug. Diese Applikation filtert die auf ei-ne Suchanfrage zutreffenden Daten ausdem Index heraus, bereitet diese auf undführt ein „Range-Ranking“, also eine Be-wertung der Relevanz eines Treffers für dieSuche, durch.
96 internet world mai 2000
praxis robots & spiders
DatenjägerUnermüdlich durchstreifen Suchmaschinen das Web
auf der Suche nach aktuellen Informationen. Wir führen Sie
durch das Innenleben dieser Automaten.
URLs
Weitere InformationenWer weiterführende Literatur u. a. zu den
Themen Robots, Spiders und Standard for
Robot Exclusion sucht, wird hier auf jeden
Fall fündig:
http://info.webcrawler.com/mak/projects/
robots/faq.html
Wer diesen Link besucht, findet die berühm-
te Web Robots FAQs von Martijn Kosters, die
keine Fragen offenlassen:
http://info.webcrawler.com/mak/projects/
robots/guidelines
Richtlinien für das Schreiben von Robots mit
gutem Benehmen:
http://www.webreference.com/content/
search/how.html
Informationen zum Thema Suchmaschinen
allgemein und Tips für das Range-Ranking.
ersten Link zu einem Dokument, liest die-ses und extrahiert für den Index relevan-te Daten. Für seinen weiteren Weg durchsWeb listet der Spider alle im Dokumentvorkommenden Links auf, zieht jedochnur die in Betracht, die auf Dokumenteverweisen. Grafik, Musik und alle weite-ren Medien fordert der Spider erst gar nichtan. Hierin liegt unter anderem ein Grundfür die außergewöhnlich hohe Effizienz inbezug auf die Geschwindigkeit diesesRobot-Typen. Schließlich folgt er dem er-sten noch nicht besuchten Link des gela-denen Dokuments und wiederholt die Pro-zedur. Enthält das Dokument keine wei-teren Verknüpfungen zu anderen Doku-menten, taucht der Spider aus seiner re-kursiven Schleife auf und versucht es eineEbene höher. Auf dieser folgt er nun eben-falls wieder dem ersten noch nicht be-suchten Link. Diese Vorgehensweise wie-derholt er so lange, bis er keine unbe-suchten Links mehr findet und die Basis-liste abgearbeitet hat. Eine Veranschauli-chung der Vorgehensweise beim Durch-schreiten des Web können Sie dem Dia-gramm entnehmen.
Die Daten, die der Spider im Verlaufeines Zyklus sammelt, können zu ver-schiedenen Zwecken genutzt werden. Inerster Linie dienen sie zur Erstellung oderzur Aktualisierung des Index. Die Datenkönnen jedoch auch genutzt werden, umein effizientes Range-Ranking zuermöglichen: Spider ermitteln die
Die Tiefensuche ist das Herzstück desRobots. Mit ihrer Hilfe wird eine Durch-wanderung großer Teile des anarchischstrukturierten Web erst ermöglicht: Aus-gehend von einer Liste von URLs, die ei-ne Art Grundstock für die Suche darstellt,taucht der Spider ins Web ein. Er folgt dem
Spider sind autark agierende Agenten,die ihren Dienst ohne menschliches Zutunverrichten. Die Funktionsweise basierthauptsächlich auf einer angepaßten Formdes als Tiefensuche bekannten Algorith-mus. In seltenen Fällen wird an dessenStelle auch Breitensuche verwendet.
ak
tue
lle
sm
ag
azi
np
rax
iste
stse
rvic
e
internet world mai 2000 97
info
Standard for Robot ExclusionDie erste Aktion, die ein Spider mit gutem Be-
nehmen beim Besuch einer Site ausführt, ist
das Auslesen der Datei robots.txt und die Be-
folgung der darin genannten Instruktionen.
Findet er diese Datei hingegen nicht vor,
nimmt er an, daß er auf der Site willkommen
ist, und indiziert alle Dokumente, auf die er
Zugriff erhält.
Um Spider von Verzeichnissen fernzuhalten,
dient die Erstellung einer solchen Datei im
Stammverzeichnis der Site. Die Datei enthält
einige simple Befehle, die an dieser Stelle an-
hand eines Beispiels näher erläutert werden:
00 # Beispiel einer robots.txt Datei01 User–agent: *02 Disallow: /content/temp/03 Disallow: /users/04 User–agent: Scooter05 Disallow: /content/temp06 User–agent: Wanderer07 Disallow:
08 User-agent: Walker09 Disallow: /
Die erste Zeile beinhaltet einen Kommentar,
der durch ein Doppelkreuz eingeleitet und
vom Spider nicht interpretiert wird. In ihr sind
die Robots, für die nachfolgende Restriktionen
bzw. Anweisungen gelten, aufgelistet: Hier
steht entweder der Name des Spider oder ein
Stern, um alle Robots anzusprechen. Die Zei-
len zwei und drei nennen die Verzeichnisse,
deren Zutritt den Spiders untersagt ist. In Wor-
te gefaßt, untersagt unser Beispiel allen Spi-
ders den Zugriff sowohl auf /content/temp/
als auch auf /users.
Allerdings gilt dies nicht für die Robots mit Na-
men Scooter, Wanderer und Walker: Der erste
darf lediglich auf /content/temp nicht zugrei-
fen, während dem zweiten sogar uneinge-
schränkter Zugriff gewährt wird. Walker hin-
gegen ist der Zutritt zu sämtlichen Verzeich-
nissen verwehrt.
Popularität von Sites, indem sie die Linkszählen, die auf diese verweisen. Generellgilt: Je beliebter die Site, desto relevanterist sie für eine auf jene Site zutreffendeSuchanfrage des Benutzers, und desto wei-ter oben wird sie in der Präsentation derSuchergebnisse gelistet werden.
Spider indizieren in wenigen Minutenmehr Seiten, als ein Mensch an einem Tagbearbeiten kann. Der AltaVista-Spider in-diziert etwa 2,5 Millionen Seiten pro Tag.Zieht man in Betracht, daß Search-Engineswie Pilze aus dem Boden sprießen, wirdschnell klar, daß Spider den Web-Trafficwesentlich erhöhen. Ernsthafte Problemekönnen jedoch entstehen, wenn einschlecht programmierter Spider auf einenServer zugreift und diesen mit einem An-sturm von Anfragen bombardiert. Bedingtdurch die Tatsache, daß Spider vollauto-matisiert sind, können sie riesige Da-tenmengen in kürzester Zeit anfordern.Beziehen sich diese Anforderungen jedochauf einen einzigen Server, kommt dies ofteiner Denial-of-Service-Attacke gleich(siehe IW 4/2000). Das Problem tritt auf,wenn der Tiefensuch-Algorithmus fehler-haft programmiert ist. Dann rotiert derSpider in einer Endlosschleife, die ihn stets
zu den gleichen Seiten zurückführt undden Server konstant belastet.
Auch temporäre HTML-Dokumentesind ein Problem, da der Spider nicht„weiß“, daß deren Existenz im Web nurvon kurzer Dauer ist und er sie somit in-diziert. Wird bei einer Suchanfrage einesolche Seite gelistet und vom Benutzerangeklickt, erfolgt ein Sprung ins Leere –der entsprechende Server generiert eineFehlermeldung.
Das wohl bekannteste und weltweitakzeptierte Protokoll für gutes Verhaltenvon Spidern, der „Standard for RobotExclusion“, wurde bereits 1994 von einerGruppe von Internet-Nutzern geschaffen.Dieses Protokoll erlaubt es den Admini-stratoren von Web-Sites, Spider voneinigen oder allen Bereichen der Siteauszuschließen. Zwar ist der „Standard forRobot Exclusion“ nur ein informelles Pro-tokoll und lediglich eine Empfehlung fürbesuchende Spider, doch hält sich in derRegel der Großteil der Robots an diese.Detaillierte Informationen finden Sie imKasten auf Seite 97.
Prinzipiell muß zwischen zwei Varian-ten der Indizierung differenziert werden:
In einer Volltext-Indizierung wird das ge-samte Dokument durchsucht und sämtli-che darin vorkommende Begriffe gesam-melt. Dabei werden jedoch Wörter wie„das“, „er“ oder „ist“ nicht indiziert, dasie der Charakterisierung einer Seite nichtdienlich sind. Die Auslese findet meist mitHilfe einer Art Wörterbuch statt, in demsolche irrelevanten Begriffe vermerkt sind.Bei einer Nicht-Volltext-Indizierung hin-gegen werden nur Teile des Dokuments,gewöhnlich die META-Tags, Header, Titelund/oder der erste Absatz, indiziert. Da-durch läßt sich eine Beschleunigung derIndizierung und somit eine Schonung derRessourcen des Web-Servers, auf dem derSpider ausgeführt wird, erzielen, daschließlich nicht das ganze Dokumentdurchsucht werden muß. Nachteilig wirktsich jedoch die Tatsache aus, daß viele In-formationen innerhalb des Texts verloren-gehen und die Indizierung des Dokumentssomit weniger exakt und adäquat ist.Außerdem sind META-Tags nicht reprä-sentativ für den tatsächlichen Inhalt einerSeite. Viele Betreiber führen zahlloseSchlüsselwörter und Schlagworte ausmöglichst vielen unterschiedlichen Berei-chen auf, um bei sämtlichen Suchanfra-gen gelistet zu werden.
98 internet world mai 2000
praxis robots & spiders
tip suchmaschinen
So kommen Sie in Suchmaschinen auf die vorderen PlätzeDer Eintrag in eine Suchmaschine ist nur dann
erfolgreich, wenn Sie bei den Suchergebnissen
einen der vorderen Plätze belegen. Wir zeigen
Ihnen im folgenden, worauf Sie besonders
achten sollten.
Suchmaschinen lassen sich nicht mehr so ein-
fach überlisten wie früher, als es genügte, ei-
nen Begriff beliebig oft in den Keywords zu wie-
derholen. Die Robots sind lernfähiger gewor-
den. Es gibt jedoch immer noch ein paar Knif-
fe, wie Sie Ihre Plazierung positiv beeinflussen
können.
Dies sollten Sie tun:
� Verwenden Sie Keywords und Description
direkt unter dem Titel der Seite. Achten Sie
darauf, daß die Beschreibung 250 Zeichen
und die Schlüsselbegriffe 150 Zeichen nicht
überschreiten.
� Setzen Sie Phantom-Pixel (Größe 1 x 1, trans-
parentes GIF) in größerer Zahl ein, und ver-
sehen Sie die ALT-Tags mit den wichtigsten
Keywords Ihrer Seite. Plazieren Sie die Pixel
möglichst unauffällig.
� Der Einsatz von Headline-Tags anstelle von
Überschriften in größerer Schriftart unter-
streicht die Relevanz der Titel gegenüber
Suchmaschinen.
� Überprüfen Sie die Keywords Ihrer Konkur-
renten, und adaptieren Sie diese, wo es sinn-
voll erscheint.
� Melden Sie die wichtigsten Seiten Ihrer Site
zur Sicherheit noch einmal manuell bei den
Top-10-Suchmaschinen an, und wiederho-
len Sie diesen Vorgang bei Veränderungen
an den Inhalten.
Dies sollten Sie tunlichst vermeiden: Sie sollten
bei Ihren Aktion allerdings auch die entspre-
chende Sorgfalt walten lassen, da die Robots
oftmals Kontrollmechanismen integriert ha-
ben. Auf folgende Umstände reagieren sie
ziemlich allergisch, unter Umständen droht so-
gar der Rauswurf aus der Suchmaschine:
� Wiederholen Sie keine Begriffe in Ihren
Schlüsselbegriffen.
� Verwenden Sie keine unsichtbaren Texte
(Text in Hintergrundfarbe), in denen die
wichtigsten Begriffe mehrfach wiederholt
vorkommen.
� Plazieren Sie keine unzutreffenden Schlüs-
selbegriffe wie „Pamela Anderson“ auf Ihrer
Seite, um ein besseres Suchergebnis zu er-
zielen.
� Setzen Sie keine „Redirect“- oder „Refresh“-
Seiten ein, die die Relevanz Ihrer Schlüssel-
begriffe steigern.
Tips im Internet: Unter http://accusubmit.com/
secrets/engines.html finden Sie eine Übersicht
einiger großer Suchmaschinen, wie diese Ihre
Seiten untersuchen und was Sie im speziellen
dabei beachten sollten. Wenn Sie Ihre Seite ak-
tuell auf Plazierungen testen wollen, unter-
stützt Sie z. B. http://www.scorecheck.com bei
Ihren Überprüfungen. Andreas Hitzig
Der dritte große Part einer Such-maschine widmet sich der Strukturierungder gesammelten Daten. Durch simpleDatenbankabfragen können dann diegewünschten Informationen abgerufenwerden. Die erstellten Indizes werden abernicht in der Datenbank selbst gespeichert,sondern außerhalb abgelegt – aus Perfor-mance-Gründen und Platzproblemen. Inder Datenbank tauchen die gesammeltenBegriffe nur mit Verweisen auf die Indizesauf, in denen diese Begriffe gespeichertsind. Erfolgt nun eine Suchanfrage auf einbestimmtes Wort, wird in der Datenbanknach diesem gesucht, alle damit ver-bundenen Indizes gelesen, und nachDurchführung des Range-Rankings wirddieses dann dem Surfer in Form einesHTML-Dokuments grafisch aufbereitetpräsentiert.
Das Range-Ranking dient zur Bewer-tung der Relevanz einer Seite. So werdenSeiten, deren Relevanz für den entspre-chenden Suchbegriff hoch eingestuft wur-de, bei einem Treffer weiter oben gelistetals niedrig bewertete Seiten. Bei der Er-stellung der Treffer-Listen spielen zweiverschiedene Range-Ranking-Mechanis-men eine größere Rolle.
Der erste beschränkt sich darauf, dieWorthäufigkeiten innerhalb eines Doku-ments als Kriterium für das Ranking zunutzen. Bei einer Suche nach dem Begriff„Dijkstra“ würde in diesem Fall eine Sei-
te, in der dieses Wort fünfmal auftaucht,weiter oben aufgeführt werden als eine, inder es nur einmal vorkommt.
Eine komplexere Methode des Range-Rankings ist die Ermittlung der Zahl derSeiten, die auf ein spezifisches Dokumentverweisen. Je populärer eine Seite ist,desto höher wird sie eingestuft.
Selbstverständlich sind diese Mechanis-men nur Basistypen des Rankings. DieFunktionsweise läßt sich beliebig verfei-nern und kombinieren. So ziehen bei-spielsweise einige der zeitgemäßen Such-maschinen beim Zählen der Worthäufig-keiten auch die Schriftgröße des entspre-chenden Wortes in Betracht.= Cai Ziegler
ak
tue
lle
sm
ag
azi
np
rax
iste
stse
rvic
e
info
Rekursive Vorgehensweise des Spider
<Link>
<Link>
<Link>
<Link>
� �
� �
� �
� �
internet world mai 2000 99
Fast Search. Die nach eigenen Angabengrößte Suchmaschine der Welt ist beson-ders hinsichtlich zweier Funktionalitäteninteressant: der FTP-Suche und der MP3-Suche. Auf diesen beiden Gebieten liefertder Suchdienst sehr gute Ergebnisse. In an-deren Bereichen, vor allem bei der Qua-lität der Ergebnisse, sind noch Verbesse-rungen nötig, damit Fast auch die besteSuchmaschine der Welt wird.
Fireball. Eine übersichtliche Oberfläche,gute Suchergebnisse und vor allem über-durchschnittlich viele Selektionsmöglich-keiten bietet die deutsche SuchmaschineFireball. Sie können die Daten sowohl überdas Menü als auch über die Befehlszeileselektieren. Neben den bereits von Alta-Vista bekannten Möglichkeiten kann mitBefehlzeilen wie „KEYWORDS: internet world,deutschland, magazin“ auch über Meta-Tagseiner Seite selektiert werden.
GO. Sind Sie auf der Suche nach Infor-mationen über amerikanische Unter-nehmen oder an aktuellen Daten von un-seren Übersee-Nachbarn interessiert, lei-stet Ihnen die Suchmachine GO gute Dien-ste. Sie können hier speziell in aktuellenNeuigkeiten und einer gut gepflegten
� Um Ihnen die derzeit gebräuchli-chen Suchtechniken zu erläutern,
haben wir für unseren Vergleich einige derbeliebtesten deutschen und internationa-len Suchmaschinen ausgewählt. DerSchwerpunkt unserer Untersuchungen lagdabei zum einen bei den Besonderheitender Syntax der Suchmaschinen, zum an-deren haben wir auch die erwähnenswer-ten erweiterten Funktionen eingehend un-ter die Lupe genommen. In der Tabelle aufSeite 82/83 können Sie die wichtigsten Be-fehle und Features der Search-Enginesnachschlagen und vergleichen.
Allgemein. Einige Standards haben in-zwischen Einzug bei den Suchmaschinengehalten. Unterstützt eine Search-Enginedie Eingabe von Phrasen (siehe Übersicht),so werden zur Begrenzung entwederHochkommas oder in seltenen Fällen, wiebei MSN-Search, der korrespondierendeMenübefehl verwendet. Anders bei derEingabe von „AND“ und „OR“. Hier kanndie Eingabe eines Suchbefehls mit der Syn-tax „A B“ sowohl „A AND B“ als auch „AOR B“ heißen, das ist abhängig von derSuchmaschine.
Im Bereich der Suche nach unter-schiedlichen Medien haben die Such-maschinen dem allgemeinen Trend Rech-nung getragen. Viele klassische Such-maschinen bieten inzwischen spezielle
praxis suchmaschinen
info
BenutzerfreundlichkeitSuchmaschinen werden immer benutzer-
freundlicher. Die Selektion verläßt die Ein-
gabe der Selektionskriterien über die Kom-
mandozeile und bietet immer mehr Menüs
an. Auch die allgemeinen Suchmaschinen
reagieren inzwischen schnell auf aktuelle
Trends und bieten größtenteils spezielle
Suchmasken für Musik und sonstige Medi-
en an. Zusatzdienste wie Kinderschutz und
kostenlose Übersetzungsdienste sind auch
immer häufiger anzutreffen.
80 internet world januar 2000
Effektive Sucheim InternetSuchmaschinen sind die
Inhaltsverzeichnisse des
Internet. Jede Suchmaschine
hat ihre Stärken in bestimmten
Bereichen. Wir zeigen Ihnen,
welches Web-Trüffelschwein
wofür am besten geeignet ist.
Selektionen, vor allen für Musik-Files wieMP3-Dateien an.
AltaVista.com. Der Klassiker unter denSuchmaschinen hat die Syntax und dieFunktionalität maßgeblich geprägt. Immernoch ist AltaVista im Bezug auf die Such-kriterien tonangebend. Trotz des RelaunchEnde Oktober wurde auf eine umfangrei-che Oberfläche zur Eingabe verzichtet. Dieinteressanten Parameter werden noch im-mer im Eingabefeld eingetragen. So kön-nen Sie bei AltaVista den Suchraum spe-zifisch auf Ihre Anfrage einschränken. Da-zu stehen Ihnen die Befehle url, title, mail-to und link zur Verfügung. Wollen Sie bei-spielsweise nur Ergebnisse einer amerika-nischen Regierungsbehörde, so lautet derBefehl url:gov.
Ein Manko vieler Suchmaschinen ist dieAufbereitung der Ergebnisse. Hier geht Al-taVista neue Wege und bietet Ihnen eige-ne Sortierkriterien an, die Sie in der er-weiterten Suche eingeben können.
Bei komplexen Suchen hilft die Schach-telung von Aussagen, die bei AltaVista per-fekt funktioniert. Suchen Sie nach einem„Polo“ oder „Golf“, wollen aber keinenSportlink angezeigt haben, so heißt die Be-fehlszeile (POLO OR GOLF) AND NOT SPORT.
Inzwischen gibt es auch eine deutscheVariante des Suchdienstes, die unterhttp://www.altavista.de zu erreichen ist.
Bibliothek mit amerikanischen Unterneh-men schmökern. Auf den Einsatz von ANDund OR können Sie getrost verzichten, dain der erweiterten Suche alles über Drop-Down-Boxen eingegeben werden kann.Bei der Aufbereitung der Daten können Siedie Anzahl der Suchergebnisse und denUmfang der Beschreibung angeben – allesmenügesteuert.
HotBot. HotBot ist bereits recht früh vonder Kommandozeilen-Eingabe zu einerweitgehend menügesteuerten Eingabe-maske übergegangen und hat in diesemBereich auch noch immer die Spitzenpo-sition inne. Sie können die Inhalte der Sei-ten nicht nur direkt nach Mediendaten
che, Relevanz, Suchbereich und Katalogefür Ihre Bedürfnisse personalisieren. Eswerden 38 Sprachen zur Auswahl angebo-ten und auch die Verknüpfung mit Bild-,Ton- und Bücherarchiven verhilft bei vie-len Suchanfragen zum gewünschten Er-gebnis. Lycos ist eine der wenigen Such-maschinen, bei denen Sie die Reihenfolgeder Suchbegriffe festlegen können.
MSN-Suche. Neben einem Nachrichten-dienst in Zusammenarbeit mit dem ZDFhat sich die MSN-Seite inzwischen auchzu einer interessanten Suchmaschine ge-mausert. Die Qualität der Suchergebnissekann sich sehen lassen und über die Ex-pertensuche können Sie Inhalte einer Sei-te wie Bilder, Videos oder Musikdateiendirekt selektieren.
Northern Light. Das Nordlicht bietetnicht nur eine allgemeine Suche im Inter-net an, sondern betrachtet die Inhalte auchunter bestimmten Gesichtspunkten. Siekönnen Ihre Anfragen bei dieser Suchma-schine in den Bereichen Business, Invest-ment Research und Stock Quotes starten.
Letzteres liefert Ihnen aktuel-le Börsendaten, in den Invest-ment Researches finden SieWirtschaftsberichte von Un-ternehmen und kostenpflich-tige Interpretationen von Ex-perten. Sind Sie an Daten ei-nes speziellen Unternehmensinteressiert, verhilft Ihnen die„Business“-Suche schnell zuden richtigen Links. Damit Sieaufgrund allgemeiner Firmen-namen nicht irregeleitet wer-den, können Sie zusätzlichnoch die entsprechende Bran-che des gesuchten Unterneh-mens angeben.
= Andreas Hitzig
internet world januar 2000 81
ak
tue
lle
sm
ag
azi
np
rax
iste
stse
rvic
e
HotBot bietet eines der umfassendsten Menüs
zur Selektion von Seiteninhalten – ein Maus-
klick genügt
oder speziellen Technologien, sondernauch nach deren Endungen absuchen. Alshilfreich erweist sich auch die Einschrän-kung nach der Art der Seiten. Sie könnenangeben, ob Sie nur die Einstiegsseiten ei-ner Homepage wünschen oder bis zu wel-cher Ebene der Site noch ein Suchergeb-nis angezeigt werden soll.
Google. Die Suchmaschine Google ent-stand aus einem Forschungsprojekt derStanford Universität. Durch einen neuenAnsatz der Bewertung von Suchergebnis-sen schafft es die Suchmaschine, zum Teilüberdurchschnittlich gute Suchergebnissezu liefern. Interessant ist die Suchmaschi-ne besonders für Linux-Anwender, da ei-ne spezielle Suchvariante direkt auf ver-schiedene Ressourcen des Betriebssy-stems zugreift. Andere Varianten durch-suchen speziell die Seiten der US-Behör-den und der Stanford Universität.
Lycos.de. Beim deutschen Ableger vonLycos steht Benutzerfreundlichkeit anoberster Stelle. Mit der Profi-Suche kön-nen Sie Ihre Eingabe in den Bereichen Spra-
Klassiker Alta-
Vista: Auf aus-
ufernde Such-
menüs hat man
verzichtet – alle
Befehle werden
ins Eingabefeld
eingetragen, zu-
sätzlich gibt es
noch Sortier-
optionen
URLs
Suchmaschinen � AltaVista – http://www.altavista.com
� Fireball – http://www.fireball.de
� GO.COM – http://www.go.com
� HotBot – http://www.hotbot.com
� Fast Search – http://www.alltheweb.de
� Lycos.de – http://www.lycos.de
� MSN – http://www.msn.de
� Northern Light –
http://www.northernlight.com
Aus einem Forschungsprojekt der Universität
Stanford ist die Suchmaschine Google entstan-
den. Sie liefert Suchergebnisse ohne Werbung
Die deutsche Suchmaschine Fireball bietet bei
der Auswahl der Inhalte sehr detaillierte Selekti-
onsmöglichkeiten, leider noch innerhalb der
Kommandozeile
Suchen für Profis
82 internet world januar 2000
Alle Suchoptionen der wichtigsten SuchmaschinenName Acoon Aladin Allesklar AltaVista.com Crawler Eule Excite.de Fast Search Fireball
URL www. www. www. www. www. www. www. www. www.
acoon.de aladin.de allesklar.de altavista.com crawler.de eule.de excite.de alltheweb.com fireball.de
Allgemeine Einstellungen
Suche nach � � � � � � � � �allen Wörtern
Suche nach mindestens � � � � � � � � �einem Wort
Eingabe einer Frage � � � � � � � � �
Sortierung � � � � (Advanced � � � � �nach Domains Search)
variable Anzahl � � � � � � � � �Suchergebnisse/Seite
logische Operatoren
UND +A +B A B A AND B A AND B A B +A +B A AND B A AND B A UND B
ODER A B A ODER B A OR B A OR B A OR B A B A OR B Menü A ODER B
NOT -B � � NOT B � -B NOT B NOT B NICHT B
NEAR � � � A NEAR B A NEAR B � � � �
Suchbereiche
komplettes automatisch Menüoption automatisch � automatisch automatisch automatisch automatisch automatisch
Dokument
Titel � Menüoption � title:Begriff � � � � title:Begriff
Web-Adresse � Menüoption � url:Adresse � � � � url:Adresse
eMail-Adresse � � � mailto:Adresse � � � � mailto:Adresse
Meta-Begriffe � � � � � � � � keywords:
Begriff
Links � � � link:Hostname � � � � link:Hostname
Domains � � � domain:DE � � � � domain:DE
Applet � � � applet:Name � � � � applet:Name
Bild � � � Menü � � � � image:Name
Audio/MP3 � � � Menü � � � � �
Video � � � Menü � � � � �
Sonstiges
Wildcard inter* � inter* inter* � inter* � inter* inter*
Phrase � � „internet „internet „internet „internet Menü „internet „internet
world“ world“ world“ world“ world“ world“
Zusammenfassung � � � (A OR B) AND C � � (A OR B) AND C � �
Sortierung nach Relevanz k. A. nach Relevanz frei wählbar k. A. nach Relevanz nach URL eigene Logik nach Position,
oder Relevanz Frequenz
und Distanz
Sonderfunktionen Börsenkurse Firmensuche Suche nach Family Filter für Verschiedene Auswahl des FTP-Search Suche nach
PLZ und Ort, jugendgefähr- Ausgabemodi: Suchraums: Rubriken,
max. 500 dende Inhalte, Titel, Standard, weltweit, Europa, Live-Suche
Übersetzungs- Detail deutscher Sprach-
service raum
� = ja, � = nein
Zum Herausnehmen:
internet world januar 2000 83
Go Google HotBot Kolibri Lycos.de MSN-Search Northern Light Web.de Yahoo.de
www. www. www. www. www. search. www. www. www.
go.com google.com hotbot.com kolibri.de lycos.de msn.com northernlight.com web.de yahoo.de
� � � � � � � � �
� � � � � � � � �
� � � � � � � � �
� � � � � � � � �
� � � � � � � � �
A AND B A AND B A AND B Menü A AND B A AND B A AND B +A +B A +B
A OR B � A OR B Menü A OR B A OR B A OR B A B A B
NOT B NOT A NOT A � NOT B -B -B -B -B
� � � � A NEAR B � � � �
automatisch automatisch Menü automatisch automatisch automatisch automatisch automatisch automatisch
title:Begriff � Menü � Menü � title:Begriff Menü t:Begriff
url:Adresse � Menü Menü Menü Menü url:Adresse Menü u:Begriff
� � eigene Suche � Menü � � � �
� � � � � � � Menü �
link:Hostname link:url � Menü � Menü � � �
� � Menü � Menü Menü � Menü �
� � � � � � � Menü �
� � Menü Menü Menü Menü � Menü �
� � Menü Menü Menü Menü � � �
� � Menü Menü � Menü � � �
inter* inter* inter* inter* inter* inter* inter* inter* inter*
„internet „internet „internet � „internet Menü „internet „internet „internet
world“ world“ world“ world“ world“ world“ world“
� � (A OR B) AND C � (A OR B) AND C � (A OR B) AND C (A OR B) AND C (A OR B) AND C
nach Relevanz nach Relevanz k. A. nach Relevanz nach Domänen k. A. nach Relevanz k. A. nach Kategorien
oder Aktualität oder Datum
Suche nach Rubrik : Suche bei Umfangreiche Fun-Suche Kinder- Suchraum Suche nach Speicherung Alter der Doku-
Web, Topics, News, US-Regierung, Suchkriterien: sicherung eingrenzbar, COMPANY, umfang- von Such-Layout mente angeben
Companies u. News- Stanford Uni Sprache, Alter Doku- Erzeugungs- reiche Menüselek-
groups, Kinderfilter, und Linux mente, Dokumentin- datum, tionen zur Beschrän-
Suche innerhalb halte, Suchtiefe, ver- Inhalt selektierbar kung der Suchergeb-
Ergebnismenge wandte Begriffe nisse
Suchmaschinen-Poster
Liest man die Nachrichten dereinschlägigen Internet-Magazi-ne, dann könnte man meinen, die
Suchmaschinen geben allmählich das Su-chen auf. Die Dienstleister versuchen sichzunehmend mit Auktionen, als Commu-nity, mit privaten Homepages, als Free-Mailer oder als alles zusammen (dann nen-nen sie sich Portal). Ihre Kernaufgabe, demorientierungslosen Surfer beim qualifi-zierten Durchforsten der Internet-Land-schaft zu helfen, tritt zunehmend dahin-ter zurück.
Bereits vor einem Jahr (s. IW 7/98, S.86) stellten wir im ersten großen Such-maschinentest mit Verblüffung fest, daßDokumente zu aktuellen Themen nur sehrschwer zu finden sind, und daß alle Such-maschinen intern erhebliche Schwankun-gen in der Relevanz der Ergebnisse auf-wiesen. Das hat sich bis heute nicht geän-dert. In puncto Performance sind zwar al-le Maschinen besser geworden – mit Aus-
nahme von Excite, Eule undInfoseek – in Sachen Qualitätder gefundenen Dokumen-te hat sich dagegen nichtviel getan.
Angesichts der Tatsa-che, daß immer mehrNeulinge ins Web vor-
dringen, die in der Benutzung von Com-putern wenig geübt sind, ist es geradezufahrlässig, als Einschränkung der Sucheeinen Begriff wie „DE-Sites“ zu verwen-den (Excite). Erstens versteht nur ein er-fahrenen Surfer, was damit wirklich ge-meint ist und zweitens ist der Sinn einersolchen Einschränkung kaum faßbar,denn seit wann sagt eine Top-Level-Do-main wie .de etwas über den Inhalt aus?
Testmethode. Wie im letzten Jahr ha-ben wir auch dieses Mal eine Liste vonzehn verschiedenen Suchanfragen abge-arbeitet. Dabei haben wir die Menge derTreffer, deren Qualität und die Fehlerhäu-figkeit bewertet. In allen Suchmaschinenwurden einzelne Testanfragen zu ver-schiedenen Tageszeiten und Wochentagenwiederholt, um auch eine verläßliche Aus-sage in Sachen Performance zu bekom-men. Der Bewertung der Qualität der Such-ergebnisse haben wir drei Kriterien zu-
grundegelegt: Die Aktualität einer Infor-mation, die Relevanz der Information unddie Existenz der gesuchten Begriffe. Be-sonders bei tagesaktuellen Themen wiezum Beispiel der Rentenreform-Diskussi-on ergibt sich hier eine unangenehmeSpreizung. Der Suchbegriff taucht beiStandarddokumenten der ÖTV genausoauf wie in der aktuellen Wirtschaftsmel-dung der Berliner Morgenpost.
Im Gegensatz zur letztjährigen Recher-che haben wir Zusatzdienste, die nicht zurSuche gehören, außen vor gelassen. Esgeht hier nicht um die Bewertung als Por-tal, sondern um die reine Suchfunktion.Auch die Anzahl gefundener Dokumentespielte für uns keine Rolle, weil sie nichtsüber die Qualität des Ergebnisses aussagt.Wir haben pro Suchanfrage die ersten 20gefundenen Treffer begutachtet und be-wertet.
Die Konsistenz der Treffer spiegelt dieMenge der Links wieder, die zu einem Zielführen. Die Relevanz zeigt die Ergebnisse,die den gewünschten oder einen passen-den Inhalt haben. Negativ macht sich inder Relevanz bemerkbar, wenn eine Such-maschine Verweise auf andere Suchma-schinen und Bücherdienste wie vor allemAmazon im Überfluß führt. Auchsollten gute Suchmaschinen in der
108 internet world oktober ’99
test suchmaschinen-vergleich
Werden Suchmaschinen zunehmend zu
Traffic-Generatoren für Portaldienste
mißbraucht? Im zweiten großen
Suchmaschinentest prüfte Internet World die
Qualität der Web-Navigatoren.
Was leisten
deutsche Spürhunde?
test-protokoll
Neun deutsche Suchmaschinen im VergleichSuchmaschine Altavista Fireball Intersearch Lycos/AOL Netfind Infoseek MSN Lotse Excite/Netcenter Eule
Adresse http://www.altavista.de http://www.fireball.de http://www.intersearch.de http://www.lycos.de http://www.infoseek.de http://www.msn.de http://www.lotse.de http://www.excite.de http://www.eule.de
Funktionalität
Treffer Durchschnitt 326.533 119.050,90 857,8 867 394.474,30 139,5 nicht zu ermitteln nicht zu ermitteln 58.443,90
Gicht 1.919 2.171 1.253 1.656 3.295 215 nicht zu ermitteln nicht zu ermitteln 434
Rezept + Kartoffelsalat 1.370 1.353 120 237 1.636 15 nicht zu ermitteln nicht zu ermitteln 18
Rentenreform 2.073 5.917 2.782 2.638 3.929 513 nicht zu ermitteln nicht zu ermitteln 1.163
Machtwort + Schröder 25.567 42.282 185 95 49.962 41 nicht zu ermitteln nicht zu ermitteln 8
CD Simply Red 570.153 332.011 1.494 1.074 1.003.472 17 nicht zu ermitteln nicht zu ermitteln 94.244
Film + Kevin Costner + 1.570 33 66 30 107 10 nicht zu ermitteln 14 530Paul Newman
Fernsehprogramm + 260.870 199.270 270 402 81.930 71 nicht zu ermitteln nicht zu ermitteln 32Montag
Stadtplan + Konstanz 31.134 25.896 202 221 45.174 57 nicht zu ermitteln nicht zu ermitteln 21
Job Marketing Berlin 2.370.660 581.569 2.206 2.248 2.755.229 454 nicht zu ermitteln nicht zu ermitteln 365.516
„Die Straße der 15 7 0 70 15 2 13 nicht zu ermitteln 122.470Ölsardinen“
Trefferquote 57,50% 57,30% 47,50% 45% 46% 54,00% 49,20% 56,70% 50,50%
Komplexe Abfragen 2,3 2,6 2,2 3,5 2,5 4,2 2,9 2,9 3,8
Aktualität 2,8 1,6 1,8 3,2 1,8 3,1 3,8 2,6 4
Konsistenz 88% 94% 94% 88,50% 94,80% 93% 98,50% 93% 87,80%
Bewertung 2,8 2,6 3,1 3,3 2,9 3 2,9 2,9 3,2
Komfort/Qualität klar und einfach ok. ok., Suchmaske nur zusätzliche Such-Links ok. ok. ok. ergänzende Suchbegriffe ok.am Fuß der Ergebnisseite
Übersicht gut Seite sehr voll gut schlechte Färbung keine Farbe auf ok. ok. keine Mengenangabe ok.besuchter Links besuchten Links der Treffer
Ergebnisanzeige einfach, Größe und Relevanzanzeige in %, sehr gut, Anzeige der inkl. Größe, Relevanz, gut, Anzeige mit Datum, spartanisch spartanisch Link zur „ähnlichenSeite“ viele Doppler, nurDatum fehlen sonst spartanisch, Fundstelle (Meta,Titel, Domain URL, Größe, Ergebnis irreführend, wahlweise Relevanz in %, Anzeige
gelegentlich leere URL,Text), Anzeige mit nach Datum sortierbar Anzeige als Titelliste oder detailiert, Standard oder Headlines Datum und Größe mit Beschreibung nur Titel
Besonderes wenig Doppler, Übersetz- Relevanz fällt schnell ab, gefundene Begriffe einige Doppler, detaillierte stark schwankende Rele- Verknüpfungen fragwürdig, keine Suchtips, Links auf eigenen Katalog, zeigt sogar identische URLsung, Profisuche mit mögliche Erweiterung der werden gefärbt Suche bringt kaum vanz, Anfrage kann direkt Bool’sche Operatoren keine Profisuche Suche nach Domain- mehrfach, detaillierteDatumseingrenzung Suche auf einen Host oder bessere Ergebnisse erweitert werden müssen als solche ausge- Herkunft Suche bringt keinen
dessen Ausschluß sind wiesen werden, sonst setzt Unterschiedwenig hilfreich MSN automatisch AND
Wertung Komfort/Qualität 2,4 2,6 2,4 2,6 2,2 3 2,8 2,8 3,2
Geschwindigkeit
Einfache Anfrage 1,9 2,2 2,5 2,2 3,2 2,4 2,7 3,8 3,3
Komplexe Anfrage 1,9 2,4 2,8 2,5 3,5 2,5 3 4 3,8
Wertung Geschwindigkeit 1,9 2,3 2,7 2,4 3,4 2,5 2,9 3,9 3,6
Gesamtwertung 2,4 2,5 2,7 2,8 2,8 2,8 2,9 3,2 3,3
Plazierung 1. Platz 2. Platz 3. Platz 4. Platz 5. Platz 6. Platz 7. Platz 8. Platz 9. Platz
11
0in
tern
et w
orld
okto
be
r ’99
test su
chm
aschin
en
-verg
leich
Lage sein, identische Sites auf verschie-denen URLs zu erkennen und zu filtern.
Das Ergebnis. Die allgemeine Schwarz-seherei in Sachen Qualität von Suchma-schinen hat heute keinen Bestand mehr.Zu allen Suchbegriffen wurden von allenSuchmaschinen passable Ergebnisse er-bracht. Einzig die sehr weite Einschrän-kung auf den exakten Terminus „DieStraße der Ölsardinen“ brachte die eineoder andere Maschine an den Rand derVerzweiflung. Fast durchweg nur ausrei-chende Ergebnisse erzielten die Suchma-schinen bei der Suche nach aktuellen The-men. Machtworte Schröders waren auch1997 schon zu finden, und die Diskussionum die Rentenreform reicht noch weiterzurück. Hier zeigen Infoseek und MSN einhervorragendes Feature, nämlich die Sor-tierung nach Datum. Besonders beiMSN kamen brandaktuelle Dokumen-te auf den Schirm, die bei der norma-len Suche nicht unter den ersten 20 ge-landet waren.
Ein weiteres überraschendes Ergeb-nis erbrachte die Suche nach der aktu-ellen Simply Red CD. Keine Suchma-schine brachte einen der großen CD-Händler unter den ersten 20 mit demdirekten Verkaufsangebot. Statt dessen– und das ist aus unserer Sicht erfreu-lich – rangieren vor allem zu diesemThema private Homepages ganz oben.Als Testsieger geht Altavista hervor. Beiallen Anfragen findet die Maschine un-ter den ersten 20 Treffern mindestensfünf wirklich passende Sites. Die
Sucheingabe ist klar und einfach und fürden Profi jederzeit mit Bool’schen Opera-toren erweiterbar. Direkt dahinter rangiertFireball. Deren Stärke liegt in der Aktua-lität der Dokumente. Dagegen muß sie inSachen Performance hinter Altavistazurückstecken.
Trotz der akzeptablen Leistung mußauch Altavista allerhand Kritik einstecken.Die Darstellung der Ergebnisse genügtnicht mehr dem aktuellen Stand. Man wür-de sich die Angabe von Dateigröße undBearbeitungsdatum wünschen. Die Rele-vanz spielt keine besondere Rolle. Auchdie Links zur weiterführenden und ergän-zenden Suche vermißt man schmerzlich.
Alternativ dazu bietet Altavista dieMöglichkeit, Fundstellen übersetzen zulassen. Für eine erste Übersicht über denInhalt des Gefundenen kann das sinnvoll
sein. Für mehr allerdings nicht, da die Qua-lität der Übersetzung nicht ausreicht.
Bei der Wiederholung der Suchen hatsich ergeben, daß die Anzahl der gefunde-nen Treffer sehr schnell steigt. Wir habenaber die Ergebnisse der ersten Abfrage alsReferenz aufgeführt. Der Wert ist ohnehinein theoretischer und für die Qualität dergefundenen Ergebnisse nicht relevant. Bei„Schröders Machtwort“ aber sank die Zahlder Treffer innerhalb eines Tages um einpaar hundert. Innerhalb der ersten 20 Tref-fer änderte sich nichts. Sollte die Redukti-on tatsächlich einer Bereinigung der Da-tenbank entsprechen, wäre das sehr er-freulich. Näher liegt die Vermutung, daßdie Datenbank nicht ganz konsistente Tref-ferzahlen auswirft, denn bei jeder Suchan-frage unterscheiden sich Ergebnisse auf derersten Seite von denen auf der zweiten.
Nachbessern muß vor allem Eule inder erweiterten Suche – die bringt keinanderes Ergebnis als die normale. AuchLotse sollte in Sachen Benutzerführungund Hilfe nachlegen. Enttäuschend istdie Leistung von Excite. Beim Thema„Gicht“ findet die Suchmaschine neunMal einen Buchtip bei Amazon. Beim„Machtwort“ landen die Links eins,drei und sieben direkt im 404-Nirvanaund das „Fernsehprogramm für Mon-tag“ bringt an dritter Stelle schon städ-tische Müllabfuhrtermine. Auch Info-seek sortiert seine Treffer nicht gut: Un-ter „Gicht“ erscheint zehn Mal eine Siteeines Hamburger Heilpraktikers aufverschiedenen Free-Hostern.
= Frank Puscher
112 internet world oktober ’99
test suchmaschinen-vergleich
Vorbildlich: Excite bietet dem User passende
Begriffe für eine Erweiterung der Suche an
Intersearch zeigt nicht nur die Menge der Einzeltreffer, son-
dern auch deren Fundstelle an
Excite liefert statt des
gesuchten aktuellen
Fernsehprogramms die
Termine der Müllabfuhr,
was auch als Wink mit
dem Zaunpfahl verstan-
den werden kann
Durch die Kooperation mit einigen Nachrichtenanbie-
tern zeigt sich auch MSN von seiner aktuellen Seite, vor
allem, wenn man den Zeitraum eingrenzt
M Es war ein schwarzer Tag im Lebender Christie Hefner, Tochter von
Hugh Hefner und mittlerweile Chefin desPlayboy-Imperiums. Ihre Firma hatte ge-klagt – gegen die SuchmaschinenbetreiberExcite und Netscape – und schließlich ver-loren. Im Gerichtsverfahren ging es vor al-lem um die Frage, ob Suchmaschinen le-gal handeln, wenn sie zu bestimmtenSchlagworten Werbebanner einblenden,die sie vorher an die zahlungskräftigeKundschaft verhökert hatten. Im konkre-ten Fall hatte Excite Werbebanner ver-kauft, die bei den Suchbegriffen „Playboy“und „Playmate“ eingeblendet wurden.Playboy sah darin einen klaren Verstoß ge-gen das Markenrecht und klagte auf Un-terlassung. Beklagter im Rechtsstreit wargleichzeitig auch Netscape, die im Net-center den Suchservice von Excite benut-zen. Das Gericht schmetterte die Klage ab.Nach Ansicht von Rechtsexperten ist dasUrteil für die Suchmaschinenbetreiber nurein Pyrrhus-Sieg und noch lange keinGrund aufzuatmen. Das Gericht hat esnämlich versäumt klarzustellen, ob derVerkauf von eingetragenen Markennamenals Suchbegriff an einen Dritten eine ge-nerelle Verletzung des Markenrechts dar-stellt oder nicht. Es entschied, daß „Play-boy“ und „Playmate“ allgemeine, generi-
sche Begriffe seien und Playboy daher keinmarkenrechtliches Monopol beanspru-chen könne. Medienanwältin JessicaFriedman: „Das Gericht befand sich in ei-ner Zwickmühle. Hätte es für „Playboy“entschieden, würden der englischen Spra-che Begriffe geraubt, die nicht nur die Wa-ren und Dienstleistungen von Unterneh-men bezeichnen.“ Ganz anders sieht esdemnach bei Wörtern aus, die nicht ge-nerischen Ursprungs sind, also beispiels-weise bei Unternehmensnamen wieMicrosoft, Hewlett-Packard usw. „Sun“hingegen hätte ähnliche Schwierigkeiten
wie „Playboy“. Dabei ist die Einblendungvon Bannern in Abhängigkeit von Such-begriffen bei vielen Unternehmen eine be-liebte und gängige Marketingstrategie. DieZuordnung erlaubt gezieltere Werbungund damit eine eindeutigere Einkreisungder Zielgruppe, auch ohne Benutzerprofi-le. Für die Suchmaschinen ist der Banner-verkauf die einzige Erlösquelle. Noch willniemand für schlechte Suchergebnisseauch nur einen Pfennig zahlen. Erst kürz-lich belegte die Zeitschrift „Nature“ in ei-ner Studie, daß Suchmaschinen mitder Indexierung der Internet-Inhalte
40 internet world september ’99
magazin suchmaschinen
Die Betreiber von
Suchmaschinen stecken in
der Klemme. Lassen sich
mißliebige Suchergebnisse
per einstweiliger
Verfügung unterdrücken?
Dürfen Werbebanner nach
markenrechtlich
geschützten Schlagworten
verkauft werden?
Nackte Tatsachen
»haften suchmaschinenbetreiberbei meta-tag-klau?«
überfordert sind. Nur maximal 16 Prozentdes WWW würden von den Suchmaschi-nen-Robots erfaßt. Insgesamt katalogisie-ren sämtliche Maschinen zusammenge-nommen nur etwa 40 Prozent aller Seitenim Internet. Kein Wunder also, daß einezahlungswillige Klientel noch nicht in
Sicht ist. Experten geben dennoch Ent-warnung: Das Bunny-Urteil wäre selbstbei einem Erfolg des Playboy-Konzerns fürdie Suchmaschinenbetreiber kein Genick-bruch gewesen. Die Werbeerlöse seiennicht abhängig von der Schlagwort-Ver-knüpfung. Suchmaschinen gehören nochimmer zu den am stärksten frequentierten
42 internet world september ’99
magazin suchmaschinen
Sites im Web und sind schon allein des-halb für die Werbeindustrie unerläßlich.
Noch ein anderes Problem macht denSuchmaschinenbetreibern aber derzeit zuschaffen. Eine Suche nach speziellenSchlüsselbegriffen bei unterschiedlichenAnbietern bringt es an den Tag: Je nachLust und Laune spuckt die Software dieunterschiedlichsten Homepages aus. EinBlick in die Meta-Tags oder Beschrei-bungstexte der aufgelisteten Seiten zeigtdeutlich: Meta-Tags wimmeln nur so von
Markenbegriffen, in Beschreibungstextenziehen die Betreiber alle Register, um auchden letzten Surfer auf die eigene Home-page zu locken. Bekannte Beispiele kom-men von Pornoanbietern, die zum Teilauch vor Begriffen wie „Kinderpornogra-fie“ nicht haltmachen, um ihre hartgesot-tene und oft zahlungswillige Klientel an-zulocken. Rechtlich ist die Situation beiden Betreibern der Suchmaschinen hier-zulande ähnlich unklar wie in den USA.
Hinzu kommt die Frage, ob Suchmaschi-nenbetreiber nicht generell für aufgeliste-te Internet-Adressen haftbar zu machensind, die mit der gesuchten Informationnicht im Zusammenhang stehen. Rechts-anwalt und Online-Kenner Oliver Süme istsich sicher (siehe Kasten): Ein Anspruchauf Unterlassung besteht durchaus auchgegen Suchmaschinenbetreiber, weil dieerreichte Plazierung durch die Softwaredes Suchmaschinenbetreibers verursachtworden sei. Da ein Unterlassungsanspruch
gegenüber jedem besteht, der eine rechts-widrige Einwirkung zum einen mitverur-sacht hat und sie zum anderen wieder ver-hindern kann, müssen auch die Suchun-ternehmen zittern.
Ähnliches gilt auch für den „Playboy“-Fall. Mit dem Urteil abfinden, will sich dieHeerschar der Anwälte nicht: Das Unter-nehmen wird Berufung gegen die Ableh-nung der Unterlassungsklage einlegen.
= Pit Klein
Christie Hefner, Chefin des Playboy-Imperiums
tip
Rechtsanwalt Oliver Süme zum Thema:
„Neben dem Verwender von rechtsverletzen-
den Meta-Tags kann auch gegen den Betrei-
ber einer Suchmaschine grundsätzlich dann
ein Unterlassungsanspruch bestehen, wenn
die Meta-Tags noch verwendet werden und
der Betreiber von diesem Verhalten Kenntnis
erlangt.Schwieriger wird es dann,wenn durch
dieses Verhalten erst ein guter Listenplatz er-
reicht wird, ohne daß Suchmaschinenbetrei-
ber oder der Geschädigte dies mitbekommen
haben und die entsprechenden Tags dann be-
seitigt werden,wenn der Platz erreicht und der
rechtswidrige Wettbewerbsvorteil erlangt ist.
Besteht dann noch ein Anspruch gegen den
Betreiber der Suchmaschine auf Beseitigung
der Plazierung ?
In diesem Fall geht es für den Betreiber der
Suchmaschine nicht mehr um die Verantwor-
tung für rechtswidrige fremde Inhalte, denn
die Tags sind beseitigt und der Inhalt der ge-
listeten Seite ist nicht mehr rechtsverletzend.
Die Haftungsregelung der vorher noch ein-
schlägigen Regelung des §5 Teledienstgesetz
ist daher nicht mehr einschlägig. Zurückzu-
greifen ist daher auf die allgemeinen gesetz-
lichen Unterlassungsregeln.
Dabei gilt der Grundsatz, daß ein Unterlas-
sungsanspruch gegenüber jedem bestehen
kann, der eine rechtswidrige Einwirkung zum
einen mit verursacht hat und sie zum anderen
wieder verhindern kann. Die erreichte Plazie-
rung ist hier durch den Suchmaschinenbe-
treiber verursacht worden,nämlich durch den
Einsatz der Software, auf der die Suchmaschi-
ne basiert und die Plazierung möglich macht.
Da der Betreiber diesen Zustand auch verhin-
dern kann, kann ein Unterlassungsanspruch
gegeben sein. In der Praxis müßte dann aller-
dings durch den Geschädigten bewiesen wer-
den, daß genau die erreichte Plazierung
hauptsächlich auf der Verwendung eines be-
stimmten Meta-Tags beruht. Unter diesen
Umständen kann ein Unterlassungsanspruch
auch gegen den Betreiber der Suchmaschine
gegeben sein.Sollte in einem solchen Fall eine
außergerichtliche Einigung scheitern,können
je nach Einzelfall die Voraussetzungen einer
einstweiligen Verfügung gegeben sein, die
dem Anspruchsteller schnellen, aber nur vor-
läufigen Rechtsschutz gewährt.“
Haftung von Suchmaschinenbetreibern
»ein anspruch auf unterlassungbesteht auch bei
suchmaschinenbetreibern«
Der Stein des Anstoßes:
Hardcore-Banner bei Excite
Das Internet macht’s möglich, daß
auch die aufgeräumteste Fest-
platte im heimischen PC nach kur-
zer Zeit aus allen Nähten platzt.
Ein Download hier, ein interessan-
tes Dokument dort... nur Vorsicht!
Es wird erst einmal alles gespeichert und
natürlich auch gleich in einem eigenen Ver-
zeichnis verstaut, um Ordnung ins Chaos zu
bringen. Doch spätestens dann, wenn ein
Freund oder eine Kollegin dringend nach Rat
fragen und man genau weiß, daß man erst
vor ein paar Wochen genau diese Informati-
on auf Platte gebannt hat, geht die Suche
los: Ein Doppelklick hier, ein Doppelklick
dort, ach nein, da war doch noch das Unter-
verzeichnis, oder war es doch nicht hier?
Spätestens jetzt wünscht man sich den
berühmten kleinen Helfer herbei, der dem
Gedächtnis auf die Sprünge hilft und die Su-
che in akzeptabler Zeit zu einem erfolgrei-
chen Ende bringt. In diesem Artikel stellen
wir glimpse (steht für GLobal IMPLicit SE-
arch) vor, ein Programmpaket zur Indizie-
rung und zur Volltextsuche im lokalen Datei-
system, das auch bei großen Datenmengen
sehr gute Ergebnisse präsentiert. Außerdem
zeigen wir, wie man sich glimpse auf der ei-
genen Web-Site zunutze macht, ohne mäch-
tige aber meistens auch sehr teure Suchma-
schinen installieren zu müssen.
SUCHEN UND FINDEN –EIN ÜBERBLICKEs existieren prinzipiell zwei völlig unter-
schiedliche Ansätze, um in Textdateien nach
Informationen zu suchen. Grep und ähnliche
Tools, welche sehr schnell eine kleine Da-
tenmenge mit Hilfe von regulären Aus-
drücken durchsuchen, und indexbasierte
Werkzeuge, die typischerweise einen sehr
großen Index benötigen, der generiert wer-
den muß, bevor eine Suche stattfinden kann.
Diese sind dann allerdings auch bei der Su-
che in sehr großen Datenmengen äußerst
schnell.
Indexbasierte Tools verwenden meistens so-
genannte invertierte Indizes, bei denen für
jedes Wort (außer natürlich Worte wie „der“,
„die“, „das“, „ein“, „und“,...) vermerkt wird,
in welchen Dateien es in welchen Zeilen vor-
kommt. Dadurch müssen bei einer späteren
Suche nicht mehr alle indizierten Dateien
einzeln durchsucht werden. Es genügt dann,
den Index nach dem gesuchten Begriff zu
durchsuchen. Da für diesen vermerkt wurde,
wo er vorkommt, kann dann gezielt und da-
durch sehr schnell auf die entsprechende
Stelle in einer Datei zugegriffen werden. Der
große Nachteil bei diesem Ansatz für den
Heimanwender ist die Größe des Indizes, die
typischerweise bei 50 bis 300 Prozent der in-
dizierten Datenmenge liegt. Während dies
bei den kommerziellen Suchmaschinen kei-
ne so große Rolle spielt (Plattenplatz wird
immer billiger), wird man es sich zweimal
überlegen, ob man dem heimischen PC eine
zweite Festplatte spendiert, nur um den In-
dex unterzubringen.
Ein weiterer Nachteil eines invertierten
Index ist die Tatsache, daß Suchbegriffe ex-
akt angegeben werden müssen. Informatio-
nen mit Schreibfehlern werden nicht gefun-
den.
Glimpse ist eine Mischung aus den bei-
den beschriebenen Ansätzen. Es verwendet
ebenfalls einen Index, der allerdings in der
Regel weniger als fünf Prozent der Ur-
sprungsdatengröße benötigt. Die Suche
berücksichtigt auch Schreibfehler, so daß
auch Buchstabendreher oder vergessene
Buchstaben das Suchergebnis nicht beein-
flussen (den „Antrieb“ der Suchmaschine
liefert agrep). Man kann glimpse auch nur
die „besten“ Treffer anzeigen lassen, wel-
ches hier diejenigen mit den wenigsten Feh-
lern bzw. Abweichungen sind. Aufgrund der
sehr kleinen Indexgröße ist glimpse langsa-
mer als Suchmaschinen, die einen lupenrei-
nen invertierten Index verwenden. Die War-
tezeiten bewegen sich aber trotzdem bei
ausgedehntem Suchen noch im einstelligen
Sekundenbereich. Die kleine Indexgröße
wird dadurch erreicht, daß eine zweischich-
tige Suche angewandt wird. Für die indizier-
ten Begriffe wird nicht deren exakte Position
vermerkt, sondern nur die Nummer des
Blocks, in dem sich ein Begriff befindet. In-
nerhalb dieses Blocks wird dann wieder auf
die „herkömmliche“ Art gesucht, um die ex-
praxisSUCHMASCHINE
77internetworld juli ’99
aktu
elles
magazi
npra
xis
test
serv
ice
Such!!Ob Intranet oder Internet: Informationen zu finden istdas A und O. Die Lösung heißt Suchmaschine – aber wieprogrammiert man eine?
Parameter mögliche Werte Bedeutung-H Verzeichnis wo befindet sich der Suchindex?
-b baut einen größeren Index (20-30%)
-o baut einen mittelgroßen Index (7-9%)
-a fügt dem Index die angegebenen Dateien hinzu
-d entfernt die angegebenen Dateien aus dem Index
-f fügt nur die Dateien dem Index hinzu, die sich seit
dem letzten Durchlauf geändert haben
-X extrahiert aus HTML-Dokumenten deren Titel-Tag
-F die Dateinamen für den Index werden von Standard-
eingabe gelesen
-i .glimpse_include hat Vorrang vor .glimpse_exclude
Die wichtigsten Parameter von glimpseindex
INFO
akte Position herauszufinden. Auch hier ist
aber nicht alles Gold was glänzt. Bei Such-
begriffen, die aus mehreren Wörtern beste-
hen, bekommt glimpse Schwierigkeiten,
wenn jedes Wort für sich sehr häufig gefun-
den wird, die Kombination der Wörter aber
eher selten ist. In diesem Fall nähert sich die
Performance eher der nicht-indizierten Voll-
textsuche an.
Doch nun genug der Theorie. Anhand ei-
ner kleinen (aber voll funktionsfähigen)
Suchmaschine für ein Web-Site werden wir
jetzt eines von vielen Einsatzgebieten von
glimpse in Aktion zeigen.
DIE WEB-SITE-SUCHMASCHINEDie Verwendung von glimpse besteht immer
aus zwei Teilen. Zuerst muß für den Bereich
im Dateisystem, auf dem später die Suche
stattfinden soll, in unserem Beispiel dem
„Document-Root“ des Web-Servers, ein In-
dex erstellt werden. Im zweiten Teil findet
dann unter Verwendung dieses Indizes die
eigentliche Suche statt.
Die Indizierung übernimmt das Programm
glimpseindex, welches Bestandteil des Ge-
samtpakets ist. Einen ersten Index erhält
man durch den Aufruf:
glimpseindex –X –H
/glimpse/ersterIndex /HTMLDokumente
glimpseindex erzeugt daraufhin im Verzeich-
nis/glimpse/ersterIndex einen Index aller in-
dizierbaren Textdateien, die es im Verzeich-
nis /HTMLDokumente findet. Der Parameter
–X veranlaßt das Programm dazu, zu HTML-
Dokumenten im Index auch deren Titel zu
speichern, der dann später im Suchergebnis
wieder auftaucht. Bei der Indizierung wer-
den auch Unterverzeichnisse berücksichtigt.
Standardmäßig erzeugt glimpseindex
den kleinstmöglichen Index. Möchte man die
Suche beschleunigen, so kann man mit den
Parametern –o und –b einen mittleren (7-8
Prozent) bzw. einen großen (20-30
Prozent) Index erzeugen lassen. Im
Indexverzeichnis befinden sich nun
mehrere Dateien, deren Namen al-
le mit „.glimpse_“ beginnen. In
„.glimpse_filenames“ stehen bei-
spielsweise die Namen der Datei-
en, die indiziert wurden. Fehlermel-
dungen stehen in „.glimpse_mes-
sages“ und den Index selbst findet
man in „.glimpse_index“. Stan-
dardmäßig werden alle Dateien in-
diziert, die glimpseindex im ange-
geben Verzeichnis findet.
Dieses Verhalten kann man
steuern, indem man mit einem Tex-
teditor die Dateien „.glimpse_in-
clude“ und „.glimpse_exclude“ an-
legt. In diesen kann man angeben, welche
Dateien berücksichtigt bzw. nicht berück-
sichtigt werden sollen. Zeilenweise gibt man
reguläre Ausdrücke (wie bei der Verwendung
von grep-Tools) an, mit denen Dateinamen
verglichen werden. Der Eintrag „*.zip$“ in
„.glimpse_exclude“ bedeutet beispielswei-
se, daß ZIP-Archive nicht indiziert werden
sollen. Einträge in „.glimpse_exclude“ ha-
ben Vorrang vor Einträgen in „.glimpse_ in-
clude“ (außer bei Verwendung des Parame-
ters –i, siehe Kasten).
Normalerweise sind
diese Einträge aller-
dings nicht notwendig,
da glimpseindex recht
gute Annahmen darü-
ber macht, welche Da-
teien Index-fähig sind
und welche nicht. Dies
ist alles, was man an In-
formationen für den An-
fang benötigt. Einige
weitere Parameter sind
im Info-Kasten be-
schrieben.
Die Suche auf dem
gerade erzeugten Index
übernimmt das Programm glimpse selbst.
Die einfachste Suche sieht wie folgt aus:
glimpse –U –H /glimpse/ersterIndex
suchbegriff
Als Ergebnis bekommen wir nun jedes ein-
zelne Vorkommen von Suchbegriff in den in-
dizierten Dateien. Die Sonderbehandlung
von HTML-Dateien, ähnlich wie bei der Er-
praxisSUCHMASCHINE
78 internetworld juli ’99
Weitere Infos zumglimpse-PaketDas komplette glimpse-Paket können
Sie von http://glimpse.cs.arizona.edu
laden, wo es sowohl als Sourcecode
als auch in Binärform verfügbar ist.
Wenn Ihnen der Aufwand zu groß ist,
glimpse in die eigene Web-Site einzu-
bauen, sollten Sie einen Blick auf Web-
Glimpse werfen (http://glimpse.cs.
arizona.edu/webglimpse).
Aufsetzend auf einem glimpse-Index
ist es ein Leichtes, eine komplette Site
mit einer Suchmaske zu versehen. Lei-
der ist noch kein komplettes Windows-
Paket von glimpse verfügbar. Die
eigentliche Suchmaschine, agrep,
wurde aber bereits portiert (unter
http://www.geocities.com/SiliconVal-
ley/Lakes/4889/agrep.html). Damit
können Sie die flexible und schreib-
fehlertolerante Suche implementie-
ren. Es fehlt aber noch die Indexerstel-
lung.
INFO
<HTML>
<HEAD>
<TITLE>Lokale Suchmaschine</TITLE>
</HEAD>
<BODY BGCOLOR=#FFFFFF>
<H1>Suche in lokaler Website</H1>
<FORM ACTION=glimpse.cgi>
Suchbegriff: <INPUT TYPE=TEXT name=suchbegriff>
<INPUT TYPE=submit VALUE=Suche
</FORM></BODY></HTML>
HTML-Formular
LISTING 1
Suchergebnis für den Suchbegriff „Wettbewerb“ auf der Internet-
World-Homepage – die Trefferanzahl sagt aus, wie häufig der Such-
begriff auf dieser Seite vorkommt
stellung des Indizes, erzwingen wir durch
den Parameter –U. Damit bekommen wir
nicht nur den Dateinamen, sondern eben
auch den Titel des HTML-Dokuments mitge-
liefert.
Da man beim Suchergebnis innerhalb ei-
ner Web-Site nicht an jedem einzelnen Vor-
kommen des Suchbegriffs interessiert ist,
sondern nur an den Dokumenten, die den
Suchbegriff enthalten (auch mehrfach), ge-
ben wir noch den Parameter –c mit an. glimp-
se zählt dann nur noch die Anzahl der Treffer
pro Dokument, liefert diese aber nicht mehr
einzeln als Ergebnis. Das Suchergebnis hat
dann schließlich den folgenden Aufbau:
Dateiname1 Titel1: Trefferanzahl1
Dateiname2 Titel2: Trefferanzahl2
Dateiname3 Titel3: Trefferanzahl3
Dateiname4 Titel4: Trefferanzahl4
Dateiname5 Titel5: Trefferanzahl5
...
...
Mit diesen Grundlagen sind wir jetzt gerü-
stet, um unsere Suchmaschine zu realisie-
ren. In Listing 1 ist das HTML-Formular abge-
bildet, welches wir verwenden, um unsere
Suchparameter einzugeben – nichts Weltbe-
wegendes, aber es erfüllt seinen Zweck. Das
CGI-Gegenstück ist in Listing 2 zu sehen. In
den Zeilen 4 und 5 wird der Aufruf der Such-
maschine „zusammengebaut“. In Zeile 7 fin-
det die eigentliche Suche statt. Das Ergebnis
kommt zeilenweise zurück und ist dann in
@ergebnis zur weiteren Verarbeitung ver-
fügbar.
Falls der Suchbegriff gefunden wurde,
wird aus jeder Zeile der Dateiname, der Titel
des Dokuments und die Trefferanzahl extra-
hiert (Zeile 13 bis 18). Diese Bestandteile
werden dann in HTML-Listenform in der Va-
riable $ergebnis gespeichert. Von Zeile 21 an
wird dann nur noch das CGI-Ergebnis ausge-
geben. Fertig ist die Suchmaschine.
BELIEBIGERWEITERNNatürlich kann man
die Suchmaschine be-
liebig komplex erwei-
tern und verfeinern.
Als Ausgangspunkt
für eigene Versuche
sollte dieses kleine
Beispiel aber ausrei-
chend sein. Aufgrund der sehr flexiblen
Suchmöglichkeiten, der einfachen Installati-
on, der akzeptablen Performance, des nied-
rigen Speicherplatzbedarfs und des un-
schlagbar günstigen Preises (kostenlos) ist
glimpse nicht nur eine Alternative als Such-
maschine für Websites, sondern auch zur In-
dizierung von CD-ROMs, bisher undokumen-
tiert auf der Festplatte liegenden Einzeldo-
kumenten und sogar zur Indizierung von jah-
relang gewachsenen und unübersichtlich
gewordenen Mailboxen. Die Aussage „Ich
weiß, ich habe Dir die Mail geschickt, leider
weiß ich nicht mehr, wo ich sie gespeichert
habe“, gehört mit glimpse endlich der Ver-
gangenheit an.
■ Markus Schärtel
79internetworld juli ’99
aktu
elles
magazi
npra
xis
test
serv
ice
01 #!/usr/bin/perl
02 use CGI;
03 $query = new CGI;
04 $programmAufruf = “glimpse -i -U -c -H /glimpse/ersterIndex “ .
05 $query->param( “suchbegriff” );
06
07 @ergebnis = `$programmAufruf`;
08
09 if( scalar @ergebnis == 0 ){
10 $ergebnis = “<B>Leider nichts gefunden</B>”;
11 } else {
12 $ergebnis = “<ul>”;
13 foreach ( @ergebnis ){
14 ( $url, $titel, $anzahl ) =
15 m,/HTMLDokumente(\S*)\s+([^:]*):\s+(\d+)$,;
16 $ergebnis .= “<li>“ .
17 “<A HREF=$url> $titel - $anzahl Treffer </A><BR>”;
18 }
19 $ergebnis .= “</ul>”;
20 }
21 print <<”EOF”;
22 Content-type: text/html
23
24 <HTML>
25 <HEAD>
26 <TITLE>Lokale Suchmaschine Suchergebnis</TITLE>
27 </HEAD>
28 <BODY BGCOLOR=#FFFFFF>
29 <H1>Suche in lokaler Website: Suchergebnis</H1>
30 $ergebnis
31 </BODY>
32 </HTML>
33 EOF
Das Suchmaschinen-CGI
LISTING 2
Rudimentäre Suchmaske: Über dieses kleine HTML-Formular star-
ten Sie die Suche auf Ihrer lokalen Suchmaschine
Meta-Suchmaschinen ermögli-
chen eine parallele Recherche
über mehrere Engines. Dabei
unterscheiden sich die ver-
schiedenen Maschinen vor al-
lem in der Datenaufbereitung,
also der Sortierung nach Trefferrelevanz
oder Ausblendung von Duplikaten.
APOLLO 7Einer der deutschen Kandidaten ist Apollo7.
Der Such-String wird in eine übersichtliche
Eingabemaske eingegeben und an zehn
deutsche Suchmaschinen – meist kleinere
wie Lotse oder Sharelook – gesandt. Die Ein-
stellmöglichkeiten beschränken sich auf ma-
ximale Suchzeit und Quellen. Die Treffer wer-
den übersichtlich in Listenform ausgegeben.
DOGPILEDie englischsprachige Suchmaschine Dog-
pile bietet umfangreiche Suchfunktionen an.
Standardmäßig lassen sich 14 Suchmaschi-
nen befragen. Die benutzerdefinierte Suche
erweitert die Abfrage auf Usenet, FTP-Ar-
chive, News, Suchmaschinen und weitere
Quellen. Leider werden die gruppierten Er-
gebnisse lieblos ausgegeben.
HIGHWAY 61Highway 61 ist die etwas andere Suchma-
schine. Die Feldbeschreibungen sind witzig
formuliert, die Ergebnisse werden mit einem
Relevanzfaktor versehen und danach grup-
piert. Bei der Ausgabe läßt sich festlegen, ob
geklickte Links im selben Browser-Fenster
oder in einem neuen betrachtet werden.
INFERENCE FINDDer Suchumfang von Inference Find ist mit
fünf Suchmaschinen nicht überwältigend –
die großen sind aber dabei. Ergebnisse wer-
den in Listenform, aber nicht immer nach-
vollziehbar sortiert. Interessant für Home-
page-Besitzer: Per HTML-Code läßt sich ein
Eingabefenster in jede Web-Page inte-
grieren. Die Suchmaschine ist mit einer
mehrsprachigen Oberfläche ausgestattet.
An der deutschen Seite sollten die Betreiber
allerdings noch ein wenig arbeiten.
INTERNET SLEUTHInternet Sleuth behauptet, auf 3.000 Daten-
banken zurückgreifen zu können. Für die
direkte WWW-Suche werden sechs Maschi-
nen genutzt. Daneben stehen – ähnlich Dog-
pile – Suchmöglichkeiten in News-Diensten,
Software-Archiven und Usenet-Datenban-
ken zur Verfügung. Interessant: Eine Katego-
rienliste kann die Suche auf bestimmte The-
mengebiete einschränken.
Meta-Suchmaschinen: Alle Kandidaten im Überblick Name Apollo 7 Dogpile Highway 61 Inference Find Internet Sleuth MammaURL www.apollo7.com www.dogpile.com www.highway61.com www.ifind.com www.isleuth.com www.mamma.comSuchmaschinen Nathan, Eule, Lotse, Altavista, Excite, GoTo.com, Lycos, Yahoo, Excite, Altavista, Excite, Infoseek, Altavista, Excite, Infoseek, Yahoo, Excite, Infoseek,
Sharelook, Netguide, Infoseek, Lycos, Lycos’ a2z, Infoseek, WebCrawler Yahoo, WebCrawler Lycos, WebCrawler, Yahoo Lycos, WebCrawler, Hotbot, Sternchen, Yahoo, Thunderstone, Excite Altavista, HotbotJesus.de, Medizin.de, Guide Search, Mining Co., Paperboy What U Seek, Magellan,
WebCrawlerEinstellmöglichkeiten Timeout, Suchmaschinen – Trefferanzahl, Timeout, p Timeout, Suchmaschinen Timeout, Anzahl Ergeb-
Linkausgabe in neuem nisse/Seite, Anzeige Fenster möglich Zusammenfassung,
Suche über SeitentitelListaufbereitung Gruppierung nach Listaufbereitung, gruppiert bewertete Listausgabe Listaufbereitung über gruppiert nach sortiert nach
Ergebnissen nach Suchmaschinen gefundene URLs, Suchmaschinen TrefferrelevanzBewertung der Ergebnisse
bool’sche Operatoren AND, OR AND, OR, NEAR P, über Menü AND, OR P P+/– p P P P P PPhrasen k. A. P p P k. A. PBesonderheiten deutsche Suchmaschine, Suche über Usenet, FTP, originell gestaltete Anleitung zum Einbau der Suche über Reviews, Suche über Usenet,
Spion News Wires, Stock Quotes, Suchmaschine Suchmaschine in eigene News, Software, Usenet News, Stock Quota, MP3, Yellow Pages, White Pages, Homepage Bilder, SoundsMaps, Weather
praxisSUCHMASCHINEN
Parallele Suche mit Meta-Suchmaschinen
74 internetworld april ’99
Oft müssen bei der Suche nach Informationen mehrereSuchmaschinen bemüht werden. Meta-Suchmaschinennehmen die Arbeit ab und bereiten die Ergebnisse auf.
aktu
elles
magazi
npra
xis
test
serv
ice
MAMMADie „Mutter aller Suchmaschinen“ (Eigen-
werbung), bietet umfangreiche Quellen zur
Suche an. Neben der Recherche in klassi-
schen Suchmaschinen kann auch gezielt im
Usenet und in News-Archiven gesucht wer-
den. Interessant für Musik-Freaks dürfte die
direkte Suche von MP3-Stücken sein. Außer-
gewöhnlich ist außerdem die Selektion von
Bildern und die Auswahl der zu befragenden
Suchmaschinen per Menü. Zur besseren
Übersicht werden die ermittelten Ergebnisse
nach Relevanz bewertet und sortiert.
METACRAWLER (GO2NET)Die umfangreichen Einstellmöglichkeiten
von Go2Net werden direkt auf der „Perso-
nal“-Seite knapp und verständlich beschrie-
ben. Go2Net bietet vor allem bei der Aufbe-
reitung der Ergebnisse einige interessante
Einstellmöglichkeiten. Neben maximaler
Trefferzahl pro Suchmaschine lassen sich
auch die Anzahl der Resultate pro Ausgabe-
Seite angeben. Die Ergebnisse werden mit
einem Relevanzfaktor versehen und sortiert
in einer Liste ausgegeben. Hervorzuheben
ist noch die Möglichkeit, die Einstellungen
zu speichern.
METAFINDAls einziger Kandidat im Überblick gibt Me-
tafind die maximale Trefferzahl pro Suchma-
schine vor. Dafür bietet Metafind eine vor-
bildliche Auswahl an Optionen zur Listen-
aufbereitung. Als einzige Suchmaschine las-
sen sich die Sortierkriterien wie Schlüssel-
worte oder URL direkt wählen. Diese Mög-
lichkeiten entschädigen für die etwas karge
Eingabemaske.
METAGERDie deutsche Suchmaschine MetaGer liefert
mit Abstand die detailliertesten Einstell-
möglichkeiten. Besonders gelungen ist die
Kontrolle der Treffer vor der Ausgabe. Tote
Links haben so keine Chance. MetaGer be-
zieht neben deutschen Suchmaschinen auch
englischsprachige mit ein.
METAGOPHERAls einzige Meta-Suchmaschine versucht
MetaGopher anhand von Schlüsselbegriffen
bei Bedarf jugendgefährdende Informatio-
nen auszufiltern. Die Suchtiefe kann manu-
ell bestimmt werden: Nur Treffer, die ober-
halb der bestimmten Hierarchiestufe auf der
Web-Site abgelegt sind, werden angezeigt.
Die ermittelten Ergebnisse können auf
Wunsch mit einem Relevanzfaktor versehen
und anhand dieser Information sortiert wer-
den. Homepage-Besitzer können die Such-
maschine in ihre Site integrieren.
SAVVY SEARCHDie Konfiguration von Savvy Search erinnert
stark an einen Fragebogen. Die Optionen der
Suchmaschine werden mit einem Relevanz-
faktor zwischen eins und fünf gewichtet. Die
Einstellungen lassen sich speichern. Bei der
Auswahl der Suchmaschinen geht Savvy
Search einen eigenständigen Weg: Zunächst
fragt die Software vier Engines ab. Reichen
diese Resultate nicht, können per Klick die
nächsten vier Maschinen angefragt werden.
SUCHEN.COMDie dritte deutsche Suchmaschine im Über-
blick bietet wie MetaGer eine Kombination
aus englischsprachigen und deutschen
Suchmaschinen. Die Suchergebnisse wer-
den in einer Liste aufbereitet, doppelte Er-
gebnisse aussortiert. Bei der Auswahl der
Suchmaschinen läßt Suchen.com sowohl im
nationalen, als auch internationalen Bereich
nahezu keine Wünsche offen.
M Andreas Hitzig
Metacrawler Metafind MetaGer MetaGopher SavvySearch Suchen.comwww.metacrawler.com www.metafind.com meta.rrzn.uni-hannover.de www.metagopher.com www.savvysearch.com www.suchen.comAltavista, Excite, Infoseek, Altavista, Excite, Dino, web.de, Yahoo (dt), Infoseek, Yahoo, Altavista, Lycos, WebCrawler, Goggle, Crawler, Yahoo (dt./engl.), Excite (dt./engl.), Lycos, WebCrawler, Yahoo, Infoseek, PlanetSearch, Hotbot, Fireball, Altavista, Excite, Lycos, Magellan, Thunderstone, DirectHit, Lycos (dt./engl.), Spider, web.de, Nathan, Thunderstone, LookSmart, WebCrawler Crawler.de, Hotlist, Allesklar, Hotbot, WebCrawler NationalDirect, Excite, Altavista, Eule, Dino, Aladin, Intersearch, Interfux, Mining Co. Nathan, Netguide, Lycos, Infoseek, HotBot, Galaxy Lotse, Allesklar, Hotlist, Altavista,
Gerhard, Uni-Hannover NothernLight, Infoseek, Hotbot, GoTo.com, WebCrawler, ThunderStone
Timeout, Anzahl Ergeb- Timeout, Erläuterung Timeout, Anzahl Ergebnisse/ Erläuterung zu Seiten, Priorität der einzelnen Timeout, Anzahl Treffernisse/Seite, Ergebnisse/ zu Seiten anzeigen, Seite, Linkprüfung Filter für jugend- SuchmaschinenSuchmaschine Sortierkriterien für gefährdende Inhalte,
Ergebnis Suchtiefe in Seitensortiert nach sortiert nach sortiert sortiert nach sortiert nach Zusammenfassung der Ergebnisse, Trefferrelevanz Benutzervorgabe Trefferrelevanz Trefferrelevanz Eliminierung von Doubletten, Kurzinfos
zu ErgebnissenP P P P P PP P p P P PP P P P PSpeicherung der festgelegte Anzahl Prüfung der Links, Suche in umfangreiche Einstell- verfügbar in mehreren Sprachen, um- Suche über deutsche und amerikanische Einstellungen möglich von Ergebnissen pro dt. Usenet, Suchbegriffe auf möglichkeiten – fangreiche Einstellmöglichkeiten Suchmaschinen
Suchmaschine URLs überprüft speicherbar speicherbar, viele weitere Suchmög-lichkeiten über News, Shareware, Usenet, Magazine, eMail-Adressen etc.
ÜBERSICHT
75internetworld april ’99
praxisSUCHMASCHINEN
59internetworld februar ’99
Der richtige Suchstring ist der
Schlüssel zur erfolgreichen Suche
im Internet. Wir zeigen Ihnen in
dieser Folge die unbekannten
oder selten eingesetzten Spezial-
funktionen der wichtigsten inter-
nationalen Suchmaschinen sowie der Test-
sieger aus IW 7/98. Den kompletten Be-
fehlssatz der vorgestellten Suchmaschinen
finden Sie im Anschluß an diesen Artikel auf
unserem Miniposter.
LYCOSDie deutsche Suchmaschine Lycos
(http://www.lycos.de), die, von den USA aus
agierend, inzwischen weltweit elf Niederlas-
sungen besitzt, bietet neben der gewohnten
Standardfunktionalität eine Erweiterung der
Befehle ADJ, NEAR und FAR an. Damit kön-
nen Sie neben der Position der angegebenen
Begriffe auch noch deren Reihenfolge be-
stimmen. Die Befehle werden durch ein vor-
angestelltes „O“ gekennzeichnet: OADJ,
ONEAR und OFAR. Suchen Sie beispielswei-
se einen englischen Text über Rennautos
und definieren Sie den Suchstring mit „race
ADJ car“, so werden auch Seiten gefun-
den, die den String „car race“ enthalten
– „race OADJ car“ schließt die unge-
wollten Ergebnisse aus. Bei den Befeh-
len können Sie zusätzlich noch den Ab-
stand der Wörter definieren, der maxi-
mal bestehen darf.
INTERSEARCHIntersearch (http://www.intersearch.
de) hat seine Zusatzfunktionen als Da-
tenbank-Selektoren definiert. Mit de-
nen können Sie Ihre Suche auf Titel, Me-
ta-Bschreibungen, HTML-Text, eMail-
Adressen oder URLs einschränken. Ge-
rade bei professionell gestalteten Sei-
ten finden sich die maßgeblichen Inhal-
te in einer Reihe von Meta-Tags zusam-
mengefaßt und können zur konkreten
Suche verwendet werden. Wenn Sie
nach Seiten suchen, die als Schlüssel-
begriffe „Bug“ und „IE“ haben, sieht der
Suchstring wie folgt aus: +META:Bug
+META:IE. Auch die Suche nach einer
eMail-Adresse, die auf einer Seite verwendet
wurde, gestaltet sich einfacher: EMAIL:
Titel geben einen Überblick über den In-
halt einer Seite. Das Schlüsselwort TITLE be-
schränkt die Suche auf die TITLE-Tags einer
HTML-Seite, TITLE:„Internet World“ liefert
Seiten, in denen „Internet World“ vorkommt.
FIREBALLDie Spezialität der Suchmaschine Fireball
(http://www.fireball.de) ist die Feldsuche,
die Sie über den dargestellten Teil einer
HTML-Seite und deren Quelltext durch-
führen können. Bei bestimmten Recherchen
ist es sinnvoll, nur einen bestimmten Teil ei-
ner Seite zu durchsuchen. Benötigen Sie ein
Bild zu einem bestimmten Thema oder einer
bestimmten Person, können Sie mit Hilfe des
Image-Begriffs Ihre Suche einschränken:
image:gates sucht nach Bildern des Herr-
schers über das MS-Imperium. Gerade für
Homepage-Besitzer ist es wichtig zu wissen,
ob Ihre Seiten in vielen anderen Seiten als
Link angeboten wird. Fireball liefert Ihnen
diese Informationen mit dem String link:
<Web-Server> , beispielsweise link:internet-
world.de für den Server dieses Magazins.
Beim Surfen im Internet kommt es mitun-
ter vor, daß der Surfer von einer Seite zur an-
deren springt und sich danach nicht mehr ge-
nau an den Namen einer speziellen Site er-
innern kann, die er besucht hat. Wer sich
noch an einen Teilstring, wie „internet“ und
die TLD „com“ erinnert, den sollte der
Suchmaschinen effektiv einsetzen(2)
Im ersten Teil des Workshops wurde die Grundfunktio-nalität der Suchmaschinen durchleuchtet. Viele Such-
maschinen bieten weiterführende Funktionen an, die das Suchen erheblich erleichtern und effektiver gestalten.
Hotbot bietet neben grellem Design umfangreiche
Suchoptionen, die vor allem Metainformationen ein-
beziehen – so läßt sich gezielt nach Informationen
suchen, die im HTML-Code verborgen sind
aktu
elles
magazi
nte
stpra
xis
intr
anet
serv
ice
60 internetworld februar ’99
griff feature läßt sich nach Zusätzen einer
Seite suchen: Applets, Flash Plug-Ins,
Shockwave-Dateien oder Audio-Dateien
sind nur einige. Der Syntax ist simpel ge-
halten: feature:<object>, für ActiveX Con-
trols also feature:activex.
Hilfreich ist auch die Funktion
depth:<tiefe>, mit der Sie die Suchtiefe in-
nerhalb von Seiten angeben können. Wol-
len Sie lediglich Informationen anzeigen,
die sich im Root-Verzeichnis der Site befin-
den oder im ersten unterordnet, so geben
Sie als Tiefe 2 an. Mit dem Meta-Begriff
scriptlanguage:[VBScript|JavaScript] kön-
nen Programmierer nach eingesetzten
Scripts suchen und sich damit schnell Lö-
sungen im Web betrachten.
Sind Sie auf der Suche nach Nachrichten,
die innerhalb der letzten Tage ins Netz ge-
setzt wurden, können Sie über within:num-
ber/unit einen konkreten Zeitraum angeben.
Suchen Sie beispielsweise nach aktuellen
Informationen zu Bill Gates zweitem Kind,
werden Sie mit +„Bill Gates“ +child wit-
hin:1/month sicher fündig. Sie können die
Seiten sogar mit konkreten Daten ein-
schränken: „Bill Gates“ +child AND befo-
re:31/12/98 AND after 1/12/98
ALTAVISTAAuch der Klassiker Altavista (http://www.
altavista.com) hat einiges zu bieten. Eine
Funktion, die wir bis jetzt in keiner ande-
ren Suchmaschine gefunden haben
ist „anchor“. Damit lassen sich
Texte der Hyperlinks untersu-
Suchstring url:internet AND domain:com
zum gewünschten Ergebnis führen.
EXCITEAuch Excite (http://www. excite.de) erreich-
te beim Test der IW noch ein befriedigendes
Ergebnis, bietet jedoch im Hinblick auf Zu-
satzfunktionen keine allzu großen Möglich-
keiten. Hilfreich ist höchstens die Einschrän-
kung der Suchmenge, die Ihnen die Auswahl
zwischen dem gesamten Bereich des WWW,
europäischen oder deutschen Seiten bietet.
Zusätzlich können Sie auch noch Nachrich-
ten aus dem Usenet mit in Ihre Suche einbe-
ziehen. Ganz passabel ist die Aufbereitung
der Informationen – interessant ist hier vor
allem die Funktion der ähnlichen Sites. Zu je-
dem Suchergebnis bekommen Sie neben der
Prozentanzahl auch noch die Möglichkeit,
auf Basis der Informationen einer Seite di-
rekt eine neue Suche zu starten. Auch so
kommen Sie manchmal ans Ziel.
Gerade die internationalen Suchmaschi-
nen bieten eine größere Datenbank und
damit weitreichendere Möglichkeiten der
Suche. So bieten beispielsweise die drei po-
pulären Suchmaschinen Altavista, Hotbot
und Infoseek eine Reihe interessanter Mög-
lichkeiten, wie Sie sich effektiver durch die
Informationsflut wühlen können.
HOTBOTMit einer beeindruckenden Vielfalt an Optio-
nen wartet die Suchmaschine HotBot
(http://www.hotbot.com) auf. Diese Funk-
tionalität ist vor allen für Programmierer und
Designer interessant, da Sie damit gezielt
nach bereits bekannten Realisierungen
suchen und darüber Ansätze für Ihre eigenen
Projekte finden können. Über den Meta-Be-
chen. Interessieren Sie sich also für Seiten,
die über den Text „Internet World“ ange-
steuert werden, hilft Ihnen der Suchstring
anchor:„internet world“. Hilfreich ist auch
die Funktion host:name. Wer kennt nicht die
Situation: Sie erinnern sich noch genau an
eine Web-Site, auf der Sie eine interessante
Seite gesehen haben. Nachträglich finden
Sie diese Seite aber nicht mehr. Hier hilft Ih-
nen Altavista: Sie geben wie gewohnt Ihre
Suchbegriffe ein, beschränken die Suche
aber auf einen Rechner wie host:www.micro-
soft. com. Eine hilfreiches Feature ist auch
die automatische Übersetzung. Zwar kom-
men teilweise merkwürdige Konstrukte da-
bei heraus, für einen Überblick reicht es aber.
INFOSEEKDer deutsche Ableger konnte im IW-Test
nicht glänzen. Der große Bruder aus Ameri-
ka (http://www.infoseek.com) besitzt aber
eines der größten Archive der Welt inklusive
einiger interessanter Funktionen und wurde
deswegen hier aufgenommen. Infoseek ka-
tegorisiert die Seiten in einem internen In-
dex, der auch für die Suche genutzt werden
kann. Wenn Sie beispielsweise aus der Ru-
brik Internet näheres über Suchmaschinen
wissen wollen, geht das über eine Pipe: Ru-
brik|Unterrubrik, also internet|„search engi-
ne“. Infoseek speichert auch alle Informa-
tionen, die in den ALT-Tags des HTML-Quell-
texts angegeben wurden. Gerade bei Bil-
dern bietet dieses Vorgehen eine in-
teressante Alternative zum Meta-
befehl „link“ an.
In den vorangegan-
genen Beispielen konn-
te nicht auf alle Funktio-
nen der Suchmaschinen
eingegangen werden.
Der folgende Überblick
liefert aber eine kom-
plette Übersicht der Be-
fehle und soll helfen,
schneller zu den gewün-
schten Informationen zu
kommen. Wenn Sie auf
weitere Funktionen bei
Suchmaschinen stoßen,
mailen Sie einfach an:
Betreff: Search-Engine.
■ Andreas Hitzig
Bei der Ausgabe ordnet Excite den gefundenen Seiten jeweils eine
Relevanz in Prozent zu – Interessant ist bei dieser Suchmaschine
auch die Verzweigung auf verwandte Seiten, die eine neue Suche
auf Basis der angeklickten Seite startet
Die Suchmaschine Lycos setzt bei ihrer Ober-
fläche besonders auf vielfältige Einstellmög-
lichkeiten – Sie können über eine grafische
Oberfläche viele Angaben zur Suche und Er-
gebnisaufbereitung machen
61internetworld februar ’99
Erweiterte Suchfunktionen der Search-EnginesLycos Intersearch Fireball Excite Altavista HotBot Infoseek
URL www.lycos.de www.intersearch.de www.fireball.de www.excite.de www.altavista.com www.hotbot.com www.infoseek.com
Allgemeine EinstellungenSuche nach allen Wörtern V V V V V V V
Suche nach mind. einem Wort V V V V V V V
Eingabe einer Frage V p p p V V p
Eingabe einer Phrase V V V V V V V
Sortierung nach Domains V p p V V V V
variable Anzahl V p p V V V VSuchergebnisse/Seite
Logische OperatorenUND A AND B A AND B A AND B A AND B A AND B A AND B A AND B
+A +B +A +B A & B +A +B +A +B A & B +A +B
ODER A OR B A OR B A OR B A OR B A OR B A OR B A OR BA,B A | B A | B A,B
NOT NOT A NOT A NOT A NOT A NOT A NOT A NOT A-A -A ! A -A -A ! A -A
WortzusammenhängeWort A vor Wort B A BEFORE B p p p p p p
Wort A nahe bei Wort B A NEAR B A NEAR B A NEAR B p A NEAR B p pAbstand max. 25 Worte Abstand max. 10 Worte p Abstand max. 10 Worte p p
Wort A weit entfernt von Wort B A FAR B p p p p p pAbstand mind. 25 Worte p p p
Wort A unmittelbar bei Wort B A ADJ B p p p p p pFestlegung des Abstands A NEAR/Anzahl B p p p p p pvon FAR/NEAR A FAR/Anzahl B p p p p p pVorgabe Reihenfolge bei A OADJ B p p p p p pADJ/NEAR/FAR A ONEAR B p p p p p p
A OFAR B p p p p p p
Suchbereichekomplettes Dokument Menüoption all:Begriff Menüoption p Standard Menüoption Standard
Titel Menüoption title:Begriff Menüoption p title:Begriff Menüoption title:Begriff
title:Begriff p title:Begriff
Web-Adresse Menüoption url:Adresse Menüoption p url:Adresse Menüoption url:Adresse
url:Adresse pSeiten einer URL Menüoption p Menüoption p host:hostname Menüoption site:hostname
host:hostname p
eMail-Adresse eMail-Finder email:Adresse p mailto:Adresse spezielle Site mailto:Adresse
Meta-Begriffe p meta:Begriff metaname:Begriff p p p
Link p p Menüoption p link:hostname p link:hostname
link:hostname p
Domains p p domain:DE p domain:DE domain:DE pApplet p p applet:Name p applet:Name feature:applet p
Bild p p image:Name p image:Name feature:image p
SonstigesWildcard inter* inter* inter* inter* inter* inter* inter*
Platzhalter p inter??? p p p p p
Phrase „internet world“ „internet world“ „internet world“ „internet world" „internet world“ „internet world“ „internet world“
Zusammenfassung (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C
reguläre Ausdrücke p 199[1...3] anstelle 1991 p p p p pAND 1992 AND 1993
Sortierung nach Begriffen p p V V p p p
Sonderfunktionen p p verschiedene Suche in untersch. Übersetzung von Seiten feature:name für Suche in ALT-TagAusgabeformate: Excite Katalogen acrobat, applet, activex, Standard, Detail und Newsgroups audio,embed, flash, und Kompakt form, frame, image,
script, shockwave, table, video, vrml
Ähnliche Seiten Suche im Usenet Suche im Usenet Einsatz Pipe (|) zur newsgroup:name newsgroup:name Definition von
Überbegriff|Begriff
Name eines Links, der Datumseingrenzungen auf eine Seite verweist after:dd/mm/yy before:anchor:text dd/mm/yy within:
number/unit
Suche nach Scripts scriptlanguage:[language]
V = ja p = nein
✂
mmii--
Wer kennt die Situation nicht?
Man ist auf der Suche nach
dringend benötigten Infor-
mationen und sitzt ratlos vor
einer Internet-Suchmaschi-
ne. Anstelle der gewünsch-
ten Daten spuckt die Searchengine aber nur
eine scheinbar endlos lange Liste an URLs
aus, die zum Teil nicht das geringste mit den
gesuchten Infos zu tun haben.
TECHNIK DER SUCHMASCHINENSuchmaschinen bedienen sich Robots, die
das Internet nach Informationen durch-
forsten. Dabei werden Homepages bis zu ei-
ner gewissen Hierarchietiefe untersucht und
die Daten an die Suchmaschine übermittelt.
Da diese Informationen aber schlecht struk-
turiert sind, werden Sie – bevor Sie in einer
Datenbank landen – indiziert. Die häufig vor-
kommenden Begriffe werden dabei in die
Datenbank übernommen. Jede Suchmaschi-
ne wertet zusätzlich auch noch spezielle,
von den Erstellern der Homepage definierte
Begriffe aus (siehe dazu Artikel „Suchma-
schinen“, IW 8/98, S. 54). Abhängig vom
Eingabestring sucht die Maschine die ein-
zelnen Begriffe in der Datenbank zusammen
und gibt sie nach ihrer Relevanz absteigend
aus. Wenn Sie nun einen zu allgemeinen
Suchbegriff angeben, findet die Engine
Unmengen von Daten. Hier gilt es anzuset-
zen und die gewünschten Informationen so
genau als möglich einzukreisen. Sie sollten
sich vor Ihrer Suche eine Reihe von Begriffen
aus dem Umfeld der gewünschten Informa-
tionen überlegen und in diesem Zusammen-
hang auch Mehrfachbedeutungen explizit
ausschließen. Suchen Sie beispielsweise
mit dem Schlagwort „Golf“, kann das Ergeb-
nis sowohl Berichte über das Auto, den Sport
oder auch geographische Sites liefern. Je
eindeutiger Sie Ihre Anfrage stellen, desto
weniger Mißverständnisse entstehen dabei.
UNTERSCHIEDLICHESUCHMASCHINENEinen maßgeblichen Teil des Erfolgs macht
die Wahl der richtigen Suchmaschine aus. Je
nach Art der benötigten Informationen emp-
fiehlt sich die Verwendung einer allgemei-
nen Suchmaschine oder einer speziellen
Suchmaschine, die sich auf ein bestimmtes
Themengebiet spezialisiert hat und meist
sorgfältig gepflegtere Informationen ent-
hält. Umfangreiche Listen über deutsche
und internationale Suchmaschinen, sowie
zu Spezialsuchmaschinen finden Sie bei-
spielsweise bei Yahoo (http://www.yahoo.de/
computer_und_internet/internet/world_wide_
web/web_durchsuchen/suchmaschinen) und
Web.de (http://web.de/Internet/Suchen+%
26+Finden/Deutsche+ Suchmaschinen).
Einen effizienteren Ansatz bietet die Ver-
wendung einer Meta-Suchmaschine. Dabei
handelt es sich um ein Programmsystem,
das eine Anfrage an mehrere Suchmaschi-
nen und Kataloge parallel abschicken kann,
um eine weitaus bessere Trefferquote zu er-
zielen. Darüber hinaus werden die Ergebnis-
se der befragten Suchmaschinen von der
Meta-Suchmaschine ausgewertet, die dop-
pelten Einträge eliminiert und das
Ergebnis aufbereitet. Entwickelt
wurde dieses System an der Uni-
versität von Washington, an der
findige Programmierer auch den
Metacrawler entwickelten (http://
www.metacrawler.com). An der Uni
Hannover wurde eine – speziell
auf deutsche Searchengines ab-
gestimmte – Metasuchmaschine
programmiert, die unter http://
meta.rrzn.uni-hannover.de zu fin-
den ist. Neben diesen Server-seiti-
gen Meta-Suchmaschinen gibt es
auch kleine Programme, die Sie
auf Ihrem Rechner installieren
können und die Client-seitig ope-
rieren. Eine Auswahl finden Sie im
IW-Web.
SUCHSTRATEGIENeben der Auswahl einer geeigneten Such-
maschine oder Meta-Suchmaschine ist die
Auswahl einer richtigen Suchstrategie fürs
Ergebnis ausschlaggebend. Ein wichtiger
Bestandteil von Suchstrings ist die soge-
nannte bool’sche Aussagelogik. Damit wer-
den mehrere Argumente mit logischen Ope-
ratoren verknüpft und von der Suchma-
schine ausgewertet. Die gängigen – allge-
meinen Operatoren – sind anhand der Bei-
spiele im Kasten „Suchmaschinen-Syntax“
näher erläutert. Der IW-Testsieger Lycos
(http://www.lycos.de) aus IW 7/98 („Such-
maschinen: Was leisten sie wirklich“, S.
86ff ) bietet einige mächtige Funktionen, mit
denen Sie die Wortzusammenhänge eines
Textes untersuchen können. Dabei handelt
es sich um die Funktionen ADJ, NEAR, FAR
und BEFORE. Sie suchen beispielsweise
nach bekannten Bugs des Internet Explorer
praxisSUCHMASCHINEN
78 internetworld januar ’99
Suchmaschinenim Griff (1)Das Angebot an Informationen im Internet wächsttäglich. Für Einsteiger wird es – trotz Suchmaschinen –immer schwieriger, schnell brauchbare Sites zu finden.
Metasuche: Zur ersten Suche bieten sich spe-
zielle Tools wie WebFerret an, die gleichzeitig
mehrere Suchmaschinen nach den eingegebe-
nen Begriffen durchforsten
4.0. Wenn Sie die Suche nun ausschließlich
mit AND bzw. OR gestalten, bekommen Sie
eine Vielzahl von Seiten in die Ergebnismen-
ge, die zwar die beiden Begriffe enthalten,
aber nicht in direktem Zusammenhang ste-
hen. Mit dem Operator ADJ können Sie Wör-
ter in unmittelbarer Nähe suchen. NEAR
/<Anzahl> erlaubt es, einen Abstand zwi-
schen den Suchwörtern zu definieren, der
maximal bestehen darf. „internet explorer“
near/10 bug liefert beispielsweise alle Sei-
ten, auf denen die Wörter „internet explorer“
und „bug“ maximal 10 Wörter Abstand ha-
ben. Einen hilfreichen Ansatz bieten auch die
Suchmöglichkeiten von Hotbot (http:// www.
hotbot.com). Hier können Sie auch nach
speziellen Objekten wie Applets, Scripts
oder Grafiken innerhalb einer Seite suchen.
Die Index-Software berücksichtigt da-
bei nicht nur inhaltliche Begriffe,
sondern neben den META-Tags
auch weitere Informa-
tionen aus dem
HTML-Quellcode.
Außerdem ste-
hen Ihnen bei
dieser Such-
maschine per Kontrollkästchen auch gleich
die Funktion NEAR und mehrere MUST IN-
CLUDE-Auswahlmöglichkeiten offen.
ALTERNATIVENSollte Ihnen der Weg über die Suchmaschi-
nen nicht zum Erfolg verhelfen, dann gibt es
alternative Methoden. Nicht selten hilft die
Web-Gemeinde bei der Suche nach Informa-
tionen weiter. Eine Anfrage in einer der vie-
len Newsgroups ist oft von Erfolg gekrönt.
Wenn es sich um tagesaktuelle Informatio-
nen handelt, werden Sie auch oft auf den Si-
tes von deutschen Tageszeitungen (Samm-
lung unter http://www.zeitungen .de) oder
speziellen News-Diensten wie Cnet News
(http://www.news. com) fündig.
In der nächsten Ausgabe kommen
die Profis mit ausgefeilten Tips
und Tricks für die besten vier
Searchengines auf ihre Ko-
sten. ■ Andreas Hitzig
aktu
elles
magazi
nte
stpra
xis
intr
anet
serv
ice
Suchmaschinen-SyntaxDie Möglichkeiten beim Zusammenstellen von Suchstrings unterscheiden
sich meist nur unwesentlich. In der folgenden Tabelle werden die wichtigsten Befehle von Altavista und Lycos gegenübergestellt. Die
Befehle und die Syntax unterscheiden sich – wie bei vielen anderen Suchmaschinen auch – nur unwesentlich.
Schlüsselwort Zeichen Bedeutung Beispiel Altavista Lycos
+ Angegebener Begriff muß im Ergebnis enthalten sein. +Internet Ja Ja
- Angegebene Begriff darf nicht im Ergebnis enthalten sein. -Internet Ja Ja
* Nur Wortstamm wird angegeben (Truncation) Inter* Ja Ja, Symbol ist $
( ) Abhängig von der Klammerung wertet der Interpreter Redakteur AND („Pit Klein“ OR „Patrik Bock“) hat ein anderes Ja Ja
der Suchmaschine die Anfragen unterschiedlich aus Ergebnis als (Redakteur AND „Pit Klein“) OR „Patrik Bock“
„ “ Ausdruck muß im Ergebnis enthalten sein „Internet World“ Ja Ja
AND & Findet nur Dokumente, in denen die alle angegebenen Magazin AND „Internet World“ Ja (Advanced Help) Ja
Begriffe enthalten sind
OR | Findet alle Dokumente, in denen mindestens eines der Magazin OR „Internet World“ Ja (Advanced Help) Ja
angegebenen Wörter enthalten ist
NOT ! Schließt Dokumente mit den angegebenen Begriffen Magazin AND NOT„Internet World“ Ja (Advanced Help) Ja
aus dem Ergebnis aus
INFO
1/8 Seite querNet.-D.
79internetworld januar ’99
Jede Suchmaschine bietet bei der Suche eine
etwas andere Syntax: Bei Lycos erfahren Sie
anhand ausführlicher Beispiele, welche Mög-
lichkeiten zur Verfügung stehen