Aufbau einer "normalen" suchmaschine
Aufbau einer "normalen" Suchmaschine
Eine Suchmaschine besteht aus 4 Teilen:
Robotern (robots):
Roboter dienen der Suchmaschine um möglichst viele Adressen (URLs) von WWW-Seiten zu bekommen.
Was ist ein Roboter ?
(Roboter im Web) : Programm das Hyperlinks folgt und diese für seine Zwecke auswertet incl. einer rekursiven Verfolgung der enthaltenen Links.
Andere Namen dafür: Spider, Agent, Web Wanderer ...
Erster Roboter wurden 1993 eingesetzt um die Anzahl der Webseiten zu bestimmen.
Indexserver (search engine / indexer)
Die Suchmaschine steuert das Vorgehen der Roboter und analysiert die WWW-Seiten, die der Roboter liefert und erstellt die Indexdaten zu den Seiten.
Datenbank (database)
Die Datenbank dient zum Abspeichern der Indexdaten, zusätzlich wird der gerichtete Graph des Netzes gespeichert.
Abfrageserver (query server)
Der Abfrageserver bietet meist eine graphische Oberfläche in der die Suchanforderung eingegeben werden kann. Der Abfrageserver analysiert die Eingabe des Users und durchsucht die Datenbank nach den gewüschten Schlüsselwörtern.
Funktion
Das größte Problem bei der Suche nach Informationen im Internet sind Datenbestände unterschiedlichster Art und Herkunft.
Sie liegen auf zahlreichen Servern, wobei jeder Server weitgehend keiner zentralen Verwaltung unterworfen ist. Folglich gibt es kein zentrales Inhaltsverzeichnis.
Jeder Suchmaschine liegt eine eigene Datenbank zugrunde, in der Informationen zu den einzelnen Seiten gespeichert sind. Ein Datensatz besteht dabei im wesentlichen
aus der URL (Uniform Ressource Locator) dem Adressierungssystem für Web - Dokumente, unter der die Seite zu finden ist, dem Titel der Seite und den für die Seite charakteristischen Stichwörtern. Nach diesen Stichwörtern läßt sich suchen. Das Ergebnis ist eine Liste mit Links, die zu den jeweiligen Seiten führen.
Schon wegen der Größe des Internet - der Gesamtbestand an Web - Seiten wird auf 100 bis 150 Millionen geschätzt müssen Suchmaschinen Beachtliches leisten.
Abfragen müssen ohne größere Verzögerung bearbeitet werden, wobei die Systeme auch simultanen Suchanfragen von mehreren tausend Anwendern gewachsen sein.
sollten. Außerdem muß der Datenbestand laufend aktualisiert werden. Ein Großteil der Seiten im Internet wird mehr oder weniger regelmäßig überarbeitet, und neue
Sites schießen wie Pilze aus dem Boden. Es leuchtet ein, daß das gesamte Internet niemals manuell erfaßt werden kann.
Spider stöbern laufend durch das Netz
Daher basieren fast alle Suchmaschinen auf einem Automatismus, dessen wesentliche Stütze sogenannte Spider darstellen. Dabei handelt es sich um Programme, die das Internet kontinuierlich durchsuchen. Ein Spider startet auf der Homepage eines Servers und verfolgt nacheinander alle Links. Auf diese Weise bewegen sich Spider seitenweise über den Server.
Trifft ein Spider auf eine neue oder geänderte Seite, wird aus dieser eine Liste mit Schlüsselwörtern generiert, und die Datenbank der jeweiligen Suchmaschine
entsprechend aktualisiert. Datensätze werden entfernt, falls die Seiten mittlerweile gelöscht wurden.
Die einzige Aktion, die vom Betreiber des Servers manuell
vorgenommen werden muß, ist die einmalige Anmeldung der Domäne.
Obgleich die Scangeschwindigkeit immens ist (Alta Vista untersucht 6 Millionen Seiten pro Tag), ändert sich das Netz viel zu schnell, als daß neue Informationen
unmittelbar berücksichtigt werden könnten. Die Spider der Suchmaschine Hotbot arbeiten mit einem Zyklus von zwei Wochen - so besteht kaum eine Chance, einen
eben erschienenen Artikel zu finden.
Der Schlüssel zum Erfolg: Index und Hardware
Trotz des gewaltigen Umfangs der Datenbanken von bis zu 55 Millionen Seiten präsentiert sich das Suchergebnis in der Regel nach wenigen Sekunden. Diese hohe
Suchgeschwindigkeit ist einerseits durch die extrem leistungsfähige Hardware begründet, auf denen die meisten Suchmaschinen betrieben werden. Alta Vista setzt zum Beispiel 16 Hochleistungs - Workstations der Reihe Alpha Server 8400 S/300 ein, die mit 64 Bit arbeiten und jeweils mit 6 Gigabyte Arbeitsspeicher ausgestattet sind.
Andererseits steckt ein ausgeklügelter, als Baumstruktur aufgebauter Index hinter den Datenbanken, so daß nicht der gesamte Datenbestand, sondern nur ein winziger
Teil des Index durchsucht werden muß. Bei Alta Vista kommt das eigene Indexsystem N12 zum Einsatz, das häufig angefragte Stichwörter im Arbeitsspeicher festhält, so daß zeitintensive Festplattenzugriffe wegfallen.
Keine Suchmaschine erfaßt aber das komplette Netz. Schätzungsweise findet die Hälfte aller Informationen im Internet keine Berücksichtigung durch Suchmaschinen.
Einer der Gründe dafür ist, daß sich ein beträchtlicher Teil der Informationen nicht auf statischen HTML Seiten befindet, sondern das Ergebnis von Datenbankabfragen
Ist.
Eine andere Problematik, die zu unbefriedigenden Suchergebnissen führen kann, ist der meist triviale Mechanismus, mit dem Suchmaschinen die Stichwörter festlegen.
Dabei werden in der Regel alle Wörter zu Stichwörtern, auch wenn sie in einem irrelevanten Zusammenhang auftauchen; lediglich "Allerweltswörter", zum Beispiel
Artikel und Pronomen, werden ausgefiltert.
Nur wenige Suchmaschinen besitzen in dieser Beziehung etwas Intelligenz. Excite berücksichtigt immerhin auch synonyme Wörter. So werden beim Suchbegriff
"Senioren" auch Seiten gefunden, die den Text "ältere Menschen" enthalten. Eingesetzt wird dabei die patentierte Technologie Intelligent Concept Extraction (ICE), die die zugrundeliegenden Syonymtabellen selbsttätig generiert.
Verschiedene Suchtechnologien bei der Suche in der Datenbank:
Boolsche Suche (AND, OR, NOT)
Eine alte und einfache Methode in der Datenbank zu suchen ist mit Hilfe von logischen Operatoren.
Mit der Methode kann keine Sortierung der Einträge erreicht werden. Je nachdem wie häufig oder speziell die Kombination der eingegebenen Wörter sind ist das Suchergebnis auch gut oder schlecht. Sie ist geeignet nach bestimmten Schlüsselwörter-Verknüpfungen zu suchen, die nur in den gesuchten Dokumenten vorkommen müßten.
Fuzzy Boolsche Suche (unschärfe Abweichung bei Schreibfehlern)
Sie funktioniert ähnlich der Boolschen Suche. Es werden zunächst alle Dokumente betrachtet bei der die logische Verknüpfung exakt zutrifft, danach wird eine logische Verknüpfung weggelassen und die gefundenen Dokumente zurückgeliefert, Es entsteht somit eine sortiere Liste, wobei die Ergebnisse mit der besten Übereinstimmung am Anfang stehen.
Auf Vektoren basierende Suche
Die Auftrittshäufigkeit jedes spezifizierten Begriffs in einem Dokument wird in Relation zu der Gesammtauftrittshäufigkeit des Begriffs gesetzt.
Damit stehen die Dokumente näher am Anfang der Liste, in denen ein gesuchter Begriffe enthalten ist, der selten in der Datenbank ist oder der häufig in dem Dokument vorkommt.
Automatische Abfrageexpansionssuche
Überprüft die bei der ersten Abfrage gefundenen Dokumente, und bezieht bei der zweiten Abfrage Dokumente mit ein, in denen Begriffe enthalten sind, die sehr häufig in den gefundenen Dokumenten enthalten sind. Jede Suchmaschine verwendet solche oder ähnliche Methoden um ihre Datenbank zu durchsuchen. Die großen Suchmaschinen versuchen ihre Verfahren zu verbessern und weiter zu entwickeln, und werden da diese Algorithmen ein unmittelbares Produktionskapital darstellt, diese auch nicht veröffentlichen.
Unterstützung verschiedener Eingabetypen:
Logische Verknüpfung
Fast jede Suchmaschine unterstützt eine logische Verknüpfung der eingegebenen Begriffe, meinst kann man diese mit großgeschriebenen AND, OR und NOT, seltener mit Plus (+) und Minus (-) eingeben. Klammerung von boolschen Ausdrücken ist
manchmal auch möglich.
Es gibt auch Suchmaschinen, die nur entweder Und-Suche ('Search all words') oder Oder-Suche ('Search any of the words') unterstützen.
Trunkierung
Mit einem '*' Stern wird angedeutet, daß die Suchmaschine nach Begriffen suchen soll, die mit einem bestimmen Wortstamm anfangen. z.B. alter* sucht nach Alter, Altersheim, Altersversorgung, ..
.
Phrasensuche
Manche Suchmaschinen erlauben auch die Möglichkeit Satzstücke zu suchen. Man muß den entsprechenden Satzteil in Anführungszeichen einschließen. (z.B. "verteilte Datenbanken") Worte im Zusammenhang (near/followed by) Es gibt Suchmaschinen bieten auch ein Suchkriterium bei dem der Abstand der Begriffe berücksichtigt wird.
z.B. bei Altavista bedeutet near, daß der Abstand zwischen den Begriffen kleiner 6 Wörter sein muß. Suche nach bestimmten Feldern (Überschrift,Autoren,Datum,URL)
Die Suche nach bestimmten Feldern in HTTP-Seiten wird selten unterstützt. Altavista oder Hotbot bieten z.B.
so eine Funktion.
Suchmodi (Einfache - Erweiterte Suche)
Die meisten Suchmaschinen unterscheiden zwischen zwei Eingabemodi. Eine Oberfläche die eine einfache schnelle Eingabe erlaubt, und eine zweite, mit der man die volle Funktionalität der Suchmaschine ausnutzen kann.
Sortierung
Eine Sortierung der Ergebnisliste wird meistens durchgeführt, wobei versucht wird die "besten" Ergebnisse an den Anfang zu plazieren, dies wird durch verschiedene Ranking Verfahren bewerkstelligt.
Ranking (Relevanzbeurteilung)
Für die Relevanzbeurteilung gibt es mehrere Methoden:
Anzahl gefundener Suchbegriffe in einem Dokument Funktion (Position) der gefundenen Begriffe z.B.
Es werden Dokumente bevorzugt, die Begriffe beinhalten, die weiter oben in einem Text stehen oder die im Titel stehen, ...
Häufigkeit eines Suchwortes innerhalb eines Dokuments, Häufigkeit jedes Suchwortes innerhalb eines Dokuments geteilt durch die Häufigkeit des Suchwortes in der Datenbank
Andere Systeme von Suchmaschinen
Hybride Suchmaschine
Eine hybride Suchmaschine ist eine Suchmaschine, die mehrere Suchverfahren in sich vereinigt. z.B.
Roboter basierter Index, Katalog, E-Mail-Verzeichnis, Telephon und Adressbücher, u.a. Datenbanken.
Ein typisches Beispiel ist Yahoo, diese Suchmaschine beinhaltet einen Katalog in den man "nachschlagen" kann. Aber man kann auch in Yahoo nur suchen oder die Suchfunktion mit dem Katalog verbinden. "Blättert" man ein Verzeichnis im Katalog auf z.
B. Internet und sucht dann nach einem Begriff so wird nur der Teil des Kataloges durchsucht, der unter Internet eingeordnet wurde.
Meta-Suchmaschinen
Das sind Suchhilfen, die nicht etwa selbst eine Datenbank von Internetseiten unterhalten, sondern vielmehr einen Suchauftrag gleichzeitig an 10 oder noch mehr Suchmaschinen weiterreichen, die Ergebnisse einsammeln und gebündelt
an den Benutzer schicken, der den Suchauftrag erteilt hat.
Die besseren Meta-Suchmaschinen schicken nicht einfach die Summe aller Suchergebnisse zurück, sondern filtern doppelt gefundene Seiten heraus. Manche sortieren darüber hinaus die Suchergebnisse nach ihrer Qualität oder nach der
Art der gefundenen Hyperlinks. Geschickt eingesetzt, können Meta-Suchmaschinen eine Menge Sucherei ersparen.
Ants
Das Konzept der "Ameisen" besteht darin, daß viele Roboter zusammenarbeiten, Informationen austauschen und sich gegenseitig verständigen. Der Vorteil daran ist, daß Informationen nicht doppelt gesucht und ausgewertet werden müssen, die schon von anderen Robotern gefunden wurden.
Harvest System (siehe auch Harvest Homepage)
Die "Idee" von Harvest ist, ein hierarchisches Suchsystem mit einem einheitlichen Indexdatenformat aufzubauen. Dadurch wird eine unkoordinierte Suche von vielen Robotern vermieden und dadurch die Server- und Netzlast verringert.
Das Harvest System besteht aus :
Gatherer
Der Gatherer dient zum Sammeln von Indexdaten.
Er kann vom Provider aus gestartet werden, dadurch wird die Netzlast erheblich verringert, die sonst durch die Requests der Roboter entsteht.
Ein Gatherer kann die Informationen an mehrere Broker weitergeben. Die Indexdaten müssen also nur einmal (von updates abgesehen) gesammelt werden.
Broker
Der Broker stellt die Abfrageschnittstelle dar. Ein Broker sammelt und filtert die Informationen von mehreren Gatherer oder Brokern, und kann die indizierten Daten selbst wieder weitergeben.
Object Cache
Der Cache dient dazu den Flaschenhals zu vermeiden, der beim Zugriff auf beliebte Daten entstehen. Der Cache ist hierarisch (mit Nachbar-Caches) strukturiert.
Dadurch werden schnellere Antwortzeiten erreicht, und die Serverlast wird um einen
Faktor bis zu 100 reduziert.
Replicator (Vervielfältiger)
Damit können beliebte Verzeichnisse oder ganze Server gespiegelt werden, was auch zu einer Verringerung der Serverlast beiträgt.
Suchmaschinen
Mit Yahoo! fing alles an: Bereits kurz nach dem Start des World - Wide Web - im Jahre 1993 - hatte das Netz eine beachtliche Größe erreicht. David Filo und Jerry
Yang, beide Doktoranden der Elektrotechnik an der Stanford University, waren es leid, auf gut Glück Server für Server zu durchsuchen, um an Informationen zu
kommen. Ihnen schwebte die Vision eines universellen Inhaltsverzeichnisses vor, über das s55ich schnell und unkompliziert beliebige Informationen finden ließen. Mit
Yahoo!, die im April 1994 startete, entwickelten sie die erste bedeutende Suchmaschine.
Mittlerweile gibt es eine ganze Reihe von Suchmaschinen. Die Nutzung der digitalen Info-Jäger ist kostenlos. Die Betreiber finanzieren sich meist durch Werbung. Im Falle von Alta Vista steckt etwa die Firma Digital Equipment dahinter, die das System als Werbe- und Image - Plattform für eigene Produkte einsetzt.
Altavista
Die Suchmaschine AltaVista ist ein Klassiker in der Suchmaschinenlandschaft. Die Suchtreffer werden schnell ermittelt und übersichtlich dargestellt.
Es gibt die Möglichkeit in verschiedenen Sprachen zu suchen. Genial ist die Möglichkeit jede Internetseite in eine andere Sprache übersetzen zu lassen. Wenn Sie in der Suchmaske vor dem Suchbegriff "title:" ein. Geben Sie zum Beispiel "title:"nuernberg ein, erhalten Sie alle Homepages, welche im Title nuernberg erhalten.
Yahoo
Bei Yahoo, kann man neben der reinen Websuche in gut strukturierten Rubriken suchen. Die brauchbaren Suchtreffer sind unübersichtlich gelistet.
(hybrid, vereinigt mehrere Suchverfahren).
Vergleich Yahoo / Alta Vista
Altavista: 2 Millionen Zugriffe täglich
Yahoo: 700 Millionen Zugriffe täglich
Anmerkungen: |
| impressum | datenschutz
© Copyright Artikelpedia.com