Suchmaschinen

Wie erhalten Suchmaschinen Ihre Daten?

Bevor die Suchmaschinen Resultate anzeigen können, müssen zuerst die Informationen gesammelt werden. Diese Arbeit übernimmt ein Webcrawler (auch Spider oder Robot genannt), ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert.

Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks, werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden.

Indexierung
Die übermittelten Daten wertet das Indexierungsprogramm aus. Es werden nur die Daten aufgenommen, die in der Datenbank einer entsprechenden Rubrik zugeordnet sind. Durch die Nutzer wird der Inhalt eines Index gestaltet. Die Darstellung des Inhalts wird mit dem Seiteninhalt und der Gestaltung von Titel und Metatags versehen.

Relevanzbewertung durch den Suchmaschinen-Algorithmus
Aus dem Suchmaschinen-Algorithmus der einzelnen Suchmaschinen ergibt sich die Relevanzbewertung der verschiedenen Seiten. Dieser Algorithmus ist bei allen Suchmaschinen leicht unterschiedlich und deren wohlgehütetes Geheimnis. Ansonsten hätten die Suchmaschinen keine Möglichkeit mehr, sich gegen Manipulationen zur Wehr zu setzen.
Die Abfragen eines Suchbegriffes werden höher gelistet, wenn die Relevanz zu einem bestimmten Suchbegriff höher ist. Dies wird mittels des Suchmaschinen-Algorithmus erreicht, der jedem Suchbegriff einen Wert zuordnet.

Hier einige Parameter für die Relevanzbewertung

  • Seiten-interne Parameter
    Suchworthäufigkeit in prägnanten Stellen wie:
 Titel, Überschriften, Link-Texten, Dateinamen, alt-Tags von Bildern und Grafiken
     
  • Seiten-externe Parameter:
    Link-Popularität (Anzahl der auf diese Seite verweisenden Links)
    Qualität der externen Links (PagerankTM)
    Linktexte der externen Links


Wie bewertet die Google Suchmaschine?
Die Grundlage

Google wurde im September 1998 von Larry Page (daher der Name Pagerank) und Sergey Brin gegründet. Google ist darauf ausgerichtet, das Internet schnell und auf einfache Weise nach Informationen zu durchsuchen. Google bietet seinen Nutzern Zugang zu einem Index, der über 8 Milliarden URLs umfasst, und ist somit die größte Suchmaschine im World Wide Web.

Es wird geschätzt, dass Google zur Zeit bis zu 1000 Faktoren für die Bewertung einer Webseite einsetzt. Der wichtigste ist der Pagerank. Die von Google patentierte Technologie sagt aus:
Je höher der Pagerank einer Seite, desto besser wird sie (bei gleichem Seiteninhalt) bei den Suchergebnissen gelistet.
Die genaue Formel zur Berechnung des Pagerank ist ein von Google gut gehütetes Geheimnis. Die ursprünglich an der Stanford University entwickelte Formel lautet folgendermassen:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Wobei PR(X) den Pagerank der Seite X angibt, C(Y) die Anzahl ausgehender Links von Seite Y bezeichnet, und d der sogenannte Dämpfungsfaktor ist. Der Dämpfungsfaktor ist ein Wert zwischen 0 und 1, der von Google festgelegt wird und nicht bekannt ist. Er soll aber um 0.85 liegen.
Der Pagerank einer Seite X (dabei handelt es sich um einzelne Seiten, nicht um Domains!) hängt also ab von der Anzahl der Links anderer Seiten (T1, ..., Tn) auf die Seite X, vom Pagerank der Seiten T1 bis Tn, sowie der Anzahl der ausgehenden Links auf T1 bis Tn.

Ein Link von einer anderen Seite ist also dann besonders wertvoll wenn:
•    Diese Seite selbst einen hohen Pagerank hat
•    Es nur wenig ausgehende Links von dieser Seite gibt
 
Wie kann ich meinen Pagerank bestimmen
Um den Pagerank der eigenen Seiten zu ermitteln, ist es empfehlenswert, sich die Google Toolbar zu installieren. Dies ist eine Erweiterung für den Internet Explorer, welcher einige nützliche Elemente zur Abfrage von Google Ergebnissen bereitstellt. Unter anderem gehört zu dieser Toolbar eine Leiste, die den Pagerank der gerade besuchten Seite mit einem mehr oder weniger langen grünen Balken mit Werten zwischen 0 und 10 anzeigt. Je höher dieser Pagerank Wert, desto besser ist Googles Meinung über die entsprechende Seite.
 
Beispiel
Die Funktionsweise des Pagerank soll nun anhand des in der Abbildung gezeigten Beispiels veranschaulicht werden. Das kleine Miniweb besteht aus drei Dokumenten, wobei Dokument A auf Dokument B und Dokument C verlinkt, Dokument B auf Dokument C verlinkt und Dokument C wiederum auf Dokument A verlinkt ist.


Als Dämpfungsfaktor d wird hier der von den Gründern von Google, der Wert von 0,85 genommen, um ein möglichst realitätsnahes Ergebnis zu bekommen. Nach dem Einsetzen in den Pagerank-Algorithmus ergeben sich folgende drei Gleichungen für den Pagerank der einzelnen Webseiten:

PR(A) = 0,15 + 0,85 * PR(C) 

PR(B) = 0,15 + 0,85 * (PR(A) / 2) 

PR(C) = 0,15 + 0,85 * (PR(B) + PR(A) / 2)

Dieses Gleichungssystem lässt sich sehr einfach lösen und es ergeben sich folgende Werte für die einzelnen Dokumente:
PR(A) ≈ 1,16 
PR(B) ≈ 0,64 
PR(C) ≈ 1,19

In diesem Beispiel zeigt sich, dass das Dokument C, da es die meisten eingehenden Links hat, das scheinbar bedeutendste Dokument der dreien ist. Aus Sicht der Wahrscheinlichkeit kommt die Suchmaschine nun in dem gezeigten Miniweb mit der Wahrscheinlichkeit von 1,19 bei drei Anläufen auf das Dokument C.

Web Vision Concept GmbH
Poststrasse 33, 8700 Küsnacht, Tel: +41 76 376 99 99, info@webvision.ch