Wie funktionieren Suchmaschinen im Internet?
Suchmaschinen wie Google können innerhalb von Sekunden alle Webseiten zu beliebigen Schlüsselwörtern auflisten. Selbst zu völlig zufälligen Wort- oder Zeichenkombinationen antwortet Google innerhalb von Sekunden mit einer Liste der Webseiten, die diese Zeichen enthalten. Wie ist das möglich?
Der Webseiten-Index
Der erste Schritt ist, alle im Internet vorhandenen Webseiten zu erfassen. Dazu hat jeder Suchmaschinen-Anbieter ein kleines Programm, dass den ganzen Tag Webseiten herunterlädt, die darin enthaltenen Links findet und dann auch diese verlinkten Webseiten herunterlädt. So werden nach und nach alle Webseiten im Internet gefunden, auf die mindestens von einer anderen Webseite aus verlinkt wird.
Das Programm, das die Webseiten herunterlädt wird Crawler, Spider oder Robot genannt.
All die heruntergeladenen Webseiten werden dann auf den Servern von Google gespeichert, um später ausgewertet zu werden. Diesen Webseiten-Index kann man sehen, wenn man in den Suchergebnissen von Google auf "Im Cache" klickt. Dann wird die von Google heruntergeladene Version der Webseite angezeigt.
Mit den Daten der Webseiten wird dann von einem anderen Programm ein durchsuchbarer Index erstellt. Dazu werden alle Wörter, die auf den Seiten vorkommen einzeln betrachtet und in einer Datenbank-Tabelle gespeichert, zusammen mit der Adresse der Webseite, auf der sie vorkommen.
Sortieren der Ergebnisse
Außerdem werden viele hundert weitere Informationen in der Liste gespeichert. So wird für jedes Wort erfasst, welche Wörter in der Umgebung des Wortes vorkommen, um Sätze bilden zu können. Es werden Synonyme der Wörter erfasst und gebeugte oder leicht veränderte Versionen eines Wortes. Es wird gespeichert ob ein Wort auf der Webseite besonders hervorgehoben ist, etwa durch Fettdruck oder on es in einer Überschrift vorkommt. Wichtig ist auch, wo ein Wort auf einer Webseite steht, ganz oben oder irgendwo versteckt am Ende und wie häufig es auf der Seite vorkommt.
All diese Details stellen jedoch nur einen Teil der letztendlichen Sortierung der Ergebnisse dar, die so genannten "on page"-Kriterien. Also all das, was auf der Webseite selbst vorkommt, um das Ranking zu beeinflussen.
Dazu kommen die so genannten "off page"-Kriterien. Diese sind all die Faktoren, die das Suchergebis beeinflussen, die von der jeweiligen Webseite selbst nicht beeinflusst werden können.
Für Google ist hier besonders wichtig, wie viele andere Webseiten auf eine Webseite verweisen und welche Texte für die jeweiligen Links benutzt werden. Auch diese Information wird für jede Webseite in einer Datenbank-Tabelle gespeichert, um sie schnell vorliegen zu haben, wenn eine Suchanfrage eintrifft.
Erstellung der Suchergebnisliste
Wenn nun bei Google ein Suchwort eingetippt wird, wird die Anfrage von einem Steuerungsserver gleichzeitig an rund 1000 Server bei Google gesendet. Ein großer Teil dieser Server ist dafür zuständig, Suchergebnisse zu liefern. Auf jedem dieser Server liegt daher ein Teil der erfassten Daten zu einem bestimmten Wort.
Nun such jeder Server also in seinem Datenbestand nach passenden Webseiten-Adressen, die mit dem Suchwort in verbindung stehen. Als Antwort liefert er eine Liste mit möglichen Ergebnissen und ein Bewertung jedes Eintrags, so etwas wie ein Punktezahl. Der Steuerungsserver sortiert dann all die Ergebnisslisten nach Punktezahl und die Webseite mit den meisten Punkten steht ganz oben im Suchergebnis.
Außerdem werden bei jeder Google-Suche noch eine Anzahl weitere Server angefragt. Diese liefern dann zum Beispiel die Textausschnitte, die bei den Suchergebnissen zu jeder Webseite eingeblendet werden und andere Details.
Die Datenflut
Das Internet ist heute bereits sehr viel größer als noch vor einigen Jahren und wächst jedes Jahr weiter und weiter. Auch die Internet-Suchmaschinen legen immer mehr zu und erweitern ihren Datenbestand und ihre Infrastruktur.
So wird vermutet, dass allein Google viele hunderttausend Server betreibt, auf denen die für die Suche benötigten Daten gespeichert werden. Google unterhält dazu dutzende eigene Rechenzentren weltweit.
