Googles Crawling- und Indexierungsprozess

Damit eine Seite (bzw. deren Inhalt) überhaupt in den Google Suchergebnissen erscheinen kann, ist ein mehrstufiger Prozess zu durchlaufen. Und dieser findet nicht einmalig, sondern immer wieder statt, da sich Webseiten ändern oder gar gelöscht werden (können).

Damit eine Seite von Google indexiert wird, muss die folgende Prozesskette durchlaufen werden:

  • Adresse ist Google bekannt,
  • Darf und wurde von Google gecrawlt,
  • Darf und wurde anschließend unter Umständen indexiert,
  • Und kann dann in Suchergebnissen auftauchen.

Eine Abkürzung gibt es in diesem Prozess nicht.

Der Crawling- und Indexierungsprozess: So können Seiten bei Google auffindbar werden

Lass uns einmal in kurzer Form auf diese Prozesskette schauen. Denn das erleichtert das spätere Verständnis für die einzelnen “Fehlergruppen” im Indexierungsstatus der Google Search Console ungemein. Der Indexierungsstatus sagt dir, wie viele Seiten gerade (nicht) indexiert wurden.

Schritt 1: Auffindbarkeit. Woher kennt Google eigentlich Webadressen?

Google rät keine Webadressen. Denn das wäre hochgradig ineffizient, da unendlich viele Kombinationen möglich wären. Stattdessen verlässt sich Google beim initialen Kennenlernen von Adressen auf diese Quellen:

  • Verlinkung einer Adresse von einer Google bekannten Website
  • Eintrag einer Adresse in einer (XML-)Sitemap
  • Explizite Anmeldung einer Adresse über z. B. die Google Search Console mittels der Funktion “URL Überprüfung” (Englisch: “URL Inspection”)

Kennenlernen meint in diesem Prozess nicht das Kennenlernen des eigentlichen Seiteninhalts, sondern das Kennenlernen der Adresse. Google weiß also schlicht erstmal nur, dass es einen Inhalt auf einer Website geben könnte. Ob dieser Inhalt gelesen (“gecrawlt”) und anschließend erfolgreich abgerufen sowie indexiert werden kann und wird, stellt sich erst im weiteren Ablauf des Prozesses dar.

Schritt 2: Crawling. Darf Google den Seiteninhalt abfragen?

Grundsätzlich muss das Crawling von Webseiten nicht erlaubt, sondern explizit verboten werden. Und das geschieht über die sogenannte robots.txt. Diese kleine Textdatei ist ein mächtiges Werkzeug, da damit Suchmaschinen verboten werden kann, eine durch Schritt 1 bekannt gewordene Adresse anzufordern. Und nur dann, wenn eine Suchmaschine wie Google die Adresse aufrufen darf, bekommt sie überhaupt die Möglichkeit, den Inhalt der Seite zu analysieren.

Wenn kein Crawling-Ausschluss vorliegt, also kein Disallow: für die Adresse vorliegt, dann wird auf die Adresse zugegriffen. Dieser Zugriff kann erfolgreich oder nicht erfolgreich sein. Je nachdem, ob es unter der Adresse (noch) einen Inhalt gibt, antwortet der Webserver mit unterschiedlichen Statuscodes. 

Die wichtigsten HTTP-Statuscodes sind:

  • 200 – OK: Unter der angefragten Adresse wurde ein Inhalt gefunden. Dieser wird entsprechend übermittelt
  • 301 – Permanent redirect: Die Adresse (und damit vermutlich der Inhalt) ist dauerhaft umgezogen
  • 404 – Not Found: Die Adresse wurde nicht gefunden.
  • 410 – Gone: Unter dieser Adresse gab es mal einen Inhalt, jetzt aber nicht mehr

Nur bei einem Statuscode 200 handelt es sich also um eine wirklich verfügbare Webadresse. Und die Webadresse repräsentiert einen Inhalt. Dieser Inhalt kann dabei im Laufe der Zeit ein anderer sein.

Schritt 3: Indexierung. Darf die Seite in Suchergebnissen erscheinen?

Ob das erfolgreich abgerufene Dokumente (HTTP-Statuscode 200) auch den Weg in den Google-Index und anschließend auf Top-Positionen schafft, ist nun vor allem von den Indexierungsangaben, sowie vom eigentlichen Seiteninhalt abhängig.

Bei den Indexierungsangaben geht es darum, ob die Seite von Indexierung ausgenommen ist. In diesem Fall wird über das Meta Robots-Tag, oder das X-Robots-Tag, die Anweisung “Noindex” übermittelt.

Ist ein Noindex gesetzt, dann wird die Suchmaschinen die Aufnahme der Seite in den Index untersagt. Entsprechend kann diese Seite nicht über Suchmaschinen gefunden werden.

Eine weitere Option, die Indexierung zu steuern, ist über das sogenannte Canoncial-Tag. Dieses ist dazu gedacht, die bevorzugte Adresse für einen auf mehreren Adressen vorhandenen Inhalt zu kennzeichnen. Das Canonical-Tag ist im Gegensatz zum Robots-Tag keine verpflichtend zu befolgende Angabe, sondern ein Hinweis. Entsprechend ist es möglich, dass von Suchmaschinen eine andere Adresse als kanonische Adresse definiert wird.

Schritt 4: Ranking. Wofür kann die Seite eine relevante Quelle sein?

Ein weiterer wesentlicher Schritt ist herauszufinden, wofür eine Seite relevant ist. Doch nicht nur das: Es geht auch darum herauszufinden, wie gut diese Seite im Vergleich zu ähnlichen Dokumenten ist. Denn jeder Platz in Suchergebnissen kann nur genau einmal vergeben werden.

Alle Details zu Googles Crawling- und Indexierungsprozess

Wer ganz tief in den Indexierungsprozess einsteigen möchte, der findet sowohl bei Google, als auch bei crawloptimizer weitere Informationen.

Detaillierte Darstellung von Google Crawling- und Indexierungsprozess vom Logfile-Analysetool crawloptimizer

Veröffentlicht am

– Letzte Aktualisierung: