Über Probleme bei der Indexierung informiert Google sowohl im Indexierungsbericht der Google Search Console, als auch über E-Mails. So kam während des Aufbaus von getIndexed, als die Website noch nicht zur Indexierung freigegeben war, folgende Nachricht in den Posteingang:
![Die Google Search Console Nachricht für "Probleme vom Typ „Seitenindexierung“ in [website] erkannt"](https://www.getindexed.io/wp-content/uploads/2023/02/google-search-console-nachricht-probleme-seitenindexierung.jpg)
Diese Mail kann zwei unterschiedliche Betreffzeilen haben:
- Probleme vom Typ „Seitenindexierung“ in [website] erkannt
- Probleme vom Typ „Seitenindexierung“ in den eingereichten URLs für [website] erkannt
Wie im Indexierungsbericht auch unterscheidet Google bei den Benachrichtigungen zwischen „alle bekannten URLs“ und „alle eingereichten URLs“.
- Eingereichte URLs: Alle Webadressen, die über eine XML-Sitemap an Google gesendet werden.
- Bekannte URLs: Alle Webadressen, die Google aus unterschiedlichen Quellen kennt.
Inhaltsverzeichnis
- 1 Was muss ich tun, wenn ich die Nachricht „Probleme vom Typ Seitenindexierung“ erhalte?
- 2 Die Grundlagen: Das sagt der Indexierungsbericht der Google Search Console
- 3 Diese Gründe führen zu einer Nicht-Indexierung und damit zu Problemen mit der Indexierung
- 3.1 Grund 1: Serverfehler (5xx)
- 3.2 Grund 2: Weiterleitungsfehler
- 3.3 Grund 3: URL wird von der robots.txt-Datei blockiert
- 3.4 Grund 4: URL als „noindex“ markiert
- 3.5 Grund 5: Soft 404-Fehler
- 3.6 Grund 6: Wegen nicht autorisierter Anforderung (401) blockiert
- 3.7 Grund 7: Wegen Zugriffsverbot (403) blockiert
- 3.8 Grund 8: URL wegen eines anderen 4xx-Problems blockiert
- 3.9 Grund 9: Durch Tool zum Entfernen von Seiten blockiert
- 3.10 Grund 10: Gecrawlt – zurzeit nicht indexiert
- 3.11 Grund 11: Gefunden – zurzeit nicht indexiert
- 3.12 Grund 12: Alternative Seite mit richtigem kanonischen Tag
- 3.13 Grund 13: Duplikat – vom Nutzer nicht als kanonisch festgelegt
- 3.14 Grund 14: Duplikat – Google hat eine andere Seite als der Nutzer als kanonische Seite bestimmt
- 3.15 Grund 15: Seite mit Weiterleitung
- 4 Welche der Gruppen sind problematisch?
- 5 Wie können Adressen indexiert werden?
Was muss ich tun, wenn ich die Nachricht „Probleme vom Typ Seitenindexierung“ erhalte?
Erstmal vorneweg: Die Nachricht informiert darüber, dass einzelne Webadressen nicht von Google indexiert wurden beziehungsweise indexiert werden konnten. Sie können also nicht in der Google-Suche erscheinen. Das ist erstmal nur ein Hinweis. Denn ob die Seite aus Sicht des Website-Inhabers indexiert werden soll, ist entscheidend dafür, ob es sich um ein tatsächliches Problem handelt.
Wenn eine Nachricht über Indexierungsprobleme eingeht, gilt es, die betroffenen Adressen zu kontrollieren. Sollten die Seiten (nicht) indexiert sein? Dazu muss in der Google Search Console die entsprechende Fehlerkategorie aufgerufen werden.
Anschließend solltest du die Adresse(n) in ihrem Browser aufrufen und schauen, ob das Problem wie von Google beschrieben weiterhin vorliegt.
Die Grundlagen: Das sagt der Indexierungsbericht der Google Search Console
Mit der Google Search Console haben Webmaster die Möglichkeit, die „Seitenindexierung“ (oder auch Indexierungsstatus) einzelner Webseiten und der Website insgesamt zu überprüfen. Während für die Überprüfung einzelner Seiten die URL Inspection (deutsch: URL Prüfung) genutzt werden kann, ist für den Indexierungsstatus der Website insgesamt der Bericht „Index“ die richtige Anlaufquelle.

Grundsätzlich müssen Seiten (URLs) die Prozesskette
- Auffindbarkeit: Google kennt die Adresse
- Crawling: Google konnte die Seite erfolgreich aufrufen
- Indexierung: Google darf die Seite indexieren
durchlaufen, um in den sogenannten Google Index zu kommen. Der Google Index ist die Sammlung aller von Google indexierten Seiten. Und nur diese können in den Suchergebnissen erscheinen.
Diese Gründe führen zu einer Nicht-Indexierung und damit zu Problemen mit der Indexierung
Grundsätzlich unterteilt Google den Bericht in die drei Bereiche
- Indexiert
- Nicht indexiert
- Darstellung von Seiten verbessern
Nicht indexiert ist der Bericht, der Hinweise über den Indexierungsstatus gibt. Bevor du in die Detailanalyse gehst, überlege dir am besten, ob die genannte(n) Adresse(n) für dich wichtig sind. Denn wenn nicht, dann kannst du dir die Überprüfung auch sparen.
Noch ein genereller Tipp: Mit einem Tool wie httpstatus.io kannst du die Adresse nochmals von einer „neutralen Umgebung“ prüfen. Das Tool zeigt dir leicht verständlich den sogenannten Statuscode einer Seite an. Das ist vereinfacht gesagt die Information, ob eine angefragte Seite vorliegt oder nicht.
Grund 1: Serverfehler (5xx)
Von einem Serverfehler wird gesprochen, wenn eine Website keinerlei Informationen über das (Nicht-)Vorhandensein einer Adresse zurückliefern kann. In diesem Fall liefert der Server einen sogenannten Statuscode im Bereich 5xx zurück. Das sind in der Regel temporäre, technische Probleme.
Wenn du die Adresse in deinem Browser aufrufst und keinerlei Seiteninhalte siehst, dann liegt vermutlich nach wie vor ein Serverfehler vor. In diesem Fall sollte der Kontakt mit einem technischen Ansprechpartner gesucht werden.
Grund 2: Weiterleitungsfehler
Von einer Weiterleitung wird gesprochen, wenn eine Adresse auf eine andere Adresse weiterleitet. Der Server antwortet für Weiterleitungen in der Regel mit einem Statuscode von 3xx. Während 301 eine dauerhafte Weiterleitung ist, steht 302 für eine temporäre Weiterleitung. In diesem Fall ist damit zu rechnen, dass die aktuell weiterleitende Adresse wieder zurückkommt.
Weiterleitungsfehler können sein:
- Weiterleitungsketten, also viele aufeinanderfolgende Weiterleitungen
- Weiterleitungsschleifen, also ein Verweis von Seite A auf Seite B und wieder zurück. Diese Schleifen enden in der Folge nie
- Weiterleitungen auf eine Adresse, die zu viele Zeichen verwendet. Das kann beispielsweise passieren, wenn ein Pfad sich immer wieder neu aufgrund einer falschen Weiterleitung an die Adresse anhängt
- Weiterleitung zu nicht (mehr) vorhandenen oder gänzlich leeren Seiten
Überprüfe die von diesem Fehler betroffenen Adressen mit httpstatus.io oder einem ähnlichen Tool.
Grund 3: URL wird von der robots.txt-Datei blockiert
Über die robots.txt-Datei kann Suchmaschinen der Zugriff auf Adressen verboten werden. Entsprechend weiß die Suchmaschine nicht, ob es diese Seite gibt, und wenn ja, welcher Inhalt auf der Seite zu finden ist.
In diesem Fall musst du überprüfen, ob es sich um eine bewusste Sperrung der Seite handelt. Falls nicht, kannst du die entsprechende Disallow:-Angabe in der robots.txt entfernen und damit das Crawling der Seite erlauben.
Grund 4: URL als „noindex“ markiert
Durch die Angabe Noindex über meta robots oder X-robots (siehe Google Hilfe) können Seiten von der Indexierung ausgeschlossen werden.
Um zu überprüfen, ob die überprüfte Seite auf Noindex steht, kannst du im Quelltext der Seite nach „Noindex“ suchen. Alternativ können dir Browsererweiterungen wie „Robots Exclusion Checker“ helfen. Dieses Plugin und weitere werden in diesem Artikel näher beschrieben.
Grund 5: Soft 404-Fehler
Von einem Soft-404-Fehler wird gesprochen, wenn eine Seite zwar erfolgreich auf eine Anfrage antwortet (Statuscode 200), aber keinen (wirklichen) Inhalt darstellt. Sollte es diese Seite nicht geben, dann lösche sie. Denn dann ändert sich die Server-Antwort für diese Adresse auf 404 für nicht gefunden.
Grund 6: Wegen nicht autorisierter Anforderung (401) blockiert
Wenn erst nach erfolgreicher Anmeldung ein Inhalt sichtbar wird, sehen Nutzer ohne erfolgreich durchgeführte Autorisierung einen 401-Fehler. In diesem Fall konnte Google den Inhalt der Seite nicht abrufen.
Überprüfe, ob der Zugriff auf diese Seite bewusst hinter einem Passwortschutz liegt. Falls nicht, dann entfernen den Zugriffsschutz.
Grund 7: Wegen Zugriffsverbot (403) blockiert
Und noch ein weiterer Fehlercode. Wenn der Server mit dem Statuscode 403 auf eine Anfrage antwortet, dann waren die Zugangsdaten nicht korrekt.
Da sich Google nie an Seiten anmeldet, handelt es sich hier um einen „falschen“ Fehlercode. Richtig wäre, die nicht übermittelten Anmeldedaten mit dem Statuscode 401 zu beantworten.
Grund 8: URL wegen eines anderen 4xx-Problems blockiert
In diese Fehlergruppe werden alle weiteren Fehler einsortiert, bei denen der Server mit einem 4xx-Statuscode geantwortet hat.
Den genauen Statuscode kannst du wiederum mit einem Tool wie httpstatus.io ermitteln.
Grund 9: Durch Tool zum Entfernen von Seiten blockiert
Über das genannten Tool können Seiten aus unterschiedlichen Gründen von Dritten, beispielsweise per persönlichen Daten, oder dem Website-Verantwortlichen blockiert worden sein. Das Tool steht für Websiteverantwortliche in der Google Search Console zur Verfügung, und für Dritte unter dieser Adresse.
Wenn Adressen diesem Grund zugeordnet wurden, solltest du prüfen, wer die Entfernung beantragt hat und ob diese Adressen de-indexiert sein sollen.
Grund 10: Gecrawlt – zurzeit nicht indexiert
Adressen, die unter diese Gruppe fallen, sind von Google besucht worden, aber nicht in den Index aufgenommen worden.
Rund um die Behebung „Gecrawlt, zurzeit nicht indexiert“ gibt es einen eigenen Artikel.
Grund 11: Gefunden – zurzeit nicht indexiert
Mit gefunden meint Google, dass die Adresse bekannt ist. Bisher wurde sie aber noch nicht besucht. Das kann zu einem späteren Zeitpunkt (noch) passieren, muss aber nicht.
Da diese Adressen im Sinne des Indexierungsprozesses auf Stufe 1 sind (Auffindbarkeit gegeben, aber noch nicht besucht), muss genauer geschaut werden, was das Problem verursacht. Dazu gibt es in diesem Artikel mehr.
Grund 12: Alternative Seite mit richtigem kanonischen Tag
Mit dem sogenannten Canonical-Tag können Seiten markiert werden, die denselben Inhalt unter verschiedenen Adressen bereitstellen. Ein Beispiel dafür ist die Druckversion eines Artikels unter eigener Adresse und die „richtige“ URL. Idealerweise verweist die Druckversion per Canonical auf die richtige Artikelseite.
Dieser Grund für eine „Nicht-Indexierung“ ist rein als Hinweis zu sehen, solange Adressen nicht falsch zusammengefasst wurden.
Grund 13: Duplikat – vom Nutzer nicht als kanonisch festgelegt
Wenn mehrere Adressen denselben Inhalt bereitstellen, aber nicht per Canonical-Tag verknüpft sind, dann tauchen sie in diesem Bericht auf.
Für dich gilt hier wieder zu prüfen, ob die Seiten in deinem Sinne „kanonisiert“ wurden. Wenn nicht, solltest du selbst die kanonischen Adressen über das Canonical-Tag festlegen, oder dafür sorgen, dass jeder Inhalt nur unter einer (indexierbaren) Adresse vorliegt.
Grund 14: Duplikat – Google hat eine andere Seite als der Nutzer als kanonische Seite bestimmt
Es kann vorkommen, dass Seiten zwar per Canonical-Tag miteinander verbunden wurden, Google die Seiten aber nicht als ähnlich ansieht. Da das Canonical-Tag nur als Empfehlung gewertet wird, sagt diese Fehlergruppe folglich, bei welchen Adressen Google eine andere Seite als der Nutzer als kanonisch gewertet hat.
Auch bei dieser Gruppe muss überprüft werden, ob Fehler bei den Canonical-Tags vorliegen. Dazu müssen die betroffenen Seiten einzeln analysiert werden.
Grund 15: Seite mit Weiterleitung
Adressen, die auf eine andere Seite erfolgreich weiterleiten, fallen in der Google Search Console unter diesen Bereich.
Da Weiterleitungen aktiv gesetzt werden müssen, ist diese Gruppe eher als Hinweis denn als Problem zu sehen.
Welche der Gruppen sind problematisch?
Alle der genannten Gruppen weisen darauf hin, dass die diesen Gruppen zugewiesenen Adressen nicht indexiert werden konnten. Für dich gilt es also zu schauen, ob es sich um eine gewollte „Nicht-Indexierung“ handelt.
Eigentlich ist nur Gruppe 15, die Seiten mit Weiterleitungen unkritisch. Alle anderen Probleme sollten genauer unter die Lupe genommen werden.
Wie können Adressen indexiert werden?
Wenn eine Indexierung der von Google gerade als nicht-indexiert benannten Adressen gewünscht ist, dann muss ein neues Crawling der Seiten erreicht werden. Zwischen dem (wiederholten) Crawling einer Adresse können im Extremfall Monate liegen. Um die Wahrscheinlichkeit eines zeitnahen Crawlings zu erhöhen, gibt es die klassischen Wege:
- Aufnahme der Seite (mit einem aktuellen <lastmod>-Zeitpunkt) in eine XML-Sitemap
- Verbesserung der Verlinkung der Seite
- Einreichen der Seite über die Google Search Console
Während diese Varianten nur die Crawlingwahrscheinlichkeit erhöhen, bietet getIndexed einen entscheidenden Vorteil: Ein (fast) in Echtzeit stattfindendes Crawling der Seite.