Probleme mit der Indexierung oder dem Crawlen? Mögliche Ursachen

Googlebot Was tun, wenn Google und Co. eine Webseite nicht indexieren wollen? Woran kann es liegen, wenn nur ein Teil der Seiten im Index landet? Das können die Ursachen sein.

Neue Webseite: Warum crawlt Google nicht?

Viele kennen die Situation: Die neue Webseite ist fertig gestellt, man ist stolz auf das Ergebnis und kann es kaum erwarten, bis sich die ersten Besucher einfinden. Damit die Seite gefunden wird, müssen Google und Co. sie aber zunächst in ihren Index aufnehmen. Dazu schicken die Suchmaschinen regelmäßig ihre Crawler vorbei, um neue Seiten zu erkennen und zu erfassen. Damit das funktioniert, müssen aber einige Voraussetzungen gegeben sein. Ein kleiner Fehler kann schon dazu führen, dass nur wenige oder überhaupt keine Seiten im Index landen.

Unterschied zwischen Crawlen und Indexieren

Die Aufnahme von Webseiten in die Suchmaschinen umfasst im Wesentlichen zwei Schritte: erstens das Crawlen und zweitens die Indexierung. Beim Crawlen werden die Seiteninhalte erkannt und gesammelt. Beim Indexieren werden die erkannten und gesammelten Inhalte normalisiert, also bereinigt, selektiert und dann in den Index geschrieben. Sowohl das Crawlen als auch das Indexieren wirken sich später auf die Zahl der Seiten im Index aus, denn alles, was nicht gecrawlt wurde und alles, was beim Indexieren herausgefiltert wird, kann später auch nicht gefunden werden.

Begrenzte Crawling-Ressourcen

Vorab noch eine Anmerkung: Selbst dann, wenn technisch alles in Ordnung ist, gibt es keine Garantie für die vollständige Aufnahme aller Seiten in den Index. Die Crawler haben eine begrenzte Kapazität - auch wenn diese inzwischen riesig ist. Um diese begrenzte Kapazität möglichst effizient zu nutzen, verteilt sich die Zeit, die Crawler auf einer Webseite verbringen, unterschiedlich. Die Besuchshäufigkeit und auch die Tiefe, mit der die Crawler eine Webseite untersuchen, hängt nämlich von zwei Faktoren ab:

Bedeutung der Seite
Aktualisierungsfrequenz der Seite

Die dahinterliegende Überlegung ist einfach und nachvollziehbar: Umso bedeutender eine Webseite ist, desto mehr lohnt sich die Aufnahme ihrer Inhalte für die Suchmaschine bzw. für deren Nutzer. Klar, dass Seiten wie Spiegel Online oder Heise in der Regel mehr Bedeutung haben als ein kleiner privater Blog.

Die Häufigkeit der Aktualisierung einer Webseite ist der zweite wichtige Faktor, der das Crawlen beeinflusst, denn die Suchmaschinen möchten ein möglichst aktuelles Abbild des Webs in ihrem Index haben. Umso häufiger also eine Seite aktualisiert wird, desto größer ist auch der Anreiz für die Crawler für häufige Besuche, um möglichst viele dieser Änderungen mitzubekommen.

1. Seite zu unbedeutend oder zu selten aktualisiert

Und hier ist auch schon der erste Grund für eine zu niedrige Indexierungsrate zu finden: Entweder ist die Seite nicht wichtig genug, oder die Inhalte ändern sich zu selten. Um die Bedeutung einer Seite zu steigern, kann man die organischen Suchergebnisse erst einmal vernachlässigen und sich um andere Besucherkanäle kümmern. Zu empfehlen ist der Weg über bezahlte Ads in den Suchergebnissen, kombiniert mit einer Social-Media-Strategie. Auch in Twitter und Facebook gibt es beispielsweise die Möglichkeit, zu Beginn per bezahlter Posts das Zielpublikum zu erreichen.

2. Blockierte Ressourcen

Meistens hat eine niedrige Indexierungsrate technische Gründe, allen voran blockierte Ressourcen. Dabei spielen diese Dateien einer Webseite die wichtigste Rolle:

robots.txt
.htaccess
Sitemap

robots.txt

Die robots.txt der zentrale Anlaufpunkt für die Crawler, wenn es darum geht, welche Bereiche einer Webseite sie besuchen dürfen. In der robots.txt lassen sich einzelne Seiten oder ganze Verzeichnisse sperren - bis hin zur gesamten Webseite. Dabei kann auch zwischen verschiedenen Crawlern unterschieden werden. Was für einen Crawler erlaubt wird, kann für alle anderen verboten werden. So kann man die "guten" Crawler durchlassen und die "bösen" Crawler aussperren. Die Anweisungen in der robots.txt sind jedoch nicht bindend. Der Crawler kann selbst entscheiden, ob er den Vorgaben folgt.

Speziell für Google ist es wichtig, alle Verzeichnisse freizugeben, die Javascript und CSS enthalten und damit für die optische Darstellung einer Seite verantwortlich sind. Denn nur so kann Google zum Beispiel erkennen, ob eine Seite mobiloptimiert ist oder nicht.

.htaccess

Die .htaccess ist ein Dokument, in dem man die Konfiguration des Webservers festlegen kann (Apache). Auch per .htaccess kann man Webseitenbereiche sperren oder sie durch ein Passwort schützen. So kann zum Beispiel festgelegt werden, dass nur Rechner mit einer bestimmten IP-Adresse auf eine Seite zugreifen dürfen oder dass nur Besucher, die von einem bestimmten Link zugreifen (Referrer), Inhalte angezeigt bekommen. Die .htaccess ist auch der Ort, an dem Weiterleitungen (Redirects) eingerichtet werden können. Auch falsche Weiterleitungen können zu Problemen beim Crawlen und Indexieren führen.

Sitemap

Schließlich gibt es noch die Sitemap. Sie enthält die wichtigsten Links einer Seite in einem speziellen Format und erleichtert es den Suchmaschinen, diese Links zu besuchen und die Inhalte der zugehörigen Seiten zu indexieren. Sitemaps können auf verschiedene Weisen erstellt werden. So bietet das kostenlose Tool Xenu Link Sleuth eine Exportfunktion für XML-Sitemaps. Sehr gut geeignet zu diesem Zweck ist auch Screaming Frog.

Ob eine Sitemap das richtige Format besitzt, kann dann in der Google Search Console (ehemals Google Webmaster Tools) getestet werden. Dazu gibt es eine passende Funktion unter "Crawling / Sitemaps".

3. Meta-Daten

Meta-Daten sind ebenfalls ein beliebter Grund, warum das Crawlen und Indexieren einer Webseite scheitern kann. Die beiden wichtigsten Meta-Daten, die hier relevant sind, sind das Attribut "robots" sowie das Canonical-Attribut.

Das Robots-Attribut

Das Robots-Attribut legt fest, ob eine Seite indexiert werden soll. Es bestimmt außerdem, ob der Crawler den Links auf der Seite folgen soll. Das Robots-Attribut wird in den Head-Bereich der Seite in den HTML-Code geschrieben. Ein Beispiel ist die Anweisung meta name="robots" content="index,follow". Das sagt dem Crawler, dass die Seite indexiert werden darf und den Links auf der Seite gefolgt werden soll. Wenn es Probleme bei der Indexierung gibt, sollten das Robots-Attribut für diese Seiten überprüft werden.

Das Canonical-Attribut

Mit dem Canonical-Attribut zeigt man an, welche URL einer Seite die bevorzugte ist. Wenn eine Seite unter mehreren URLs erreichbar ist, zum Beispiel mit und ohne "www", dann muss klar sein, welche davon in den Index aufgenommen werden soll. Ansonsten drohen Probleme mit Duplicate Content. Ein Canoncial-Attribut setzt man, wie in diesem Beispiel gezeigt wird: link rel="canonical" href="http://beispieldomain.com"

Dabei können viele Fehler gemacht werden. Man darf das Canonical zum Beispiel nicht für das Blättern (Paginierung) von mehrseitigen Artikeln verwenden. Noch schlimmer ist es, wenn auf allen Seiten nur ein einziges, identisches Canonical gesetzt wird, das zum Beispiel auf die Startseite zeigt. Im schlimmsten Fall führt das dazu, dass alle Seiten bis auf die Startseite nicht in den Index aufgenommen werden bzw. daraus verschwinden.

4. Sonderfälle beim Indexieren

Schließlich gibt es noch Fälle, in denen scheinbar alle technischen und sonstigen Bedingungen für das Crawlen gegeben sind und es dennoch nicht zufriedenstellend klappt. Ein Beispiel habe ich gerade erlebt. Eine neue Webseite war eingerichtet worden. Obwohl die eingereichte Sitemap in Ordnung war, die robots.txt keine wichtigen Bereiche gesperrt hatte und auch die Meta-Daten unauffällig waren, wurden laut Google Webmaster Tools nur wenige der Seiten aus der Sitemap in den Index aufgenommen.

Die Erklärung fand sich erst nach einiger Zeit: Die Webseite war zu Beginn sowohl per "www.beispieldomain.com" als auch per "beispieldomain.com" erreichbar. Später wurde dann eine Weiterleitung der Nicht-www-Variante auf die www-Variante eingerichtet. In der Zwischenzeit hatte Google jedoch schon zahlreiche URLs ohne "www" indexiert.

In den Google Webmaster Tools war die Domain mit "www" angemeldet worden. Angezeigt wurden aber nur wenige indexierte Seiten - und das, obwohl es laut "site:"-Suche offensichtlich schon wesentlich mehr indexierte Seiten im Index gab. Recherchen ergaben, dass die Google Webmaster Tools Domains mit und ohne "www" als komplett unterschiedliche Seiten behandelt. Das führte dazu, dass im Dashboard für die www-Variante all diejenigen Seiten nicht erschienen, die sich noch ohne "www" im Google-Index befanden.

Mit der Zeit zeigen die Redirects allerdings Wirkung, so dass die Zahl der www-URLs im Index angestiegen und die Zahl der Nicht-www-URLs gesunken ist.

Fazit

Es zeigt sich, dass das Crawlen und Indexieren von Webseiten durch die Suchmaschinen von vielen Faktoren abhängig ist. Bei Problemen sollten zunächst die technischen Voraussetzungen geklärt werden: Sind die robots.txt, die Sitemap und die .htaccess in Ordnung? Sind die Meta-Daten richtigt gesetzt?

Bei neuen Seiten kann es ohnehin erst einmal etwas dauern, bis Google aufmerksam wird und sich zur Aufnahme der Seiten in den Index entscheidet. Diese Zeit kann man überbrücken, indem man sich zum Beispiel auf soziale Netzwerke und bezahlte Anzeigen in den Suchmaschinen konzentriert, um die Bekanntheit der Seite zu erhöhen.

Sollte das alles nichts helfen, muss nach besonderen Problemen gesucht werden. Hierzu kann auch auf die Erfahrungen anderer Seitenbetreiber und SEOs zurückgergriffen werden.

Christian Kunz