Google erklärt das Crawl-Budget und nennt Einflussfaktoren

Crawler In einem aktuellen Beitrag erläutert Google jetzt ausführlich, was unter dem Crawl-Budget zu verstehen ist und nennt die Faktoren, die das Crawl-Budget beeinflussen. Die wichtigste Erkenntnis lautet: Kleine und mittelgroße Webseiten müssen sich normalerweise keine Sorgen machen, dass das Crawl-Budget nicht ausreichen könnte.

In den letzten Wochen gab es immer wieder Fragen rund um die Crawl-Aktivitäten von Google. Besonders im Fokus stand dabei das sogenannte Crawl-Budget. Um etwas mehr Klarheit in die Diskussion zu bringen, hat Google jetzt einen Blogpost zum Thema veröffentlicht.

Gleich zu Beginn weist der Autor Gary Illyes darauf hin, dass das Crawl-Budget für die meisten Webseitenbetreiber kein Problem darstellt. Webseiten mit bis zu wenigen Tausend URLs und auch Webseiten, bei denen neue Inhalte bereits am Tag der Veröffentlichung gecrawlt werden, sind laut Illyes unkritisch.

Es gibt jedoch Fälle, in denen eine Pririsierung der Crawls sinnvoll sein kann. Dazu gehören größere Webseiten und solche, die Inhalte auf Basis von URL-Parametern automatisch erzeugen.

Limit für die Crawl-Rate

Ein wichtiger Begriff im Zusammenhang mit der Diskussion um das Crawl-Budget ist das Limit der Crawl-Rate. Diese setzt sich aus zwei Faktoren zusammen: der Zahl der parallelen Verbindungen, die der Googlebot für das Crawlen einer Webseite verwendet, und der Zeit zwischen den Abrufen. Die Crawl-Rate kann in Abhängigkeit der folgenden Umstände steigen oder sinken:

Leistung der Webseite ("Crawl health"): Wenn eine Webseite schnell reagiert, steigt das Limit für die Crawl-Rate. Langsamere Reaktionen und Serverfehler reduzieren die Rate dagegen.
Limit aus der Google Search Console: Dort können Webmaster selbst ein Limit für die Crawl-Rate angeben.

Crawl-Bedarf

Das Limit der Crawl-Rate muss nicht zwingend ausgeschöpft werden. Sobald kein Bedarf mehr für das Indexieren weiterer Inhalte bzw. für das Aktualisieren bestehender Inhalte vorhanden ist, wird der Googlebot seine Crawl-Aktivitäten reduzieren. Zwei Faktoren beeinflussen den Crawl-Bedarf maßgebend:

Die Popularität: Beliebte URLs werden tendenziell häufiger vom Crawler besucht, um sie im Index möglichst aktuell zu halten.
Verlust an Aktualität: Google versucht, überholte und obsolete Inhalte aus dem Index zu entfernen.

Zusätzlich können bestimmte Ereignisse wie der Umzug einer Webseite zu einem erhöhten Crawl-Bedarf führen, wenn etwa die Domain gewechselt wird oder die URLs einer Webseite sich ändern.

Crawl-Rate und Crawl-Bedarf zusammen ergeben das Crawl-Budget: Die Zahl der URLs, die der Google crawlen kann und crawlen will.

Faktoren, die das Crawl-Budget beeinflussen

Es sind vor allem URLs mit wenig Mehrwert, die einen negativen Einfluss auf das Crawlen und Indexieren einer Webseite nehmen können. Die folgenden Kategorien beschreiben solche URLs:

Facettierte Navigation und Session-IDs: Unter facettierter Navigation versteht man die Möglichkeit, Ergebnisse auf Basis bestimmter Kriterien weiter zu unterteilen bzw. zu filtern. Ein gutes Beispiel sind Online-Shops, in denen man Produkte nach Farbe, Größe oder Schnitt auswählen kann. Die Unterschiede zwischen den einzelnen Varianten sind so gering, dass sie für den Google-Index keinen Mehrwert bringen. Session-IDs führen zu unterschiedlichen URLs für dieselben Inhalte und damit zu Duplicate Content.
Soft Errors: Darunter versteht man Seiten bzw. URLs, die sich grundsätzlich aufrufen lassen, ohne dass aber die gewünschten Inhalte existieren. Dabei liefert der Server statt des eigentlich angebrachten 404-Errors den Status 200 für "ok" zurück.
Gehackte Seiten: Manipulierte Webseiten sind selbstverständlich ein Problem für Google und führen daher zu einer Reduzierung der Crawling-Aktivitäten
Duplicate Content: Mehrfach auf einer einer Webseite vorkommende Inhalte können dazu führen, dass diese auch mehrfach in den Google-Index aufgenommen werden. Wenn der Googlebot solchen Duplicate Content erkennt, reagiert er mit einer Verringerung der Crawling-Aktivitäten.
Minderwertige Inhalte und Spam: siehe gehackte Seiten. Google hat selbstverständlich kein Interesse an Inhalten minderer Qualität im Index und wird in enstprechenden Fällen das Crawling reduzieren oder sogar einstellen.
Infinite Spaces: Größere Ansammlungen von URLs mit wenig Mehrwert führen ebenfalls zu einem Absenken der Crawling-Aktivitäten.

FAQ zum Crawl-Budget und zur Crawl-Rate

Zum Abschluss geht Illyes noch auf einige Fragen rund um das Crawling ein:

Wie wirken sich die Geschwindigkeit von Webseiten und Fehler aus?

Bessere Ladezeiten wirken sich positiv auf die Nutzererfahrung und auch auf die Crawl-Rate aus. Eine hohe Geschwindigkeit ist ein Zeichen für einen intakten Server. Auf der anderen Seite ist eine Häufung von 500er-Fehlern ein Indiz dafür, dass technisch etwas nicht stimmen könnte. Das kann zum Absenken der Crawl-Rate führen.

Ist Crawling ein Rankingfaktor?

Eine höhere Crawl-Rate führt nicht zwangsläufig zu besseren Rankings. Google nutzt Hunderte von Rankingfaktoren. Das Crawlen ist zwar notwendig, damit eine Seite in den Ergebnissen erscheint, es ist aber kein Rankingsignal.

Beeinflussen alternative URLs und eingebettete Inhalte das Crawl-Budget?

Der Googlebot versucht, jede URL zu crawlen, die er findet, und damit wirkt sich auch jede URL auf das Crawl-Budget aus. Alternative URLs wie zum Beispiel für AMP und eingebettete Inhalte wie CSS und JavaScript können zusätzliche Crawl-Aktivitäten hervorrufen und damit auch Einfluss auf das Crawl-Budget nehmen.

Kann die "crawl-delay"-Direktive in der robots.txt genutzt werden?

Der Googlebot ignoriert die "crawl-delay"-Direktive.

Wirkt sich das "nofollow"-Attribut auf das Crawl-Budget aus?

Es kommt darauf an. Wenn ein Link als "nofollow" gekennzeichnet ist, aber ein anderer Link auf der Seite ohne das "nofollow"-Attribut auf diese URL zeigt, dann wird diese gecrawlt, was sich wiederum auf das Crawl-Budget auswirkt.

Christian Kunz