SEO-News

Google: HTTP-Status 404 und 403 sind nicht geeignet zum Absenken der Crawl-Rate

Christian Kunz

17. Februar 2023

Zuletzt aktualisiert: 17. Februar 2023

Wer Google dazu bringen möchte, die Crawl-Rate für eine Website zu reduzieren, sollte dafür nicht die HTTP-Status 404 und 403 verwenden. Zum Absenken der Crawl-Rate gibt es andere Möglichkeiten.

Gary Illyes von Google hat in einem neuen Blogpost darauf hingewiesen, dass das Senden der HTTP-Status 404 und 403 nicht geeignet ist, um Googles Crawl-Rate für eine Website zu reduzieren. Das gelte jedoch ausdrücklich nicht für den HTTP-Status 429.

Sie benötigen SEO-Beratung für Ihre Website?

Jetzt unverbindlich anfragen

Illyes schrieb diesen Blogbeitrag, weil es in letzter Zeit eine zunehmende Anzahl von Website-Betreibern und CDNs gibt, die 404- und andere Client Errors verwenden, um Googles Crawl-Rate zu senken. Illyes bittet darum, davon abzusehen, und statt dessen Googles Dokumentation zum Reduzieren der Crawl-Rate zu Rate zu ziehen. Darin werden verschiedene Möglichkeiten beschrieben, das Ziel zur erreichen:

Nutzen der Google Search Console für eine vorübergehende Absenkung der Crawl-Rate
Verwenden eines der HTTP-Status 500, 503 oder 429 für den Googlebot, wenn dieser zu schnell crawlt.

Dabei stehen die Status 500 und 503 für Serverfehler, während der Status 429 "too many requests" bedeutet.

Illyes wies darauf hin, dass die Status 404 und 403 Client-Fehler seien. Das bedeutet, dass das Problem auf der Seite des Anforderers liegt, etwa dann, wenn eine nicht existierende Seite angefordert wird oder eine Seite, auf die man keine Zugriffsberechtigung besitzt.

Wenn Google 404-Fehler zum Anlass für das Absenken des Crawlens nehmen würde, wäre es zum Beispiel möglich, durch das Setzen von Links auf nicht bestehende Seiten Googles Crawl-Rate zu beeinflussen.

Zudem führt das Senden von 4xx HTTP-Status dazu, dass die betreffenden Inhalte aus dem Google-Index entfernt werden. Das gilt jedoch nicht für den Status 429.

Und wenn der Abruf der robots.txt-Datei zu einem 4xx HTTP-Status führt, handelt der Googlebot so, als gebe es keine robots.txt - und crawlt möglicherweise Seiten, die er nicht crawlen soll.

Christian Kunz