Wenn Google bereits gefundene 404-Seiten erneut besucht, geht das nicht zu Lasten des Crawl-Budgets. Das liegt an der Reihenfolge, die Google beim Crawlen einhält.
Ab und zu besucht Google Seiten erneut, die früher einen 404-Status zurückgeliefert haben. Damit will Google testen, ob die Seiten inzwischen wieder verfügbar sind. Die Sorge, dass solche Besuche zu Lasten des Crawl-Budgets gehen könnten, sind jedoch unbegründet. Google priorisiert nämlich die zu besuchenden URLs einer Webseite und ruft alte 404-Seiten zum Schluss auf, und zwar nur dann, wenn noch Crawl-Budget übrig ist.
Das hat Johannes Müller in einem aktuellen Tweet erläutert:
Wenn Google also tatsächlich alte 404-Seiten erneut besucht, ist das ein gutes Zeichen und deutet darauf hin, dass das bestehende Crawl-Budget einer Webseite noch nicht ausgeschöpft wurde.
Wer sich Sorgen ums Crawl-Budget macht, sollte insbesondere die folgenden Faktoren im Auge behalten:
- Facettierte Navigation mit vielen ähnlichen URLs sowie Session-URLs
- Soft-404er
- Duplicate Content
- Spam, gehackte Inhalte
- Infinite Spaces: Ansammlungen von URLs ohne Mehrwert.