Google crawlt regelmäßig einen großen Teil des Webs. Das ist auch nötig, um den Index anktuell zu halten. Bei Problemen auf einer Webseite verlangsamt Google das Crawlen jedoch - oder stellt es ganz ein. Worauf man achten muss, sagte ein Google-Insider gestern auf der SMX East.
Google und andere Suchmaschinen haben den Anspruch, ein möglichst aktuelles und umfassendes Abbild des WWW in ihrem Index abzubilden. Deshalb sind deren Crawler bzw. Bots stäandig unterwegs, um neue Dokumente aufzuspüren, Veränderungen zu erkennen und den Index entsprechend zu aktualisieren. Aufgrund der großen Anzahl der mittlerweile verfügbaren Dokumente ist es wichtig, dass diese möglichst schnell abgerufen werden können.
Gibt es Probleme auf einer Webseite, die dazu führen, dass die Antwortzeit steigt oder dass die Dokumente überhaupt nicht mehr abgerufen können, kann Google das Crawlen dieser Seite reduzieren oder sogar ganz einstellen. Googles Webmaster Trend-Analyst, Gary Illyes, hat sich dazu im Rahmen der SMX East geäußert. Hier sind die Faktoren, auf die man achten sollte, wenn man Google auch weiterhin als Gast auf der eigenen Webseite haben möchte:
Verbindungszeit
Ist die Verbindungszeit zum Server oder zur Webseite zu lang, wird Google das Crawlen verlangsamen oder sogar gänzlich einstellen. Einen zeitlichen Verlauf für die Dauer des Herunterladens von Seiten durch den Crawler lässt sich übrigens in den Crawling-Statistiken der Google Webmaster Tools abrufen. Zeigt der Trend für die Dauer nach oben, sollten Nachforschungen angestellt werden.
HTTP-Statuscodes
Ein weiteres Signal, das den Google-Bot zum Rückzug bewegt, sind HTTP-Statuscodes im 500er-Bereich. Diese deuten darauf hin, dass es Probleme auf dem Server gibt. Beim Auftreten solcher Codes zieht sich der Crawler nach Aussage Googles zurück, um keinen weiteren Schaden anzurichten. Crawling-Fehler lassen sich ebenfalls über die Google-Webmaster-Tools abrufen. Es ist zu empfehlen, dort regelmäßig hineinzuschauen.
Das beschriebene Verhalten der Crawler ist also aus zwei Gründen vernünftig und nachvollziehbar: Erstens schont es die knappen Crawling-Ressourcen der Suchmaschinen, und zweitens werden eventuell bestehende Probleme auf einer Webseite nicht durch zusätzliche Abfragen verstärkt.
Bild © JWS - Fotolia.com