CrawlerNicht jede URL einer Webseite erhält die gleiche Anzahl an Besuchen von den Crawlern der Suchmaschinen. Diese Érkenntnis ist im Grunde nicht neu, doch Johannes Müller von Google gibt noch einige Hintergrundinformationen dazu und auch zur Frage, warum es meist mehrere Tage dauert, bis die Suchedaten in der Search Console landen.

 

Es leuchtet ein, dass Google und andere Suchmaschinen ihre Crawler nicht zu jeder Seite in der gleichen Häufigkeit schicken können. Entscheidend für die Crawl-Frequenz sind zwei Faktoren:

  • die Bedeutung bzw. die Popularität einer Seite
  • die Häufigkeit der Änderungen.

Die Popularität einer Seite bestimmt sich vor allem durch ihre Vernetzung mit anderen Webseiten, was sich durch den PageRank ausdrückt (Achtung: Damit ist nicht der öffentlich sichtbare PageRank gemeint, der seit Jahren nicht mehr angepasst wird, sondern der Wert, mit dem Google intern rechnet). Umso mehr Links auf eine Seite zeigen und umso mehr Gewicht diese Links haben, desto höher ist der PageRank der Seite. Weil Seiten mit hohem PageRank durch mehr Links mit anderen Seiten verbunden sind, ist auch die Wahrscheinlichkeit eines Crawlerbesuchs größer, denn Crawler springen über Links von Seite zu Seite.

Die Änderungshäufigkeit einer Seite spielt für die Crawl-Frequenz eine Rolle, weil die Suchmaschinen bestrebt sind, ihren Index möglichst aktuell zu halten. Das bedeutet: Je häufiger es Änderungen gibt, desto größer ist das Risiko, dass der Index der Suchmaschine nicht den aktuellen Stand auf der Seite widerspiegelt. Um dieses Risiko zu senken, werden solche Seiten häufiger gecrawlt.

 

Crawling-Frequenz und ihre Bedeutung für die Search Console

Johannes Müller hat in einem Post auf Google+ gestern bestätigt, dass es für die einzelnen URLs auf einer Webseite unterschiedliche Crawling-Häufigkeiten gibt. Manche URLs würden im  Minutenabstand gecrawlt, andere erst nach Monaten wieder besucht. Daher könne es auch dauern, bis Crawling-Fehler nach der Behebung in der Google Search Console entsprechend markiert würden:

"Per-URL crawl rates differ. Some URLs are crawled every few minutes, others just every couple months, and many somewhere in between. If you go from "all URLs are broken" to "all URLs are fixed" (which is awesome if you have a way to do that!), it will take some time to drop to "zero errors" in the aggregated reports."

 

Verzögerungen in der Search Console

Dazu kommt eine gewisse Zeitspanne zwischen dem Crawlen der Seiten und der Anzeige entsprechender Daten in der Search Console. Zunächst würden die Daten durch verschiedene Prozesse aufbereitet. Es werde versucht, in der Search Console den finalen Stand der Daten widerzugeben. Das sei insbesondere bei abrupten Änderungen der Fall wie etwa beim Wechsel von "keine AMP-Seiten" auf "viele AMP-Seiten":

"latency from crawling to reporting. It takes a few days (to about a week) for Search Console to display data after it's been crawled. There are various processes that run over the data, and Search Console tries to reflect the final state -- which can take a bit of time to get. This is particularly visible with an abrupt change, such as going from "no AMP pages" to "lots of AMP pages".

Wenn man bedenkt, dass Google täglich hunderte von Millionen URLs crawlen und auswerten muss, leuchtet es ein, dass dies eine Weile dauern kann. Schließlich gibt es nicht nur die bestehenden Seiten, die sich ändern können, sondern es kommen täglich auch viele neue Seiten dazu.

 

Titelbild © AKS - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

Google hat für die Search Console weitere Verbesserungen für die Verwaltung von Zugangsberechtigungen eingeführt. Es ist jetzt möglich, das Entfernen nicht mehr genutzter Token zu überprüfen.

Google verwendet laut eigener Aussage auch dann das Nutzerverhalten nicht für die Rankings, wenn Google Analytics und die Google Search Console verknüpft sind.

Im Indexierungsbericht zur Google Search Console können auch URLs von Bildern im WebP-Format erscheinen. Das sorgt für Verwirrung.