Zum Überprüfen, ob eine Seite vollständig gecrawlt wurde, eignet sich die von Google gecachte Version nicht. Besser ist das Tool "Abruf wie durch Google". Doch auch hier gilt es, Obergrenzen zu beachten.
Wie kann man am besten kontrollieren, ob Google eine Seite vollständig gecrawlt hat, und das insbesondere für große und umfangreiche Seiten? Diese Frage hatte sich ein Webmaster gestellt, der Johannes Müller von Google per Twitter um Hilfe bat. Es ging um eine Seite mit einem Umfang von etwa 20.000 Codezeilen. Die überprüfte Cache-Version habe den unteren Teil der Seite nicht wiedergegeben.
Müller teilte zunächst mit, die Obergrenze bestimme sich nicht nach Codezeilen, sodern beziehe sich auf die Dateigröße. Im Übrigen sei die Cache-Version für derartige Tests nicht geeignet. Besser sei es, die Funktion "Abruf wie durch Google" in der Google Search Console zu nutzen:
Doch auch bei der Funktion "Abruf wie durch Google" gilt es, Obergrenzen zu beachten. Diese liegen jedoch laut den Ergebnissen eines interessanten Versuchs recht hoch:
- Abruf wie durch Google (Rendern): zwischen 15,7 und 15,8 MB
- Abruf wie durch Google (HTTP-Response): ca. 250 KB
- Zum Vergleich: Google-Cache: etwa 1 MB.
Fazit: Zum Kontrollieren des vollständigen Crawlens sollte man die Funktion "Abruf wie durch Google" nutzen und dort die Ansicht der gerenderten Seite betrachten. Seiten, die kleiner als ca. 15 MB sind, dürften in der Regel vollständig gecrawlt werden.
Titelbild © AKS - Fotolia.com