SuchmaschinenbotEs gibt bestimmte Sonderfälle, in denen Google Inhalte von URLs indexiert, obwohl diese per robots.txt gesperrt sind.

Das Setzen von "disallow" in der robots.txt für eine URL bewirkt normalerweise, dass Google diese URL nicht crawlt und auch nicht indexiert. Dennoch kann es passieren, dass Google Snippets für solche URLs in den Suchergebnissen anzeigt, zum Beispiel, wenn es externe Links auf die betreffenden URLs gibt. In der Regel erscheint im Snippet dann aber nur die URL ohne Text bzw. Description, weil das Crawlen per robots.txt blockiert ist.

Es gibt aber Sonderfälle, in denen Google auch Inhalte von blockierten URLs indexiert. Das bestätigte Johannes Müller auf Nachfrage per Twitter. Er bezog sich damit auf einen früheren Blogpost von Google zum Thema nicht mehr unterstützte Regeln in der robots.txt. Darin ist zu lesen:

"Search engines can only index pages that they know about, so blocking the page from being crawled usually means its content won’t be indexed."

Es ging um den Begriff "usually", der besagt, dass es Ausnahmen von der Regel gibt, dass Inhalte von blockierten Seiten nicht indexiert werden. Müller nennt beispielhaft die folgenden Aussagen:

  • Wenn es Anchors auf die betreffende URL gibt
  • Wenn die robots.txt neu verarbeitet wird
  • Wenn versucht wird, die URL neu zu verarbeiten.

 

Google: Sonderfälle, in denen Inhalte trotz Sperrung durch die robots.txt indexiert werden

 

Es gibt also keine Garantie dafür, dass Inhalte von per robots.txt gesperrten URLs nicht in der Suche erscheinen. Wer das erreichen möchte, sollte die entsprechenden URLs auf "noindex" setzen.

 

Titelbild: Copyright Patrick Daxenbichler - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

Die Google Search Console hat einen neuen robots.txt-Report erhalten. Dafür wird der alte robots.txt-Tester eingestellt.

Per 'Google-extended' kann man nicht verhindern, dass Google Webseiten für KI-Antworten in der neuen Suche 'Google SGE' verwendet.

Die unter archive.org verfügbare Wayback Machine ermöglicht auch den Abruf alter robots.txt-Dateien. Das kann bei der nachträglichen Fehlersuche hilfreich sein.

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden