SEO-News

CrawlerEin Bug im robots.txt Testing-Tool von Google kann gefährliche Auswirkungen haben, nämlich dann, wenn man auf Basis des Testergebnisses falsche Regeln definiert. Betroffen sind URLs, die prozentkodierte Zeichen enthalten.

Per robots.txt lässt sich der Zugriff auf bestimmte Seiten, Dokumente und Verzeichnisse auf einem Server für Crawler sperren. Auch wenn sich nicht alle Crawler daran halten, so respektiert Google diese Anweisungen jedoch.

Fehlerhafte Anweisungen in der robots.txt können aber gravierende Auswirkungen haben. So kann es geschehen, dass man aus Versehen komplette Pfade, Kategorien oder sogar die gesamte Webseite sperrt mit dem Ergebnis, dass diese nicht mehr gecrawlt wird.

Zur Kontrolle der robots.txt bietet Google ein eigenes Tool an, das über die Google Search Console aufgerufen werden kann. Ganz fehlerfrei arbeitet das Tool jedoch nicht: Im Umgang mit URLs, die prozenkodierte Zeichen enthalten, kann es zu Problemen kommen. Eine solche Kodierung empfiehlt Google für Zeichen, die nicht im 7-Bit-ASCII-Zeichensatz enthalten sind.

In einem Blogbeitrag schreibt Giuseppe Pastore über die Probleme des robots.txt Testing-Tools mit solchen prozentkodierten Zeichen. Als Beispiel nennt er einen Fall, in dem alle URLs blockiert werden sollen, die das "<"-Zeichen ("kleiner als") enthalten. Dieses Zeichen lässt sich entsprechend kodieren. Der resultierende Eintrag in der robots.txt wäre dann:

Disallow: /*%3c

Testet man dies im robots.txt Tool, wird jedoch weiterhin bescheinigt, dass der Zugriff erlaubt sei:

Robots.txt Testing Tool: Problem mit prozentkodierten URLs

 

Das Problem dabei ist: Wenn man auf Basis des Tools annimmt, eine URL sei weiterhin nicht blockiert und die Regel zum Blockieren verallgemeinert, kann dies unter Umständen zum Blockieren von Seiten führen, die eigentlich für die Crawler verfügbar sein sollen.

Johannes Müller von Google empfiehlt auf Twitter zur Absicherung die Funktion "Abruf wie durch Google" in der Search Console. Dieses gibt Auskunft darüber, ob eine URL gesperrt ist oder nicht:

 

Johannes Müller

 

Man sollte sich also bei URLs mit prozentkodierten Zeichen niemals auf die Aussage des robots.txt Testing-Tools verlassen, sondern stets auch weitere Prüfungen vornehmen.

 

Titelbild © AKS - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

Die Google Search Console hat einen neuen robots.txt-Report erhalten. Dafür wird der alte robots.txt-Tester eingestellt.

Per 'Google-extended' kann man nicht verhindern, dass Google Webseiten für KI-Antworten in der neuen Suche 'Google SGE' verwendet.

Die unter archive.org verfügbare Wayback Machine ermöglicht auch den Abruf alter robots.txt-Dateien. Das kann bei der nachträglichen Fehlersuche hilfreich sein.

 

 

 

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen sedo

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group


Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px