SEO-News

Robots.txt20 Jahre gibt es nun schon die robots.txt. Ursprünglich war sie zum Sparen von Bandbreite gedacht, doch heute setzen sie viele auch für die Steuerung der Indexierung ein. Leider werden dabei oft schwerwiegende Fehler gemacht.

Der ursprüngliche Verwendungszweck der robots.txt lag nicht wie heute im Ausschließen bestimmter Seiten aus den Indizes der Suchmaschinen. Der Grund bestand vielmehr im Einsparen von Bandbreite: Die damaligen Netz- und Serverkapazitäten waren noch nicht so großzügig ausgestattet wie heute. Das konnte dazu führen, dass der Besuch von Crawlern eine Webseite in die Knie zwang. Um diesen Effekt zu dämpfen, wurde der Robots Exclusion Standard eingeführt.

 

 

Der Erfinder der robots.txt ist Martijn Koster, der damals bei Nexor gearbeitet hat. Die Anweisungen in der robots.txt werden inzwischen von allen großen Suchmaschinen akzeptiert. Prominente Beispiele für die Verwendung der robots.txt für das Auslassen bestimmter Seitenbereiche gibt es viele: So haben etwa schon WhiteHouse.gov, Nissan oder Metallica Teile  ihrer Webseiten geblockt.

Der immer noch verbreitete Einsatz der robots.txt ist nicht ganz unproblematisch, denn eine falsche Handhabung des vermeintlich einfachen Instruments kann fatale Auswirkungen auf die Webseite haben. Brian Ussery hat dazu auf seinem Blog einen schönen Beitrag geschrieben. Hier eine Liste der fünf häufigsten Fehler:

 

1. Seiten, die nicht in der Suche erscheinen sollen, per robots.txt sperren

Ein Disallow in der robots.txt ist nicht das geeignete Mittel, Seiten aus dem Index zu nehmen - vor allem dann, wenn es auf anderen Seiten Links gibt, die auf diese Seiten zeigen. Google wird sich dann die Informationen von diesen anderen Seiten zusammensuchen und die eigentlich gesperrte Seite trotzdem in den Suchergebnissen anzeigen. Vor allem dann, wenn eine Seite bereits im Index steht, ist ein Disallow in der robots.txt falsch. Das kann dazu führen, dass die Seite dann mit einer schlechten oder sogar fehlenden Description angezeigt wird. Besser: Sperren der betreffenden Seiten per "robots"-Meta-Anweisung oder per Passwort-Schutz.


2. "Disallow" für Seiten mit Redirects

Das Sperren von weitergeleiteten Seiten per robots.txt kann dazu führen, dass der Crawler den Redirect nicht erkennt. Ergebnis: Die Seite wird weiter in den Suchergebnissen angezeigt, jedoch mit falscher URL. Zusätzliches Problem: Dadurch werden auch die zugehörigen Analytics-Daten verfälscht.

 

3. Sperren von Seiten mit "nofollow"- und "canonical"-Attribut sowie X-Robots-Header

Sämtliche Meta-Informationen wie auch die Angaben im HTTP-Header bleiben dem Crawler dann verborgen, wenn die entsprechende URL in der robots.txt gesperrt ist. Das kann zu unerwünschten Effekten führen.

 

4. Zu komplexe robots.txt

Viele robots.txt-Dateien sind so komplex, dass sie kaum mehr lesbar sind. Das liegt häufig daran, dass sie mit der Zeit gewachsen sind. Fehler sind dann vorprogrammiert. Dazu kommt, dass Google alles ignoriert, was die 500-KB-Grenze übersteigt. Wird die robots.txt also zu groß, besteht die Gefahr, dass ein Teil der Anweisungen nicht mehr berücksichtigt wird.

 

5. Überschreiben von Anweisungen

Wenn in der robots.txt zuerst generische Anweisungen stehen, die für alle Crawler gelten, und danach spezifische, nur für bestimmte Crawler gedachte Anweisungen folgen, dann überschreiben letztere die ersteren - zumindest, was den Googlebot betrifft. Daher am besten immer nach Änderungen die robots.txt per Google Webmaster Tools testen.


Die goldene Regel lautet also: Die robots.txt immer nur dann verwenden, wenn eine Seite nicht gecrawlt werden soll. Damit eine Seite nicht in den Index aufgenommen wird, sollten dagegen andere Möglichkeiten wie die Robots-Meta-Tags oder auch entsprechende Returncodes (410, 404) eingesetzt werden.

 


Simona Konradi-KunzSimona Konradi-Kunz+ arbeitet derzeit im Projekt- und Eventmanagement für den Rundfunkbereich. Sie kennt sich besonders im Bereich Medien-Marketing aus. Mail-Adresse: simona.konradi-kunz(at)seo-suedwest.de

{extravote 1}


 

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen sedo

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group


Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px