SEO-News

Robots.txt20 Jahre gibt es nun schon die robots.txt. Ursprünglich war sie zum Sparen von Bandbreite gedacht, doch heute setzen sie viele auch für die Steuerung der Indexierung ein. Leider werden dabei oft schwerwiegende Fehler gemacht.

Der ursprüngliche Verwendungszweck der robots.txt lag nicht wie heute im Ausschließen bestimmter Seiten aus den Indizes der Suchmaschinen. Der Grund bestand vielmehr im Einsparen von Bandbreite: Die damaligen Netz- und Serverkapazitäten waren noch nicht so großzügig ausgestattet wie heute. Das konnte dazu führen, dass der Besuch von Crawlern eine Webseite in die Knie zwang. Um diesen Effekt zu dämpfen, wurde der Robots Exclusion Standard eingeführt.

 

 

Der Erfinder der robots.txt ist Martijn Koster, der damals bei Nexor gearbeitet hat. Die Anweisungen in der robots.txt werden inzwischen von allen großen Suchmaschinen akzeptiert. Prominente Beispiele für die Verwendung der robots.txt für das Auslassen bestimmter Seitenbereiche gibt es viele: So haben etwa schon WhiteHouse.gov, Nissan oder Metallica Teile  ihrer Webseiten geblockt.

Der immer noch verbreitete Einsatz der robots.txt ist nicht ganz unproblematisch, denn eine falsche Handhabung des vermeintlich einfachen Instruments kann fatale Auswirkungen auf die Webseite haben. Brian Ussery hat dazu auf seinem Blog einen schönen Beitrag geschrieben. Hier eine Liste der fünf häufigsten Fehler:

 

1. Seiten, die nicht in der Suche erscheinen sollen, per robots.txt sperren

Ein Disallow in der robots.txt ist nicht das geeignete Mittel, Seiten aus dem Index zu nehmen - vor allem dann, wenn es auf anderen Seiten Links gibt, die auf diese Seiten zeigen. Google wird sich dann die Informationen von diesen anderen Seiten zusammensuchen und die eigentlich gesperrte Seite trotzdem in den Suchergebnissen anzeigen. Vor allem dann, wenn eine Seite bereits im Index steht, ist ein Disallow in der robots.txt falsch. Das kann dazu führen, dass die Seite dann mit einer schlechten oder sogar fehlenden Description angezeigt wird. Besser: Sperren der betreffenden Seiten per "robots"-Meta-Anweisung oder per Passwort-Schutz.


2. "Disallow" für Seiten mit Redirects

Das Sperren von weitergeleiteten Seiten per robots.txt kann dazu führen, dass der Crawler den Redirect nicht erkennt. Ergebnis: Die Seite wird weiter in den Suchergebnissen angezeigt, jedoch mit falscher URL. Zusätzliches Problem: Dadurch werden auch die zugehörigen Analytics-Daten verfälscht.

 

3. Sperren von Seiten mit "nofollow"- und "canonical"-Attribut sowie X-Robots-Header

Sämtliche Meta-Informationen wie auch die Angaben im HTTP-Header bleiben dem Crawler dann verborgen, wenn die entsprechende URL in der robots.txt gesperrt ist. Das kann zu unerwünschten Effekten führen.

 

4. Zu komplexe robots.txt

Viele robots.txt-Dateien sind so komplex, dass sie kaum mehr lesbar sind. Das liegt häufig daran, dass sie mit der Zeit gewachsen sind. Fehler sind dann vorprogrammiert. Dazu kommt, dass Google alles ignoriert, was die 500-KB-Grenze übersteigt. Wird die robots.txt also zu groß, besteht die Gefahr, dass ein Teil der Anweisungen nicht mehr berücksichtigt wird.

 

5. Überschreiben von Anweisungen

Wenn in der robots.txt zuerst generische Anweisungen stehen, die für alle Crawler gelten, und danach spezifische, nur für bestimmte Crawler gedachte Anweisungen folgen, dann überschreiben letztere die ersteren - zumindest, was den Googlebot betrifft. Daher am besten immer nach Änderungen die robots.txt per Google Webmaster Tools testen.


Die goldene Regel lautet also: Die robots.txt immer nur dann verwenden, wenn eine Seite nicht gecrawlt werden soll. Damit eine Seite nicht in den Index aufgenommen wird, sollten dagegen andere Möglichkeiten wie die Robots-Meta-Tags oder auch entsprechende Returncodes (410, 404) eingesetzt werden.

 


Simona Konradi-KunzSimona Konradi-Kunz+ arbeitet derzeit im Projekt- und Eventmanagement für den Rundfunkbereich. Sie kennt sich besonders im Bereich Medien-Marketing aus. Mail-Adresse: simona.konradi-kunz(at)seo-suedwest.de

{extravote 1}


 

SEO-Checkliste

SEO-Checkliste

 

Anzeigen


SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Schulung 2019

SEO-Schulung

Ganztägige Schulung "SEO-Grundlagen". Jetzt anmelden

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2018

SEO-Kalender 2018

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

Partner

15 Prozent sparen!
Euer Rabatt-Code lautet SEOSUEDWESTSMX19

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE SEO: Linkbuilding gehört dazu
Donnerstag, 09. August 2018
Ohne den konstanten und nachhaltigen Aufbau hochwertiger Links bringen die besten Onpage-Maßnahmen... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE Neuer SEO-Contest: Punktesystem soll für mehr Fairness und Chancen sorgen
Montag, 30. Juli 2018
Im Rahmen eines neuen SEO-Contests kämmpfen wieder zahlreiche Publisher und Webseitenanbieter um... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed