SEO-News

GoogleplexGoogle setzt sich dafür ein, dass das Robot Exclusion Protocol (REP) zum Internet-Standard wird. Damit soll sichergestellt werden, dass die Direktiven in den robots.txt-Dateien von den Crawlern lesbar sind und beachtet werden können. Gleichzeitig hat Google seinen Parser für robots.txt-Dateien als Open Source zur Verfügung gestellt.

Auf den meisten Websites gibt es eine robots.txt-Datei. Darin wird geregelt, welche Crawler auf bestimmte URLs und Verzeichnisse zugreifen dürfen, und für welche URLs und Verzeichnisse der Zugriff gesperrt ist.

Damit die Crawler eine robots.txt richtig verstehen, müssen die darin enthaltenen Angaben syntaktisch korrekt sein. Zu diesem Zweck gibt es das Robot Exclusion Protocol (REP). Der Vorläufer dieses Protokolls wurde 1994 von Martijn Koster veröffentlicht und nach und nach zum REP weiterentwickelt. Allerdings hat sich das REP bis heute als offizieller Internet-Standard durchsetzen können. So kam es, dass verschiedene Varianten existieren und es für die Betreiber von Websites schwierig ist, die Direktiven in der robots.txt richtig zu formulieren.

Um dies zu vereinheitlichen, setzt sich Google jetzt dafür ein, das REP zu einem Internet-Standard zu machen. Wie Google in einem Blogpost schreibt, habe man gemeinsam mit dem ursprünglichen Autor, Webmastern und anderen Suchmaschinen dokumentiert, wie das REP im modernen Web genutzt wird, und dies an die IETF gesandt.

Bestehende Regeln sollen dadurch nicht geändert werden. Vielmehr gehe es darum, bisher nicht definierte Szenarien für das Parsen und Abgleichen von robots.txt-Dateien zu klären und eine Erweiterung für das moderne Web zu schaffen. Wichtig sind die folgenden Punkte:

  1. Jedes Übertragungsprotokoll, das auf URIs (Uniform Resource Identifiern) basiert, kann eine robots.txt verwenden. Dazu gehört nicht nur HTTP, sondern zum Beispiel auch FTP oder CoAP.
  2. Entwickler müssen mindestens 500 Kilobytes einer robots.txt parsen. Das Festlegen einer Obergrenze sorgt dafür, dass Verbindungen nicht zu lange offen bleiben und dass Server nicht zu sehr belastet werden.
  3. Eine neue maximale Obegrenze für das Caching von 24 Stunden gibt Webseitenbetreibern die Möglichkeit, ihre robots.txt flexibel anzupassen. Gleichzeitig überfordern Crawler die Websites nicht mit Anfragen an die robots.txt.
  4. Wenn eine zuvor verfügbare robots.txt auf einmal nicht mehr abgerufen werden kann, werden Seiten, die zuvor "disallowed" waren, für einen angemessenen Zeitraum weiterhin nicht gecrawlt.

 

Google stellt Parser für robots.txt als Open Source zur Verfügung

Webmaster und Entwickler, die Googles Parser für robots.txt-Dateien für eigene Anwendungen nutzen möchten, können jetzt auf die entsprechende C++ Bibliothek zugreifen, die Google in GitHub zur Verfügung gestellt hat. Wie Google schreibt, stammt der Code zum Teil aus den 90ern und wurde nach und nach erweitert, um Randfälle abdecken zu können, auf die man mit der Zeit gestoßen ist.

Enthalten ist auch ein Tool zum Testen des Parsers. Mit der folgenden Anweisung kann man eine Regel testen:

 

Google: Anweisung zum Testen einer Regel mit dem robots.txt-Parser

 

Mit der Standardisierung des REP wird es hoffentlich zukünftig etwas einfacher werden, robots.txt-Dateien so zu erstellen, dass sie den gewünschten Zweck erfüllen, ohne dabei unerwünschte Nebeneffekte zu erzielen.

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeige von Clixado

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen





Verwandte Beiträge

SEO-Newsletter bestellen

Ich bin mit den Nutzungsbedingungen einverstanden

SEO-Checkliste

SEO-Checkliste

 

Anzeigen











SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Schulung 2020

SEO-Schulung

Zweitägige Schulung "SEO Basics und Advanced". Jetzt anmelden

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2019

SEO-Kalender 2019

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE SEO: Linkbuilding gehört dazu
Donnerstag, 09. August 2018
Ohne den konstanten und nachhaltigen Aufbau hochwertiger Links bringen die besten Onpage-Maßnahmen... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE PageRangers – das All-in-One-Tool für Webmaster und SEOs - gesponserter Beitrag
Freitag, 18. Oktober 2019
Mit PageRangers erhalten Webmaster und SEOs ein Tool, das im Grunde alles abdeckt – von der... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed