SEO-News

Chatbots robots.txt KI

Eine robots.txt bietet keinen ausreichenden Schutz von Inhalten vor nicht berechtigten Zugriffen. Daran erinnerte jetzt Gary Illyes von Google.


 Anzeige

 

Der Schutz von Online-Inhalten vor nicht berechtigten Zugriffen ist heute wichtiger denn je. Das liegt vor allem an der zunehmenden Verbreitung von Generative KI und Large Language Models, die auf Trainingsdaten aus dem Web angewiesen sind. Dazu werden auch Inhalte von diversen Websites genutzt und dann oftmals ohne entsprechende Angabe der Quelle zum Erzeugen von Antworten genutzt.

Sie benötigen SEO-Beratung für Ihre Website?

Jetzt unverbindlich anfragen

Manche Websites reagieren darauf, indem sie den Zugriff für die Crawler der KI-Tools per robots.txt "sperren" - zum Beispiel vor dem Crawlen durch ChatGPT. Der Begriff "sperren" ist tatsächlich in Anführungszeichen zu setzen, denn wirklich gegen unberechtigte Zugriffe sperren lassen sich Inhalte per robots.txt nicht. Daran erinnerte jetzt Gary Illyes auf LinkedIn. Er schrieb, wenn man eine Authorisierung für Zugriffe möchte, benötige man Mechanismen zur Authentisierung und Zugangskontrollen. Firewalls eignen sich für die Authentisierung auf IP-Basis, der Server kann eine Authentisierung auf Basis von Zugangsdaten per HTTP Auth oder eines Zertifikats vornehmen, das CMS kann Nutzername und Passwort prüfen und ein First Person Cookie verwenden.

Die robots.txt oder jede andere Direktive für das Hosting von Dateien überlässt die Entscheidung dagegen der anfragenden Partei. Es gebe zwar auch für die robots.txt Anwendungsmöglichkeiten, aber manchmal brauche es Zugangskontrollen. Zusammengefasst solle man die robots.txt nicht missverstehen als einen Mechanismus zur Zugangsauthentisierung. Dafür sollte man die passenden Tools verwenden, von denen es viele gebe.

 

Robots.txt kann nicht authentisierte Zugriffe nicht verhindern - Gary Illyes auf LinkedIn 

 

Um eine Website zum Beispiel zuverlässig vor dem Crawlen durch KI-Bots zu schützen, ist die robots.txt nicht geeignet. Hier können Blacklists, also das Sperren des Zugangs für bestimmte IP-Adressen, oder Whiteliststs, also das Erlauben des Zugriffs nur für bestimmte IP-Adressen, eine passende Lösung sein - je nachdem, was das Ziel ist.

Weil die robots.txt in manchen Bereichen nicht mehr zur effektiven Steuerung und Kontrolle des Zugriffs auf Online-Inhalte geeignet ist, hatte Google bereits im vergangenen Jahr eine Initiative zur Entwicklung eines Nachfolgers gestartet und zur Mitarbeit aufgerufen.

Verwandte Beiträge

Google weist darauf hin, dass es Ranking-Signale für einzelne Seiten und für die gesamte Website gibt. Allerdings bestimmen die Signale auf Ebene der Website nicht zwingend, ob einzelne Seiten gut...

Das US-Justizministerium möchte erreichen, dass Google zum Verkauf des Chrome-Browsers gezwungen wird. Für Google und seine Marktmacht im Bereich der Suchmaschinen wäre das ein schwerer Schlag....

OpenAI hat die lange erwartete Suche für ChatGPT offiziell veröffentlicht. Durch die Kombination aus Chat und Suche ergeben sich ganz neue Möglichkeiten.

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen InternetX

SEO Agentur aus Darmstadt

Better sell online

Online Solutions Group

Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px