Eine robots.txt bietet keinen ausreichenden Schutz von Inhalten vor nicht berechtigten Zugriffen. Daran erinnerte jetzt Gary Illyes von Google.
Der Schutz von Online-Inhalten vor nicht berechtigten Zugriffen ist heute wichtiger denn je. Das liegt vor allem an der zunehmenden Verbreitung von Generative KI und Large Language Models, die auf Trainingsdaten aus dem Web angewiesen sind. Dazu werden auch Inhalte von diversen Websites genutzt und dann oftmals ohne entsprechende Angabe der Quelle zum Erzeugen von Antworten genutzt.
Sie benötigen SEO-Beratung für Ihre Website?
Manche Websites reagieren darauf, indem sie den Zugriff für die Crawler der KI-Tools per robots.txt "sperren" - zum Beispiel vor dem Crawlen durch ChatGPT. Der Begriff "sperren" ist tatsächlich in Anführungszeichen zu setzen, denn wirklich gegen unberechtigte Zugriffe sperren lassen sich Inhalte per robots.txt nicht. Daran erinnerte jetzt Gary Illyes auf LinkedIn. Er schrieb, wenn man eine Authorisierung für Zugriffe möchte, benötige man Mechanismen zur Authentisierung und Zugangskontrollen. Firewalls eignen sich für die Authentisierung auf IP-Basis, der Server kann eine Authentisierung auf Basis von Zugangsdaten per HTTP Auth oder eines Zertifikats vornehmen, das CMS kann Nutzername und Passwort prüfen und ein First Person Cookie verwenden.
Die robots.txt oder jede andere Direktive für das Hosting von Dateien überlässt die Entscheidung dagegen der anfragenden Partei. Es gebe zwar auch für die robots.txt Anwendungsmöglichkeiten, aber manchmal brauche es Zugangskontrollen. Zusammengefasst solle man die robots.txt nicht missverstehen als einen Mechanismus zur Zugangsauthentisierung. Dafür sollte man die passenden Tools verwenden, von denen es viele gebe.
Um eine Website zum Beispiel zuverlässig vor dem Crawlen durch KI-Bots zu schützen, ist die robots.txt nicht geeignet. Hier können Blacklists, also das Sperren des Zugangs für bestimmte IP-Adressen, oder Whiteliststs, also das Erlauben des Zugriffs nur für bestimmte IP-Adressen, eine passende Lösung sein - je nachdem, was das Ziel ist.
Weil die robots.txt in manchen Bereichen nicht mehr zur effektiven Steuerung und Kontrolle des Zugriffs auf Online-Inhalte geeignet ist, hatte Google bereits im vergangenen Jahr eine Initiative zur Entwicklung eines Nachfolgers gestartet und zur Mitarbeit aufgerufen.