Cloudflare hat eine Erweiterung für die robots.txt-Datei namens "Content Signals Policy" eingeführt. Damit ließe sich sogar festlegen, dass Inhalte für die klassische Suche verfügbar sind, für Anwendungen wie die Google AI Overviews jedoch nicht.
Die Einführung der Content Signals Policy durch Cloudflare erfolgt vor dem Hintergrund, dass Unternehmen Daten von Websites sammeln, was für die Betreiber Kosten verursacht, ohne dass sie eine Gegenleistung erhalten. Früher war es üblich, dass die Ersteller von Inhalten im Gegenzug für die Nutzung ihrer Daten eine Form von Gegenleistung erhielten wie z.B. Weiterleitungsverkehr oder eine Namensnennung.
In Zeiten von KI-Tools wie ChatGTP oder auch den Google AI Overviews ist das anders. Hier werden Inhalte von verschiedenen Quellen zusammengestellt, und das oftmals ohne Nennung der Quellen oder Links.
Die Content Signals Policy wird als für Menschen lesbarer Kommentar in die robots.txt-Datei eingefügt. Der Kommentar wird von Maschinen ignoriert und beginnt mit dem #-Symbol. Die Policy definiert drei Signale:
- search: für den Aufbau eines Suchindexes und die Bereitstellung von Suchergebnissen.
- ai-input: für die Eingabe von Inhalten in KI-Modelle in Echtzeit, z.B. bei der Generierung von KI-Suchantworten.
- ai-train: für das Trainieren oder die Feinabstimmung von KI-Modellen.
Website-Betreiber können ihre Präferenzen maschinenlesbar mit den Werten "yes" oder "no" angeben. Zum Beispiel bedeutet Content-Signal: search=yes, ai-train=no, dass die Inhalte für die Suche verwendet werden dürfen, aber nicht für das KI-Training. Wenn ein Signal nicht gesetzt wird, bedeutet das, dass der Website-Betreiber über robots.txt keine Präferenz für diese spezielle Nutzung ausgedrückt hat. Der Richtlinientext enthält auch einen Hinweis darauf, dass die Signale als Vorbehalt von Rechten gemäß der EU-Urheberrechtsrichtlinie 2019/790 verstanden werden können.
Interessant ist das Content-Signal ai-input. Es bezieht sich auf die Verwendung von Inhalten für das sogenannte Grounding, also wenn KI-Systeme für ihre Antworten Inhalte live aus dem Web abrufen. Ein prominentes Beispiel sind die Google AI Overviews. Mit den neuen Content-Signalen könnte man also Inhalte für die klassische Suche freigeben, aber für die AI Overviews sperren. Google hat sich jedoch nicht dazu geäußert, ob man die Content Signals Policy unterstützen möchte.
Cloudflare will für die nach eigenen Angaben über 3,8 Millionen Domains, die die verwaltete robots.txt-Funktion nutzen, die Datei aktualisieren und die Signale search=yes und ai-train=no hinzufügen. Für Kunden mit kostenlosen Tarifen ohne bestehende robots.txt-Datei wird der menschlich lesbare Richtlinientext als Kommentar eingefügt, jedoch ohne maschinenlesbare Signale oder Zugriffsanweisungen. Das soll den Nutzern die Entscheidung überlassen, ob und wann sie ihre Präferenzen festlegen möchten.
Die Content Signals sind als Ausdruck von Präferenzen zu verstehen und stellen keine technische Maßnahme gegen Scraping dar. Website-Betreiber können die Signale mit anderen Sicherheitsmaßnahmen wie WAF-Regeln und Bot-Management kombinieren. Cloudflare hat die Policy unter einer CC0-Lizenz veröffentlicht, um eine breite Anwendung zu fördern. Das Unternehmen plant, sich weiterhin in Standardisierungsgremien zu engagieren, um die Akzeptanz in der breiteren Internet-Community zu fördern.
Cloudflare hat eine Reihe weiterer Möglichkeiten geschaffen, um den Zugriff von KI-Bots zu steuern. Dazu gehören auch die AI Crawl Control und das Blockieren per Firewall.