US-Publisher fordern das Einstellen des Crawlens von Paywall-Inhalten durch Common Crawl
US-Publisher fordern, dass Common Crawl geschützte Inhalte löschen und das Crawlen solcher Inhalte einstellen soll.
Mehrere große US-Nachrichtenverlage gehen laut einem Bericht von PressGazette juristisch gegen die Common Crawl Foundation vor. Ihr Branchenverband Digital Content Next (DCN) hat über einen Anwalt eine Unterlassungsaufforderung verschickt. Darin verlangt er, dass Common Crawl das Sammeln, Speichern und Weitergeben von urheberrechtlich geschützten, kostenpflichtigen oder nur für Abonnenten zugänglichen Inhalten seiner Mitglieder stoppt. Bereits erfasste Inhalte sollen aus den Datensätzen gelöscht werden.
SEO-Beratung: Wir sind Ihre Experten
Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.
Common Crawl durchsucht seit 2008 monatlich Milliarden Webseiten und stellt daraus ein kostenloses Archiv bereit, das zum Beispiel in der Forschung genutzt wird. Viele auch kommerzielle KI-Modelle wurden mit diesen Daten trainiert. Der Klage der New York Times gegen OpenAI zufolge macht Common Crawl 60 Prozent der Trainingsdaten für GPT-3 aus. Die Mozilla Foundation hält das Archiv für eine zentrale Grundlage der heutigen KI-Modelle.
Genau das sorgt für Streit, weil so auch Verlagsartikel und angeblich sogar Inhalte hinter Bezahlschranken in die Trainingsdaten gelangten. Der Crawler CCBot gehört inzwischen zu den am häufigsten blockierten KI-Bots auf Nachrichtenseiten.
Ob die Inhalte einer Website in den Datensätzen von CommonCrawl enthalten sind, kann darüber entscheiden, ob die Website in den Antworten der KI-Plattformen wie ChatGPT oder Perplexity erscheint.
Common Crawl führt eine Liste der Anbieter, die nicht erfasst werden wollen, darunter BBC, Guardian, Financial Times und Washington Post sowie über 900 Nachrichtenseiten über den Verband News/Media Alliance. Der DCN bezweifelt allerdings, dass diese Opt-outs zuverlässig umgesetzt werden. Common Crawl habe in einigen Fällen erst eine Löschung bestätigt und später auf technische Hürden und Kosten verwiesen. Die Anwälte prüfen, ob solche Aussagen falsch oder irreführend waren.
Common Crawl Geschäftsführer Rich Skrenta weist den Vorwurf zurück, Verlage belogen zu haben, und betont, sein Team reagiere zügig auf Löschwünsche. Niemand habe je behauptet, dieser Prozess laufe sofort und vollständig ab. Gegenüber The Atlantic sagte er allerdings im November sinngemäß, wer seine Inhalte nicht im Netz haben wolle, hätte sie dort nicht veröffentlichen sollen.
Common Crawl wird vor allem von der Stiftung des Gründers Gil Elbaz finanziert, hat aber auch Spenden von OpenAI und Anthropic erhalten.

























