SEO-News

KI-Suchmaschine Perplexity respektiert robots.txt, aber nicht komplett

Christian Kunz

09. Oktober 2024

Zuletzt aktualisiert: 28. Januar 2025

Die KI-Suchmaschine Perplexity respektiert die robots.txt von Websites. Allerdings gibt es eine kleine Ausnahme.

Der Datenhunger von KI-Tools ist groß. Zum Trainieren ihrer Sprachmodelle greifene viele Tools auch auf Quellen aus dem Web zurück und crawlen dazu Websites. Die Sorge vieler Website-Betreiber ist, dass ihre Daten von den KI-Tools genutzt werden, ohne dass dafür eine Kompensation oder zumindest eine Nennung der Quelle stattfindet. Daher blockieren viele Website-Betreiber das Crawlen durch KI-Tools per robots.txt. Allerdings halten sich nicht alle Crawler daran.

SEO-Beratung: Wir sind Ihre Experten

Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Unsere Beratungsleistungen

Christian Kunz

SEO Experte

David Wulf

SEO Experte

Sven Häwel

Offpage-Experte

Bei der KI-Suchmaschine Perplexity respektiert man laut eigener Aussage die Direktiven in der robots.txt. Wenn eine Seite ein "Disallow" für den PerplexityBot gesetzt hat, dann crawle Perplexity weder den kompletten Text noch Teile des Textes. Eine Einschränkung gibt es dabei aber: Die Domain der Website, die Schlagzeile und eine inhaltliche Zusammenfassung werden dem Suche-Index hinzugefügt. Dabei bezieht sich Perplexity immer auf News Publisher und nicht auf Websites allgemein.

Perplexity respects robots.txt. Perplexity will not crawl full or partial text content of a news publisher that has disallowed PerplexityBot via robots.txt. Some news web pages may still be indexed even if a page is blocked via robots.txt. In this instance, only the website domain, headline, and a factual summary of the page are added to our search index.

Die von Perplexity gecrawlten Inhalte werden nicht zum Erstellen von Large Language Models genutzt, wie es weiter heißt.

Bisher respektierte Perplexity die robots.txt nicht, wenn Nutzer die Funktion zum Zusammenfassen einer bestimmten Seite verwendet haben. Solche Abfragen seien auf Wunsch der Nutzer erfolgt. Dies sei vergleichbar mit dem direkten Abruf einer URL durch einen Nutzer. Weil diese Funktion allerdings auch missbräuchlich verwendet worden sei, habe man sie vorübergehend deaktiviert.

Perplexity nutzt auch Crawler von Drittanbietern, um seinen Suche-Index aufzubauen. Diese Crawler hätten sich nicht immer an die robots.txt gehalten, wie Perplexity schreibt. Man habe jedoch Anpassungen vorgenommen, um sicherzustellen, dass sich auch diese Crawler an die robots.txt halten und nich die kompletten Inhalte der Seiten von News-Publishern crawlen.

Christian Kunz