Die KI-Suchmaschine Perplexity respektiert die robots.txt von Websites. Allerdings gibt es eine kleine Ausnahme.
Der Datenhunger von KI-Tools ist groß. Zum Trainieren ihrer Sprachmodelle greifene viele Tools auch auf Quellen aus dem Web zurück und crawlen dazu Websites. Die Sorge vieler Website-Betreiber ist, dass ihre Daten von den KI-Tools genutzt werden, ohne dass dafür eine Kompensation oder zumindest eine Nennung der Quelle stattfindet. Daher blockieren viele Website-Betreiber das Crawlen durch KI-Tools per robots.txt. Allerdings halten sich nicht alle Crawler daran.
Sie benötigen SEO-Beratung für Ihre Website?
Bei der KI-Suchmaschine Perplexity respektiert man laut eigener Aussage die Direktiven in der robots.txt. Wenn eine Seite ein "Disallow" für den PerplexityBot gesetzt hat, dann crawle Perplexity weder den kompletten Text noch Teile des Textes. Eine Einschränkung gibt es dabei aber: Die Domain der Website, die Schlagzeile und eine inhaltliche Zusammenfassung werden dem Suche-Index hinzugefügt. Dabei bezieht sich Perplexity immer auf News Publisher und nicht auf Websites allgemein.
Perplexity respects robots.txt. Perplexity will not crawl full or partial text content of a news publisher that has disallowed PerplexityBot via robots.txt. Some news web pages may still be indexed even if a page is blocked via robots.txt. In this instance, only the website domain, headline, and a factual summary of the page are added to our search index.
Die von Perplexity gecrawlten Inhalte werden nicht zum Erstellen von Large Language Models genutzt, wie es weiter heißt.
Bisher respektierte Perplexity die robots.txt nicht, wenn Nutzer die Funktion zum Zusammenfassen einer bestimmten Seite verwendet haben. Solche Abfragen seien auf Wunsch der Nutzer erfolgt. Dies sei vergleichbar mit dem direkten Abruf einer URL durch einen Nutzer. Weil diese Funktion allerdings auch missbräuchlich verwendet worden sei, habe man sie vorübergehend deaktiviert.
Perplexity nutzt auch Crawler von Drittanbietern, um seinen Suche-Index aufzubauen. Diese Crawler hätten sich nicht immer an die robots.txt gehalten, wie Perplexity schreibt. Man habe jedoch Anpassungen vorgenommen, um sicherzustellen, dass sich auch diese Crawler an die robots.txt halten und nich die kompletten Inhalte der Seiten von News-Publishern crawlen.
SEO-Newsletter bestellen