SEO-News

Perplexity Startseite

Die KI-Suchmaschine Perplexity respektiert die robots.txt von Websites. Allerdings gibt es eine kleine Ausnahme.

 


 Anzeige

Der Datenhunger von KI-Tools ist groß. Zum Trainieren ihrer Sprachmodelle greifene viele Tools auch auf Quellen aus dem Web zurück und crawlen dazu Websites. Die Sorge vieler Website-Betreiber ist, dass ihre Daten von den KI-Tools genutzt werden, ohne dass dafür eine Kompensation oder zumindest eine Nennung der Quelle stattfindet. Daher blockieren viele Website-Betreiber das Crawlen durch KI-Tools per robots.txt. Allerdings halten sich nicht alle Crawler daran.

Sie benötigen SEO-Beratung für Ihre Website?

Jetzt unverbindlich anfragen

Bei der KI-Suchmaschine Perplexity respektiert man laut eigener Aussage die Direktiven in der robots.txt. Wenn eine Seite ein "Disallow" für den PerplexityBot gesetzt hat, dann crawle Perplexity weder den kompletten Text noch Teile des Textes. Eine Einschränkung gibt es dabei aber: Die Domain der Website, die Schlagzeile und eine inhaltliche Zusammenfassung werden dem Suche-Index hinzugefügt. Dabei bezieht sich Perplexity immer auf News Publisher und nicht auf Websites allgemein.

Perplexity respects robots.txt. Perplexity will not crawl full or partial text content of a news publisher that has disallowed PerplexityBot via robots.txt. Some news web pages may still be indexed even if a page is blocked via robots.txt. In this instance, only the website domain, headline, and a factual summary of the page are added to our search index.

Die von Perplexity gecrawlten Inhalte werden nicht zum Erstellen von Large Language Models genutzt, wie es weiter heißt.

Bisher respektierte Perplexity die robots.txt nicht, wenn Nutzer die Funktion zum Zusammenfassen einer bestimmten Seite verwendet haben. Solche Abfragen seien auf Wunsch der Nutzer erfolgt. Dies sei vergleichbar mit dem direkten Abruf einer URL durch einen Nutzer. Weil diese Funktion allerdings auch missbräuchlich verwendet worden sei, habe man sie vorübergehend deaktiviert.

Perplexity nutzt auch Crawler von Drittanbietern, um seinen Suche-Index aufzubauen. Diese Crawler hätten sich nicht immer an die robots.txt gehalten, wie Perplexity schreibt. Man habe jedoch Anpassungen vorgenommen, um sicherzustellen, dass sich auch diese Crawler an die robots.txt halten und nich die kompletten Inhalte der Seiten von News-Publishern crawlen.

Verwandte Beiträge

Die KI-Suchmaschine Perplexity beantwortet inzwischen 100 Millionen Suchanfragen pro Woche. Im Vergleich zu Google ist das immer noch sehr wenig. Allerdings ist die Tendenz steigend.

Wenn Google Seiten indexiert hat, die per robots.txt gesperrt sind, ist das normalerweise kein Problem.

Eine robots.txt bietet keinen ausreichenden Schutz von Inhalten vor nicht berechtigten Zugriffen. Daran erinnerte jetzt Gary Illyes von Google.

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

 

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen InternetX

SEO Agentur aus Darmstadt

Better sell online

Online Solutions Group

Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px