Ein neues Online-Tool der Washington Post zeigt, welche Websites in Googles C4 Dataset enthalten sind. Dieses Dataset ist ein Bestandteil der Daten, die von Googles Chatbot 'Bard' verwendet werden.
Woher haben Chatbots wie ChatGPT oder Google Bard die Daten, aus denen sie ihre Antworten erzeugen? Klar ist, dass sehr viele Daten benötigt werden, damit ein Large Language Model aufgebaut kann.
Sie benötigen SEO-Beratung für Ihre Website?
Google verwendet für das Datenmodell von Bard verschiedene Quellen. Dazu gehört auch das Google C4 Dataset. Die Bezeichnung steht für "Colossal Clean Crawled Corpus". Die Daten aus dem C4 Dataset stammen von etwa 15 Millionen Websites.
Ein neues Online-Tool der Washington Post zeigt jetzt, welche Websites im C4 Dataset enthalten sind und damit sehr wahrscheinlich von Google Bard in seinen Antworten verwendet werden. Dafür arbeitete die Washington Post mimt Forschern des Allen Institute for AI zusammen und kategorisierte die Websites mit Daten von Similarweb, einem Unternehmen, das sich mit Web Analytics beschäftigt.
Untersucht wurde, wie viele verschiedene Token der Websites im Google C4 Dataset enthalten sind. Token sind kleine Texteinheiten, die bei der Verarbeitung von Informationen verwendet werden. Es handelt sich meist um Worte oder Phrasen.
Die Website mit den meisten Token im Dataset ist patents.google.com. Auf der Website gibt es Texte von weltweit veröffentlichten Patenten. Auf dem zweiten Platz rangiert wikipedia.org, gefolgt von scribd.com, einer Online-Bibliothek. Auch andere große und populäre Websites aus verschiedenen Bereichen wie zum Beispiel News-Websites sind gut vertreten.
Interessant ist, dass auch kleinere und nicht englischsprachige Websites Bestandteil des Daten-Korpus sind. SEO Südwest ist auch dabei und rangiert auf Position 3.724.911 mit 4.100 Token.
Welche Websites im Daten-Korpus enthalten sind, ist auch deshalb interessant, weil Chatbots wie Bard die Informationen zum Erzeugen von Antworten nutzen können, ohne die Quelle anzugeben. Allerdings steht zu erwarten, dass zukünftig Verweise auf die verwendeten Quellen in den Antworten der Chatbots gezeigt werden, wie es beispielsweise schon beim Chatbot von Bing der Fall ist.