SEO-News

Google Lichtwand

Ein neues Online-Tool der Washington Post zeigt, welche Websites in Googles C4 Dataset enthalten sind. Dieses Dataset ist ein Bestandteil der Daten, die von Googles Chatbot 'Bard' verwendet werden.

Woher haben Chatbots wie ChatGPT oder Google Bard die Daten, aus denen sie ihre Antworten erzeugen? Klar ist, dass sehr viele Daten benötigt werden, damit ein Large Language Model aufgebaut kann. 

Sie benötigen SEO-Beratung für Ihre Website?

Jetzt unverbindlich anfragen

Google verwendet für das Datenmodell von Bard verschiedene Quellen. Dazu gehört auch das Google C4 Dataset. Die Bezeichnung steht für "Colossal Clean Crawled Corpus". Die Daten aus dem C4 Dataset stammen von etwa 15 Millionen Websites.

Ein neues Online-Tool der Washington Post zeigt jetzt, welche Websites im C4 Dataset enthalten sind und damit sehr wahrscheinlich von Google Bard in seinen Antworten verwendet werden. Dafür arbeitete die Washington Post mimt Forschern des Allen Institute for AI zusammen und kategorisierte die Websites mit Daten von Similarweb, einem Unternehmen, das sich mit Web Analytics beschäftigt.

Untersucht wurde, wie viele verschiedene Token der Websites im Google C4 Dataset enthalten sind. Token sind kleine Texteinheiten, die bei der Verarbeitung von Informationen verwendet werden. Es handelt sich meist um Worte oder Phrasen.

Die Website mit den meisten Token im Dataset ist patents.google.com. Auf der Website gibt es Texte von weltweit veröffentlichten Patenten. Auf dem zweiten Platz rangiert wikipedia.org, gefolgt von scribd.com, einer Online-Bibliothek. Auch andere große und populäre Websites aus verschiedenen Bereichen wie zum Beispiel News-Websites sind gut vertreten.

Interessant ist, dass auch kleinere und nicht englischsprachige Websites Bestandteil des Daten-Korpus sind. SEO Südwest ist auch dabei und rangiert auf Position 3.724.911 mit 4.100 Token.

 

Google C4-Dataset: SEO Südwest ist dabei

 

Welche Websites im Daten-Korpus enthalten sind, ist auch deshalb interessant, weil Chatbots wie Bard die Informationen zum Erzeugen von Antworten nutzen können, ohne die Quelle anzugeben. Allerdings steht zu erwarten, dass zukünftig Verweise auf die verwendeten Quellen in den Antworten der Chatbots gezeigt werden, wie es beispielsweise schon beim Chatbot von Bing der Fall ist.


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

Anzeigen

OSG

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen

sedo

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group


Sprecher auf

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px