Skip to main content
SEO-News

Common Crawl, Harmonic Centrality und ihre Bedeutung für KI-Sichtbarkeit

Christian Kunz
24. Januar 2026
Zuletzt aktualisiert: 24. Januar 2026
Web-Archiv Common Crawl

Die Konzentration auf den PageRank (PR) war gestern, denn eine neue Kennzahl gewinnt derzeit für SEOs an Bedeutung. Die Rede ist von der Harmonic Centrality (HC). Sie weist Ähnlichkeiten mit dem PR auf, hat aber einen anderen Ursprung.

 Anzeige

Während SEOs traditionell die klassischen Suchergebnisse von Google im Blick hatten, geht es nun zunehmend um die Datenquellen großer Sprachmodelle (LLMs). Eine zentrale Rolle spielt dabei Common Crawl. Es handelt sich dabei um eine Organisation, die Millionen von Websites crawlt. Die gesammelten Daten fließen in das Training von KIs ein. 

Den möglichen Zusammenhang zwischen den archivierten Domains, der HC und den Citations in der KI hat jetzt Common Crawl selbst in einem Blogbeitrag beschrieben.

TL;DR: das Wichtigste in Kürze

  • KI-Plattformen wie ChatGPT nutzen Common Crawl zum Trainieren ihrer Modelle.
  • Websites, die in den Archiven von Common Crawl häufiger vorkommen, verbessern wahrscheinlich ihre Chancen auf KI-Erwähnungen (Citations).
  • Domains mit einer höheren Harmonic Centrality (HC) haben eine größere Chance auf Archivierung durch Common Crawl.
  • Das sollte auch beim Linkaufbau berücksichtigt werden: Zu bevorzugen sind Links mit hoher HC, die sich in der Nähe zentraler Websites befinden.

Common Crawl und der WebGraph

Common Crawl ist ein seit 2008 bestehendes Non-Profit-Projekt, welches das Internet in großem Maßstab archiviert und diese Daten als Open Source zur Verfügung stellt. Die Archive umfassen Petabytes an Daten und Milliarden von Webseiten.

Eine von der Mozilla Foundation veröffentlichte Analyse zeigt für den Zeitraum 2019 bis 2023, dass etwa 64 Prozent der 47 untersuchten großen Sprachmodelle Versionen von Common Crawl nutzen, wobei zum Beispiel bei GPT-3 über 80 Prozent der Trainingstokens aus gefilterten Common-Crawl-Daten stammten.

Um diese großen Datenmengen zu strukturieren, veröffentlicht Common Crawl monatlich neben den eigentlichen Seitenarchiven auch den sogenannten WebGraph. Dieser Datensatz liefert Analysen über die Verlinkungsstruktur von Milliarden von Seiten. Der WebGraph stellt Autoritätsmetriken bereit, die nicht nur für SEOs zur Analyse dienen, sondern vor allem den Crawler von Common Crawl (CCBot) selbst steuern. Der Crawler nutzt diese Metriken, um zu entscheiden, welche Domains priorisiert besucht werden.

SEO-Beratung: Wir sind Ihre Experten

Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Christian Kunz
Christian Kunz
SEO Experte
David Wulf
David Wulf
SEO Experte
Sven Häwel
Sven Häwel
Offpage-Experte

Harmonic Centrality vs. PageRank

Innerhalb des WebGraphs werden zwei zentrale Metriken unterschieden, die oft verwechselt werden, aber unterschiedliche Aspekte der Autorität beleuchten: Harmonic Centrality (HC) und PageRank (PR).

Metrik

Was sie misst

Bedeutung für Common Crawl

Harmonic Centrality (HC)

Misst, wie nahe eine Domain an allen anderen Domains im Graphen ist (Topologie).

Dient als primäres Signal für die Crawl-Priorität des CCBots.

PageRank (PR)

Misst die Autorität basierend auf Qualität und Quantität eingehender Links.

Dient als klassisches Maß für Link-Autorität und Popularität.

Während der PR traditionell die Qualität der eingehenden Links und damit auch der verlinkten Websites bewertet, identifiziert die HC zentrale Knotenpunkte im Netz. Eine Domain mit hoher HC kann viele andere Domains über wenige Link-Sprünge erreichen bzw. ist über eine kurze Distanz mit wichtigen, autoritativen Websites verbunden. 

 

Harmonic Centrality vs. PageRank

Harmonic Centrality vs. PageRank: erstellt mit Google Nano Banana pro, basierend auf einer Grafik des Common Crawl Projects

Das beeinflusst auch die Prioritäten beim Linkaufbau. Wie Hanns Kronenberg auf LinkedIn schreibt, bringen zum Beispiel gekaufte Links in peripheren Netzwerken für die HC wenig, weil deren Distanz zum Kern des Webs groß ist. Statt vieler Links mit geringer HC sollten weniger Links mit geringer HC aufgebaut werden.

Common Crawl nutzt die Harmonic Centrality, um die Crawl-Priorität festzulegen. Webseiten mit einem hohen HC-Wert werden häufiger gecrawlt, was zu mehr Einträgen in den monatlichen Archiven von Common Crawl führt. Eine stärkere Präsenz in den Archiven erhöht wiederum die Wahrscheinlichkeit, signifikant in den Trainingsdaten der KI-Modelle vertreten zu sein.

Tipp: Mit dem CC Rank Checker von Metehan Yesilyurt lassen sich PR und HC von Domains prüfen und vergleichen.

 

CC Rank Checker: Beispiel

Ergebnis des CC Rank Checkers: Beispiel

Korrelation vs. Kausalität: Warum werden Domains zitiert?

Wie SEO Metehan Yesilyurt untersucht hat, zeigen die analysierten Daten eine deutliche Korrelation: Domains, die im WebGraph sehr hoch ranken, wie Facebook, Google, YouTube oder Wikipedia, gehören auch zu den am häufigsten von LLMs zitierten Quellen. Dabei muss jedoch differenziert zwischen Korrelation und Kausalität unterschieden werden. Die Frage lautet: Werden diese Websites zitiert, weil sie überproportional in den Trainingsdaten vertreten sind, oder sind sie in den Trainingsdaten präsent und werden zitiert, weil sie ohnehin autoritäre Quellen sind?

Vermutlich geht es um eine Mischung aus beidem. Eine hohe Präsenz in den Trainingsdaten schafft eine Grundvertrautheit ("Baseline Familiarity") des Modells mit der Quelle. Wenn Common Crawl aufgrund hoher HC eine Domain bevorzugt crawlt, lernt das Modell diese Quelle intensiver kennen. Gleichzeitig zeigen Studien wie die von Brie Mureau, dass auch traditionelle Google-Rankings stark mit der Zitierwahrscheinlichkeit in KIs korrelieren: Eine Seite auf Position eins bei Google hat eine fast 50-prozentige Wahrscheinlichkeit, von einer KI zitiert zu werden, während diese auf Position zehn auf etwa 20 Prozent sinkt. Die Autorität einer Seite ist also der primäre Treiber, aber die technische Verfügbarkeit im Trainingsdatensatz durch hohe HC-Werte wirkt als Verstärker.

Jenseits der Trainingsdaten: Weitere Einflussfaktoren

Die Präsenz im Common Crawl Datensatz deckt primär das Weltwissen des Modells (on-model) ab, doch für aktuelle Anfragen nutzen KI-Plattformen wie ChatGPT oder Perplexity Live-Retrieval-Systeme (RAG, off-model). Hierbei spielen Faktoren eine Rolle, die über die reine Trainingshistorie hinausgehen. Insbesondere die Aktualität (Freshness) und das Content-Format sind ausschlaggebend.

Verschiedene Untersuchungen zeigen, dass LLMs eine Vorliebe für vergleichende Inhalte haben: Listicles machen nach der Analyse von Mureau etwa 32,5 Prozent aller KI-Zitate aus, weil sie Informationen in einer für das Modell leicht zu verarbeitenden Struktur bieten. Zudem nutzen Systeme wie der Web-Modus von ChatGPT Verfahren wie Reciprocal Rank Fusion (RRF), um Ergebnisse aus verschiedenen Suchanfragen zu mischen. Seiten, die in mehreren Verfahren gute Rankings erzielen (Co-Citations), haben eine deutlich höhere Chance, in der finalen Antwort zitiert zu werden. Auch technische Aspekte wie Schema-Markup und schnelle Ladezeiten korrelieren positiv mit der Häufigkeit von Erwähnungen, da sie die Lesbarkeit für den Bot erleichtern.

Zusammengefasst haben diese Kriterien eine hohe Wahrscheinlichkeit, die Chance auf Citations in KI-Systemen zu erhöhen:

  • Aktuelle Inhalte (Content Freshness und Recency)
  • Semantische, also inhaltliche Relevanz zur Suchanfrage
  • Strukturierte Daten und Formatierung
  • Sichtbarkeit und Erwähnung der Marke auf verschiedenen Plattformen
  • Häufigkeit,mit der eine Domain in den Trainingsdaten erscheint
  • Autoritätssignale wie PageRank
  • Zu den von einer spezifischen Plattform bevorzugten Inhalten gehören, also zum Beispiel Wikipedia bei ChatGPT oder Reddit bei Perplexity

Konkrete Folgerungen und Maßnahmen für SEOs

Für SEOs ergeben sich aus diesen Erkenntnissen einige Handlungsempfehlungen:

  • Technisch ist sicherzustellen, dass der CCBot (der Crawler von Common Crawl) nicht per robots.txt blockiert wird.
  • SEOs sollten die Harmonic Centrality (HC) ihrer Domain überwachen.
  • Linkbuilding-Strategien anpassen: Statt nur auf das Volumen von Backlinks zu achten, zählt für die KI-Sichtbarkeit die Positionierung innerhalb der Link-Topologie – ein einzelner Link von einer zentral im Web verankerten Seite kann für die HC wertvoller sein als viele isolierte Links.
  • Vergleichende Inhalte wie Listicles bieten gute Chancen. Hier sollte aber unbedingt auf Qualität geachtet werden (klassische SEO).
  • Auf aktuelle Inhalte Wert legen und bestehende Beiträge auf den neuesten Stand bringen

Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

Verwandte Beiträge

Anzeige

rnkeffect

Premium-Partner (Anzeige)

 


 

Anzeigen

Digitaleffects

 


Online Solutions Group

 


Farbentour

 

Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar