Google zu Duplicate Content: Mehr als 20 Signale entscheiden, welche Seite ausgewählt wird

Google-Rezeption in Zürich Google kann Duplicate Content recht zuverlässig erkennen. Dazu werden Texte nicht in ihrer ursprünglichen Form miteinander verglichen, sondern Hashes. Um zu entscheiden, welche von mehreren ähnlichen Seiten in den Suchergebnissen erscheint, wendet Google mehr als 20 Signale an. Dazu gehört auch der PageRank.

Das Erkennen von Duplicate Content ist für Suchmaschinen wie Google besonders wichtig. Damit kann vermieden werden, dass die gleichen Inhalte mehrfach in den Suchergebnissen erscheinen, was die Qualität der Treffer verbessert.

Bedenkt man jedoch den bereits jetzt riesigen Index, den Google betreibt, und betrachtet man die große Menge täglich neu hinzukommender Inhalte, so kann man sich vorstellen, dass das Erkennen von Duplicate Content Google vor große Herausforderungen stellt.

Wie diese Erkennung stattfindet, darüber gab jetzt Gary Illyes von Google in einer neuen Ausgabe des SEO-Podcasts "Search Off the Record" Auskunft. Dazu werden die Inhalte auf einen Hashwert oder eine Checksumme reduziert, was wesentlich einfacher sei, als zum Beispiel 3.000 Wörter zu vergleichen:

"So, for dupe detection what we do is, well, we try to detect dupes. And how we do that is perhaps how most people at other search engines do it, which is, basically, reducing the content into a hash or checksum and then comparing the checksums. And that's because it's much easier to do that than comparing perhaps 3,000 words."

Das Scannen des gesamten Textes würde mehr Ressourcen benötigen, das Ergebnis sei aber das gleiche:

"And, so we are reducing the content into a checksum. And we do that because we don't want to scan the whole text, because it just doesn't make sense, essentially. It takes more resources and the result would be pretty much the same. So, we calculate multiple kinds of checksums about the textual content of the page and then we compare the checksums."

Auch zum Erkennen von Near Duplicate Content sei das Verfahren geeignet. Google verfüge über verschiedene Algorithmen, um zum Beispiel Boilerplate Content von Seiten zu erkennen und zu entfernen (Boiplerplate Content sind Inhalte, die auf mehreren Seiten vorkommen wie zum Beispiel Footertexte, Anmerkung Red.). Auf diese Weise könne sich Google auf die wesentlichen Inhalte konzentrieren:

"It can catch both. It can also catch near duplicates. We have several algorithms that, for example, try to detect and then remove the boilerplate from the pages. So, for example, we exclude the navigation from the checksum calculation, we remove the footer as well, and then we are left with what we call the centerpiece, which is the central content of the page."

Inhalte, die als Duplicate Content identifiziert wurden, fasse Google dann zu einem sogenannten Dupe Cluster zusammen:

"When we calculated the checksums and we compared the checksums to each other, then those that are fairly similar, or at least a little bit similar, we will put them together in a dupe cluster."

Wenn sich ein Dokument ändere, werde seine Checksumme neu berechnet. Das entsprechende Dokument wandere dann in ein neues, passendes Dupe Cluster, welches zur neuen Checksumme passt:

"when we calculated the checksums and we compared the checksums to each other, then those that are fairly similar, or at least a little bit similar, we will put them together in a dupe cluster."

Aus einem Dupe Cluster werde dann jeweils ein Dokument ausgewählt, welches in den Suchergebnissen erscheint. Das passiere, weil die Nutzer nicht gerne den gleichen Inhalt in verschiedenen Suchergebnissen wiederholt sehen möchten und weil der verfügbare Platz im Index begrenzt sei:

"And then, once we calculated these checksums and we have the dupe cluster, then we have to select one document that we want to show in the search results. Why do we do that? We do that because, typically, users don't like it when the same content is repeated across many search results. And we do that also because our story space in the index is not infinite."

Um das Ergebnis auszuwählen, welches letztendlich in den Suchergebnissen erscheint, würden mehr als 20 Signale verwendet. Dazu zählen der Inhalt selbst, der PageRank, ob eine Seite unter HTTPS läuft, welche Seite in einer Sitemap enthalten ist, oder ob es Weiterleitungen gibt.

"But calculating which one to be the canonical, which page to lead the cluster, is actually not that easy, because there are scenarios where even for humans it would be quite hard to tell which page should be the one that is in the search results. So, we employ, I think, over 20 signals. We use over 20 signals to decide which page to pick as canonical from a dupe cluster. And most of you can probably guess like what these signals would be. Like one is, obviously, the content. But it could be also stuff like page rank, for example, like which page has higher page rank, because we still use page rank after all these years. It could be, especially on same site, which page is on an HTTPS URL, which page is included in a sitemap. Or, if one page is redirecting to the other page then that's a very clear signal that the other page should become canonical."

Auch Canonical-Links zählen zu diesen Signalen:

"So, the link rel=canonical tag is quite a strong signal again because people or someone specified that that other page should be the canonical."

Die verschiedenen Signale hätten verschiedene Gewichtungen. Um die Gewichte zu bestimmen, komme auch maschinelles Lernen zum Einsatz. So sei zum Beispiel ein Redirect ein stärkeres Signal als die Verwendung von HTTPS:

"And then, once we compared all these signals for all page pairs, then we end up with actual canonical, right? And then, each of these signals that we use have their own weight. And we use some machine learning voodoo to calculate the weights for these signals. But for example, to give you an idea, like 301 redirect or any sort of redirect, actually, should be much higher weight when it comes to canonicalization than whether the page is on an HTTP URL or HTTPS."

Die verwendeten Signale hätten aber in diesem Zusammenhang keinen Einfluss auf das Ranking. Sie entscheiden nur darüber, welche Seite als Canonical in den Suchergebnissen erscheine:

"So, canonicalization is completely independent of ranking. But the page that we choose as canonical, that will end up in the search result pages and that will be ranked, but not based on these signals."

Wie sich aus den Erklärungen ableiten lässt, ist das Erkennen und Verarbeiten von Duplicate Content ein hochkomplexer Vorgang. Die verschiedenen Signale, die Google dabei verwendet, erinnern an die Kriterien, die auch für die Berechnung der Rankings verwendet werden.

Gut ist es, diese Signale zu kennen: Damit kann man als Betreiber einer Website immerhin mittelbar Einfluss auf die Auswahl der Seiten für die Suchergebnisse nehmen.

Christian Kunz