SEO-News

Google-Rezeption in ZürichGoogle kann Duplicate Content recht zuverlässig erkennen. Dazu werden Texte nicht in ihrer ursprünglichen Form miteinander verglichen, sondern Hashes. Um zu entscheiden, welche von mehreren ähnlichen Seiten in den Suchergebnissen erscheint, wendet Google mehr als 20 Signale an. Dazu gehört auch der PageRank.

Das Erkennen von Duplicate Content ist für Suchmaschinen wie Google besonders wichtig. Damit kann vermieden werden, dass die gleichen Inhalte mehrfach in den Suchergebnissen erscheinen, was die Qualität der Treffer verbessert.

Bedenkt man jedoch den bereits jetzt riesigen Index, den Google betreibt, und betrachtet man die große Menge täglich neu hinzukommender Inhalte, so kann man sich vorstellen, dass das Erkennen von Duplicate Content Google vor große Herausforderungen stellt.

Wie diese Erkennung stattfindet, darüber gab jetzt Gary Illyes von Google in einer neuen Ausgabe des SEO-Podcasts "Search Off the Record" Auskunft. Dazu werden die Inhalte auf einen Hashwert oder eine Checksumme reduziert, was wesentlich einfacher sei, als zum Beispiel 3.000 Wörter zu vergleichen:

"So, for dupe detection what we do is, well, we try to detect dupes. And how we do that is perhaps how most people at other search engines do it, which is, basically, reducing the content into a hash or checksum and then comparing the checksums. And that's because it's much easier to do that than comparing perhaps 3,000 words."

Das Scannen des gesamten Textes würde mehr Ressourcen benötigen, das Ergebnis sei aber das gleiche:

"And, so we are reducing the content into a checksum. And we do that because we don't want to scan the whole text, because it just doesn't make sense, essentially. It takes more resources and the result would be pretty much the same. So, we calculate multiple kinds of checksums about the textual content of the page and then we compare the checksums."

Auch zum Erkennen von Near Duplicate Content sei das Verfahren geeignet. Google verfüge über verschiedene Algorithmen, um zum Beispiel Boilerplate Content von Seiten zu erkennen und zu entfernen (Boiplerplate Content sind Inhalte, die auf mehreren Seiten vorkommen wie zum Beispiel Footertexte, Anmerkung Red.). Auf diese Weise könne sich Google auf die wesentlichen Inhalte konzentrieren:

"It can catch both. It can also catch near duplicates. We have several algorithms that, for example, try to detect and then remove the boilerplate from the pages. So, for example, we exclude the navigation from the checksum calculation, we remove the footer as well, and then we are left with what we call the centerpiece, which is the central content of the page."

Inhalte, die als Duplicate Content identifiziert wurden, fasse Google dann zu einem sogenannten Dupe Cluster zusammen:

"When we calculated the checksums and we compared the checksums to each other, then those that are fairly similar, or at least a little bit similar, we will put them together in a dupe cluster."

Wenn sich ein Dokument ändere, werde seine Checksumme neu berechnet. Das entsprechende Dokument wandere dann in ein neues, passendes Dupe Cluster, welches zur neuen Checksumme passt:

"when we calculated the checksums and we compared the checksums to each other, then those that are fairly similar, or at least a little bit similar, we will put them together in a dupe cluster."

Aus einem Dupe Cluster werde dann jeweils ein Dokument ausgewählt, welches in den Suchergebnissen erscheint. Das passiere, weil die Nutzer nicht gerne den gleichen Inhalt in verschiedenen Suchergebnissen wiederholt sehen möchten und weil der verfügbare Platz im Index begrenzt sei:

"And then, once we calculated these checksums and we have the dupe cluster, then we have to select one document that we want to show in the search results. Why do we do that? We do that because, typically, users don't like it when the same content is repeated across many search results. And we do that also because our story space in the index is not infinite."

Um das Ergebnis auszuwählen, welches letztendlich in den Suchergebnissen erscheint, würden mehr als 20 Signale verwendet. Dazu zählen der Inhalt selbst, der PageRank, ob eine Seite unter HTTPS läuft, welche Seite in einer Sitemap enthalten ist, oder ob es Weiterleitungen gibt. 

"But calculating which one to be the canonical, which page to lead the cluster, is actually not that easy, because there are scenarios where even for humans it would be quite hard to tell which page should be the one that is in the search results. So, we employ, I think, over 20 signals. We use over 20 signals to decide which page to pick as canonical from a dupe cluster. And most of you can probably guess like what these signals would be. Like one is, obviously, the content. But it could be also stuff like page rank, for example, like which page has higher page rank, because we still use page rank after all these years. It could be, especially on same site, which page is on an HTTPS URL, which page is included in a sitemap. Or, if one page is redirecting to the other page then that's a very clear signal that the other page should become canonical."

Auch Canonical-Links zählen zu diesen Signalen:

"So, the link rel=canonical tag is quite a strong signal again because people or someone specified that that other page should be the canonical."

Die verschiedenen Signale hätten verschiedene Gewichtungen. Um die Gewichte zu bestimmen, komme auch maschinelles Lernen zum Einsatz. So sei zum Beispiel ein Redirect ein stärkeres Signal als die Verwendung von HTTPS:

"And then, once we compared all these signals for all page pairs, then we end up with actual canonical, right? And then, each of these signals that we use have their own weight. And we use some machine learning voodoo to calculate the weights for these signals. But for example, to give you an idea, like 301 redirect or any sort of redirect, actually, should be much higher weight when it comes to canonicalization than whether the page is on an HTTP URL or HTTPS."

Die verwendeten Signale hätten aber in diesem Zusammenhang keinen Einfluss auf das Ranking. Sie entscheiden nur darüber, welche Seite als Canonical in den Suchergebnissen erscheine:

"So, canonicalization is completely independent of ranking. But the page that we choose as canonical, that will end up in the search result pages and that will be ranked, but not based on these signals."

Wie sich aus den Erklärungen ableiten lässt, ist das Erkennen und Verarbeiten von Duplicate Content ein hochkomplexer Vorgang. Die verschiedenen Signale, die Google dabei verwendet, erinnern an die Kriterien, die auch für die Berechnung der Rankings verwendet werden.

Gut ist es, diese Signale zu kennen: Damit kann man als Betreiber einer Website immerhin mittelbar Einfluss auf die Auswahl der Seiten für die Suchergebnisse nehmen.

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeigen

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen



SEO-Contest 2020





Verwandte Beiträge

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

 

 

 

 

 

 

Anzeige

rnkeffect

 

Premium-Partner (Anzeige)


Anzeigen

InterNetX
ODC

trust in time

SEO Agentur aus Darmstadt

SEO-Vergleich

Backlink-Kampagnen

SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

Auszeichnungen

SEO-Vergleich.de: Top 30 SEO-Agenturen mit der höchsten Sichtbarkeit 2020

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

Sprecher auf

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2020

SEO-Kalender 2019

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

IMAGE Warum die Anzahl von Backlinks für Google keine Rolle spielt: SEO im Ohr - Folge 138
Freitag, 26. Februar 2021
Die Anzahl von Backlinks ist laut Google komplett irrelevant, und das hat seine Gründe. Zeit, über die Bedeutung von Backlinks neu nachzudenken. Weitere Meldungen in dieser Ausgabe: Die Anzahl der Featured Snippets bei Google ist in letzter Zeit... Weiterlesen...

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE Google Webmaster Conference 2019 in Zürich – Recap
Mittwoch, 11. Dezember 2019
Auf der diesjährigen Google Webmaster Conference in Zürich, die erstmals im Raum EMEA... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE SEO-Rückblick 2020: Gespräch mit Markus Hövener
Dienstag, 01. Dezember 2020
Ein SEO-Rückblick in lockerer und entspannter Weise: Markus Hövener und ich sprechen über einige... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed