SEO-News

DokumenteSuchmaschinen wie Google müssen Duplicate Content aus den Suchergebnissen ausschließen, um die Qualität der Ergebnisse zu verbessern. Doch wie genau kann Duplicate Content erkannt werden? Anhaltspunkte dafür liefern zwei Patente.

Duplicate Content ist nicht nur innerhalb einer Webseite ein Problem. Wenn identische Inhalte auf verschiedenen Webseiten erscheinen, stellt sich die Frage, welche dieser Webseiten Google in den Suchergebnissen anzeigt. Dabei muss es nicht immer die Originalseite sein, die hier den Vorzug erhält. Manchmal gewinnen auch Webseiten, die Inhalte von anderen Seiten kopieren und übernehmen.

Google behandelt Zitate auf einer Webseite laut eigener Aussage wie Standardtext. Es kann durchaus passieren, dass eine Webseite, die eine andere Seite wörtlich zitiert, dennoch vor dem Original in den Suchergebnissen angezeigt wird.

Das ist für die unterlegenen Seiten besonders ärgerlich, denn es kann zusätzlich sein, dass Google ihre Backlinks für die entsprechenden Inhalte der Webseite zuspricht, die als Canonical ausgewählt wird. Diesen Vorgang nennt man Link Inversion.

 

Zwei Patente beschreiben, wie Google bestimmte Dokumentenversionen auswählen könnte

Welche Kriterien verwendet Google bei der Entscheidung, welche Seite als Canonical und welche Seite als Duplicate Content anzusehen ist? Um dies nachvollziehen zu können, lohnt sich der Blick auf zwei Patente, die Google schon vor längerer Zeit erhalten hat. Vielen Dank an dieser Stelle an Bill Slawski, der die Patente in einem Blogbeitrag beschrieben hat.

Im ersten Patent mit der Bezeichnung "Identifying a primary version of a document" geht es darum, wie Google verschiedene Versionen eines Dokuments erkennen und voneinander unterscheiden kann. In der Zusammenfassung heißt es (Übersetzung Red.):

"Ein System und eine Methode erkennen eine Primärversion unter verschiedenen Versionen eines Dokuments. Das System wählt eine vorrangige Autorität für jedes Dokument auf Basis einer Prioritätsregel und Informationen aus, die mit der Dokumentenversion verbunden sind, und wählt eine Primärversion auf Basis der vorrangigen Autorität und den mit der Dokumentenversion verbundenen Informationen aus."

Im Patent wird beschrieben, dass für jede Dokumentenversion verschiedene Sätze von Metadaten ausgewertet werden. Dabei werden sowohl die Quellen der Dokumentversionen als auch Eigenschaften der Dokumentenversionen selbst berücksichtigt. Auf beide Arten von Metadaten werden Regeln angewandt, die dazu dienen, einen Prioritätsreihhenfolge der Dokumentenversionen zu bilden. Die Version mit der höchsten Priorität wird ausgewählt und angezeigt.

Zwar wird die Bezeichnung "Canonical" in diesem Zusammenhang nicht verwendet, doch legt die Art und Weise der Beschreibung nahe, dass auf so zwischen gleichartigen Dokumenten unterschieden werden kann, um eine Version davon für die Darstellung in der Suche auszuwählen.

Ein zweites Patent mit dem Titel Representative document selection for a set of duplicate documents beschreibt den Begriff des Duplicate Documents und ein System, mit dem zwischen ihnen unterschieden werden kann.

Interessant ist, dass bei der Entscheidung, welche Dokumente ein- oder ausgeschlossen werden, eine Metrik zum Einsatz kommt, die unabhängig von Suchanfragen ist:

"[...]Informationen, welche die neu gecrawlten sowie die ausgewählten Dokumente identifizieren, werden zu Informationen zusammengeführt, welche zum Identifizieren eines neuen Satzes von Dokumenten genutzt werden. Duplikate werden auf Basis einer von Suchanfragen unabhängigen Metrik in den bzw. aus dem neuen Satz von Dokumenten ein- und ausgeschlossen. Ein einziges repräsentatives Dokument für den neuen Satz von Dokumenten wird in Übereinstimmung mit einem vorab definierten Satz von Bedingungen identifiziert."

Dabei wird ein sogenanntes "Indexed First"-Dokument ausgewählt, welches als einziges in einen Dokumentenindex aufgenommen wird.

Als mögliche Gründe für die Auswahl eines primären Dokuments oder einer primären Dokumentenversion kommen zum Beispiel die folgenden in Frage:

  • Es entsteht kaum Mehrwert, wenn verschiedene Versionen eines Dokuments in den Suchergebnissen erscheinen.
  • Verschiedene Dokumentenversionen könnten andere Inhalte verdrängen, die relevanter sind
  • Wenn es von einem Dokument unterschiedliche Versionen in den Suchergebnissen gibt, fällt es den Nutzern schwer zu erkennen, welches die aktuelle, umfassendste oder am besten erreichbare Version ist.

 

Verschiedene Faktoren wirken sich auf die Auswahl des anzuzeigenden Dokuments aus

Um die Dokumentenversion mit der höchsten Autorität und damit die primäre Version eines Dokuments zu bestimmen, kommen verschiedene Datenquellen in Frage wie zum Beispiel

  • die Quelle
  • die Veröffentlichungsrechte und Exklusivität
  • Zitierungen und Anzahl der Zitierungen
  • PageRank
  • Veröffentlichungszeitpunkt
  • URL
  • Sprache
  • und viele mehr.

Ein wichtiger Einflussfaktor für die Wahl des Dokuments mit der höchsten Priorität ist außerdem der Urheber bzw. die Quelle: Dabei können deren Reputation, die Anzahl bisher veröffentlichter Dokumente, der Zeitpunkt der letzten Veröffentlichung sowie die Häufigkeit der Veröffentlichungen eine Rolle spielen.

 

Auch die Länge der Dokumente spielt eine Rolle

In einem weiteren Schritt wird auch die Länge der verschiedenen Dokumente miteinander verglichen. Die Version mit der höchsten Autorität und einer passenden Länge wird als primäres Dokument ausgewählt. Sollte keines der Dokumente sowohl über eine hohe Priorität als auch über eine angemessene Länge verfügen, wird die Primärversion auf Basis der Summe aller Informationen ermittelt, die es für die verschiedenen Dokumentenversionen gibt.

Im Patent wird außerdem ein sogenannter "Qualified Priority Value" genannt: Dabei handelt es sich um einen Schwellwert, den ein Dokument erreichen muss, um als maßgeblich, vollständig, erreichbar etc. zu gelten. Dieser Wert kann sich auch relativ durch den Vergleich mit Werten anderer Dokumente bilden.

 

Konsequenzen

Es ist nicht sicher, ob Google die beschriebenen Methodiken zur Auswahl der Canonical-Version identischer Dokumente verwendet. Es aber besteht zumindest eine gewisse Wahrscheinlichkeit, denn Google ist aufgrund von Duplicate Content darauf angewiesen, selektieren zu können.

Wie man sieht, können bei der Auswahl viele Einflussfaktoren eine Rolle spielen. Der Veröffentlichungszeitpunkt ist nur ein Kriterium von vielen. Interessant ist, dass auch die Länge der Dokumente wichtig sein könnte.

Es ist also nicht zwangsläufig so, dass die Webseite, auf der bestimmte Inhalte zuerst erscheinen, auch die beste Position in den Rankings erhält.

 

Titelbild: Copyright BillionPhotos.com - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeige von Clixado

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen






Verwandte Beiträge

SEO-Newsletter bestellen

Mit dem SEO-Newsletter erhältst Du einmal pro Monat eine Übersicht der wichtigsten SEO-Meldungen auf SEO Südwest sowie Ankündigungen wichtiger SEO-Veranstaltungen. Zum Abonnieren des SEO-Newsletters ist die Einwilligung in die Datenschutzhinweise erforderlich. Zum Bestellen genügt die Angabe der E-Mail-Adresse. Per Klick auf den entsprechenden Button unten kann das Abonnement jederzeit gekündigt werden.
Ich stimme den Nutzungsbedingungen zu

SEO-Checkliste

SEO-Checkliste

 

Anzeigen


SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Schulung 2019

SEO-Schulung

Ganztägige Schulung "SEO-Grundlagen". Jetzt anmelden

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2018

SEO-Kalender 2018

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE SEO: Linkbuilding gehört dazu
Donnerstag, 09. August 2018
Ohne den konstanten und nachhaltigen Aufbau hochwertiger Links bringen die besten Onpage-Maßnahmen... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE Neuer SEO-Contest: Punktesystem soll für mehr Fairness und Chancen sorgen
Montag, 30. Juli 2018
Im Rahmen eines neuen SEO-Contests kämmpfen wieder zahlreiche Publisher und Webseitenanbieter um... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed