SEO-News

Google-LogoGoogle hat detaillierte Einblicke in die Funktionsweise von Caffeine gegeben. Das System ist für die Indexierung von Inhalten verantwortlich. Interessant ist zum Beispiel, dass Google alle Inhalte vor dem Indexieren in HTML umwandelt und das HTML anschließend normalisiert.

Das Aufnehmen neuer Webseiten und Dokumente durch Google in die Suchergebnisse ist wesentlich komplexer, als es nach außen den Anschein hat. Vor allem das Indexieren besteht aus einer Reihe von Verarbeitungsprozessen, die durchlaufen werden müssen, bevor eine Seite in den Suchergebnissen erscheint.

Verantwortlich für das Indexieren ist Caffeine. So lautet die Bezeichnung für das System, welches die verschiedenen Verarbeitungsschritte bündelt. Wie Gary Illyes in einer neuen Ausgabe von "Search Off the Record" erklärt, ist Caffeine das, was die "Google Magic" vollbringt.

Vereinfacht gesagt finden in Caffeine die folgenden Schritte statt:

  1. Ingestion: Dabei handelt es sich um das Auslesen von Daten, die der Googlebot gesammelt hat
  2. Conversion: Dazu gehören zum Beispiel die Normalisierung des HTML-Codes oder bei Bedarf das Umwandeln anderer Datenformate in HTML
  3. Collapsing: Zu diesem Schritt zählt beispielsweise die Prüfung von Fehlerseiten auf Validität.

Caffeine löst Daten aus den Protocol Buffers des Googlebots aus. Ein Protocoll Buffer ist ein Mechanismus, mit dem strukturierte Daten wie XML serialisiert werden können. Auch verschiedene Signale, die später zum Ranking benötigt werden, liest Caffeine aus.

Nach diesem mit "Ingestion" bezeichneten Schritt folgt die Conversion. Dabei wird zunächst das HTML normalisiert, wobei zum Beispiel Fehler bereinigt werden. Google versucht, auch Seiten mit fehlerhaftem HTML zu verstehen, und nutzt dazu einen HTML Lexer, welcher den Code in kleinere Einheiten, sogenannte Tokens, zerlegt.

Verschiedene Überschriften wie H1, H2 oder H3 werden auf ihr Styling hin überprüft, um ihre Bedeutung auf der Seite zu interpretieren. Das bedeutet: Größere Überschriften erhalten tendenziell ein höheres Gewicht gegenüber Überschriften mit einer kleineren Darstellung.

PDF-Dateien werden von Caffeine zu HTML normalisiert. Das gilt auch für Worddokumente oder Tabellenkalkulationen. Sogar Lotus-Dateien kann Google zu HTML umwandeln. Weil es sich dabei um binäre Formate handelt, nutzt Google dazu spezielle Konverter, zum Beispiel von Adobe für PDF-Dateien.

Im nächsten Schritt werden Meta Tags betrachtet. Sehr wichtig ist dabei das Tag Meta name="robots". Wenn eine Seite auf "noindex" gesetzt ist, wird die Verarbeitung abgebrochen oder die Seite zumindest nicht indexiert.

Wichtig ist ein Hinweis: Findet Google im <head> des HTML-Codes Tags, die dort nicht hingehören, wie <div>, <span> oder ein Iframe, dann schließt Caffeine den <head> direkt vor dem ersten dieser Tags, auf das es stößt. Das kann dazu führen, dass wichtige Informationen aus dem <head> von Google nicht berücksichtigt werden.

 

Wie Google Fehlerseiten identifiziert

Eng in Verbindung mit dem Converter steht der Collapser. Er kümmert sich um die Handhabung von Fehlerseiten. Viele Fehlerseiten sind in sich fehlerhaft. So senden häufig 404-Fehlerseiten den Status 200, so dass sogenannte Soft-404-Seiten entstehen. Der Collapser nimmt einen Abgleich gefundener Seiten gegen einen Korpus vieler exemplarischer Fehlerseiten vor und prüft auf diese Weise, ob es sich bei einer gefundenen Seite um eine Fehlerseite handelt.

Aufgrund dieses Vorgehens kann es passieren, dass Google Beiträge, die sich mit Fehlerseiten beschäftigen, nicht indexiert, weil darin Phrasen oder Keywords vorkommen, die Google darauf schließen lassen, dass es sich beim Beitrag selbst um eine Fehlerseite handelt.

 

Caffeine verstehen

Diese Beschreibung lässt erahnen, wie komplex die Indexierung bei Google ist. Dabei ist die Darstellung noch immer stark vereinfacht und lässt viele Details aus. Doch sie ist hilfreich, weil sie dazu beiträgt, Googles Verarbeitung von Webseiten besser zu verstehen. Das kann auch bei der Gestaltung von Webseiten berücksichtigt werden.

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeigen

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen



SEO-Contest 2020





Verwandte Beiträge

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

 

 

Premium-Partner (Anzeige)

rnkeffect

 

Anzeigen






InterNetX
trust in time

SEO Agentur aus Darmstadt

SEO-Vergleich

SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2020

SEO-Kalender 2019

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE Google Webmaster Conference 2019 in Zürich – Recap
Mittwoch, 11. Dezember 2019
Auf der diesjährigen Google Webmaster Conference in Zürich, die erstmals im Raum EMEA... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE Unterstützung in der Krise: Unternehmen mit kostenloser Online-Beratung
Dienstag, 31. März 2020
Die aktuelle Krise bringt viele Unternehmen in wirtschaftliche Schwierigkeiten. Existenzen sind... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed