Googles Nachricht über den Einsatz eines neuen Algorithmus namens RankBrain hat viel Aufmerksamkeit erregt, doch wie genau funktionieren die Interpretation von Suchanfragen und die Auswahl der Suchergebnisse wirklich? Die wichtigsten Fakten rund um RankBrain, maschinelles Lernen und Information Retrieval.
Eigentlich ist es wenig überraschend, dass Google maschinelles Lernen für die Auswahl der präsentierten Suchergebnisse nutzt, denn derlei Techniken sind aus der Online-Welt schon lange nicht mehr wegzudenken: Digitale Assistenten wie Apples Siri oder Microsoft Cortana nutzen maschinelles Lernen für das Verstehen von Suchanfragen ebenso wie Facebook für die Auswahl von Meldungen im Newsfeed oder zur Sentimentanalyse.
Was vor allem für Aufsehen gesorgt hat, ist die Bedeutung, die dem RankBrain-Algorithmus für das Ausspielen den Suchergebnisse zukommt: Laut Google-Mitarbeiter Greg Corrado, der sich auf BloombergBusiness geäußert hat, soll RankBrain inzwischen der drittwichtigste Rankingfaktor sein. Umso wichtiger ist es zu verstehen, was eigentlich hinter RankBrain steckt und wie der Algorithmus funktioniert.
Zur Klärung der wichtigsten Fragen rund um RankBrain gibt es neben dem genannten Interview noch einige weitere Quellen, die genutzt werden können:
- Eine Zusammenstellung der wichtigsten Fragen auf Search Engine Land
- Einschätzungen von Online-Marketing-Experten
- Information Retrieval-Wissen
- Tweets beteiligter Personen zum Thema
Vor allem sind es gewisse Grundkenntnisse auf dem Gebiet des Information Retrievals, die zum Verstehen von RankBrain beitragen können, denn so innovativ und modern die Idee hinter dem Algorithmus klingt: Aus wissenschaftlicher Sicht sind die meisten der eingesetzten Verfahren schon lange bekannt. Daher gleich zur Funktionsweise von RankBrain:
Vektorraum und Dimensionen
RankBrain rechnet Worte und Phrasen in Termvektoren um. Vektoren kann man sich als definierte Strecken in einem mehrdimensionalen Raum vorstellen. Betrachtet man jedes Wort innerhalb einer Suchanfrage als eine Dimension, so hat der Termvektor, der sich aus der Suchanfrage ergibt, so viele Dimensionen, wie die Suchanfrage Worte besitzt. Kommt es jetzt zu einer bisher unbekannten Suchanfrage, so kann der daraus berechnete Vektor mit anderen Vektoren bereits bekannter Suchanfragen verglichen werden. Dabei wird der Kosinus des Winkels zwischen den Termvektoren im Raum berechnet. Je ähnlicher die Vektoren, desto kleiner der Winkel und desto größer der Kosinus dieses Winkels. Die Bestimmung der Ähnlichkeit zwischen Dokumenten mit Hilfe des Winkels zwischen den Termvektoren wird auch als Cosine Similarity bezeichnet.
Maschinelles Lernen und Künstliche Intelligenz
Ebenfalls nicht neu ist der Einsatz maschinellen Lernens zum Kategorisieren und Sortieren von Ergebnissen. Man unterscheidet beim maschinellen Lernen zwischen überwachtem und unüberwachtem Lernen. Während beim überwachten Lernen menschliche Eingriffe in Form von Feedback einfließen (richtig vs. falsch), kommt das unüberwachte Lernen ohne diese Unterstützung aus. Zudem stellt man beim überwachten Lernen einen Satz an Trainingsdaten zur Verfügung, aus denen die richtige Zuordnung gelernt werden kann.
Überwachtes Lernen setzt man vor allem dazu ein, Entitäten einer von mehreren vorgegebenen Kategorien zuzuordnen - beispielsweise wenn man Suchanfragen in die Kategorien informationsoriente, navigatorische oder transaktionale Suchen einteilt. Unüberwachtes Lernen dagegen teilt eine Menge von Entitäten auf Basis ihrer Eigenschaften in mehrere ungelabelte Gruppen - sogenannte Cluster - auf.
RankBrain verwendet offenbar überwachtes Lernen. Das lässt sich aus einem Tweet von Jack Clark herauslesen, von dem der genannte Artikel auf BloombergBusiness stammt:
"It's periodically re-trained, but it's not learning on-the-fly."
Das lässt sich so interpretieren, dass regelmäßig menschliches Feedback einfließt, um die Qualität der Ergebnisse zu steigern, die RankBrain liefert.
Auch wenn die genaue Funktionsweise von RankBrain unklar ist, so ist davon auszugehen, dass Google einen Teil der große Menge an Suchanfragen, die täglich an die Suchmaschine gestellt werden, als Trainingsdaten verwendet, mit denen neuartige Suchanfragen zugeordnet werden sollen.
Gibt es RankBrain auch für deutsche Suchanfragen?
Zwer wird es nicht ausdrücklich erwähnt, doch ist die Wahrscheinlichkeit groß, dass RankBrain auch für andere Sprachen neben der englischen eingesetzt wird. Zwar ist die tägliche Zahl von Suchanfragen, die Google für andere Sprachen verarbeiten muss, weitaus geringer als die Zahl der englischen Suchanfragen, doch sollte auch eine deutlich kleinere Menge an Trainingsdaten genügen, um den Algorithmus zu trainieren.
Was muss man aus SEO-Sicht unternehmen, damit RankBrain eine Seite favorisiert?
RankBrain ist vor allem dazu gedacht, neue und ambivalente Suchanfragen zu verstehen und die passenden Ergebnisse zu liefern. Das bedeuet im Umkehrschluss, dass RankBrain auch zur Interpretation der Inhalte von Webseiten eingesetzt wird, denn sonst wäre ein Vergleich zwischen Suchanfrage und potentiellen Ergebnissen nicht auf derselben Basis möglich. Die Inhalte sind also der Schlüssel, um bei RankBrain zu punkten. Doch wie genau müssen diese Inhalte aussehen? Letztendlich kommt es darauf an, dass die Thematik und die Ausführungen in den Texten der Webseite klar verständlich sind - und zwar für Menschen. Denn: RankBrain orientiert sich in seiner Arbeitsweise an der menschlichen Konversation - wie übrigens der seit 2013 eingesetzte Hummingbird-Algorithmus auch. Das bedeutet: Umso verständlicher und klarer eine Seite für Menschen ist, desto besser kann auch RankBrain die Seite verstehen und zuordnen - und desto besser sind die Chancen für ein gutes Ranking.
Ist RankBrain wirklich ein so bedeutender Rankingfaktor?
Laut Greg Corrado ist das so! RankBrain ist der drittwichtigste Rankingfaktor. Es ist unwahrscheinlich, dass uns Google hier aufs Glatteis führen will. Doch welche Faktoren sind noch wichtiger? Sehr wahrscheinlich sind es nach wie vor die Backlinks einer Seite, denen die größte Bedeutung zukommt. Das zeigt nicht zuletzt eine aktuelle Studie des SEO-Anbieters Moz.
Weiß Google selbst, wie RankBrain funktioniert?
Laut Gary Illyes, seines Zeichens viel zitierter Google-Mitarbeiter, ist das durchaus so. Die Ergebnisse von RankBrain seien vorhersagbar, wie er auf Twitter schreibt:
"The team was working on it for months and its effects are expectable, not assumable."
Natürlich wäre es auch kaum zu erwarten, dass Google selbst Unkenntnis über eine Kernkomponente seiner Suche einräumen würde...
Was ist der Unterschied zwischen RankBrain und dem PageRank?
Bei RankBrain und PageRank handelt es sich um völlig unterschiedliche Algorithmen. Der PageRank bestimmt die Anzahl und die Qualität der Backlinks für die Seiten im Netz. Der Wert berechnet sich aus den ein- und ausgehenden Links der Dokumente im Netz. Für Google bedeutete der PageRank den Durchbruch für eine neue Qualität der Suchergebnisse. Auch heute noch bestimmen die Backlinks einer Webseite über das Ranking einer Webseite.
RankBrain blickt dagegen nicht auf die Links, sondern konzentriert sich auf die Inhalte. Der Algorithmus vergleicht unbekannte Suchanfragen mit bereits bekannten, um die unbekannten Suchanfragen verstehen zu können. RankBrain vergleicht außerdem die Suchanfragen mit den indexierten Dokumenten, also vor allem den Webseiten, um die relevantesten von ihnen erkennen und als Suchergebnisse ausspielen zu können.
Gibt es Verbindungen zwischen RankBrain und dem Knowledge Graph?
Sehr wahrscheinlich greift RankBrain auch auf Googles riesige Faktendatenbank zu, die unter dem Namen Knowledge Graph bzw. Knowledge Vault bekannt ist. In dieser Datenbank sind inhaltliche Beziehungen zwischen Gegenständen, Menschen, Tieren, Pflanzen, Orten usw. - kurz: Entitäten - abgelegt. Durch das Netzwerk der inhaltlichen, also semantischen Beziehungen aus dem Knowledge Graph kann RankBrain unbekannte Suchanfragen besser zuordnen. Das oben beschriebene Modell der Termvektoren wird also auf semantischer Ebene mit Informationen aus dem Knowledge Graph unterstützt. Zwar gibt es für diesen Zusammenhang keine expliziten Belege seitens Google, doch wäre es sehr verwunderlich, wenn das Unternehmen in diesem Fall nicht auf den angesammelten Wissensspeicher zugreifen würde.
Wird RankBrain Google dauerhaft verändern?
Ja und nein. Die Zeiten manuell gepflegter Rankingfaktoren sind schon lange vorbei. Es kommt nicht mehr darauf an, einen Text mit möglichst vielen Keywords zu füllen oder eine Domain zu suchen, die das gewünschte Keyword enthält. Das Zauberwort lautet Relevanz, also inhaltliche Nähe zwischen Suchanfrage und Ergebnissen. RankBrain kann dabei helfen, diese Relevanz zu bestimmen, und der Algorithmus wird das zukünftig immer besser schaffen, weil er aus bisherigen Ergebnissen lernen kann. Seiten mit schlechten Inhalten, Seiten mit inhaltlichen Fehlern und Seiten mit zu wenigen Inhalten werden es daher schwer haben, gegen den Algorithmus zu bestehen. Und das ist eine gute Nachricht.
Daneben werden Faktoren wie die Vertrauenswürdigkeit oder die Reputation einer Seite (gemessen an Backlinks) auch weiterhin eine wichtige Rolle für das Ranking spielen,
Für die meisten Nutzer werden diese schrittweisen Verbesserungen zunächst kaum bemerkbar sein. Webseitenbetreiber jedoch, die auf das Ranking ihrer Seiten achten, können durchaus in nächster Zeit stärkere Veränderungen erleben - nach oben oder nach unten.
Titelbild © aurora - Fotolia.com