Noch immer wird vielfach der Einsatz von TF*IDF zur Optimierung von Webseiten empfohlen. Dabei ist diese Metrik schon längst überholt. Dafür gibt es mehrere Gründe.
TF*IDF war einmal ein heißer Tipp zur Optimierung von Texten auf Webseiten. Hinter der Abkürzung verbergen sich die Begriffe "Term Frequency" und "Inverse Document Frequency". Die Term Frequency gibt an, wie häufig ein Begriff innerhalb eines Dokuments vorkommt. Umso häufiger der Begriff auftaucht, desto höher ist die Term Frequency. Die Inverse Document Frequency dagegen berechnet sich aus der Seltenheit eines Begriffs über alle Dokumente eines Gesamtkorpus von Dokumenten hinweg. Hier gilt: Je geringer die Anzahl der Dokumente, in denen ein Term vorkommt, desto höher ist die Inverse Document Frequency.
Optimieren auf TF*IDF: Diese Gründe sprechen dagegen
Lange Zeit wurde empfohlen, Texte auf ihre TF*IDF zu optimieren. Inzwischen kann von der Optimierung auf diese Metrik jedoch nur noch abgeraten werden. Dafür sprechen die folgenden Gründe:
- Das Optimieren auf TF*IDF lenkt vom wichtigsten Ziel ab, das darin besteht muss, Inhalte zu schaffen, die den Nutzern einen Mehrwert bringen. Der Blick wird abgelenkt von den Inhalten (der Semantik) auf das platte Abzählen von Wörtern.
- Es ist schlicht unmöglich, die IDF im Hinblick auf Google zu berechnen, weil man dazu die Verteilung aller Keywords in allen Dokumenten des Google-Index kennen müsste. Einschränkung: Natürlich wäre es hier möglich, eine ausreichend große Stichprobe zu verwenden und daraus auf die Verteilung in allen Dokumenten zu schließen.
- TF*IDF ist eine sehr alte Metrik aus dem Information Retrieval. Sicherlich kam diese zur Zeit der ersten Suchmaschinen zur Anwendung. Inzwischen dürften jedoch andere Metriken für die Bewertung von Inhalten verantwortlich sein. TF*IDF spielt höchstens noch eine Nebenrolle.
- TF*IDF ist leicht manipulierbar. Keyword-Stuffing ist jedoch schon lange keine gute Idee mehr, wenn es darum geht, gute Rankings in Google zu erzielen.
Bill Slawski spricht in diesem Zusammenhang auf Twitter sogar von #SEOMythologie. In einem Tweet reagierte er auf einen Beitrag von Search Engine Land, in dem TF*IDF als wichtiger Rankingfaktor genannt wird:
Der Autor versucht, dies anhand eines Beispiels zu belegen. Für die Suche nach "what does seo stand for" rankt die Website von "Alpine Web Media" besser als die Website von "Moz", und das, obwohl sie über deutlich weniger Backlinks verfügt. Der Autor führt dies auf die angeblich günstigere Verteilung von TF*IDF für die relevanten Terme auf der Seite von Alpine Web Media zurück.
Das Problem: Google nutzt mehrere Hundert Rankingfaktoren. Welche Faktoren genau für den Rankingunterschied im gezeigten Beispiel verantwortlich sind, kann auf diese Weise nicht geklärt werden. Dies einfach den unterschiedlichen TF*IDF-Werten zuzuschreiben, ist sicherlich zu kurz gegriffen.
Johannes Müller hatte übrigens im April erklärt, es sei nicht sinnvoll, sich auf künstliche Kriterien wie TF*IDF zu konzentrieren. Diese Metrik eigne sich noch am ehesten dazu, häufig benutzte Wörter wie "der", "die" oder "das", sogenannte Stoppwörter, zu identifizieren.
Fazit
TF*IDF ist kein sinnvolles Optimierungskriterium mehr. Das gilt insbesondere dann, wenn man sich auf diesen Wert konzentriert und andere Faktoren außer Acht lässt. Möglich ist, dass Google TF*IDF noch als ein nebengeordnetes Kriterium verwendet, das aber in seiner Bedeutung höchstens noch eine geringe Rolle spielen dürfte - das insbesondere aus dem Grund, dass es sich leicht manipulieren lässt.
Wichtig ist es dagegen, hochwertige Inhalte zu schaffen, die semantisch zu den Bedürfnissen der Nutzer passen.
Titelbild: Copyright Marijus - Fotolia.com