Für Suchmaschinen ist es wichtig, sich auf die wesentlichen Bestandteile der Suchanfragen zu konzentrieren. Begriffe, die für die Aussage von Suchanfragen nicht relevant sind, müssen zuvor aussortiert werden, um Ressourcen zu sparen. Google besitzt für das Erkennen so genannter Stopwords ein Patent.
Suchanfragen bestehen oft aus mehreren Wörtern. Ein Teil dieser Wörter ist für die Interpretation der Anfragen wichtig, weil sie das Thema oder die Kategorie bestimmen. Andere Wörter dagegen tragen nichts oder nur wenig zur Interpretation dabei. Es geht hier um die so genannten Stopwords, die so häufig auftreten, dass ihre Aussagekraft nur gering ist. Betrachtet man zum Beispiel die Suchanfrage: "Vegane Restaurants in Karlsruhe", so ist klar, dass die Begriffe "vegan", "Restaurant" und "Karlsruhe" wichtig sind, um die Bedürfnisse des Nutzers zu verstehen. Dagegen ist das Wort "in" für die Anfrage weniger bedeutend, denn die Intention der Suchanfrage lässt sich bereits durch die Verarbeitung der übrigen Begriffe herauslesen.
Stopword-Listen
Der gängige Ansatz zur Verarbeitung von Stopwords besteht darin, die Suchanfragen zuerst mit Stopword-Listen abzugleichen und alles zu entfernen, was auf diesen Listen enthalten ist. Solche Listen gibt es inzwischen für die meisten Sprachen, und sie lassen sich auch einfach in eigene Suche-Projekte integrieren, die zum Beispiel auf Apache Solr basieren.
Googles erweiterte Stopword-Erkennung
Auch Google arbeitet im Grunde mit Stopword-Listeb, geht jedoch noch einen Schritt weiter. Es kann nämlich sein, dass ein vermeintliches Stopword doch einen Effekt auf die zurückgelieferten Ergebnisse hat. So unterscheiden sich zum Beispiel die Suchanfragen "der See" und "die See" deutlich. Während im ersten Fall nach einem Binngewässer gesucht wird, steht bei der zweiten Suchanfrage das Meer im Blickpunkt. Da jedoch sowohl "der" als auch "die" normalerweise als Stopwords betrachtet würden, ginge der Unterschied zwischen diesen beiden Suchanfragen bei einer Kürzung der Suchanfrage verloren.
Deshalb erweitert Google den Prozess der Stopword-Erkennung wie folgt:
- Potentielle Stopwords werden anhand von Listen ermittelt.
- Es werden mehrere Suchanfragen erzeugt: sowohl mit als auch ohne die ermittelten Stopwords.
- Zu diesen Suchanfragen werden Kontext-Dokumente abgerufen (Suchergebnisse und / oder Kategorien)
- Diese Kontext-Dokumente werden verglichen.
- Sind die Kontext-Dokumente gleich oder ähnlich, handelt es sich bei den entfernten Begriffen um unwesentliche Stopwords. Sind die Dokumente verschieden, spielen die Stopwords eine inhaltliche Rolle.
Auf diese Weise kann Google vermeiden, Suchbegriffe zu entfernen, die für die Auswertung der Suchanfragen eine wichtige Rolle spielen.
Titelbild © aurora - Fotolia.com