Lange Zeit wurden Stoppwörter von den Suchmaschinen nicht beachtet. Inzwischen haben sich die Möglichkeiten zur Spracherkennung aber deutlich verbessert. Was bedeutet das für den Umgang von Suchmaschinen wie Google mit Stoppwörtern? Und sollte man auf Stoppwörter verzichten?
Als Stoppwörter bezeichnet man im Information Retrieval und hier insbesondere im Kontext mit Suchmaschinen Begriffe, die in Texten sehr häufig vorkommen und daher für die Bestimmung der Relevanz von Dokumenten für bestimmte Suchanfragen wenig Mehrwert bringen. Beispiele im Deutschen sind "der", "die", "das", "und" sowie "ein".
Suchmaschinen haben Stoppwörter lange bei der Bestimmung der Relevanz von Dokumenten ignoriert. Der Grund liegt auf der Hand: Diese Wörter kommen in vielen Texten in großer Anzahl vor und bringen daher bei einer reinen Fokussierung auf einzelne Wörter in einem Text nur wenig.
Allerdings gibt es auch Fälle, in denen ein vermeintliches Stoppwort die Bedeutung eines Begriffes oder eines Satzes bestimmt. Beispiele sind Suchanfragen nach Marken wie "C und A" oder "H und M". Auch der Satz "Kunden gehen mit Vertragsabschluss langfristige Verbindungen ein" enthält ein Stoppwort. In diesem Satz ist "ein" das Präfix des Verbs "eingehen", das hier lediglich in getrennter Form verwendet wird.
Das komplette Ignorieren von Stoppwörtern konnte also zumindest in manchen Fällen dazu führen, dass relevante Dokumente von den Suchmaschinen übersehen wurden.
Inzwischen ist allerdings davon auszugehen, dass Google Stoppwörter durchaus berücksichtigt. Die Suchmaschine hat ihre Fähigkeiten zum Erkennen natürlicher Sprache in den letzten Jahren deutlich verbessern können. Ein Beispiel dafür ist BERT. Dabei handelt es sich um ein System, das auch die Zusammenhänge verschiedener Wörter in einem Satz deuten kann, anstatt nur jedes Wort für sich zu betrachten. Auch andere Suchmaschinen wie Bing von Microsoft nutzen inzwischen BERT ebenfalls.
John Müller von Google schrieb auf die Frage zum Umgang mit Stoppwörtern, man solle sich darüber keine Gedanken machen und einfach in natürlicher Weise schreiben. Suchmaschinen blicken demnach auf mehr als nur einzelne Wörter. So sei zum Beispiel "sein oder nicht sein" mehr als nur eine Ansammlung von Stoppwörtern:
"I wouldn't worry about stop words at all; write naturally. Search engines look at much, much more than individual words. "To be or not to be" just is a collection of stop words, but stop words alone don't do it any justice."
Gedanken über Stoppwörter sollten also beim Schreiben von Texten keine Rolle spielen. Damit vermeidet man das Risiko unnatürlich wirkender Texte.
Weil sich die Fähigkeiten von Suchmaschinen zur Interpretation natürlicher Sprache weiter verbessern werden, gilt dies umso mehr. Das könnte sogar dazu führen, dass unnatürlich anmutende Texte zunehmend mit schlechteren Rankings belegt werden.
Titelbild: Copyright lamaip - Fotolia.com