Google hat ein neues Tool sowie ein Spiel herausgebracht. Beide zeigen eindrucksvoll, wie gut Google inzwischen natürliche Sprache verstehen kann und welche Änderungen sich zukünftig für die Suche ergeben können.
Nicht mehr einzelne Keywords werden zukünftig über die Relevanz von Suchergebnissen entscheiden, sondern deren Bedeutung bzw. Semantik. Dazu muss eine Suchmaschine in der Lage sein, natürliche Sprache zu verstehen und Suchanfragen inhaltlich mit den indexierten Dokumenten abzugleichen.
Wie das funktionieren kann, zeigt Google anhand eines neuen Tools und eines Spiels. Beide hat das Unternehmen in einem Blogbeitrag vorgestellt. Das Tool trägt den Namen "Talk to Books". Damit können Inhalte aus mehr als 100.000 Büchern durchsucht werden. Die Suche beschränkt sich aber nicht auf den Abgleich von Keywords, sondern zieht auch semantische Verbindungen ein. Dazu zählen neben Synonymen auch Gegenbegriffe (Antonyme), hierarchische Beziehungen zwischen Begriffen sowie Teilbeziehungen (Holonyme).
Talk to Books sieht aus wie eine normale Suchmaschine. In das Suchefeld können vollständige, auch komplexe Sätze eingetragen werden. Als Ergebnis erhält man passende Passagen aus verschiedenen Büchern:
Google schreibt, dass die Zuordnung von Suchanfrage zu Dokument derzeit noch auf Ebene einzelner Sätze erfolgt, anstatt komplette Absätze zu bewerten. Das kann dazu führen, dass die angezeigten Textstellen aus dem Zusammenhang gerissen erscheinen.
Derzeit funktioniert die Suche nur für die englische Sprache in einer zufriedenstellenden Weise. Zwar werden auch deutschsprachige Inhalte gefunden, doch weisen die Ergebnisse selten einen engeren Bezug zur Suchanfrage auf.
Semantik per Spiel
Mit dem Spiel "Semantris" kann man Googles Fähigkeiten zum inhaltlichen Sprachverständnis auf unterhaltsame Weise ausprobieren. Es stehen zwei Spielvarianten zur Verfügung. In der "Arcade"-Version geht es darum, möglichst schnell semantisch passende Begriffe einzugeben, um einen Stapel von Wörtern abzuräumen. Wer zu viel Zeit benötigt, verliert:
In einer "Block"-Version kann auch ohne Zeitdruck gespielt werden. Hier ist das Ziel, jeweils passende Begriffe einzugeben, um einen oder mehrere der Blöcke abzuräumen. Gleichfarbige Blöcke werden auch entfernt. Das Spiel dauert so lange, bis die Linie am oberen Rand des Spielfelds überschritten wird:
Modell zur Bestimmung der inhaltlichen Relevanz
Google nutzt zur Bestimmung der inhaltlichen Ähnlichkeit ein Vektormodell. Dazu werden größere Sprachabschnitte in Form von mehrdimensionalen Vektoren gebracht. Diese Vektoren berücksichtigen die bereits genannten Konzepte wie Synonyme, Gegenbegriffe und Hierarchien von Begriffen.
Um das Modell zu trainieren, hat Google etwa eine Milliarde Sätze verwendet. Auf diese Weise wurde untersucht, wie jeweils eine möglichst gute Antwort aussehen sollte.
Durch den Abgleich der Vektoren, die Suchanfrage und Textstellen dokumentieren, lässt sich deren Ähnlichkeit und Relevanz bestimmen. Dabei wird jeweils der Winkel zwischen den Vektoren betrachtet: Ist der Winkel klein, so sind die Vektoren ähnlich, und die Relevanz ist entsprechend groß. Das zeigt exemplarisch die folgende Darstellung:
Suche wird immer mehr von Inhalten bestimmt
Für die "normale" Suche bedeutet das: Es kommt immer mehr auf Inhalte an. Zwar wird sicherlich auch weiterhin das Vorkommen von Keywords in Suchanfrage und Dokument eine Rolle spielen, aber entscheidend wird zukünftig vor allem die Bedeutung der Inhalte sein.
Welche Konzepte aus dem gezeigten Modell Google bereits in der Websuche anwendet, ist nicht bekannt. Insbesondere für die Voice Search, also für gesprochene Suchanfragen, kann sich ein großer Nutzen ergeben, denn dort sind die Suchanfragen meist komplexer und werden häufig in Form vollständiger Sätze gestellt.
Titelbild © Kseniya Ragozina - Fotolia.com