Google-Patent zum Knowledge Vault: Extraktion von Fakten aus standardisierten Quellen wie Wikipedia

Patent Die Sammlung von Informationen aus standardisierten Quellen spielt eine wichtige Rolle für den Aufbau von Googles Knowledge Vault, dem Nachfolger des Knowledge Graph. Ein Patent beschreibt, wie die Informationssammlung funktionieren kann.

Die Evolution der Suchergebnisse begann mit blauen Links, führte über die Universal Search und brachte uns zum Knowledge Graph, einer Sammlung von strukturierten Informationen, die auf einem Beziehungsnetz von Entitäten besteht. Googles Knowledge Vault kann als Nachfolger des Knowledge Graph angesehen werden. Waren aber beim Aufbau des Knowledge Graph noch viele menschliche Akteure beteiligt, so geschieht die Datensammlung beim Knowledge Vault weitgehend automatisch.

Google verlässt sich beim Sammeln von Informationen immer weniger auf menschliche Zuarbeit. Daten aus verschiedenen Quellen werden gesammelt, aufbereitet und in einer einzigen Datenbank zusammengeführt. Der NewScientist beschreibt das so:

[...]Knowledge Vault autonomously gathers and merges information from across the web into a single base of facts about the world, and the people and objects in it.

Für die automatische Sammlung werden zahlreiche Technologien kombiniert. Eine davon ist in einem Patent dokumentiert, das Blii Slawski von SEO by the SEA näher beschrieben hat. In der Zusammenfassung des Patents heißt es:

A system, method, and computer program product for learning objects and facts from documents. A source object and a source document are selected and a title pattern and a contextual pattern are identified based on the source object and the source document. A set of documents matching the title pattern and the contextual pattern are selected. For each document in the selected set, a name and one or more facts are identified by applying the title pattern and the contextual pattern to the document. Objects are identified or created based on the identified names and associated with the identified facts.

Vereinfacht gesagt geht es darum: Es gibt Referenzdokumente, die eine bestimmte Struktur haben. Hier ist Wikipedia ein gutes Beispiel: Zum einen, weil Artikel auf Wikipedia einen standardisierten Aufbau haben und zum anderen, weil Google Wikipedia als Quelle vertraut. So gibt es in Wikipedia-Artikeln stets die gleiche Struktur im Titel: "[Thema] - Wikiepdia" (etwa im Deutschen Wikipedia). Eine weitere Gemeinsamkeit besteht in der Verwendung von Infoboxen in den Artikeln. Diese Standardisierung ermöglicht es Google, die Inhalte der Artikel zuzuordnen und auszulesen.

Komponenten bei der Datensammlung

Importer: Extrahieren die Daten und bestimmen die zugehörigen Entitäten

Türsteher: Datenbereinigung, Rechtschreibkorrektur, Normalisierungen wie die Entfernung bestimmter Sonderzeichen, Entfernung von Dopplungen, Entfernen unerwünschter Fakten

Build Engine: Baut den Index auf und verwaltet diesen

Fact Repository: Speichert Informationen über Entitäten in Form von Fakten.

Attribute und Werte: Fakten, die mit bestimmten Entitäten verknüpft sind, können besondere Formen haben. Für Helmut Schmidt kann das zum Beispiel das Geburtsdatum sein (23.12.1918)

Tupel: Die Datenstruktur von Fakten kann durch Informationstupel repräsentiert sein, die aus Fakten-ID, Attributen, Werten und einer Objekt-ID bestehen können. Zusätzliche Informationen wie die Quelle des Faktums sind möglich.

Verlässlichkeit von Informationen

Zu den weiteren Informationen, die mit Fakten verbunden sein können, zählen die Verlässlichkeit, die Wichtigkeit und die Art des Importers, der die Fakten gesammelt hat. Wichtig scheint hier vor allem die Verlässlichkeit. Das Vertrauen, das einer Information beigemessen wird, dürfte sich auf die Art der Verwendung dieser Information auswirken. Es ist anzunehmen, dass Informationen von bestimmten Seiten wie Wikipedia ein höheres Vertrauen genießen als Informationen von weniger bekannten Seiten - ähnlich dem Verfahren, wie es bereits jetzt für das Ranking von Webtreffern verwendet wird. Zur Art des Importers ist im Patent beschrieben, dass je nach Informationsquelle unterschiedliche Importer verwendet werden können. So könnte es einen eigenen Importer für Wikipedia, einen weiteren für DMOZ und einen dritten für kleinere Webseiten geben.

Bedeutung für Webseiteninhaber

Dass bekannte Webseiten auch im Zusammenhang mit Googles Knowledge Vault eine große Bedeutung haben, verwundert nicht. Für Webseiteninhaber ist aber ein anderer Aspekt wichtiger: Der standardisierte Aufbau von Artikeln. Wenn die Importer die gesuchten Informationen dort finden, wo sie diese vermuten, erhöht das auch die Chance, dass diese Informationen importiert und genutzt werden. Es sollten daher möglichst verbreitete Strukturen verwendet werden - etwa für den Aufbau und die Reihenfolge von Seitentitel, Introtext, Haupttext etc. Diese Strukturen sollten auf jeder Seite konsequent einhalten werden.

Hier gibt es das PDF zum Knowledge Vault von Google

Von Christian Kunz+ Mehr Informationen hier