PatentDie Sammlung von Informationen aus standardisierten Quellen spielt eine wichtige Rolle fĂŒr den Aufbau von Googles Knowledge Vault, dem Nachfolger des Knowledge Graph. Ein Patent beschreibt, wie die Informationssammlung funktionieren kann.

Die Evolution der Suchergebnisse begann mit blauen Links, fĂŒhrte ĂŒber die Universal Search und brachte uns zum Knowledge Graph, einer Sammlung von strukturierten Informationen, die auf einem Beziehungsnetz von EntitĂ€ten besteht. Googles Knowledge Vault kann als Nachfolger des Knowledge Graph angesehen werden. Waren aber beim Aufbau des Knowledge Graph noch viele menschliche Akteure beteiligt, so geschieht die Datensammlung beim Knowledge Vault weitgehend automatisch.

Google verlĂ€sst sich beim Sammeln von Informationen immer weniger auf menschliche Zuarbeit. Daten aus verschiedenen Quellen werden gesammelt, aufbereitet und in einer einzigen Datenbank zusammengefĂŒhrt. Der NewScientist beschreibt das so:

[...]Knowledge Vault autonomously gathers and merges information from across the web into a single base of facts about the world, and the people and objects in it.

FĂŒr die automatische Sammlung werden zahlreiche Technologien kombiniert. Eine davon ist in einem Patent dokumentiert, das Blii Slawski von SEO by the SEA nĂ€her beschrieben hat. In der Zusammenfassung des Patents heißt es:

A system, method, and computer program product for learning objects and facts from documents. A source object and a source document are selected and a title pattern and a contextual pattern are identified based on the source object and the source document. A set of documents matching the title pattern and the contextual pattern are selected. For each document in the selected set, a name and one or more facts are identified by applying the title pattern and the contextual pattern to the document. Objects are identified or created based on the identified names and associated with the identified facts.

Vereinfacht gesagt geht es darum: Es gibt Referenzdokumente, die eine bestimmte Struktur haben. Hier ist Wikipedia ein gutes Beispiel: Zum einen, weil Artikel auf Wikipedia einen standardisierten Aufbau haben und zum anderen, weil Google Wikipedia als Quelle vertraut. So gibt es in Wikipedia-Artikeln stets die gleiche Struktur im Titel: "[Thema] - Wikiepdia" (etwa im Deutschen Wikipedia). Eine weitere Gemeinsamkeit besteht in der Verwendung von Infoboxen in den Artikeln. Diese Standardisierung ermöglicht es Google, die Inhalte der Artikel zuzuordnen und auszulesen.

 

Komponenten bei der Datensammlung

Importer: Extrahieren die Daten und bestimmen die zugehörigen EntitÀten

TĂŒrsteher: Datenbereinigung, Rechtschreibkorrektur, Normalisierungen wie die Entfernung bestimmter Sonderzeichen, Entfernung von Dopplungen, Entfernen unerwĂŒnschter Fakten

Build Engine: Baut den Index auf und verwaltet diesen

Fact Repository: Speichert Informationen ĂŒber EntitĂ€ten in Form von Fakten.

Attribute und Werte: Fakten, die mit bestimmten EntitĂ€ten verknĂŒpft sind, können besondere Formen haben. FĂŒr Helmut Schmidt kann das zum Beispiel das Geburtsdatum sein (23.12.1918)

Tupel: Die Datenstruktur von Fakten kann durch Informationstupel reprÀsentiert sein, die aus Fakten-ID, Attributen, Werten und einer Objekt-ID bestehen können. ZusÀtzliche Informationen wie die Quelle des Faktums sind möglich.

 

VerlÀsslichkeit von Informationen

Zu den weiteren Informationen, die mit Fakten verbunden sein können, zĂ€hlen die VerlĂ€sslichkeit, die Wichtigkeit und die Art des Importers, der die Fakten gesammelt hat. Wichtig scheint hier vor allem die VerlĂ€sslichkeit. Das Vertrauen, das einer Information beigemessen wird, dĂŒrfte sich auf die Art der Verwendung dieser Information auswirken. Es ist anzunehmen, dass Informationen von bestimmten Seiten wie Wikipedia ein höheres Vertrauen genießen als Informationen von weniger bekannten Seiten - Ă€hnlich dem Verfahren, wie es bereits jetzt fĂŒr das Ranking von Webtreffern verwendet wird. Zur Art des Importers ist im Patent beschrieben, dass je nach Informationsquelle unterschiedliche Importer verwendet werden können. So könnte es einen eigenen Importer fĂŒr Wikipedia, einen weiteren fĂŒr DMOZ und einen dritten fĂŒr kleinere Webseiten geben.

 

Bedeutung fĂŒr Webseiteninhaber

Dass bekannte Webseiten auch im Zusammenhang mit Googles Knowledge Vault eine große Bedeutung haben, verwundert nicht. FĂŒr Webseiteninhaber ist aber ein anderer Aspekt wichtiger: Der standardisierte Aufbau von Artikeln. Wenn die Importer die gesuchten Informationen dort finden, wo sie diese vermuten, erhöht das auch die Chance, dass diese Informationen importiert und genutzt werden. Es sollten daher möglichst verbreitete Strukturen verwendet werden - etwa fĂŒr den Aufbau und die Reihenfolge von Seitentitel, Introtext, Haupttext etc. Diese Strukturen sollten auf jeder Seite konsequent einhalten werden.


Hier gibt es das PDF zum Knowledge Vault von Google

 

© aurora - Fotolia.com

 


Von Christian Kunz+ Mehr Informationen hier