Yahoo stellt einen riesigen Datensatz bereit, der für die Forschung im Bereich des maschinellen Lernens genutzt werden kann. Im Datensatz sind Interaktionen von anonymisierten Nutzen mit Yahoos Newsfeeds enthalten.
Maschinelles Lernen gewinnt für Suchmaschinen, das Information Retrieval allgemein, aber auch für SEOs, immer mehr an Bedeutung. Die automatisierte Auswertung einer großen Zahl an Signalen und Nutzeraktivitäten erlaubt es den Suchmaschinen, sich schnell und kontinuierlich an neue Situationen und Trends anzupassen. Die im maschinellen Lernen eingesetzten Algorithmen sind in der Lage, diese Signale zum Beispiel für die Gewichtung und Veränderung von Rankingkriterien umzusetzen. Die sich aus diesen Änderungen ergebenden neuen Signale fließen dann in weitere Berechnungen ein.
Doch maschinelles Lernen geht in seinen Möglichkeiten weit über die Nutzung in Suchmaschinen hinaus. Moderne Technologien wie selbststeuerende Autos oder digitale Assistenten wären ohne lernende Algorithmen nicht denkbar.
Begleitend zur steigenden Bedeutung des maschinellen Lernens gibt es derzeit einen Trend bei den großen Unternehmen der IT-Branche, Algorithmen und Daten für die Forschung und Entwicklung der Öffentlichkeit zur Verfügung zu stellen. So hatte Google zum Ende des vergangenen Jahres seine TensorFlow-Bibliothek als Open Source herausgegeben. Kurze Zeit später folgte IBM mit SystemML.
Yahoo zieht jetzt nach und stellt den nach eigenen Aussagen bisher größten Datensatz zur Erforschung maschinellen Lernens bereit. Der Datensatz hat eine Größe von 13,5 Terabyte und enthält etwa 110 Milliarden Events. Die Daten stammen aus dem Zeitraum von Februar bis Mai 2015. Enthalten sind anonymisierte Nutzerinteraktionen mit Yahoos Newsfeeds aus verschiedenen Yahoo-Diensten wie der Homepage, Yahoo News, Yahoo Sports, Yahoo Fianance, Yahoo Movies und Yahoo Real Estate. Zu den Daten gehören auch kategorisierte und anonymisierte demographische Angaben wie zum Alter und Geschlecht sowie Ortsangaben.
Yahoo möchte damit die unabhängige Forschung auf dem Gebiet der großangelegten Empfehlungssysteme und des maschinellen Lernen fördern und eine Verbindung zwischen akademischer Forschung und Wirtschaft herstellen.
Der Datensatz ist Bestandteil des Yahoo Labs Webscope Daten-Sharing-Programms, in dem verschiedene anonymierte Datensätze für die nichtkommerzielle Nutzung angeboten werden.
Titelbild © AGPhotography - Fotolia.com