Die Qualität von Texten im Internet ist oftmals schwer zu beurteilen. Oft wird man mit sogenannten Fake News konfrontiert, bei denen es auf den ersten Blick schwer ist, den Wahrheitsgehalt zu erkennen. Eine neue Datenbank der TU Darmstadt soll die automatische Analyse von Onlinetexten erleichtern und damit zu einer Verbesserung der Qualität im Netz beitragen.
Der Begriff "Fake News" war in den letzen Wochen und Monaten sehr populär. So gab es zum Beispiel während des US-Präsidentschaftswahlkampfes immer wieder Falschmeldungen, die von verschiedenen Urhebern lanciert wurden. Das Problem solcher Nachrichten ist, dass sich der entstandene Schaden oftmals selbst nach einer Richtigstellung nicht wieder vollständig beheben lässt, denn etwas bleibt meistens hängen.
Eine Verbesserung der Situation könnte sich durch die Datenbank "UKPConvArg2" ergeben, die an der Technischen Universität Darmstadt entwickelt wurde. In dieser Datenbank befinden sich mehr als 9.000 Paare von Argumenten aus 16 verschiedenen Social-Media-Debatten über gesellschaftlich relevante Themen. Diese Argumente wurden mit Hilfe eines Crowdsourcing-Ansatzes bewertet und mit Kennzeichnungen ("Labels") versehen. Anschließend fand noch eine Bewertung der Argumente durch Experten statt.
Hat man nun ein Paar von zwei Argumenten zu einem kontroversen Thema sowie die Einschätzung der Stärken und Schwächen dieser Argumente, so lassen sich diese mit Techniken des maschinellen Lernens wie Support Vector Machines (SVM) Texte auf ihre Überzeugungskraft analysieren.
Das System ist dabei in der Lage, Schwächen in der Argumentation zu erkennen, indem beispielsweise die Quellen der Argumentation geprüft werden. Stammen die Argumente nur aus einer Quelle, ist sie sehr einseitig? All das lässt sich auf diese Weise aufdecken.
Die Daten und die zugehörige Experimentalsoftware stehen hier zur Verfügung.
Titelbild © AGPhotography - Fotolia.com