SEO-News

Künstliche IntelligenzMit WaveNet hat die Google-Tochter DeepMind ein neues, revolutionäres System zur Sprachausgabe geschaffen. Mit Hilfe maschinellen Lernens kann nicht nur die menschliche Stimme in verblüffender Weise nachgeahmt werden; WaveNet kann auch Musik komponieren und Geräusche erzeugen.

 

Die Spracherzeugung per Computer, auch Sprachsynthese oder Text-to-Speech (TTS) genannt, geschieht derzeit meist auf Basis eines von zwei Verfahren. Beim ersten Verfahren, der verknüpfenden TTS (Concatenative TTS), werden Sprachschnipsel, die zuvor von einem menschlichen Sprecher generiert und dann aufgenommen wurden, in einer großen Datenbank gespeichert. Zur Sprachausgabe werden diese Sprachscnhipsel dann in der jeweils benötigten Weise wieder kombiniert. Das Problem hierbei besteht in der fehlenden Möglichkeit, Variationen wie unterschiedliche Betonungen oder Stimmungen einzubringen, denn die Schnipsel können nur so verwendet werden, wie sie aufgenommen wurden. Um Varianten zu erzeugen, müssten mehrere Varianten der Sprachschnipsel produziert werden.

Bei der parametrischen TTS werden im Gegensatz zur verknüpfenden TTS alle zur Spracherzeugung benötigten Informationen im Modell selbst abgelegt, das heißt, es ist möglich, durch Veränderung der Parameter Varianten zu erzeugen. Der Nachteil der parametrischen TTS liegt aber in einer meist geringeren Qualität der erzeugten Sprache, die oftmals schwer zu verstehen ist und künstlicher klingt als die mit Hilfe verknüpfender TTS erzeugte Sprache.

 

WaveNet klingt natürlicher

Das Londoner Unternehmen DeepMind, eine Google-Tochter, hat mit WaveNet ein neues Verfahren zur Sprachsynthese entwickelt. WaveNet erzeugt Sprache als Wellenform, die sich aus einzelnen Samples zusammensetzt. Dieser Ansatz erlaubt es, nicht nur Sprache, sondern auch Geräusche und Musik auszugeben. Dabei werden sehr viele Samples pro Zeiteinheit erzeugt (16.000 Samples pro Sekunde). Die Berechnung der Samples findet auf Basis eines autoregressiven Modells statt: Jedes Sample wird von allen vorherigen Samples beeinflusst.

 

WaveNet: Convolutional Neural Network (Illustration)

Bild: DeepMind

 

Die obige Grafik illustriert den Ansatz von WaveNet: In einem "gefalteten", mehrschichtigen neuronalen Netz, in dem die verschiedenen Ebenen verschiedene Ausdehnungsfaktoren besitzen,  durchläuft der Input verschiedene Ebenen, bis es letztendlich zum Output, dem Sample, kommt.

Im Gegensatz zur Bildanalyse, in der dieses Modell schon länger angewandt wird, reduziert der Ansatz von WaveNet die Komplexität durch die Verwendung von "Hidden Layers", verborgenen Schichten, die es erlauben, Informationen aus der Vergangenheit zu nutzen und somit die Komlexität zu begrenzen.

Ergänzt wird das System durch die Einspeisung zusätzlicher Informationen über den zu sprechenden Text. Dazu wird ein vorliegender Text aufgeteilt in eine Abfolge von sprachlichen und phonetischen Einheiten wie Silben, einzelnen Wörtern usw. Das bedeutet, dass die Vorausberechnung des jeweils nächsten Samples nicht nur auf den vorherigen Samples basiert, sondern auch vom jeweiligen Text abhängt.

Interessanterweise kann WaveNet aber auch ohne die Informationen über den Text etwas wie Sprache erzeugen. Obwohl das Ergebnis vom Klang her sehr vertraut ist, handelt es sich jedoch in diesem Fall nur um ein inhaltsloses Kauderwelsch.

 

Unterschied zur menschlichen Sprache wird immer kleiner

In einem Test mit menschlichen Probanden, bei dem mehr als 500 Bewertungen für 100 Testsätze abgegeben wurden, zeigte sich die Leistungsfähigkeit von WaveNet. Sowohl für die Sprache Englisch als auch für Mandarin-Chinesisch wurde der wahrgenommene Abstand zur menschlichen Sprache als deutlich geringer wahrgenommen als für parametrische oder verknüpfende TTS:

Vergleich der wahrgenommenen Qualität verschiedener TTS-Verfahren

Bild: DeepMind

 

Als Referenz dienten Googles eigene Systeme zur Spracherzeugung, wie sie derzeit in den Produkten des Unternehmens zum Einsatz kommen.

 

WaveNet komponiert Musik

Wendet man WaveNet anstelle von Sprache auf Musik an, ergeben sich faszinierende Ergebnisse. Im Blogbeitrag von DeepMind sind mehrere Audio-Beispiele verlinkt. Darin sind Klavierkompositionen zu hören, die sich für den Laien nicht von menschlichen Werken unterscheiden. Was mehr als Spaß gedacht war, zeigt die Leistungsfähigkeit von WaveNet: Alleine durch das Trainieren mit einem Datensatz (klassische Klaviermusik) hat das System erstaunliche Ergebnisse produziert.

Was mit Musik funktioniert, lässt sich auch allgemein auf die Ebene von Geräuschen anwenden. Vor allem im Bereich der Sprache kann das zu einer zusätzlichen Annäherung an menschliche Laute führen, wenn zum Beispiel das Atmen mit in die Spracherzeugung einfließt.

 

 

Technische Herausforderungen

Die größte Herausforderung für die Anwendung von WaveNet in der Praxis besteht derzeit im großen Rechenaufwand für die Erzeugung der einzelnen Samples. Sowohl die Rechenkapazitäten in der Google-Cloud als auch die Leistungsfähigkeit aktueller Smartphones stellen hier noch limitierende Faktoren dar. Wenn sich die technischen Bedingungen jedoch so weiterentwickeln wie in der Vergangenheit, dürfte es nicht mehr lange dauern, bis die elektronische Sprachausgabe von der menschlichen kaum noch zu unterscheiden sein wird.

Technische Details zu WaveNet sind in diesem Paper (PDF) zu finden.

 

Titelbild © AGPhotography - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

Bei DeepMind, das zu Google gehört, wird an einem Large Language Model gearbeitet, das Techniken aus AlphaGo zum Problemlösen einbinden soll. Auf diese Weise soll mit Gemini ein KI-System mit völlig...

Die Fettschreibung per <b> und per <strong> unterscheidet sich laut Google. Das Strong-Tag sollte zum Hervorheben besonders dringendener und ernster Informationen verwendet werden.

Mit dem absehbaren Wandel klassischer Suchmaschinen in Richtung chatbasierter Systeme stellt sich die Frage, welche Rolle zukünftig klassische Rankingfaktoren wie Backlinks einnehmen werden.

 

 

 

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen sedo

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group


Onsite-Optimierung

Onsite-Optimierung

 

Sprecher auf

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px