SEO-News

Künstliche IntelligenzMit WaveNet hat die Google-Tochter DeepMind ein neues, revolutionäres System zur Sprachausgabe geschaffen. Mit Hilfe maschinellen Lernens kann nicht nur die menschliche Stimme in verblüffender Weise nachgeahmt werden; WaveNet kann auch Musik komponieren und Geräusche erzeugen.

 

Die Spracherzeugung per Computer, auch Sprachsynthese oder Text-to-Speech (TTS) genannt, geschieht derzeit meist auf Basis eines von zwei Verfahren. Beim ersten Verfahren, der verknüpfenden TTS (Concatenative TTS), werden Sprachschnipsel, die zuvor von einem menschlichen Sprecher generiert und dann aufgenommen wurden, in einer großen Datenbank gespeichert. Zur Sprachausgabe werden diese Sprachscnhipsel dann in der jeweils benötigten Weise wieder kombiniert. Das Problem hierbei besteht in der fehlenden Möglichkeit, Variationen wie unterschiedliche Betonungen oder Stimmungen einzubringen, denn die Schnipsel können nur so verwendet werden, wie sie aufgenommen wurden. Um Varianten zu erzeugen, müssten mehrere Varianten der Sprachschnipsel produziert werden.

Bei der parametrischen TTS werden im Gegensatz zur verknüpfenden TTS alle zur Spracherzeugung benötigten Informationen im Modell selbst abgelegt, das heißt, es ist möglich, durch Veränderung der Parameter Varianten zu erzeugen. Der Nachteil der parametrischen TTS liegt aber in einer meist geringeren Qualität der erzeugten Sprache, die oftmals schwer zu verstehen ist und künstlicher klingt als die mit Hilfe verknüpfender TTS erzeugte Sprache.

 

WaveNet klingt natürlicher

Das Londoner Unternehmen DeepMind, eine Google-Tochter, hat mit WaveNet ein neues Verfahren zur Sprachsynthese entwickelt. WaveNet erzeugt Sprache als Wellenform, die sich aus einzelnen Samples zusammensetzt. Dieser Ansatz erlaubt es, nicht nur Sprache, sondern auch Geräusche und Musik auszugeben. Dabei werden sehr viele Samples pro Zeiteinheit erzeugt (16.000 Samples pro Sekunde). Die Berechnung der Samples findet auf Basis eines autoregressiven Modells statt: Jedes Sample wird von allen vorherigen Samples beeinflusst.

 

WaveNet: Convolutional Neural Network (Illustration)

Bild: DeepMind

 

Die obige Grafik illustriert den Ansatz von WaveNet: In einem "gefalteten", mehrschichtigen neuronalen Netz, in dem die verschiedenen Ebenen verschiedene Ausdehnungsfaktoren besitzen,  durchläuft der Input verschiedene Ebenen, bis es letztendlich zum Output, dem Sample, kommt.

Im Gegensatz zur Bildanalyse, in der dieses Modell schon länger angewandt wird, reduziert der Ansatz von WaveNet die Komplexität durch die Verwendung von "Hidden Layers", verborgenen Schichten, die es erlauben, Informationen aus der Vergangenheit zu nutzen und somit die Komlexität zu begrenzen.

Ergänzt wird das System durch die Einspeisung zusätzlicher Informationen über den zu sprechenden Text. Dazu wird ein vorliegender Text aufgeteilt in eine Abfolge von sprachlichen und phonetischen Einheiten wie Silben, einzelnen Wörtern usw. Das bedeutet, dass die Vorausberechnung des jeweils nächsten Samples nicht nur auf den vorherigen Samples basiert, sondern auch vom jeweiligen Text abhängt.

Interessanterweise kann WaveNet aber auch ohne die Informationen über den Text etwas wie Sprache erzeugen. Obwohl das Ergebnis vom Klang her sehr vertraut ist, handelt es sich jedoch in diesem Fall nur um ein inhaltsloses Kauderwelsch.

 

Unterschied zur menschlichen Sprache wird immer kleiner

In einem Test mit menschlichen Probanden, bei dem mehr als 500 Bewertungen für 100 Testsätze abgegeben wurden, zeigte sich die Leistungsfähigkeit von WaveNet. Sowohl für die Sprache Englisch als auch für Mandarin-Chinesisch wurde der wahrgenommene Abstand zur menschlichen Sprache als deutlich geringer wahrgenommen als für parametrische oder verknüpfende TTS:

Vergleich der wahrgenommenen Qualität verschiedener TTS-Verfahren

Bild: DeepMind

 

Als Referenz dienten Googles eigene Systeme zur Spracherzeugung, wie sie derzeit in den Produkten des Unternehmens zum Einsatz kommen.

 

WaveNet komponiert Musik

Wendet man WaveNet anstelle von Sprache auf Musik an, ergeben sich faszinierende Ergebnisse. Im Blogbeitrag von DeepMind sind mehrere Audio-Beispiele verlinkt. Darin sind Klavierkompositionen zu hören, die sich für den Laien nicht von menschlichen Werken unterscheiden. Was mehr als Spaß gedacht war, zeigt die Leistungsfähigkeit von WaveNet: Alleine durch das Trainieren mit einem Datensatz (klassische Klaviermusik) hat das System erstaunliche Ergebnisse produziert.

Was mit Musik funktioniert, lässt sich auch allgemein auf die Ebene von Geräuschen anwenden. Vor allem im Bereich der Sprache kann das zu einer zusätzlichen Annäherung an menschliche Laute führen, wenn zum Beispiel das Atmen mit in die Spracherzeugung einfließt.

 

 

Technische Herausforderungen

Die größte Herausforderung für die Anwendung von WaveNet in der Praxis besteht derzeit im großen Rechenaufwand für die Erzeugung der einzelnen Samples. Sowohl die Rechenkapazitäten in der Google-Cloud als auch die Leistungsfähigkeit aktueller Smartphones stellen hier noch limitierende Faktoren dar. Wenn sich die technischen Bedingungen jedoch so weiterentwickeln wie in der Vergangenheit, dürfte es nicht mehr lange dauern, bis die elektronische Sprachausgabe von der menschlichen kaum noch zu unterscheiden sein wird.

Technische Details zu WaveNet sind in diesem Paper (PDF) zu finden.

 

Titelbild © AGPhotography - Fotolia.com

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeige von Clixado

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen






Verwandte Beiträge

Google bittet um Themen für neue Q&A-Videos

Google wird demnächst wieder kurze Videos produzieren, in denen Fragen von Webmastern beantwortet werden. Dafür sucht das Unternehmen jetzt nach Themen und bittet seine Nutzer um Anregungen.

 

 

 

SEO-Checkliste

SEO-Checkliste

 

Anzeigen


SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Schulung 2019

SEO-Schulung

Ganztägige Schulung "SEO-Grundlagen". Jetzt anmelden

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2018

SEO-Kalender 2018

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

Partner

15 Prozent sparen!
Euer Rabatt-Code lautet SEOSUEDWESTSMX19

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE SEO: Linkbuilding gehört dazu
Donnerstag, 09. August 2018
Ohne den konstanten und nachhaltigen Aufbau hochwertiger Links bringen die besten Onpage-Maßnahmen... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE Neuer SEO-Contest: Punktesystem soll für mehr Fairness und Chancen sorgen
Montag, 30. Juli 2018
Im Rahmen eines neuen SEO-Contests kämmpfen wieder zahlreiche Publisher und Webseitenanbieter um... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed