SEO-News

 Baidu-TasseMit ERNIE gibt es einen mit BERT vergleichbaren Algorithmus zum Erkennen natürlicher Sprache. Und nicht Google nutzt ERNIE, sondern der chinesische Konkurrent Baidu.

In diesem Jahr hatte Google mit der Einführung von BERT für Furore gesorgt. Mit dem "Bidirectional Encoder Representations from Transformers" ist Google in der Lage, auch komplexe Suchanfragen sowie Inhalte auf Websites besser zu verstehen. Dabei werden die Beziehungen von Worten in einem Text sowohl vorwärts als auch rückwärts bestimmt. Auf diese Weise kann Google zum Beispiel bei mehrdeutigen Begriffen ermitteln, wofür sie inhaltlich stehen.

BERT wird sowohl für normale Suchanfragen als auch für das Ausspielen von Featured Snippets verwendet, und das inzwischen für mehr als 70 Sprachen.

 

ERNIE schlägt BERT bei GLUE

Doch nun scheint Baidu, der chinesische Suchmaschinenanbieter, Google den Rang abgelaufen zu haben - zumindest, wenn es um das Verstehen natürlicher Sprache geht.

Als Vergleichsmaßstab dient ein Test mit dem Namen General Language Understanding Evaluation ("GLUE"). Dieser Test misst, wie gut ein System künstlicher Intelligenz dazu in der Lage ist, die menschliche Sprache zu verstehen.

Zum Vergleich: Ein durchschnittlicher Mensch erreicht auf der bis 100 reichenden GLUE-Skala 87 Punkte. Baidus Forscherteam ist es nun als erstem  gelungen, 90 Punkte zu übertreffen. Dabei kam ein Modell mit dem Namen ERNIE zur Anwendung. In der GLUE-Rankingliste liegt ERNIE derzeit auf dem ersten Platz.

Die zugegebenrmaßen etwas bemühte Abkürzung steht für "Enhanced Representation through kNowledge IntEgration". Und obwohl Baidu ein chinesischer Anbieter ist und damit die chinesische Sprache im Fokus hat, eignet sich ERNIE auch hervorragend für andere Sprachen wie Englisch. Dies haben, außer dem Bezug zur Sesamstraße, die Modelle ERNIE und BERT gemein.

 

So funktionieren ERNIE und BERT

Zunächst zur Funktionsweise von BERT: Dieses Modell arbeitet im Gegensatz zu früheren Modellen der Spracherkennung bidirektional. Das bedeuet, es können nicht nur nachfolgende, sondern vorhergehende Worte in einem Text vorhergesagt werden. In einem gegebenen Text verbirgt BERT in zufälliger Weise 15 Prozent der Worte und versucht dann, diese aus den übrigen Worten im Text zu bestimmen. So könnte zum Beispiel im Satz "Der Mann ging in den  ___, um Milch zu kaufen" sowohl der Anfang als auch das Ende des Satzes Hinweise auf das fehlende Wort liefern.

Auch ERNIE benutzt die Technik des Verbergens einzelner Worte im Text. Allerdings waren Anpassungen notwendig, um das Modell auf die chinesische Sprache anwenden zu können. Das liegt an folgendem Unterschied: In Sprachen wie Englisch oder Deutsch dient ein Wort als semantische Einheit. Ein Wort kann für sich alleine genommen eine Bedeutung besitzen. Das ist im Chinesischen anders. Hier gibt es Begriffe, die nur in Verbindung mit anderen verstanden werden können. Beispiel: 灵 (líng) kann entweder clever (机灵, jīlíng) oder Seele (灵魂, línghún) bedeuten.

Die Entwickler von Baidu änderten ERNIE daher so um, dass mehrere aufeinanderfolgende Schriftzeichen maskiert wurden, anstatt nur einzelne auszublenden. Zudem tranierten sie ERNIE, zwischen Zeichenketten mit Bedeutung und zufälligen Zeichenketten voneinnder zu unterscheiden. Auf diese Weise ist ERNIE wesnetlich besser für die chinesische Sprache geeignet und außerdem zuverlässiger darin, fehlende Worte vorherzusagen.

Es zeigte sich, dass dieser Ansatz auch für die englische Sprache besser funktioniert, denn auch im Englischen kann es passieren, dass eine Reihe von Worten eine andere Aussage besitzt als die Worte für sich genommen.

Den Unterschied zwischen ERNIE und BERT zeigt das folgende Beispiel. Gegeben sei der Satz: "Ein Mann geht in einen Laden, um sich Schuhe zu kaufen."

BERT würde eine Maskierung wie die folgende verwenden:

"__ Mann geht in den __, um sich Schuhe zu __."

Bei ERNIE könnte das so aussehen:

"Ein Mann geht __ __ __, um sich Schuhe __ __."

ERNIE ist damit ein robusterer Ansatz, der eher auf der Bedeutung als auf der statistischen Verwendung von Wordmustern aufbaut.

 

Weitere Vorteile von ERNIE

Die aktuelle Version von ERNIE bietet gegenüber BERT zudem weitere Vorteile. So werden auch die Reihenfolge von Sätzen sowie die Abstände zwischen diesen berücksichtigt. Damit lassen sich logische Pfade innerhalb eines Absatzes nachvollziehen. 

Wesentlich ist aber eine Technik, die sich "Continous Training" nennt und die es ermöglicht, ständig zu lernen, ohne das zuvor Gelernte zu vergessen. Dadurch wird die Erkennung stetig besser, und das mit nur unwesentlicher menschlicher Unterstützung.

Baidu nutzt ERNIE, um bessere Suchergebnisse zu liefern, Duplicate Content aus dem Newsfeed herauszuhalten und um die Kommunikationsfähigkeiten seines digitalen Assistenten Xioa Du zu verbessern.

Die Beschreibung von ERNIE und seiner aktuellen Architektur sind in dieser wissenschaftlichern Arbeit nachzulesen. Zu den Aufgaben von ERNIE gehören demnach beispielsweise das Erkennen ähnlicher Texte, das Beantworten von Fragen, Sentimentanalyse, also das Erkennen von Stimmungen und Emotionen. Das Framework setzt auf einer Kombination von Vorab-Trainings und Feinabstimmung.

Spannend ist die Frage, ob und wann Google und andere Suchmaschinen ebenfalls auf ERNIE zurückgreifen werden. Die Entwicklung des Modells zeigt jedenfalls, wie schnell inzwischen der Fortschritt im Bereich der Spracherkennung voranschreitet.

 

Titelbild "Baidu-Tasse" © bfishadow

(Attribution 2.0 Generic (CC BY 2.0) creativecommons.org/licenses/by/2.0/)

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

 

 

 

 

 

 

 

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen

sedo

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group




Sprecher auf

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px