SEO-News

Google SMITH-AlgorithmsSMITH ist ein neuer Algorithmus, der Google beim Verstehen längerer Texte helfen könnte. Damit übertrifft er BERT, dessen Fokus sich auf einzelne Sätze beschränkt.

Ein neuer Algorithmus könnte in nächster Zeit auch in der Suche von Google von sich reden machen. Gemeint ist SMITH. Die Abkürzung steht für "Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching". In einem wissenschaftlichen Beitrag werden die Aufgaben und die Funktionsweise von SMITH beschrieben.

Wie der bereits von Google eingesetzte BERT-Algorithmus dient auch SMITH dem Verstehen von Dokumenten und Suchanfragen. Der wohl wichtigste Unterschied zwischen BERT und SMITH besteht darin, dass BERT auf kürzere Textstellen wie einzelne Sätze oder einen Absatz ausgerichtet ist. SMITH hingegen soll dem Abgleich längerer Dokumente dienen:

"In recent years, self-attention based models like Transformers and BERT have achieved state-of-the-art performance in the task of text matching. These models, however, are still limited to short text like a few sentences or one paragraph due to the quadratic computational complexity of self-attention with respect to input text length. In this paper, we address the issue by proposing the Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder for long-form document matching."

Bei SMITH geht es also um das Verstehen kompletter Absätze im Kontext längerer Texte. Mit SMITH wäre Google in der Lage, komplette Webseiten und längere Suchanfragen besser miteinander abzugleichen. Mithilfe von SMITH erhöht sich die Höchstmenge der Zeichen für den Input-Text von 512 auf 2048 Zeichen:

"Comparing to BERT based baselines, our model is able to increase maximum input text length from 512 to 2048."

Gerade der Vergleich zwischen langen Texten stellt eine große Herausforderung dar. Dafür nennen die Autorinnen und Autoren des Papiers die folgenden Gründe:

  1. Wenn beide zu vergleichenden Texte lang sind, dann setzt dies ein besseres Verständnis der semantischen Beziehungen inklusive Matching-Muster zwischen auch weiter voneinander entfernten Textfragmenten voraus.
  2. Lange Dokumente verfügen über eine bestimmte Struktur. Dazu gehören Abschnitte, Sätze und Absätze. Während menschliche Leserinnen und Leser diese Struktur verwenden können, muss diese Fähigkeit auch dem Modell zuteil werden, um eine bessere Leistung beim Abgleich der Dokumente erreichen zu können.
  3. Der Vergleich längerer Texte stellt größere Anforderungen an das Speichermanagement.

"1) When both texts are long, matching them requires a more thorough understanding of semantic relations including matching pattern between text fragments with long distance; 2) Long documents contain internal structure like sections, passages and sentences. For human readers, document structure usually plays a key role for content understanding. Similarly, a model also needs to take document structure information into account for better document matching performance; 3) The processing of long texts is more likely to trigger practical issues like out of TPU/GPU memories without careful model design."

Für den Abgleich längerer Texte gibt es verschiedene Anwendungsfälle. Dazu gehören zum Beispiel das Empfehlen von News, verwandten Artikeln oder das Clustern von Dokumenten. Gleichwohl räumen die Autoren ein, dass dieser Bereich bisher erst wenig erforscht sei:

"To the best of our knowledge, semantic matching between long document pairs, which has many important applications like news recommendation, related article recommendation and document clustering, is less explored and needs more research effort."

 

Pre-Training wie bei BERT

Wichtiger Bestandteil von SMITH ist ein "Pre-Training und Finetuning"-Paradigma, das auch bei BERT gegeben ist. Dabei erfolgt ein Pre-Training auf Basis eines umfangreichen und nicht gelabelten Textes mit nicht überwachtem Lernen. Beim Pre-Training werden bestimmte Wörter in einzelnen Sätzen maskiert. Der Algorithmus muss dann versuchen, die verdeckten Wörter zu ermitteln:

"For the Smith model pre-training, we propose the masked sentence block language modeling task in addition to the original masked word language modeling task used in BERT for long text inputs."

Bei langen Texten können zum Textverständnis sowohl die Beziehungen zwischen einzelnen Wörtern in einem Satz oder Absatz sowie die Beziehungen zwischen Sätzen oder Absätzen wichtig sein. Aus diesem Grund werden im Pre-Training sowohl einzelne Wörter als auch Satzblöcke auf Zufallsbasis maskiert:

"When the input text becomes long, both relations between words in a sentence block and relations between sentence blocks within a document becomes important for content understanding."

"Therefore, we mask both randomly selected words and sentence blocks during model pre-training."

Im Gegensatz zu BERT sollen auf diese Weise die Beziehungen zwischen Absätzen besser verstanden werden.

Das Finetuning findet mit einem überwachten Downstream-Task statt. Dadurch müssen zu Beginn nur weniger Parameter gelernt werden:

"For the model training of SMITH, we adopt the “pre-training + fine-tuning” paradigm as in BERT. This approach is to firstly pretrain the model with large unlabeled plain text in an unsupervised learning fashion, and then fine-tune the model with a supervised downstream task so that only few parameters need to be learned from scratch."

 

Hierarchisches Modell

Das Modell von SMITH sieht verschiedene Schichten vor: Auf der obersten Ebene befindet sich der Document Encoder, gefolgt von mehreren Ebenen, welche hierarchisch die einzelnen Texteinheiten verarbeiten. Auf der untersten Ebene befinden sich die Positionen und die Token.

Ein Dokument wird in mehrere Sätzblöcke zerlegt, von denen jeder einen oder mehrere natürliche Sätze enthalten kann. Die Blöcke haben eine vorgegebenen Länge. Wenn ein Satz nicht mehr in einen Block passt, wird er in den nächsten Block verschoben. Ist ein Satz länger als die Höchstlänge eines Blocks, so wird er abgeschnitten, damit er in den Block passt.

"Specifically, we split a document into multiple sentence blocks of predefined length so that each sentence block can contain one or more natural sentences. We try to fill as many sentences as possible into one sentence block until the block reaches the predefined max block length. When the last sentence cannot fill in the current block, we move it to the next block. When an individual sentence alone is longer than the max sentence block length, we truncate it to fit in the current block."

 

Ergebnisse

Die Autorinnen und Autoren kommen zum Schluss, dass SMITH im Vergleich zu vergleichbaren Modellen eine bessere Leistung erbringt, wenn es um den Abgleich längerer Dokumente geht:

"We can find that in general SMITH-WP+SP will achieve better performance as the maximum document length increases. This confirms the necessity of long text content modeling for document matching. The SMITH model which enjoys longer input text lengths compared with other standard self-attention models is a better choice for long document representation learning and matching."

Dazu gehören auch vorherige State-of-the-Art Siamese Matchig-Modelle wie HAN, SMASH und BERT:

"The experimental results on several benchmark datasets show that our proposed SMITH model outperforms previous state-of-the-art Siamese matching models including HAN, SMASH and BERT for long-form document matching. Moreover, our proposed model increases the maximum input text length from 512 to 2048 when compared with BERT-based baseline methods."

 

Verwendet Google SMITH bereits?

Aus der wissenschaftlichen Arbeit geht nicht hervor, ob Google SMITH bereits für die Suche verwendet. Eine offizielle Bestätigung dazu auch an anderer Stelle gibt es noch nicht. Den Einsatz von BERT hatte Google dagegen kommuniziert.

Denkbar ist eine Verwendung von SMITH im Zusammenhang mit dem von Google angekündigten Passage Based Indexing. Dies soll Google die gezieltere Indexierung von Abschnitten auf längeren Seiten ermöglichen. Das klingt durchaus nach einem möglichen Einsatzgebiet für SMITH.

 

Welche Auswirkungen von SMITH auf die SEO könnte es geben?

Ob und welche Konsequenzen sich aus SMITH für die SEO ergeben könnten, ist noch nicht zu beurteilen. Vergleicht man SMITH allerdings mit BERT, so dürften die sich daraus ableitbaren Handlungsempfehlungen sehr gering sein. Wenn Google längere Dokumente besser verstehen und auch längere Suchanfragen mit den Dokumenten abgleichen kann, so dürfte dies vor allem die Qualität der Suchergebnisse verbessern.

Betreiberinnen und Betreiber von Websites sollten weiterhin darauf achten, hochwertige, relevante und auch gut strukturierte Inhalte zu erstellen, und das mit Blick auf die Nutzer und nicht auf die Suchmaschinen. In diesem Fall werden sie auch von besseren Algorithmen wie SMITH profitieren können.

 

Danke an Search Engine Journal

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeigen

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen



SEO-Contest 2020





Verwandte Beiträge

SEO-Newsletter bestellen

Im monatlichen SEO-Newsletter erhaltet Ihr eine Übersicht der jeweils zehn wichtigsten SEO-Meldungen des Monats. Mit dem SEO-Newsletter bleibt Ihr auf dem Laufenden.
Ich bin mit den Nutzungsbedingungen einverstanden

 

 

 

Anzeige

rnkeffect

 

Premium-Partner (Anzeige)


Anzeigen

InterNetX
ODC

trust in time

SEO Agentur aus Darmstadt

SEO-Vergleich

SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2020

SEO-Kalender 2019

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE Google Webmaster Conference 2019 in Zürich – Recap
Mittwoch, 11. Dezember 2019
Auf der diesjährigen Google Webmaster Conference in Zürich, die erstmals im Raum EMEA... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE SEO-Rückblick 2020: Gespräch mit Markus Hövener
Dienstag, 01. Dezember 2020
Ein SEO-Rückblick in lockerer und entspannter Weise: Markus Hövener und ich sprechen über einige... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed