SEO-News

YahooYahoo stellt seinen Crawler Anthelion als Open Source-Projekt unter Apache zur Verfügung. Anthelion kann in HTML eingebettete strukturierte Daten erkennen und Seiten mit strukturierten Daten bevorzugt besuchen und funktioniert als Plugin des Crawlers Apache Nutch.

Strukturierte Daten sind für Suchmaschinen ein wichtiges Hilfsmittel, Inhalte von Webseiten und anderen Dokumenten zu verstehen und zu interpretieren. Die Daten unterstützen erstens die verwendeten Algorithmen bei der Klassifizierung von Webseiten und sparen zweitens Rechenkapazitäten.

Yahoo hat jetzt seinen Crawler für die Erfassung von strukturierten Daten in Webseiten offengelegt und stellt ihn als Open Source-Projekt unter Apache zur Verfügung. Der Name des Projekts lautet Anthelion und leitet sich vom griechischen "gegenüber der Sonne" ab. Er beschreibt eine optische Täuschung, bei der eine weiße, horizontale Linie gegenüber der Sonne sichtbar ist.

Anthelion ist ein Plugin für den Crawler Apache Nutch und erweitert bestimmte Klassen des Projekts. Das Anthelion-Plugin enthält diese Erweiterungen:

  • AnthelionScoringFilter: Dieser Filter klassifiziert ausgehende Links als relevant oder nicht relevant. Jeder ausgehende Link erhält eine Bewertung (Score). Diese Bewertung wird als Grundlage für die Auswahl von Links für die nächste Crawling-Runde verwendet. Außerdem liefert die Erweiterung Feedback für bereits besuchte Seiten.
  • WdcParser: Diese Erweiterung ist verantwortlich für das Parsen der Webseiteninhalte und für die Erkennung strukturierter Daten. Dabei kommt die any23-Bibliothek zum Einsatz, mit der strukturierte Daten in den Formaten Microdata, Microformats und RDFa ausgelesen werden können.
  • TripleExtractor: speichert zusätzliche Felder im Index, die später für Suchabfragen verwendet werden können.

Der Crawling-Prozess unter Verwendung von Apache Nutch mit Anthelion sieht so aus:Anthelion: der Crawling-Prozess

Die roten Felder kennzeichnen die gegenüber dem Crawling mit Nutch angepassten Prozesse.

Bei Anthelion handelt es sich um einen sogenannten Fokussierten Crawler (Focused Crawler). Im Gegensatz zu anderen Crawlern dieser Kategorie ist Anthelion jedoch nicht auf ein bestimmtes Thema ausgerichtet, sondern blickt auf die Daten der Webseiten: Webseiten, die strukturierte Daten enthalten, verfügen über bestimmte Eigenschaften, die Anthelion erkennen kann.

Anthelion grenzt sich außerdem von semantischen Crawlern wie Slug oder LDSpider ab, die für bestimmte Aufgaben im Zusammenhang mit RDF-Daten ausgelegt sind (verschiedene RDF-Formate, Kommunikationsprotokolle etc.). Anthelion ist klar auf die strukturierten Daten ausgelegt, die in das HTML von Webseiten eingebettet sind.

Während des Crawlens lernt Anthelion dazu: Daten, die beim Crawlen gefunden werden, fließen in einen Online-Klassifikator ein. In einem Test hat sich gezeigt, dass Anthelion einen sehr viel größeren Anteil von Webseiten mit strukturierten Daten zurückliefert als ein normaler Crawler:Yahoo Anthelion liefert mehr Seiten mit strukturierten Daten zurück als normale Crawler

Bild "Architektur" und "Precision": Apache 2.0-Lizenz

Bei einer gewählten Linktiefe von 5 lag die Precision (der Anteil von relevanten zu nicht relevanten Treffern in der Ergebnismenge, also von Seiten mit strukturierten Daten vs. Seiten ohne diese Daten) bei 0,78. Zum Vergleich: Der Standard-Crawler schaffte gerade einmal eine Precision von 0,06.

Anthelion arbeitet mit Apache Nutch 1.6 zusammen. Nutch 1.x und Nutch 2.x sind derzeit noch zwei voneinander unabhängige Projekte. Ob Anthelion auch mit Nutch 2.x funktioniert, ist offen.

Weitere Informationen zu Anthelion gibt es in diesem PDF.

 


Christian Kunz

Von Christian Kunz

SEO-Experte. Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier.



Anzeige von Clixado

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen






Verwandte Beiträge

SEO-Checkliste

SEO-Checkliste

 

Anzeigen


SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Schulung 2019

SEO-Schulung

Ganztägige Schulung "SEO-Grundlagen". Jetzt anmelden

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2018

SEO-Kalender 2018

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Sprecher auf

Auszeichnungen

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

Partner

15 Prozent sparen!
Euer Rabatt-Code lautet SEOSUEDWESTSMX19

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE SEO: Linkbuilding gehört dazu
Donnerstag, 09. August 2018
Ohne den konstanten und nachhaltigen Aufbau hochwertiger Links bringen die besten Onpage-Maßnahmen... Weiterlesen...
IMAGE Google Webmaster Hangout: A visit at the Google Zurich office
Donnerstag, 05. Juli 2018
I was invited to Google Zurich to take part in a new episode of the Webmaster Office Hangout. I was... Weiterlesen...
IMAGE Neuer SEO-Contest: Punktesystem soll für mehr Fairness und Chancen sorgen
Montag, 30. Juli 2018
Im Rahmen eines neuen SEO-Contests kämmpfen wieder zahlreiche Publisher und Webseitenanbieter um... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden und Informationen zu SEO Südwest

Impressum und Datenschutz

Social Networks und RSS-Feed