SEO-News

PageRankGoogle hat eine neue Version des PageRank-Algorithmus ausgearbeitet. Kernbestandteil der Neuentwicklung ist ein Ansatz, der Manipulationen erschweren soll. Dazu werden ausgewählte, besonders vertrauenswürdige Webseiten definiert. Durch die Linkdistanz zu diesen 'Seed Pages' lassen sich Rückschlüsse über den Stellenwert anderer Webseiten ziehen.

Das neue Google-Patent, das am 24. April gewährt wurde, beschreibt einen Ansatz, der im Grunde nicht vollständig neu ist. Yahoo stellte bereits im Jahr 2006 in einer Arbeit mit dem Titel "Combating Web Spam with TrustRank" eine Methode vor, die zur Bestimmung des PageRanks von Webseiten sogenannte Seed Pages einsetzt. Dabei handelt es sich um vorab ausgewählte, besonders vertrauenswürdige Seiten:

"While human experts can identify spam, it is too expensive to manually evaluate a large number of pages. Instead, we propose techniques to semi-automatically separate reputable, good pages from spam. We first select a small set of seed pages to be evaluated by an expert. Once we manually identify the reputable seed pages, we use the link structure of the web to discover other pages that are likely to be good"

Auch der Hilltop-Algorithmus definiert besonders vertrauenswürdige Seiten: Sogenannte Experten- und Autoritätsseiten für bestimmte Keywords werden anhand der Verweise anderer Dokumente ermittelt.

Im neuen Google-Patent wird ein sehr ähnlicher Ansatz dargestellt. Auch hier ist von vorab ausgewählten Seed Pages die Rede. Jede dieser Seed Pages verfügt über mindestens einen Link zu anderen Seiten im Web. Dabei wird jeweils berechnet, wie groß die Linkdistanz zwischen einer Seed Page und einer "normalen" Webseite ist. Umso geringer die Distanz, desto mehr Gewicht erhält die jeweilige Webseite:

"One embodiment of the present invention provides a system that produces a ranking for web pages. During operation, the system receives a set of pages to be ranked, wherein the set of pages are interconnected with links. The system also receives a set of seed pages which include outgoing links to the set of pages. The system then assigns lengths to the links based on properties of the links and properties of the pages attached to the links. The system next computes shortest distances from the set of seed pages to each page in the set of pages based on the lengths of the links between the pages. Next, the system determines a ranking score for each page in the set of pages based on the computed shortest distances. The system then produces a ranking for the set of pages based on the ranking scores for the set of pages."

Im Patent wird angemerkt, dass die Anzahl der Seed Pages aufgrund unterschiedlicher Sprachen und Themen im Web möglichst groß sein sollte. Dadurch steigt jedoch auch der Rechenaufwand, was die mögliche Anzahl der Seed Pages begrenzt:

"Generally, it is desirable to use a large number of seed pages to accommodate the different languages and a wide range of fields which are contained in the fast growing web contents. Unfortunately, this variation of PageRank requires solving the entire system for each seed separately. Hence, as the number of seed pages increases, the complexity of computation increases linearly, thereby limiting the number of seeds that can be practically used."

Webseiten mit einem hohen PageRank werden beim Crawlen bevorzugt. Vor der Indexierung werden gecrawlte Seiten komprimiert und nach der Indexierung einem Ranking unterzogen. Daraus lässt sich ableiten, dass die Berechnung des PageRanks unabhängig von den Suchanfragen erfolgt:

"During the crawling process, web crawler 304 crawls or otherwise searches through websites on web 302 to select web pages to be stored in indexed form in data center 308. In particular, web crawler 304 can prioritize the crawling process by using the page rank scores. The selected web pages are then compressed, indexed and ranked in 305 (using the ranking process described above) before being stored in data center 308."

Findet eine Suchanfrage statt, wird das zuvor berechnete Ranking dann für die Reihung der Ergebnisse verwendet:

"During a subsequent search process, a search engine 312 receives a query 313 from a user 311 through a web browser 314. This query 313 specifies a number of terms to be searched for in the set of documents. In response to query 313, search engine 312 uses the ranking information to identify highly-ranked documents that satisfy the query. Search engine 312 then returns a response 315 through web browser 314, wherein the response 315 contains matching pages along with ranking information and references to the identified documents."

Der Einsatz des erweiterten PageRank-Algorithmus wird Manipulationen im Link Building vermutlich erschweren. Links von anerkannten Seiten werden dadurch noch wertvoller. Interessant wäre es zu wissen, welche Seiten als Seed Pages ausgewählt werden. In Frage kommen zum Beispiel Seiten öffentlicher Institutionen und Bildungseinrichtungen wie zum Beispiel Universitäten.

Ob Google den neuen Algorithmus oder Teile davon bereits einsetzt, ist nicht bekannt. Weil die beschriebenen Methoden jedoch schon älter sind, ist es gut möglich, dass sie bereits zumindest zu Teilen zur Anwendung kommen.

 

Danke an Bill Slawski

 


Christian Kunz

Von Christian Kunz

SEO-Experte.
Sie benötigen Beratung für Ihre Webseite? Klicken Sie hier


Anzeige

SEO-Vergleich


Verwandte Beiträge

{loadoposition newsletter}

Anzeige

rnkeffect

Premium-Partner (Anzeige)


Anzeigen

InterNetX

SEO Freelancer

SEO Agentur aus Darmstadt

SEO-Vergleich

Online Solutions Group


Sprecher auf

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

SEO-FAQ

Bild © FM2 - Fotolia.com

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

SEO selber machen

SEO selber machen

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO im Ohr, der Podcast von SEO Südwest: aktuell Folge

SEO-Beratung

Wir bringen gemeinsam Ihre Webseite in Google nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.

Social Networks und RSS-Feed

Auszeichnungen

seo19 sieger sichtbarkeit 2020 200x200px