
Analyse von 3,7 Millionen Google-URLs liefert Einblicke in die Funktionsweise der Suchmaschine
Die Analyse von 3,7 Millionen internen Google URLs bestätigt Vermutungen zu Rankingfaktoren und zeigt, wie Google Inhalte abwertet oder sogar komplett sperrt.
Eine Untersuchung von über 3,7 Millionen internen Google-URLs durch das Team von Resoneo folgte einem unkonventionellen Ansatz: Es wurde keine einzige interne Seite geöffnet, und es wurden keine Login-Sperren umgangen. Fast alle URLs leiten ohnehin lediglich auf ein internes Login-Portal weiter. Stattdessen nutzten die Forscher klassische Open Source Intelligence und werteten ausschließlich die Dateipfade, Hostnamen und Parameter der URLs aus. Die Grundannahme: Allein die Existenz und die Benennung einer URL verraten sensible Informationen. Ein Pfadname zeigt, welche Systeme Google nutzt, wie Teams strukturiert sind und welche internen Projekte existieren, noch bevor man den Inhalt der Seite überhaupt sehen muss.
Aus der Masse an Daten konnten weitreichende Schlüsse über die Architektur und Arbeitsweise von Google gezogen werden.
SEO-Beratung: Wir sind Ihre Experten
Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.
Die Kern-Architektur des Rankings: Twiddler und Co.
Aus den URLs ließ sich ableiten, dass viele der aus früheren Leaks wie etwa aus dem Jahr 2024 bekannten Komponenten tatsächlich der Realität entsprechen und wie diese miteinander verknüpft sind.
Beispiel: Der Haupt-Scorer für Information Retrieval, intern Ascorer genannt, konnte durch ein Live-Debug-Flag (g=eng-hip-ascorer) in einer URL bestätigt werden.
Ebenfalls sichtbar wurde das System für Re-Ranking-Mechanismen, sogenannte Twiddler. Die Forscher fanden URLs, die auf interne Anleitungen zum Schreiben solcher Twiddler unter dem Verzeichnis SuperRoot verweisen.
Manuelle Eingriffe und redaktionelle Blacklists
Ein wichtiges Ergebnis der Analyse ist, dass das Ranking nicht ausschließlich algorithmisch stattfindet. Google nutzt manuell gepflegte Dateien zur Steuerung sensibler Themen und greift stark manuell ein. Ein eigentlich zur Geheimhaltung gedachter Dateiname kann dabei durch URL-Parameter seinen gesamten Inhalt verraten.
Beispiel: Die Analyse förderte eine Datei namens youtube_controversial_query_blacklist zutage. Die URL enthüllte durch 42 verschiedene Revisions-Token (?cl=...), welche sensiblen Suchbegriffe manuell hinzugefügt wurden, etwa nach dem Las-Vegas-Attentat 2017 durch Parameter wie /40mandalay oder /40shooter.
Weiteres Beispiel: Bei der Spam-Bekämpfung unterscheidet Google zwischen dem kompletten Löschen und dem Herabstufen von Inhalten. Das wird durch die zwei unterschiedlichen Googlebot-Listen badurls_spamindex (für das Löschen) und badurls_demoteindex (für das Herabstufen) in den Verzeichnispfaden belegt.
Experimente, Rollouts und KI mit Mendel und Finch
Aus den Daten geht hervor, dass praktisch jede Änderung an der Suchmaschine über ein umfangreiches A/B-Testing- und Rollout-System gesteuert wird.
Beispiel: Die zentralen Plattformen dafür heißen Mendel und Finch. Jedes Experiment wird genau dokumentiert, was etwa die URL zu einer KillSwitchExample.gcl zeigt. Auch der AI Mode und die Entwicklung von Gemini haben sich durch ihre Staging-Hosts (z.B. hc-ai-mode-staging.corp.google.com) und genaue Bereitstellungspfade (Dev -> Autopush -> Staging -> Preprod -> Prod) lange vor ihrer offiziellen Ankündigung verraten.
Der Faktor Mensch: Die Quality Rater
Trotz modernster KI setzt Google weiterhin im großen Stil auf manuelle Qualitätssicherer (Quality Rater). Die URLs bestätigen die Infrastruktur der etwa 16.000 Rater, die Suchergebnisse bewerten.
Beispiel: Rater arbeiten über die Plattform raterhub.corp.google.com (ein System, das auf das Konzept "EWOK" verweist). Komplexe URLs wie eval-analytics.corp.google.com/querygroup?experimentId=... zeigen, dass den menschlichen Testern sogenannte "Query-Groups" (Suchabfrage-Gruppen) vorgelegt werden, um finale Algorithmus-Experimente zu bewerten.
Einblicke in die physische Welt und Unternehmensstruktur
Ein Fun Fact der Analyse ist, dass digitale URLs die physische Welt und die Organisationsstruktur von Google abbilden. Selbst unscheinbare interne Tools geben den Standort von Mitarbeitern und Sicherheitsinfrastrukturen preis.
Beispiel: Die Analyse ergab 2.377 interne Drucker unter der Domain *.printer.in.goog. Aus den händisch vergebenen Namen der Drucker (wie 24th-floor-printer oder au-syd-erk1a-1-security-truck-entry) lässt sich die exakte Geografie von Gebäuden, Stockwerken und sogar die Sicherheitstopologie von Rechenzentren rekonstruieren.
Weiteres Beispiel: Persönliche Mitarbeiter-Seiten (www.corp.google.com/~login) zeigen, ohne je geöffnet zu werden, wer an welchen Geheimprojekten gearbeitet hat. Ein Pfad wie ~daepark/public/mustang-suggest/ reicht aus, um einen Ingenieur direkt mit dem zentralen Ranking-System "Mustang" in Verbindung zu bringen. Auch interne Bookmarks (go/-Links) verraten die Existenz von spezifischen Klassifizierungs-Algorithmen wie go/ymyl-classifier-dd.
SEO-Newsletter bestellen
Verwandte Beiträge


























