Googles Möglichkeiten zur Erkennung von Spam sind außerhalb der englischen Sprache aufgrund der geringeren Zahl von Dokumenten eingeschränkt. Das bedeutet: Wer mit Spam auf den Suchergebisseiten von Google sichtbar sein will, sollte sein Glück in selteneren Sprachen versuchen.
Obowohl Googles Verfahren zur Erkennung von Spam grundsätzlich weltweit identisch sind, gibt es doch je nach Sprache große Unterschiede in der Erfolgsquote. Am besten funktionieren die Anti-Spam-Mechanismen für englischsprachige Inhalte. Der Grund ist einleuchtend: Die mit Abstand meisten Dokumente im Web liegen auf Englisch vor. Damit gibt es auch genügend Daten für die Erkennungsalgorithmen, um entsprechende Muster von Spam-Inhalten zuverlässig erkennen zu können.
Auch im Bereich der Spamerkennung nutzt oder erprobt Google Techniken des maschinellen Lernens. Auch wenn verständlicherweise keine Details über die einzelnen Algorithmen bekannt sind, so ist die grundsätzliche Funktionsweise klar: Damit die Algorithmen lernen und sich ständig verbessern können, benötigen sie genügend Dokumente, aus denen sich Muster ableiten lassen. Umso größer die Zahl der Dokumente ist, desto besser ist das für die Algorithmen und desto zuverlässiger lassen sich Dokumente in sogenannte Cluster sortieren.
Wie Google-Mitarbeiter Andrey Lipattsev vergangene Woche in einem Frage-und-Antwort-Video bestätigt hat, sind jedoch für manche Sprachen einfach nicht genügend geschriebene Inhalte im Web vorhanden, um zuverlässig Spam erkennen zu können. Als Beispiel nannte er Arabisch. Für Sprachen wie diese sei Google oft darauf angewiesen, das anzuzeigen, was verfügbar sei.
Das ist im Video ungefähr ab Position 44:00 Minuten zu finden:
Für die Spammer bedeutet das: Die Chancen, mit ihren Inhalten an prominenter Position auf den Suchergebnisseiten von Google zu erscheinen, stehen außerhalb der englischen Sprache am günstigsten. Umso weniger Inhalte für eine Sprache im Google-Index enthalten bzw. im Web verfügbar sind, desto schwieriger wird es für Google, gute von schlechten Inhalten zu trennen.
Bleibt nur zu hoffen, dass Google seine Spam-Erkennungsquote auch außerhalb des englischen Sprachraums verbessern kann, denn Spam in den Suchergebnissen ist für alle Nutzer ein Ärgernis.
Titelbild © jemastock - Fotolia.com