SEO und maschinelles Lernen

Optimization Geschrieben von Henrik Hefelmann

Google versteht sich selbst eher als eine Firma für Machine Learning, denn als Suchmaschine. Dies erkennt man an Projekten wie den selbstfahrenden Autos, die ohne künstliche Intelligenz kaum möglich wären. Doch wo setzt Google in seiner Suche Machine Learning ein und welche unterschiedlichen Arten des maschinellen Lernens gibt es?

Henrik Hefelmann

Specialist SEO/Digital Analytics

SEO und maschinelles Lernen

Als Erstes möchte ich eine kurze Einführung in maschinelles Lernen geben, da dies für das Verständnis hilfreich ist. Es gibt verschiedene Arten des Machine Learning zum Beispiel das überwachte Lernen oder das unüberwachte Lernen.

Was versteht man unter überwachtem Lernen?

Beim überwachten Lernen sind einige Eingabe- und Ausgabeparameter bekannt. Anhand dieser bekannten Werte wird versucht, von noch nicht bekannten Angaben Ergebnisse zu erhalten.

Beispielsweise sind von mehreren Wohnungen die Zimmeranzahl und die Größe in Quadratmetern bekannt. Gesucht wird der Preis, den eine Wohnung voraussichtlich auf dem Wohnungsmarkt erzielen wird. Mittels linearer Regression lässt sich diese Frage relativ leicht beantworten.
Es gibt jedoch noch eine andere Art von Problemen, die noch häufiger anzutreffenden ist: die Klassifikation. Von Klassifikationsproblemen spricht man dann, wenn das Ergebnis eine nur relativ geringe Anzahl von Fällen annehmen kann. Beispielsweise kann ein Tumor bösartig sein oder nicht. Für Vorhersagen dieser Art verwendet man die logarithmische Regression.

Was versteht man unter unüberwachtem Lernen?

Beim unüberwachten Lernen sind nur die Ausgangswerte vorhanden. Die Aufgabe des Algorithmus ist es Strukturen innerhalb der bekannten Werte zu finden und Gruppen zu bilden. Ein Beispiel für den Einsatz von unüberwachtem Lernen ist Google News. Bei Google News werden Nachrichten mit ähnlichen Themengebieten zusammengefasst und geclustert.

Die Stationen der Google Suche

Kommen wir von Machine Learning zum Ablauf der Google Suche:

  1. Als Erstes muss die Suchmaschine die einzelnen URLs finden. Sobald die Inhalte indexiert wurden, wendet Google Spamfilter an, damit ungewünschte Suchergebnisse nicht bei Google erscheinen.Einer dieser Spamfilter ist das Panda Update. Dieses Update bezieht sich nur auf die Inhalte der jeweiligen URL und nicht auf die Linkstruktur. Vermutlich handelt es sich beim Panda Update um einen Algorithmus des überwachten Machine Learnings, der Klassifikationsprobleme behandelt. Diese Vermutung liegt nahe, weil Google einige Internetseiten durch Qualitätsprüfer manuell prüfen ließ und die Ergebnisse der Qualitätsprüfer festhielt. Google selbst hat das Dokument, das die Qualitätsprüfer verwendet haben, veröffentlicht.Es gibt jedoch noch weitere Spamfilter. Ein weiterer bekannter Spamfilter wurde mit dem Penguin-Update eingeführt. Dieser bezieht sich nur auf den Link- Struktur und nicht auf die Inhalte. Auch das Penguin-Update ist ein überwachter Machine Learning Algorithmus. Durch Selbstanzeigen der Websitebetreiber lernte dieser Algorithmus zwischen natürlicher und künstlicher Link-Struktur zu unterscheiden. Ebenfalls nur auf die Linkstruktur bezieht sich der PageRank-Algorithmus, der ohne Machine Learning Techniken auskommt von dem jedoch unklar ist ob er noch eingesetzt wird. Der PageRank-Algorithmus, benannt nach einem der Gründer, Larry Page, trug wesentlich zum Erfolg der Google Suche bei.
  2. Als nächstes versucht Google die Absicht hinter einer Suche zu verstehen. Ein Algorithmus der in diesem Bereich angesiedelt ist, trägt den Namen Hummingbird. Bei diesem Algorithmus geht es um das semantische Verstehen des Inhalts der Suchanfrage. Die Anfrage wird zu einem Vektor umgewandelt, mit dem der Algorithmus rechnen kann.
  3. In gleicher Weise wie die Suchanfrage werden auch alle Inhalte von Webseiten semantisch untersucht. Auch der Wahrheitsgehalt von Webseiten wird geprüft, und falls falsche Aussagen getroffen werden, kann sich dies negativ auf das Ranking auswirken. Die Wissensbasis hierfür ist nicht nur das Internet, sondern auch alle Bücher, die Google durch das Google Books Projekt zugänglich wurden.
  4. Schließlich vergleicht Google die Vektoren der Suchanfrage mit den Vektoren der Webseiten in seinen Index und rechnet auf diese Weise eine Relevanz. Bei mehrdeutigen Suchanfragen mischt Google Ergebnisse der unterschiedlichen Bedeutungen auf seinen Ergebnisseiten.

Unser Fazit zum Machine Learning bei Google:

Google setzt nicht nur einen Machine Learning Algorithmus ein um seine Suchergebnisse zu berechnen, sondern greift an verschiedenen Stellen des Suchablaufes immer wieder auf unterschiedliche Techniken des Machine Learning zurück.