Die themen- bzw. themengebietsbezogene Homogenität von Webseiten wird schon
seit geraumer Zeit als mögliches Ranking-Kriterium von Suchmaschinen diskutiert.
Für die Integration von Themen in Suchmaschinenalgorithmen gibt es die
verschiedensten Denkansätze. Ihnen gemein ist, dass Webseiten nicht mehr
allein aufgrund Ihrer eigenen Inhalte bewertet werden, sondern dass auch die
Inhalte anderer Webseiten hierzu berücksichtigt werden. So könnten
also beispielsweise die Inhalte aller Seiten einer Website Einfluss auf die
Bewertung einer einzelnen Seite dieser Website nehmen. Andererseits ist es auch
denkbar, dass eine Seite an den Inhalten derjenigen Seiten gemessen wird, auf
die sie verlinkt oder aber von denen sie selbst verlinkt wird.
Sehr kontrovers diskutiert wird der mögliche Einsatz eines themenbasierten
Rankings für die Suchmaschine Google. Immer wieder finden sich in einschlägigen
Foren und auf Websites zum Thema Suchmaschinenoptimierung Ratschläge, dass
eingehende Links von Seiten mit thematischer Ähnlichkeit einen größeren
Einfluss auf den PageRank haben als Links von anderen Seiten. Diese Annahme
soll hier kritisch beleuchtet werden. Zunächst werden hierzu zwei relativ
neue Ansätze zur Integration von Themen in das PageRank-Verfahren diskutiert:
auf der einen Seite das Modell des "intelligenten Surfers" von Matthew
Richardson und Pedro Domingos und auf der anderen Seite der Topic-Sensitive
PageRank von Taher Haveliwala. Anschließend sollen Möglichkeiten
aufgezeigt werden, inwieweit Inhaltsanalysen und -vergleiche dazu eingesetzt
werden können, thematische Ähnlichkeiten zwischen Seiten zu berechnen,
um auf dieser Basis dann eine Gewichtung von Links im Rahmen des PageRank-Verfahrens
vorzunehmen.
Der "intelligente Surfer" von Richardson und Domingos
Matthew Richardson und Pedro Domingos ziehen zur Erläuterung ihres Ansatzes
zur Implementierung von Themengebieten in das PageRank-Verfahren zunächst
das Random Surfer Modell heran. Sie schlagen anstelle eines Surfers, der wahllos
Links verfolgt, einen intelligenteren Surfer vor, der einerseits Links nur entsprechend
seiner Suchanfrage verfolgt und andererseits auch nach dem Abbruch des Surf-Vorgangs
nur Seiten aufruft, die seiner Suchanfrage entsprechen.
Im Rahmen des Ansatzes von Richardson und Domingos sind für den "intelligenten Surfer" also nur Seiten relevant, die den von ihm gesuchten Begriff auch tatsächlichen enthalten. Das Random Surfer Modell ist jedoch nichts als ein Abbild des PageRank-Verfahrens. Zur Umsetzung muss also für jeden im Web existierenden Begriff eine eigene PageRank-Berechnung stattfinden. Diese Berechnung stützt sich dabei ausschließlich auf Links zwischen Seiten, die den jeweiligen Begriff enthalten.
Das Modell von Richardson und Domingos wirft einige Probleme auf. Vor allem entstehen diese im Bereich von Suchbegriffen, die nicht sehr häufig im Web vorkommen. Da diese wenigen Seiten sich auch noch verlinken müssen, um in die PageRank-Berechnung eingehen zu können, basieren die Resultate auf nur sehr kleinen Subbereichen des Webs und lassen gegebenenfalls sehr relevante Seiten außen vor. Ferner ist natürlich ein kleiner Subbereich des Webs wesentlich anfälliger für Spam im Sinne der Generierung zahlreicher Webseiten.
Zudem ergeben sich gravierende Probleme bezüglich der Skalierbarkeit. Richardson und Domingos schätzen sowohl den Speicher- als auch den Rechenbedarf für mehrere 100.000 Begriffe und entsprechende PageRank-Berechnungen auf das 100-200-fache des ursprünglichen PageRank-Verfahrens. Diese Zahlen klingen angesichts der großen Zahl relativ kleiner Subbereiche des Webs realistisch.
Der erhöhte Speicherbedarf sollte kein grundsätzliches Problem darstellen, da Richardson und Domingos hierzu richtig anführen, dass die begriffsspezifischen PageRank-Werte nur einen Bruchteil des Datenvolumens des inversen Index Google's ausmachen dürften. Wirklich problematisch ist der Zeitbedarf für die Berechnung. Kalkulieren wir nur mit fünf Stunden für eine herkömmliche PageRank-Berechnung, so würde diese im Falle des Modells von Richardson und Domingos etwa drei Wochen in Anspruch nehmen. Dies stünde für den tatsächlichen Einsatz nicht zur Diskussion.
Das Copyright dieser Erläuterung des Google PageRank unterliegt der eFactory GmbH & Co. KG
PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.
Suchmaschinenoptimierung mit osCommerce Shop-System auf Open Source Basis. Nutzen Sie unsere SEO-Module für den osCommerce-Shop, um mit ihrem Shop die Google Top-Positionen zu erreichen und ein dauerhaft stabiles Suchmaschinen-Ranking aufzubauen

