Damit die besondere Bewertung einzelner Webseiten in dieser Form in den ursprünglichen PageRank Algorithmus einfließen kann, muss er um einen weiteren Erwartungswert erweitert werden. Die entsprechende Formel hat dann folgendes Aussehen:
PR(A) = E(A) (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Hierbei ist (1-d) jetzt die Wahrscheinlichkeit, mit der der Zufalls-Surfer
das Weiterverfolgen von Links abbricht und
E(A) die nach der Anzahl der Webseiten gewichtete Wahrscheinlichkeit, mit der
der Zufalls-Surfer die Seite A danach aufruft. Bei E handelt es sich dabei wiederum
um einen Erwartungswert, dessen Durchschnitt über alle Seiten gleich 1
ist, damit der Durchschnitt der PageRank-Werte weiterhin gegen 1 konvergiert
und nicht etwa durch die besondere Bewertung spezieller Seiten schwankt und
somit der PageRank einen unregelmäßigen Einfluss auf die Gesamtbewertung
von Seiten einnimmt.
In unserem Beispiel liege nach dem Abbruch des Surfvorgangs durch den Zufalls-Surfer die Wahrscheinlichkeit für den Aufruf von Seite A bei 10% und die Wahrscheinlichkeit für den Aufruf von Seite B bei 90%. Damit ist bei einem 2-Seiten-Web E(A)=0.2 und E(B)=1.8. Für die Ermittlung der PageRank Werte der beiden Seiten ergeben sich bei einem Dämpfungsfaktor d=0.5 hierdurch die folgenden Gleichungen:
PR(A) = 0.2 × 0.5 + 0.5 × PR(B)
PR(B) = 1.8 × 0.5 + 0.5 × PR(A)
Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:
PR(A) = 11/15
PR(B) = 19/15
Die Summe der beiden PageRank-Werte liegt weiterhin bei 2. Die höhere Wahrscheinlichkeit für das Aufrufen von Seite B nach dem Abbruch spiegelt sich in ihrem höheren PageRank-Wert wider. Die gleichmäßige Verlinkung der beiden Seiten untereinander vermindert jedoch ganz deutlich die Auswirkung der höheren Aufrufwahrscheinlichkeit auf den PageRank.
Es ist also möglich, eine besondere Gewichtung einzelner Seiten in den PageRank-Algorithmus einfließen zu lassen, ohne dass dessen Charakter grundsätzlich verändert werden müsste. Fraglich bleibt jedoch, nach welchen Kriterien die Gewichtung erfolgen kann. In der Patentschrift zum PageRank-Verfahren nennt Lawrence Page hierzu explizit die Nutzung tatsächlichen Benutzerverhaltens. Daten zum tatsächlichen Nutzerverhalten werden von Google über die Google Toolbar gesammelt. Das besondere hierbei ist, dass nicht einmal allzu große Datenmengen verarbeitet werden müssten, wie dies der Fall wäre, wenn eine Bewertung ausschließlich auf Nutzerverhalten basieren würde. Eine begrenzte Stichprobe wäre durchaus ausreichend, um zumindest die 1.000 oder 10.000 wichtigsten Anlaufstellen im Web zu ermitteln. Der PageRank-Algorithmus wäre dann in der Lage, über die Link-Struktur des Webs die Lücken zu füllen.
Die Ausführungen zum Einfließen tatsächlichen Benutzerverhaltens
in das PageRank-Verfahren sind natürlich pure Spekulation. Ob überhaupt
eine besondere Gewichtung spezieller Seiten stattfindet, wird letztlich ein
Geheimnis der Google-Verantwortlichen bleiben.
Dennoch Zuweisung bestimmter Startwerte?
Obwohl die Zuweisung bestimmter Startwerte für die PageRank-Berechnung
bei hinreichend vielen Iterationen wirkungslos für das Ergebnis der Berechnung
bleibt, kann eine entsprechende Vorgehensweise durchaus sinnvoll sein.
Wir betrachten hierzu unser 3-Seiten-Beispiel aus den Seiten A, B und C, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Den Dämfungsfaktor d setzen wir in diesem Falle für die Berechnungen auf 0.75. Hierdurch ergeben sich die folgenden Gleichungen für die iterative Berechnung des PageRanks der einzelnen Seiten:
PR(A) = 0.25 + 0.75 PR(C)
PR(B) = 0.25 + 0.75 (PR(A) / 2)
PR(C) = 0.25 + 0.75 (PR(A) / 2 + PR(B))
Grundsätzlich muss den einzelnen Seiten kein Startwert vor Beginn der Iterationen zugewiesen werden. Sie haben in diesem Falle einen Wert von 0 und es ergibt sich das folgende Bild:
Iteration PR(A) PR(B) PR(C)
0 0 0 0
1 0.25 0.34375 0.60156
2 0.70117 0.51294 0.89764
3 0.92323 0.59621 1.04337
4 1.03253 0.63720 1.11510
5 1.08632 0.65737 1.15040
6 1.11280 0.66730 1.16777
7 1.12583 0.67219 1.17633
8 1.13224 0.67459 1.18054
9 1.13540 0.67578 1.18261
10 1.13696 0.67636 1.18363
11 1.13772 0.67665 1.18413
12 1.13810 0.67679 1.18438
13 1.13828 0.67686 1.18450
14 1.13837 0.67689 1.18456
15 1.13842 0.67691 1.18459
16 1.13844 0.67692 1.18460
17 1.13845 0.67692 1.18461
18 1.13846 0.67692 1.18461
19 1.13846 0.67692 1.18461
20 1.13846 0.67692 1.18461
21 1.13846 0.67692 1.18461
22 1.13846 0.67692 1.18462
Bei einer Zuweisung eines Startwertes von 1 ergibt sich das folgende Bild für die Durchführung der Iterationen:
Iteration PR(A) PR(B) PR(C)
0 1 1 1
1 1 0.625 1.09375
2 1.07031 0.65137 1.13989
3 1.10492 0.66434 1.16260
4 1.12195 0.67073 1.17378
5 1.13034 0.67388 1.17928
6 1.13446 0.67542 1.18199
7 1.13649 0.67618 1.18332
8 1.13749 0.67656 1.18398
9 1.13798 0.67674 1.18430
10 1.13823 0.67684 1.18446
11 1.13835 0.67688 1.18454
12 1.13840 0.67690 1.18458
13 1.13843 0.67691 1.18460
14 1.13845 0.67692 1.18461
15 1.13845 0.67692 1.18461
16 1.13846 0.67692 1.18461
17 1.13846 0.67692 1.18461
18 1.13846 0.67692 1.18461
19 1.13846 0.67692 1.18462
Wird nunmehr den Seiten ein initialer PageRank zugewiesen, der der tatsächlichen
PageRank-Verteilung etwas mehr entspricht (1.1 für Seite A, 0.7 für
Seite B und 1.2 für Seite C), ergibt sich das folgende Bild:
Iteration PR(A) PR(B) PR(C)
0 1.1 0.7 1.2
1 1.15 0.68125 1.19219
2 1.14414 0.67905 1.18834
3 1.14126 0.67797 1.18645
4 1.13984 0.67744 1.18552
5 1.13914 0.67718 1.18506
6 1.13879 0.67705 1.18483
7 1.13863 0.67698 1.18472
8 1.13854 0.67695 1.18467
9 1.13850 0.67694 1.18464
10 1.13848 0.67693 1.18463
11 1.13847 0.67693 1.18462
12 1.13847 0.67692 1.18462
13 1.13846 0.67692 1.18462
Es zeigt sich, dass je näher die zugewiesenen Startwerte der tatsächlichen
Verteilung kommen, die PageRank-Werte offenbar um so schneller konvergieren.
Damit wären weniger Iterationen für die PageRank-Berechnung erforderlich,
was insbesondere angesichts eines stets wachsenden Webs die Lieferung von auf
einer aktuelleren Datanbasis gestützten Suchmaschinenergebnissen ermöglichen
kann. Ausgangspunkt für eine hinreichend exakte Annahme könnten dabei
für Seiten, die bereits den jeweils vorhergegangenen Berechnungszyklus
durchlaufen haben, die PageRank-Werte aus diesem vorhergegangenen Berechnungszyklus
sein. Neu in den Index aufgenommenen Seiten könnte dann ein initialer PageRank
von 1 zugewiesen werden, der sich dann bereits nach der ersten Iteration sehr
schnell dem tatsächlichen Zustand angleicht.
Das Copyright dieser Erläuterung des Google PageRank unterliegt der eFactory GmbH & Co. KG
PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.
Suchmaschinenoptimierung mit osCommerce Shop-System auf Open Source Basis. Nutzen Sie unsere SEO-Module für den osCommerce-Shop, um mit ihrem Shop die Google Top-Positionen zu erreichen und ein dauerhaft stabiles Suchmaschinen-Ranking aufzubauen.

