Page Rank leírása

május 31, 2005

A Google és a PageRank

Az elmúlt pár évben a Google kereső a messze legtöbbet használt keresőoldallá vált világszerte. Sikerét a kiváló teljesítményű szerverein, a könnyű kezelhetőségén túl leginkább a más keresőkhöz képest nagyságrendekkel jobb minőségű Találati rangsornak köszönheti; ezért pedig alapvetően egy a weboldalak rangsorolására kidolgozott kifinomult metódus, a PageRank a felelős.

A következő oldalakon részletes áttekintés olvasható a Page Rank majd’ minden aspektusáról. A tartalom alapvetően Google-ről szóló első Tudományos publikációkon alapszik, melyeket a Google alapítói, Lawrence Page és Sergey Brin írtak még azokban az időkben, amikor mindketten a Stanford Egyetemen tanultak.

Gyakran érvelnek azzal -különösen az internet dinamikája folytán- hogy azóta, hogy ezeket a Page Rankkel foglalkozó tudományos dolgozatokat publikálták, túl sok idő telt el ahhoz, hogy alapjául szolgáljanak a Google keresőmotorja által jelenleg is használt rangsorolási metódusok leírásának, megértésének. Kétségtelen, hogy az elmúlt években minden valószínűség szerint számtalan változtatást, módosítást hajtottak végre a Google Rangsorolási módszereiben, de mivel a PageRank-nak kulcsszerep jutott a Google sikerében, ezért legalábbis az algoritmus mögött húzódó alapvető elgondolásoknak mind a mai napig érvényesnek kell lenniök.

A Page Rank (PR) koncepciója

Az internetes keresők már a world wide web fejlődésének korai szakaszától különböző megoldásokat fejlesztettek ki a weboldalak rangsorolására. A Google színrelépéséig gyakorlatilag az összes keresőmotor rangsorolási technikái számára a keresett kifejezés előfordulásának száma volt az egyik meghatározó faktor. Ezáltal a keresett kifejezés előfordulásának számát súlyozták a dokumentum hosszával (Kulcsszósűrűség alapú rangsorolás), vagy azt vizsgálták, hogy a keresett kifejezés milyen kiemelés jellegű HTML elemben található.

A jobb találati eredmények érdekében és különösképp azért, hogy a keresők ki tudják küszöbölni a témaköröktől függő rangsorolási kritériumok elemzése alapján automatikusan generált weblapok ([Doorway] oldalak) hatását, kifejlesztették a linknépszerűség (link popularity) koncepcióját. Eszerint a [Bejövő hivatkozás]ek száma határozza meg egy adott web dokumentum általános értelemben vett fontosságát: Minél több oldal hivatkozik egy weblapra, annál fontosabb az adott lap. A linknépszerűség mérésével a legtöbb esetben elkerülhető, hogy a kizárólag csak a keresők megtévesztése céljából létrehozott, és egyébként semmilyen jelentőséggel nem bíró oldalak jó helyezéseket érjenek el. Számos webmester azonban megtalálta a módját annak, hogy hasonlóan jelentéktelen egyéb weboldalakról nagy mennyiségű [Bejövő hivatkozás]kel lássa el a Doorway oldalait, ezáltal kijátszva a rangsorolás ezen formáját.

A linknépszerűséggel ellentétben a PageRank érték nemcsak egyszerűen a bejövő linkek számától függ. Az alapelv szintén az, hogy minél több weboldal hivatkozik az adott weblapra, annál fontosabb, viszont a [Bejövő hivatkozás]ek nem egyenértékűek. Összességében egy weblapnak magas a Page Rank értéke, ha más magas PR értékű dokumentumokról mutatnak rá hivatkozások.

A PageRank alapelve tehát, hogy egy adott dokumentum rangját azok a dokumentumok adják, melyek reá hivatkoznak. A hivatkozó oldalak rangját szintén a rájuk hivatkozó további oldalak adják, és így tovább. Ennélfogva egy weblap PR értékét mindig rekurzív módon a többi weblap Page Rank értéke határozza meg. Mivel – ha marginális mértékben és rendkívül sok áttétellel is – minden weblap PR rangja befolyással van a többi weblap rangsorolására, ezért végsősoron a PageRank kiszámítása elméletben az egész Látható web linkstruktúrájának vizsgálatán alapul. Annak ellenére, hogy ez a megközelítés rendkívül összetettnek és bonyolultnak tűnik, Page és Brin képes volt arra, hogy egy relatíve triviális számítási módszerrel, egy közelítéssel a gyakorlatban is kiszámíthatóvá tegye a weboldalak PR értékét.

Az egyszerűbb PageRank algoritmus

Az eredeti PageRank algoritmus -mint ahogy azt Lawrence Page és Sergey Brin számos publikációban leírta- a következő:

  PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

ahol

  • PR(A) az A oldal Page Rankja
  • PR(Ti) az A oldalra hivatkozó Ti oldalak Page Rank értéke
  • C(Ti) a Ti oldalról kimenő linkek száma
  • d egy speciális tényező (damping factor), mely értéke 0 és 1 között lehet

A képletből először is kitűnik, hogy a PageRank nem teljes webhelyeket rangsorol, hanem egy adott webhely minden egyes weblapjára külön-külön kell kiszámolni. Továbbá az A weboldal PR értékét rekurzív módon az A lapra hivatkozó weblapok saját PageRank értéke határozza meg.

Az A weblapra linkelő Ti weblapok nem egyformán befolyásolják az A weblap PR értékét. A hivatkozó T oldal Page Rank értéke mindig súlyozott: elosztásra kerül a T oldalról kiinduló összes link számával. Ez azt jelenti, hogy a minél több weblapot linkel meg a hivatkozó T oldal, annál kisebb mértékben növeli a hivatkozott weblapok PR értékét.

A hivatkozó Ti oldalak súlyozott Page Rank értékei összeadásra kerülnek. Ennek eredményeképpen az A weblapra mutató új link megjelenése esetén mindig nőni fog az A lap PR értéke.

Végül a hivatkozó oldalak súlyozott PageRank értéke felszorzásra kerül egy speciális tényezővel, melynek értéke 0 és 1 közé eshet. Ezzel a tényezővel lehet csökkenteni a hivatkozó oldalak által a hivatkozott oldalnak átadott PR értéket.

A véletlenszerűen Szörfölő felhasználó modellje

Lawrence Page és Sergey Brin publikációikban nagyon egyszerű és érzékletes indoklását adták a PageRank algoritmusnak (The Random Surfer Model). A Page Rank algoritmus működését ahhoz hasonlították, mint amikor az interneten Szörfölő felhasználó a hivatkozott tartalom figyelembevétele nélkül, véletlenszerűen klikkelget az egyes linkekre.

A találomra klikkelgető internetező egy adott oldalra meghatározott valószínűséggel jut el, és ez a weblap PageRank értékével függ össze. Annak a valószínűsége, hogy a szörfölő egy adott linkre klikkeljen, az oldalon található linkek számától függ. Ezért van az, hogy a hivatkozó oldal Page Rank értékét nem adja át teljes egészében egy hivatkozott oldalnak, hanem elosztásra kerül a hivatkozó oldalon található összes hivatkozás számával.

Tehát annak a valószínűsége, hogy a találomra Szörfölő felhasználó eljut egy oldalra, az az adott weblaphoz vezető összes leheteséges útvonal választásának valószínűségével egyezik. Ezt a valószínűséget csökkenti a d tényező. A véletlenszerű szörfölés elmélete szerint a d csökkentő tényező használatát az indokolja, hogy az interneten szörfölő felhasználó nem fog a végtelenségig szisztematikusan követni a linkeket, hanem olykor megunja azt, amit olvas, és ki nem számítható módon teljesen máshol kezdi újra a böngészést.

Annak a valószínűségét, hogy a véletlenszerűen klikkelgető felhasználó nem fogja abbahagyni az adott linkek követését, a d tényező segítségével fejezik ki, mely a valószínűség fokától függően egytől nulláig terjedő értéket vehet fel. Minél nagyobb a d tényező, annál valószínűbb, hogy a találomra klikkelő felhasználó kövesse az oldalon található linkeket. A szörföző -miután abbahagyta az adott linkek követését- teljesen véletlenszerűen ugrik egy másik lapra. Ennek a valószínűsége egy állandóként került bevezetésre a képletben: (1-d). Mivel a [Bejövő hivatkozás]ektől függetlenül mindig (1-d) a valószínűsége annak, hogy e találomra szörföző egyszercsak az általa követett linkhálózattal közvetlenül összefüggésben nem álló, távolabbi oldalra ugorjon, ezért egy weboldal mindig rendelkezik egy minimális PageRank értékkel.

A komplexebb PageRank algoritmus

Lawrence Page és Sergey Brin két különböző képletet publikált a különböző publikációkban. A PageRank algoritmusának második verziója szerint az A oldal Page Rank értéke az alábbiak alapján számolható:

  PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Ahol N a weben található összes weblap számának felel meg. Ez a második verzió alapvetően nem különbözik az első, egyszerűbb verziótól. Ebben a verzióban egy weblap Page Rank értéke annak a valószínűségével egyenlő, mintha a találomra kattingató szörföző a weben található oldalak számával meegyező alkalommal kezdené véletlenszerű új helyről a szörfözést. Ha az egyész weben 100 weblap lenne, akkor átlagban kétszer jutna el egy 2-es PR értékű oldalra, ha száz alkalommal kezdené újra a klikkelgetést.

A PageRank tulajdonképpen egy valószínűségi eloszlást határoz meg a weboldalakon, ezért az összes oldal PR értéke átlagosan 1 lesz. A PR érték a normalizált link-mátrix legnagyobb sajátértékéhez tartozó sajátvektornak felel meg, a megfelelő iteratív algoritmussal relatíve gyorsan kiszámolható.

A következő példákban az első, egyszerűbb változatát fogjuk használni a képletnek. A PR érték kiszámítása így egyszerűűbb, nincsen szükség hozzá a weben található összes weblap számának (N) ismeretére.

A PageRank jellemzői

A Page Rank eloszlásának jellemzőit az alábbi példával lehet jól szemléltetni:

Három összelinkelt lapból álló példa

Vegyünk egy kis hálózatot, ami három lapból áll: A, B és C lapokból; ahol az A hivatkozik a B és C oldalakra, B linkeli a C oldalt és a C-ből link mutat az A oldalra. Bár Page és Brin szerint a d tényező legjobb tapasztalati értéke 0,85, a számítás egyszerűsítése miatt példánkban 0,5-nek vesszük, ugyanis bár a d tényező értéke hatással van a Page Rank értékek karakterisztikájára, azonban nincs befolyással az alapelvekre. Ezek alapján tehát a következő egyenletek írhatóak fel a PR értékek számításához:

  PR(A) = 0.5 + 0.5 PR(C)   PR(B) = 0.5 + 0.5 (PR(A) / 2)  PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))

A fenti egyenletek egyszerűen megoldhatóak; a következő eredményeket kapjuk az egyes lapok PR értékére:

  PR(A) = 14/13 = 1.07692308  PR(B) = 10/13 = 0.76923077  PR(C) = 15/13 = 1.15384615

Nyilvánvaló, hogy az összes lap PR értéke három lesz, tehát egyenlő a rendszer lapjai számának összegével. Mint ahogy a fentiekből kitűnik, ez nem egy speciális eset, mely csak erre az egyszerű példára igaz.

Ebben az egyszerű három lapos példában egyszerű volt megoldani a szükséges egyenleteket a PR értékek meghatározásához. A gyakorlatban azonban weblapok milliárdjaiból álló rendszerekre kell megoldást találni, ami a fenti módszerrel értelemszerűen lehetetlen.

A Page Rank közelítéses számolása

A web mérete miatt a Google kereső motorja egy közelítő, iteratív számítási módszerrel határozza meg a PageRank értékeket. Ez a gyakorlatban azt jelenti, hogy minden egyes oldalhoz hozzá van rendelve egy kiindulási érték, és az összes weblap végleges PageRank értéke számos számítási ciklusban, a Page Rank algoritmus felhasználásával kerül meghatározásra. Ezt a közelítéses eljárást a fenti példával is be lehet mutatni: ha mindhárom lap kezdeti PR értékét egynek vesszük, akkor a közelítéses számítási ciklusok eredményei az alábbiak lesznek:

  Közelítés  PR(A)       PR(B)       PR(C)  0          1           1           1  1          1           0.75        1.125  2          1.0625      0.765625    1.1484375  3          1.07421875  0.76855469  1.15283203  4          1.07641602  0.76910400  1.15365601  5          1.07682800  0.76920700  1.15381050  6          1.07690525  0.76922631  1.15383947  7          1.07691973  0.76922993  1.15384490  8          1.07692245  0.76923061  1.15384592  9          1.07692296  0.76923074  1.15384611  10         1.07692305  0.76923076  1.15384615  11         1.07692307  0.76923077  1.15384615  12         1.07692308  0.76923077  1.15384615

Jól látszik, hogy néhány ciklus után már relatíve jó megközelítéssel meg lehet állapítani a PR értékeket. Page és Brin publikációi szerint körülbelül száz iterációs ciklus szükséges az egész weben található összes weblap PR értékének jó közelítéssel történő meghatározásához.

Az összes oldal PageRank-jának összege a közelítéses számítás felhasználásával is a weben található oldalak számához konvergál, tehát az átlagos PR érték 1 lesz. A legkisebb PR értéket a (1-d) határozza meg, míg a maximális PR érték dN+(1-d) lesz, ahol N az összes létező weblap száma. Egy weblap elméletileg akkor érheti el a maximális PR értéket, ha a minden weblapról mutat rá link és erről az oldalról nem mutat link semmilyen weblapra sem.

A Google kereső PageRank implementációja

A Page Rank gyakorlatba ültetése szempontjából az a legérdekesebb, miképpen befolyásolja végsősoron a weboldalak rangsorolásának összetett mechanizmusát. Eredetileg a Google az alábbi három tényező alapján rangsorolta a weblapokat:

Az oldalspecifikus tényezők közé tartozik a Szövegtörzs mellett például a TITLE elem vagy az Elérési útvonal is. Több, mint valószínű, hogy Page és Brin eredeti publikációnak megjelenése óta még számtalan egyéb tényezőt vesznek figyelembe a rangsoroláskor, de ez a jelen cikknek nem témája.

A keresési eredmények előállítása érdekében a Google egy úgynevezett [IR érték]et generál az oldalspecifikus tényezők és a bejövő Linkre rakott kulcsszavak elemzésével, amit tovább súlyoz, aszerint, hogy a kifejezés hol fordul elő az oldalon (pl. hogy milyen távol van az oldal elejétől), illetve, hogy a kifejezés mennyire hangsúlyos helyén található az oldalnak. Így kerül meghatározásra, hogy egy Kereső-kifejezéssel kapcsolatban egy adott dokumentum mennyire releváns.

Eztán az [IR-érték]et kombinálásra kerül az oldal PageRank értékével, amely szemben az IR értékkel egy általános, az adott kereséstől független fontosságot jelez. Nyilvánvaló, hogy a két érték nem összeadódik, hanem összeszorzódik, máskülönben nagy PR értékű oldalak akkor is előkelő helyeket foglalhatnának el a Találati rangsorban, ha a keresett kifejezéshez semmi közük se lenne.

Különösen a két vagy több szóból álló Kereső-kifejezések esetén a tartalomfüggő, oldalspecifikus rangsorolási kritériumoknak sokkal nagyobb szerepe lesz, míg a Page Rank hatása elsősorban a kevésbé specifikus, egy szóból álló keresések esetén szembeötlő. Ha a webmesterek több szóból álló kifejezésekre optimizálják olalukat, akkor a klasszikus Keresőoptimalizálás eszközeivel a nagy PR értékű oldalaknál jobb helyezéseket érhetnek el.

Ha a webhelyet olyan kifejezésekre kell optimalizálni, melyekkel kapcsolatban sok a vetélytárs, tehát nagy a versengés, akkor a jó helyezések eléréséhez elengedhetetlen a magas PageRank érték, még akkor is, ha egyébként a kereső-optimalizálás mércéi szerint az oldal maga kiválóan optimalizált. Az [IR érték] ráadásul csökken, ha a kifejezés túl sokszor fordul elő az oldalon (túl nagy a Kulcsszósűrűség), vagy túl sokszor szerepel a Linkre rakott kulcsszavak között; kiköszöbölendő a túlzott szóismétlésekkel operáló Web spammelést. A fentiek miatt a klasszikus Keresőoptimalizálás lehetőségei behatároltak, és a kompetitív témakörökkel kapcsolatos optimalizálásnál egyre inkább a PageRank érték válik a meghatározó tényezővé.

A PageRank kijelzése a Google Eszköztáron

A különböző Toolbar Pagerank értékek kijelzése

A PageRank széles körű ismertséget a Google Eszköztár (Google Toolbar) által nyert, mely automatikusan megjeleníti a weblapok PR értékét grafikus formában. A Google Eszköztár egy kiegészítő (plug-in) a Microsoft Internet Explorer-hez, mely a http://toolbar.google.com/intl/hu/ oldalról tölthető le, magyar nyelven is. Segítségével kényelmesebben lehet keresni, illetve élni a Google különböző szolgáltatásaval.

A Google Eszköztár a PageRank értékeket egy egytől tízig terjedő skálán jeleníti meg. Első látásra a zöld csík hossza alapján lehet megmondani az oldal PR értékét, de ha az egérrel a kijelzett érték fölé megyünk, akkor számokkal is megjelenik a PR érték.

Figyelem: A PageRank kijelzése a haladó szintű szolgáltatások közé tartozik, és ha ezek a szolgáltatások engedélyezve vannak, akkor a Google adatokat gyűjthet a felhasználói szokásokról. Emellett az eszköztár magától frissül, ha új verzió jelenik meg, anélkül, hogy a felhasználót erről értesítené: végső soron tehát hozzáférése van a felhasználó merevlemezéhez.

Ha figyelembe vesszük, hogy a PageRank maximális értéke elméletileg dN+(1-d) lehet, ahol N az összes létező weblap száma, a d értéke pedig általában 0,85, akkor nyilvánvaló, hogy a kijelzett PR értéktartományok nem a számított PR értékeket mutatják, hanem azzal valamilyen arányban állnak. Általános nézet szerint az arányosítás nem lineáris, hanem logaritmikus. Ha a d tényező 0,85 akkor a legkisebb PR érték 0,15, a logaritmus alapját pedig 6-nak véve, a következő felosztást kapjuk:

  Eszköztár PR     Valós PageRank  0/10           0.15 -         0.9  1/10           0.9  -         5.4  2/10           5.4  -        32.4  3/10          32.4  -       194.4  4/10         194.4  -     1,166.4  5/10       1,166.4  -     6,998.4  6/10       6,998.4  -    41,990.4  7/10      41,990.4  -   251,942.4  8/10     251,942.4  - 1,511,654.4  9/10   1,511,654.4  - 9,069,926.4  10/10  9,069,926.4  - 0.85 × N + 0.15

Nem teljesen biztos, hogy a logaritmikus felosztás szigorú matematikai értelemben történik. Minden bizonnyal a tartományok felosztása egy logaritmikus sémát követ, azonban pontos határait önkényesen választják meg, ezzel befolyásolva, hogy hány weblap esik az egyes Eszköztár Page Rank tartományokba. A logaritmus alapja ebben a sémában valószínűleg 6 és 7 közé esik, ami durva közelítéssel abból vezethető le, hogy a Google link: Speciális kereső-kifejezésre a nagy Page Rank értékű oldalak esetén hány 4-es Eszköztár PR értéknél nagyobbal bíró hivatkozó oldalt jelez ki. (Régebben elmondható volt, hogy a 4-nél nagyobb PR értékű hivatkozó oldalakat jelzi ki a Google kereső a link: kifejezés használatakor, manapság azonban már nem működik ennyire megbízhatóan ez a speciális kifejezés.)

Page Rank kijelzése a [Google Könyvtár]ban

Google Címtár PageRank értékek megjelenítése

A [Google Könyvtár] is kijelzi a benne szereplő oldalak PageRank értékét. A Google Eszköztárban alkalmazott tízes skálával ellentétben egy egytől hétig terjedő skálán jeleníti meg a PR értékeket, az eszköztárhoz hasonlóan egyszerű grafikai elemmel, egy zöld csíkkal jelezve. A PR értéket számmal nem jelzi ki akkor sem, ha grafika felé megyünk az egérrel, –mint ahogy azt az eszköztárnál megszoktuk– ezért legfeljebb az oldal forráskódjából lehet rájönni a számra, vagy érzésből, tapasztalatból.

Az Eszköztár PageRank és a Könyvtár PageRank összevetésével pontosabban meg lehet állapítani egy adott weblap PR értékét, feltéve persze, hogy az adott lap szerepel az Open Directory Projectben. (Ezt a kapcsolatot először Chris Raimondi írta le először: http://www.searchnerd.com/pagerank/ ).

Directory és Toolbar PageRank összehasonlítása

Különösen az 5-ös és a 6-os Eszköztár Page Rank értékű lapok esetén becsülhető meg nagyobb pontossággal, hogy az adott weblap az ötös vagy a hatos tartomány alsó vagy felső részén helyezkedik-e el. Említést érdemel továbbá, hogy a fenti megfeleltetésnél a 0-ás PR érték nem lett figyelembe véve: ennek helyénvalósága egyszerűen leellenőrizhető a hármas Eszköztár PageRank értékű weblapok segítségével.

A [Bejövő hivatkozás]ek hatása

Az előzőekben már bemutatásra került, hogy minden egyes [Bejövő hivatkozás] növeli a hivatkozott weblap PR értékét. Mindez a PageRank képletéből a következőkép vezethető le :

  PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

A fenti képlet alapján egy X weblapról bejövő további hivatkozás az A weblap PR értékét :

  d × PR(X) / C(X)

szerint növeli, ahol a PR(X) az X weblap PageRank értékének felel meg, míg a C(X) pedig az X lapon található linkek számának. Mitöbb az A weblapon magán is találhatóak linkek, melyek továbbítják X weblap által átadott PR érték egy részét a linkek által hivatkozott weblapokra. Ha ezek a lapok visszalinkelnek az A lapra, akkor az A oldal még jobban részesül az X lap PR növelő hatásából.

A [Bejövő hivatkozás]ek közvetlen hatásai az alábbi egyszerű példával mutathatóak be:

példa a bejövő linkek PageRank növelő hatására

Vegyünk először egy képzeletbeli webhelyet, melynek három weblapja van: A, B, C, és D; melyek körkörösen hivatkoznak egymásra. [Bejövő hivatkozás]ek nélkül nyilvánvalóan minden oldal Page Rank értéke 1 lesz. Adjunk hozzá a rendszerhez egy új, PR 10-es értékkel bíró weblapot (X), melyről egyedül az A oldara mutat hivatkozás. A d kisebbítő tényezőt 0,5-nek véve a következő egyenleteket lehet felírni a fenti hálózatra:

  PR(A) = 0.5 + 0.5 (PR(X) + PR(D)) = 5.5 + 0.5 PR(D)  PR(B) = 0.5 + 0.5 PR(A)  PR(C) = 0.5 + 0.5 PR(B)  PR(D) = 0.5 + 0.5 PR(C)

Mivel a kimenő linkek száma minden weblap esetén 1, ezért nem szükséges számolni velük. Az egyenletek megoldása után a következő Page Rank értékeket kapjuk:

  PR(A) = 19/3 = 6.33  PR(B) = 11/3 = 3.67  PR(C) = 7/3 = 2.33  PR(D) = 5/3 = 1.67

A fenti példa alapján megfigyelhető volt a A weblaphoz hozzáadott új bevövő link közvetlen hatása, mely a :

  d × PR(X) / C(X) = 0,5 × 10 / 1 = 5

egyenlettel írható le: A képzeletbeli webhelyünk lapjainak összesített PR értéke 5-tel nőtt a 10-es PR értékű weblapról mutató egyedülálló hivatkozás által, 0,5-ös d tényező mellett.

A d csökkentő tényező hatása

A PageRank értékek továbbterjedésének mértékét elsősorban a d csökkentő tényező határozza meg. Ha a d értékét 0,75-nek vesszük, akkor a fenti példára a következő egyenleteket írhatjuk fel:

  PR(A) = 0.25 + 0.75 (PR(X) + PR(D)) = 7.75 + 0.75 PR(D)  PR(B) = 0.25 + 0.75 PR(A)  PR(C) = 0.25 + 0.75 PR(B)  PR(D) = 0.25 + 0.75 PR(C)

Megoldásuk után a következő Page Rank értékeket kapjuk:

  PR(A) = 419/35 = 11.97  PR(B) = 323/35 = 9.23  PR(C) = 251/35 = 7.17  PR(D) = 197/35 = 5.63

Szembetűnő, hogy mennyivel jobban nő az A weblap PR értéke, mely az alábbi egyenlettel számolható ki :

  d × PR(X) / C(X) = 0.75 × 10 / 1 = 7.5

Ez a kezdeti, közvetlen hatás azonban még nagyobb mértékben terjed tova képzeletbeli webhelyünk linkjei által. Az A weblap PageRank értéke majdnem kétszer nagyobb lesz a 0,75-ös csökkentő tényező használatával, mintha a 0,5-ös d tényezővel számoltunk volna. A 0,5-ös d érték esetén az A weblap PR értéke majdnem négyszer nagyobb, mint a D lapé, míg a 0,75-ös d érték alkalmazásával csak alig több, mint kétszerese. Tehát minél nagyobb a d csökkentő tényező, egy újonnan hozzáadott [Bejövő hivatkozás]nek annál jelentékenyebb közvetlen hatása van a hivatkozott weblapra, továbbá annál egyenletesebben oszlik meg az így átadott PR érték a hivatkozott webhely lapjai között.

Egy újonnan hozzáadott link hatása a gyakorlatban

A d csökkentő tényező 0,5-ös értéke mellett képzeletbeli zárt webhelyünk összegzett PageRank értéke az alábbiak szerint alakul:

  PR(A) + PR(B) + PR(C) + PR(D) = 14

Ennél fogva a példában szereplő webhelyet meghivatkozó PR 10-es értékű oldal linkje hatására a webhely oldalainak kumulált PR értéke tízzel nőtt. (A külső link hozzáadása előtt minden lap PR értéke 1 volt.) A csökkentő tényezőt 0,75-nek véve az alábbi összegzett Page Rank értéket kapjuk:

  PR(A) + PR(B) + PR(C) + PR(D) = 34

Ezúttal harminccal nőtt az összesített PR érték. Egy webhely összegzett PR értékének növekedése tehát az alábbi kifejezéssel írható le:

  (d / (1-d)) × (PR(X) / C(X))

Ahol X az újonnan hozzáadott külső hivatkozó weblapot jelenti, a PR(X) a lap Page Rank értékét, a C(X) pedig az X oldalról kiinduló összes link számát. Ez a képlet csak akkor érvényes, ha a kérdéses új hivatkozást egy zárt webhelyhez adjuk hozzá: tehát egy olyan oldalhálózathoz, ahhonan nem mutat kifelé egyetlen link sem az internet többi része felé (tehát „zsákutca”). Amennyiben a webhelyről más webhelyekre is mutatnak hivatkozások, akkor az új hivatkozó oldal által generált PR többletet továbbítódik a kimenő linkek szerint, tehát a PR növekedés egy része tovaterjed más weboldalakra is, csökkentve a hivatkozás hatását a hivatkozott webhelyre.

A fenti tétel igazolása Raph Levientől származik, és a Találomra Szörfőző Modellen alapul. Ha a véletlenszerűen böngésző felhasználó egy zárt webhelyre mutató linket követ, akkor átlagosan (d/(1-d)) oldalt látogat meg azon a zárt webhelyen. Így a hivatkozó oldalnak ez a sokkal nagyobb PR értéke -elosztva a lapon található összes linkkel- oszlik el ebben a weblapok e zárt rendszerében.

A Google kifejlesztésénél Lawrence Page és Sergey Brin a d csökkentő tényezőt tapasztalati alapon 0,85-nek vette. Ezzel a tapasztalati értékkel számolva egy zárt webhely összesített Page Rank növekedése még a fenti példáknál is nagyobb mértékű lehet:

  (0.85 / 0.15) × (PR(X) / C(X)) = 5.67 × (PR(X) / C(X))

A PageRank-1 szabály

A Google Eszköztár felhasználóinak gyakran feltűnik, hogy egy bizonyos Eszköztár PageRank értékkel bíró weblapokra eggyel nagyobb Eszköztár PR értékű weblapok hivatkoznak. Néhányan emiatt kétségbe vonják az itt bemutatott Page Rank algoritmus érvényességét a Google által gyakorlatban alkalmazott rangsorolássi metódussal kapcsolatban. Könnyen bebizonyítható, hogy a Pagerank-1 szabály összhangban van az PageRank algoritmusával.

Alapjában véve a PageRank-1 szabály összhangban van a PageRank alapelvével. Egy weblap akkor számít fontosnak, ha fontos weblapok hivatkoznak rá. Nem szükséges azonban, hogy sok [Bejövő hivatkozás] mutasson az oldalra: egyetlen, nagy PR értékű lapról mutató link már elégséges.

A Pagerank-1 szabály és a Page Rank algoritmus összefüggéseinek megértéséhez számos egyéb tényezőt kell figyelembe venni: Először is az Eszköztárban a PR értékek megjelenítése logaritmikus skála alapján történik. Ha egy adott weblap Eszköztár PR értéke eggyel nagyobb egy másik weblapnál, akkor a valós PR értékek különbsége a logaritmus alapjának megfelelően ennek többszöröse: Ha a logaritmus alapját hatnak vesszük, és a hivatkozó weblap Eszköztár PR értéke 5-tel egyenlő, akkor a valós PageRank értéke akár legalább hatszorosa lehet a 4-es Eszköztár PR értékkel bíró, a hivatkozást fogadó oldalnak.

Mindazonáltal a hivatkozó oldalon található kimenő linkek száma befolyásolja a logaritmikus hatást, mert az átadott PR érték az összes kimenő link között egyenlő arányban oszlik el. Bizonyításra került már továbbá, hogy a valós PageRank értéknövekedés magasabb, mint ami egyenesen következne az algoritmus d(PR(Ti)/C(Ti)) kifejezéséből, mert a növekmény eloszlik a webhely további weblapjain: gyakran előfordul, hogy ezek a lapok is visszahivatkoznak arra a weblapra, melyre eredetileg mutatott a [Bejövő hivatkozás], ezzel tovább növelve a weblap Page Rank értékét. Ha magas csökkentő tényező mellett feltételezzük, hogy a PageRank értékek logaritmikus felosztásának alapja 6, és a weblapnak kétszer akkora PageRank növekmény kerül átadásra mint a hivatkozó weblap PR értéke arányosan csökkentve a kimenő linkjeinek számával, a hivatkozó oldalnak legalább 12 kimenő linkje kell hogy legyen ahhoz, hogy mindeközben a hivatkozott lap Toolbar PageRank értéke legfeljebb eggyel kisebb maradjon, mint a hivatkozó weblap Eszköztár PageRank értéke.

Belátható, hogy a feltételezett 12 kimenő link a valóságban alacsony értéknek számít. Általában egy oldalra nemcsak egy külső hivatkozás mutat, így valószínű, hogy más hivatkozások is továbbítanak PageRank értéknövekményt a weblapnak. Az olyan példák esetén, ahol valóban csak egyetlen hivatkozás mutat egy weblapra, és mind a hivatkozó, mind a hivatkozott oldalra igaz a PageRank-1 szabály annak ellenére, hogy a hivatkozó oldalon sok külső hivatkozás található, akkor ez mindenekelőtt azt jelzi, hogy a hivatkozó oldal valós Page Rank értéke közel van az Eszköztár szerinti besorolás felső határához. A hivatkozó oldal lehet például egy erős 5-ös értékű, míg a hivatkozott oldal gyenge 4-es értékű. E példa szerint a hivatkozó weblapon maximum 72 kimenő hivatkozás is elképzelhető. Ez a szám akár magasabb is lehet, ha a besoroláskor használt logaritmus alapját magasabbnak vesszük.

Folyt. köv.

Szerzői jogi információk:

  • Szerző: Markus Sobek (c)2002 eFactory Internet-Agentur KG Online-Marketing
  • Forrás: pr.efactory.de
  • Fordítás: Jároli József
  • A fenti szöveg weben történő reprodukálásának feltétele a Szerzői jogi információk változatlan formában törénő megjelenítése az eredeti angol nyelvű változatra és a magyar nyelvű fordításra mutató teljes értékű html hiperhivatkozások megtartásával.

A „Page Rank leírása” című bejegyzést 2005. 05. 31. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2010. 04. 20., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Nem veszi figyelembe a Google a Page Rank értéket

2006. 12. 18. 12:34 · Névtelen hozzászóló →

Hát vitatkozok azzal,hogy a Page Rankot figyelembe veszi a google.Nem veszi figyelembe Ennyit értesz hozzá.Magyarul SEMMIT.Tök más algoritmus szerint dolgozik.

2006. 12. 18. 12:36 · Névtelen hozzászóló →

OK

2006. 12. 25. 21:46 · Névtelen hozzászóló →

Hogy a fészkes fenébe ne venné már figyelembe. Csakhogy legalább 100 fator szerint rendezi sorba a lapokat a Google, és a PR csak 1 a sok közül.

Köszönet

2007. 04. 10. 07:16 · Névtelen hozzászóló →

Nagyon jó összefoglaló magyarul!Köszönöm.

Nem veszi figyelembe a Google a Page Rank értéket

2007. 04. 10. 07:35 · Névtelen hozzászóló →

LOL ez jó, csak azt tudnám, hogy akkor miért van az, hogy akármire keresek legfelül általában magasabb PR értékű weblapok jönnek be… Persze nyilván sok más alapján is rangsorol, de azért azt nem mondanám, hogy nem veszi figyelembe…

Nincs pr-em 🙁

2007. 04. 12. 02:29 · Névtelen hozzászóló →

Február első napjai óta működik a lapom, de még mindig nem kaptam pagerankot. Kb 60 oldalról (még a dmoz-ból is) van bejövő linkem, napi frissítésű az oldal, adsenselek, google analytics-et használok, szóval, mindent, ami google. Mikor kapok már pr-t?

Nincs pr-em 🙁

2007. 04. 12. 03:28 · Névtelen hozzászóló →

Ne tessék türelmetlenkedni. A jóslások szerint az elkövetkezendő hetekben lesz PageRank export, de ha februárban indult a szájtod, akkor nem 100%, hogy ebben a hamarosan elkövetkező ciklusban „kap” PR értéket.

Nekem sincs…

2007. 04. 12. 03:36 · Blendeguz →

Nekem sincs PageRank értékem, mert még nem üzemelték be a Google „HumanIndex Robots” algoritmusát. Majd talán 2022-ben… 😀

miért mutat kisebb page rankot?

2007. 05. 28. 15:27 · erdei →

A magyar-fusion.hu oldalamnak lekérdezésben 4 a page rank értéke, de mindenhol csak 2 értéket látok. ez mitől lehet?

miért mutat kisebb page rankot?

2007. 05. 29. 04:56 · OldalGazda →

mi az a mindenhol, mit jelent ez pontosan?

ja bocs

2007. 05. 29. 13:36 · erdei →

az oldal címe magyar-fusion.hu és ha beírom a page rank „keresőbe” akkor ott 4 -es értéket kapok.

ja bocs

2007. 05. 30. 04:11 · OldalGazda →

olyan nincs, hogy »»A page rank „kereső”««, tehát nem válaszoltál a kérdésemre…

Page Rank, egyáltalán számít ?

2007. 10. 18. 12:15 · dugulaselharitas →

Page Rank, egyáltalán számít ?Oldalam kb. 6 hónapos ” http://www.dugulaselharitas.net/ ” igen jó találati helyezést ért el a Google keresőben.Page Rank értéke „0”, kb 500 link mutat rá. Nem tudjátok mikor várható frissítés, iletve ez befolyásolja a keresőben amajdani pozícióját vagy ez az érték nem a találati rangsornak szól ?

Keco

2007. 10. 25. 03:42 · Névtelen hozzászóló →

Én is így vagyok ezzel, első három hónap után 3 értéket kapott. Most 4szer annyian nézik meg és 0-s az értéke…Nekem 250 link mutat rá. Az optimizált kulcsszóra 2. helyen van. 6.5 millió találat közül.

Osztják!!!

2007. 10. 27. 01:45 · Névtelen hozzászóló →

Sziasztok!

Osztják a pagerankot!Kaptam is meg buktam is.Mondjuk sejtettem hogy nem elég tempóban gyűjtőm a linkeket egy oldalam 3-ról vissza 2-re.

NT

Bámulatosan magas PR

2007. 10. 27. 04:15 · Névtelen hozzászóló →

Sziasztok!

Találtam egy oldalt: weblabor.hu, amelyiknek 7-es a PR-e. Megnéztem a linkjeit, 13100!!!!, de ennek a 98%-a saját oldalról, tehát valamelyik weblabor.hu/…-ről jön. Hogy van ez? Tudnak valamit, vagy béna a G, vagy mi van?

Balázsbalazs.villanyi@freemail.hu

Re: Osztják!!!

2007. 10. 27. 07:18 · OldalGazda →

Igen, és néhány oldalnak jól el is kezdett ingadozni a PR értéke, többüknek pedig lecsökkenni, valószínűleg a Fizetett linkek megjelenítése miatt: http://www.problogger.net/archives/2007/10/27/the-google-page-rank-pendulum-swings-again/Kérdés, hogy ezeknek a „büntetett” webhelyeknek a PageRank csökkenése jelentkezni fog-e a Google felől érkező látogatottság csökkenésében is…

Bámulatosan magas PR

2007. 10. 27. 07:22 · OldalGazda →

Szerintem a weblabor esetén egész egyszerűen arról van szó, hogy

  1. ez egy nagyon jó minőségű portál,
  2. az oldal egy látogatójára eső saját honlapok száma kiugróan magas, a témájából eredően, emiatt a látogatók nagyon nagy aránya linkel is.

Szóval egyrészt tudnak valamit: weboldalt csinálni, másrészt pedig a PageRank érték szempontjából szerencsés témával foglalkoznak…

Bámulatosan magas PR

2007. 10. 27. 07:28 · Longhand →

Szerintem meg má az oka Józsi. Nézd meg a backlinkeket (php.net, w3.org), meg nézd meg a weboldal korát.

A weblabor.hu egyébként régóta 7-es, nem most lett az

2007. 10. 27. 07:34 · Névtelen hozzászóló →

Éppenséggel e honlap PageRank oldalon is szerepel.

Re: Bámulatosan magas PR

2007. 10. 27. 07:38 · OldalGazda →

Igen, igazad van, ez a harmadik ok akkor, kihagytam illetve lusta voltam utánanézni ennek a sejtésemnek 🙂 a kulcsszó akkoris a minőség: Szar vagy akár átlagos oldal nehezen kap ekkora PR értéket, mégoly régóta létezik is.

Re: Bámulatosan magas PR

2007. 10. 27. 07:44 · Longhand →

Nem a vita kedvéért, de a backlinkeket inkább a nulladik okként titulálnám.Hogy ne kelljen külön megnézned a W3.org például egy laza 10-es Pagerank.PHP.net „csak” 8-as.

Re: Bámulatosan magas PR

2007. 10. 27. 08:05 · OldalGazda →

Csak a vita kedvéért: most, hogy így belegondolok, a harmadik ok az igazából a másodiknak a kiterjesztése: backlinkek csak következmények, az okok elsősorban továbbra is a minőségben és az oldal témájában keresendőek (=ha nem is annyira általános érdeklődésre számot tartó a téma, de rengeteg weboldal foglalkozik ezzel a témakörrel). Szóval tudom, hogy tudod, csak pontosításképp…

Re: Bámulatosan magas PR

2007. 10. 27. 08:13 · Longhand →

Nem feltétlen Józsi. A w3.org -ról nem minden jó minőségű oldal kap linket csak azért mert kiemelkedően jó, meg a php.net -ről sem.Lehet egyetemista kapcsolatok révén alakult így vagy hasonló okok (azt hiszem egyetemistaként kezdték fejlszteni Bártházi Andrásék), hogy hivatalos magyar reprezentánsa lett a weblabor néhány nemzetközi dolognak.Meg nyilván az is persze, hogy nagyon korán indult, amikor atémában még nem is nagyon voltak más lapok.

Nagyon jóminőségű informtív lap egyébként valóban.

Re: Bámulatosan magas PR

2007. 10. 27. 08:26 · OldalGazda →

Igen, igazad van, ekkora PR-hez nélkülözhetetlenek a nemzetközi kapcsolatok. Azért is illettem a PageRank oldalon a PR7-es értékhez tartozó oldalakat akképp, hogy: „Nagyobb portálok, külföldön is elismert magyar oldalak”.

Re: Bámulatosan magas PR

2007. 10. 27. 08:32 · Longhand →

Ez viszont jó megfogalmazás, teljes egyetértésben zárhatjuk a vitát azt hiszem! 😉

Re: Bámulatosan magas PR

2007. 10. 27. 09:12 · Névtelen hozzászóló →

És akkor volt bámulatos mikor még a linkek nem voltak no follow ok.Olyan élet volt ott hogy csak csuda.Manapság már van amikor 3 óra is el telik mire valaki segít. :-)Előtte még vasárnap is volt válasz 10 perc alatt. 🙁

NT

rank

2009. 09. 08. 05:45 · Névtelen hozzászóló →

Mennyi idő kell a pr növekedéséhez? Tehát létrehozok egy oldalt ugye 0 pr, elkezdem híresztelni mennyi idő múlva lehet pr1?

re:rank

2009. 09. 08. 06:06 · Névtelen hozzászóló →

A 0 PR az már eredmény, tehát ha létrehozod, akkor nem 0, hanem nincs neki, tehát még nem osztályozott.Egyébként nem idő függvénye, hanem belső és külső rámutató linké. Ha van egy 10 éves oldalad, de egy link sem mutat rá, akkor attól hogy régi, még nem lesz PageRank-je.

Egyébként kb. 1-6 havonta frissül a linkek mennyisége és minősége függvényében.

De ez még mindig nem minden…