Google kereső működése

október 30, 2004

Hogyan működik a Google keresője?

Ez már egy nagyon régi cikk, még 2003-ban íródott.

Honlapok indekszelése. Pókok. Harc a trükköző webmesterek ellen. Minél jobban használható találati lista.

A Google legfontosabb újítása az volt, hogy az oldalakat aszerint állította rangsorba, hogy a kérdéses lapra hány külső hivatkozás mutat (PageRank). Eszerint minden egyes hivatkozás szavazat, mely szavazatnak annál nagyobb az értéke, minél többen hivatkoznak az hivatkozó oldalra, és így tovább.

Három alapvető feladatot végeznek a Google számítógépei:

Az interneten található oldalak folyamatos indexelése, felvétele adatbázisukba: Folyamatosan látogatják úgynevezett robotok az interneten található oldalak nagy részét. A taktika általában az, hogy az egyes domainnevekhez tartozó Nyitólapokat sűrűbben (akár egy-két naponta) látogatja a Google, míga teljes oldal beindekszelése, (az oldal struktúrájában való mélyebbre hatolás) jóval ritkábban történik meg, mintegy 4-6 hetente. A robot látogatása után a találatok csak egy bizonyos idő múlva (egy-két nap) jelennek meg az adatbázisban.

A felhasználók által megadott keresési feltételek alapján a találatok megjelenítése: A találatokat azokról csak azokról az oldalakról mutatja, melyeket nem töröltek az adatbázisból. Automatikus kizárásra kerülnek azok a domainnevek, melyek esetében a google rangsorolási mechanizmusát próbálták különféle trükkökkel befolyásolni. Manuálisan is törölhetnek oldalakat az adatbázisból, erre volt is precedens, lásd google kontra szcientológia, illetve google kontra kazaalite eseteket. Olyan is előfordulhat, hogy egy kulcsszóval kapcsolatban kerül tiltólistára az oldal: csak akkor jeleníti meg a kulcsszóra rákeresve az oldalt, ha beírjuk utána a site:enoldalam.hu kifejezést is. A találatok egy titkos rendszer szerint kerülnek rangsorolásra. A fejlesztők úgy gondolják, hogyha nem ismertek a rangsorolás kritériumai, akkor nehezebben élhetnek vissza az algoritmus sajátságaival egyes webmesterek, így egyrészt a felállított rangsor valójában a kereső fejlesztőinek elveit tükrözi (akik a minél jobb minőségű találati halmazban, találati rangsorban érdekeltek), másrészt ha valaki kitüntetett helyre akarna kerülni a találatok között, akkor ezt ne tehesse meg a rendszer manipulálásával, csak szponzorált linkek, fizetett hirdetések segítségével.

A Google keresőprogram algoritmusainak folyamatos fejlesztése: Annak ellenére, hogy legnagyobbrészt titkosak az oldalak rangsorolásának pontos kritériumai, kísérletezéssel, próbálgatással, a kapott találatok forráskódjának elemzésével visszafejthető, hogy miért ad plusz pontot, illetve miért büntet a Google. Így újabb és újabb trükköket vetnek be a webmesterek, míg a „barikád másik oldalán” a fejlesztők igyekeznek olyan algoritmusokat írni, melyek felismerik a legújabb trükköket is, és szankcionálják. Nyilvánvalóan emellett a rendszer mindennapos működését is fejlesztik. Az algoritmusokon bizonyos időközönként nagyobb változtatásokat hajtanak végre, melyek drasztikus változásokat hozhatnak a Találati rangsorokban, tehát végső soron az oldal látogatottságában.

A „Google kereső működése” című bejegyzést 2004. 10. 30. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2006. 12. 11., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások