Felgöngyölítés

augusztus 9, 2005

Regisztrálástól a találatok közötti megjelenésig

Tágabb értelemben a weboldalak beindekszelése, felgöngyölítése alatt azt a folyamatot értük, mely során a Keresőrobotok meglátogatják a weboldalt, letöltik az ott található adatokat, majd a keresők adatközpontjai a gyors kereshetőségnek megfelelően feldolgozzák a letöltött adatokat, és eztán megjelenítik a keresőoldalak által kijelzett Találati rangsorban.

Szűkebb értelemben az indexelés (indexing) egy tetszőleges adathalmaz könnyen visszakereshető adatbázis formájába történő konvertálását, rendszerezését takarja, ami a keresőprogramok esetén az egyes Kulcsszavak előfordulási helyeinek eltárolását jelenti. Az keresett kulcsszavakra első körben az azt tartalmazó weboldalak URL-jét keresi ki a keresőprogram egy speciális ún. Index adatbázisból, ami leginkább a könyvek végén található névmutatókra (angolul index) hasonlít.

A Google fordításában közreműködők például a letapogat szót használják e komplex folyamat leírására, de találóbbnak gondolom a felgöngyölít szót, mely utal egyrészt a dolgok megtalálására, másrészt a problémák megválaszolására is.

Maga az indexel kifejezés eredete: http://en.wikipedia.org/wiki/Index_%28information_technology%29 , a Google kereső Speciális kereső-kifejezése segítségével (define:”kifejezés”) képet kaphatunk arról, hogy hányféle összefüggésben használják még ezt a kifejezést.

Az indexelés folyamata

A Keresőoldalakra regisztrálás és Keresőrobot első látogatása között legrosszabb esetben akár egy hónap is eltelhet. Utána még pár napra lehet szükség, hogy az oldal adatai feldolgozásra kerüljenek, majd eztán megjelenjenek a Találati rangsorban. További időbe kerül az oldal helyezésének konszolidálódása, illetve az, hogy az oldal PageRank értéket kapjon. A bekerülés folyamata azzal gyorsítható meg, hogy fontos oldalakról Külső hivatkozásokat hozol létre. Ennek egy egyszerű módja akár a Katalógusokba regisztrálás is. Először vélhetőleg csak kevés oldal fog bekerülni a webhelyről, (lehet, hogy első körben csak a Nyitólap) és aztán a következő körben fog mélyebbre hatolni például a Google Inc. keresőrobotjai. Mindemellett kipróbálhatod a Google Sitemaps szolgáltatását a bekerülés meggyorsítására.

Képek indexelése

A képek indexelése némileg más tészta, mert külön zajlik a szöveg indekszelésétől. A Keresőrobotok nem húzzák le a képeket olyan gyakorisággal, mint a szöveget, mert az óriási adatforgalmat eredményezne.

Részleges indekszelés a Google keresőnél

A Google adatbázisában sok olyan weblap található, amiről gyakorlatilag csak egyetlen adata van a keresőnek, az Elérési útvonal. Ilyen lapok például a jelen webhely tartalomkezelője által nyújtott plusz szolgáltatásokhoz tartozó weblapok, melyeket nagy mennyiségben a Google Inc. keresőrobotjai csak kb. nyolc hónap elteltével kezdett beindekszelni. Ezeknél az oldalaknál ez teljesen rendben is van, hiszen a Látogatók számára önmagukban ezek teljesen értéktelen oldalak.

A „Felgöngyölítés” című bejegyzést 2005. 08. 09. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2008. 09. 04., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Nyelvújítás

2007. 10. 09. 06:58 · Névtelen hozzászóló →

Mivel Oldalgazda szereti a magyarosított szakkifejezéseket (ld. felgöngyölítés), beszámolnék egy újabbról, bár ez csak részlegesen lett magyarítva: a Live súgójában a „web crawler”, vagyis a keresőrobot magyarul „webbejáró” néven szerepel 🙂 Igazán nem kellett volna félúton megállni: legyen „hálóbejáró”!

Felgöngyölítés

2007. 10. 09. 11:34 · Névtelen hozzászóló →

Én a palacsintát göngyölítem fel 😉

Re: Nyelvújítás

2007. 10. 11. 05:07 · OldalGazda →

Igen, szeretem a magyarosított szakkifejezéseket, amennyiben értelmesek. (Aki túl sok angol szót használ a beszédében, az vagy lusta, vagy félművelt, és ebből egyik sem szimpatikus.) A hálóbejáróval kapcsolatban pedig (beírtam a Keresőrobot bejegyzésbe) annyi, hogy talán a webbejáró annyiban szabatosabb, hogy a háló az az internet, aminek a web csak egy része. Ui: a palacsintát én is göngyölíteni szoktam 🙂

Hány példány?

2008. 09. 04. 04:34 · Névtelen hozzászóló →

Egyszerre hány példányban, változatban létezhet egy oldal indexelve?Mindjárt érthető lesz!

Volt (van) egy oldalam, mely két témával foglalkozott (egy .php lap, így értendő).Mindkét témában első volt a Google számára.

Időközben akkorára nőtt, hogy elérkezett a vágás időpontja, két oldal lesz belőle.Na most az eredeti oldalt fájdalmasan meg kellett változtatni (+ téma, – téma, H tag-ek, title, description, stb.), várom a kereső reakcióját.

A reakció jött is!

A változtatás 29-ei, minden nap néztem, semmi. Tegnap (3-án), állítólag 31-én indexelte, de én ezt 2-án miért nem láttam? Szintén tegnap megnéztem mégegyszer már elsején indexelte. Az új tartalommal, de még mindkét keresőszóval rátalál.

Ma a levágott oldal kifejezéseire kerestem, és mit találok ? az eredeti oldalt, az eredeti tartalommal, title-el, de csak a találati oldalon, ha a tárolt változatra kattintok, akkor az elsején indexelt új oldalra jutok.Az érdekes, hogy erre a kifejezésre továbbra is első az oldal, de már nem is szerepel benne ez.

Gondolom még nagy vátozások előtt állok :-).

Hány példány?

2008. 09. 04. 05:52 · Névtelen hozzászóló →

Azért pár nap nem sok idő az indexelés szempontjából, kiváltképp, ha nem egy nagyobb, a keresőnek fontosnak tűnő oldalról van szó. Azt is add hozzá a jelenség magyarázatához, hogy lehet, hogy egyik nap másik adatközpontból kapta a találatokat a kereső, és azon az adatközponton ez az információ még nem került szinkronizálásra a többivel.