Láthatatlan web

május 6, 2005

Keresők által elérhetetlen weblapok összessége

Mivel manapság már rengeteg dolgot meg lehet találni az interneten, hajlamosak vagyunk olykor azt gondolni, hogy ami nem található meg a keresők segítségével, az nincs is. Kétfajtaképpen fordulhat elő, hogy egy információ gyakorlatilag ne létezzen az interneten: vagy nem készítettek olyan weboldalt, ahol fellelhető lenne az információ, vagy készítettek, de a weboldal maga a láthatatlan web (angolul invisible, deep, stb. web) részét képezi. A láthatatlan webhez pedig azok az oldalak tartoznak, melyeket a Keresőrobotok nem tudnak, vagy nem akarnak beindexelni. Gyakran ez a láthatatlanság csak időleges, melynek leggyakoribb oka, hogy nem telt még el elegendő idő ahhoz, hogy a keresõk felfedezzék az oldalt, megtörténjen a Felgöngyölítés.

Miért nem akarja egy spider beindexelni az oldalt?

vagy azért, mert a kereső működtetői úgy gondolják, hogy egy adott információtípus, fájlformátum Felgöngyölítése nem lehetséges vagy nem érdemes,
vagy pedig az adott kereső fenntartói szankcionált kereső-optimalizáló trükkök (pl. Web spam) használata miatt törölték az oldalakat adatbázisukból.

Miért nem tudja a robot beindexelni az oldalt?

Manapság keresőrobotok már minden helyre el tudnak jutni, és idővel egy átlagos weboldal majd’ összes weblapját felgöngyölítik: ilyen kivétel, ha rosszul csináltunk valamit, vagy direkt nem akarjuk, hogy bekerüljön az oldal a keresők adatbázisába. Vannak továbbá olyan információtípusok, melyeket a technika mai állása szerint nem, vagy csak részben lehet beindexelni.

Nem törént meg a Keresőoldalakra regisztrálás és nem mutatnak a webhelyre Teljes értékű linkek semmilyen külső oldalról sem.
Jelszóval, felhasználói névvel védettek az oldalak
Internetről nem elérhető, például intranet oldal esetén
A robots Meta tagok (META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW” beállítással), vagy a robots.txt használatával korlátozott a keresőrobotok működése
Problémás technológiák felhasználása miatt a keresőrobot nem tudja a weboldalt egy bizonyos mélység után beindexelni.
Dinamikus, adatbázisok lekérdezésével generált oldalakon található információk nagyja is sokszor rejtve marad. (egy robot pl. nem fog nekiállni kitöltögetni különböző űrlapokat.)
A mutimédiás tartalom java is beindexeletlen marad a Szabadszavas keresők által, mint például Java, és egyéb speciális plugin-t igénylő tartalmak, mint például a DWF formátumban tárolt műszaki rajzok, vagy akár csak a képek(en olvasható szövegek), zenék, hangfelvételek, videók. Bár ez utóbbiak indexelésére már folynak a kísérletek. (Pl. Google videó kereső)

Keresés a láthatatlan weben

Ha olyan információra szeretnénk keresni, ami nagy valószínűséggel nem található meg a látható weben, akkor ajánlatos azokat az oldalakat, adatbázisokat megkeresni, melyek bár lehetővé teszik látogatóik számára adatbázisaik lekérdezését, azonban a Keresőrobotok nem képesek beindexelni tartalmukat. Ezen webhelyek általában nem teljes mértékben láthatatlanok a keresők számára, ezért a konkrét kulcsszavak helyett a témakörre, illetve a lehetséges adatbázisokra keressünk rá: jó ötlet például a {témakör jellemző kulcsszavai} + „adatbázis” (vagy angol nyelven „database”) jellegű Kereső-kifejezésekkel operálni.

Hogyan lehet elérni, hogy egy weboldal rejtve maradjon?

lásd: Weboldalak elrejtése

A „Láthatatlan web” című bejegyzést 2005. 05. 06. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 10. 29., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.