robots.txt

augusztus 2, 2005

Keresőrobotok viselkedését befolyásoló fájl

A webhely gyökérkönyvtárában elhelyezett robots.txt nevű, egyszerű szöveges fájl segítségével meghatározhatjuk, hogy a különböző User agenttel bejelentkező Keresőrobotok a webhely melyik könyvtárát vagy fájlját nem idekszelhetik be. Noha a robots.txt fájlnak a legtöbb webpók engedelmeskedik, ez a fájl önmagában nem jelent technikai korlátot a keresőrobotok és az offline böngészők számára. A robots.txt mellett még a Robots Meta tagok segítségével is befolyásolhatjuk a keresőrobotok működését.

robots.txt használata

Ha például egy fájl elérését meg akarod tiltani a Keresőrobot mindegyikének, akkor ezt írod bele:
```
  User-agent: *  Disallow: nem-akarom-ezt-megmutatni.htm
```

Ha egy könyvtárat akarsz letiltani, akkor így add meg:

  User-agent: *  Disallow: /titkok/  Disallow: /csunyasagok/

Ha az egész oldaladtól akarod távoltartani -a robots exclusion protokoll-nak engedelmeskedő pókokat-, akkor pedig ezt írd be:
```
  User-agent: *  Disallow: /
```

A http://www.robotstxt.org/wc/exclusion.html oldalon lehet több információt szerezni többek között arról, hogy hogyan is kell pontosan kinézni egy ilyen fájlnak.

Kiterjesztések

A http://sitemaps.org szerint a Google Sitemaps formátumnak megfelelő oldaltérkép helyét az alábbi módon is meg lehet adni:

  Sitemap: http://webni.innen.hu/sitemap.xml

Robots.txt ellenőrzése

A »robots.txt checker« kereső-kifejezésre rákeresve számos online szolgáltatásra találhatunk, melyek lehetővé teszik a megadott URL-en elérhető robots.txt fájlok elemzését; érdemes többet kipróbálni belőlük.

A Google Webmaster Tools is rendelkezik olyan funkcióval, mely segítségével leellenőrizhető, hogy mit lát és hogyan értelmezi a robots.txt direktíváit a Google által használt összes Keresőrobot. Az oldal ellenőrzése (Verify) után a „Diagnostic” lapon a „Tools” almenüben találhatjuk meg a „robots.txt analysis” menüpontot.

Példák a robots.txt felhasználására

Hasznos lehet, ha nem szeretnénk, hogy sokan lecincálják az egész webhely tartalmát offline böngészőkkel, mint pl a HTTrack, kiváltképp, ha tárhelyünk a havi adatforgalma korlátos. Erre gondoltam én is beüzemelni egy robots.txt fájlt, azonban konkrétan a HTTrack azt mondta a „Disallow: /” (tehát mindent tiltó) kitételre, hogy túlságosan szigorúak a feltételek és ezért nem veszi figyelembe. Mivel az összes fájl a gyökérkönyvtárban található, még egyes mappákat sem tudtam letiltani.

Másik kézenfekvő megoldás lehet, ha egy webhely több címen érhető el, mi viszont csak az egyik cím alapján szeretnénk beindekszeltetni, akkor letilthatjuk a többi változatot. Például a webni.innen.hu elméletileg innen.hu/webni címről van átirányítva, továbbá az innen.hu tartalma más URL alól is elérhető. Én nem szeretném azonban, ha véletlenül e címekbe botlik egy keresőrobot, akkor ezeket is végigindekszelje, és többször szerepeljen az oldalam valamelyik kereső adatbázisában.

Pusztán a robots.txt jelenléte elegendő ahhoz, hogy egyszerűen nyomon követhessük, hogy a látogatók mekkora hányadát képviselték a keresőrobotok. A webpókok ugyanis minden látogatásuk alkalmával kikérik ezt a fájlt, és így a robots.txt letöltéseinek száma alapján az olyan Látogatottsági statisztika segítségével is képet kaphatunk az általuk generált forgalomról, mely egyébként nem összesíti, hogy hány webpók látogatónk volt (mint pl. a Webalizer).

^{2005. augusztus}A Google kereső rendszere okosabb mint a többi keresőé: automatikusan detektálta, hogy ugyanaz a tartalom más címen is tükrözve van, és csak azt a címet hagyta meg adatbázisában, amelyikre Külső hivatkozások is mutattak. A Yahoo! kereső rendszere nem volt ennyire okos, és –igaz az én hibámból– duplán, más URL alatt is bekerült weblapokat csak a robots.txt fájl segítségével tudtam eltávolíttatni, és ez is több mint egy hónapba került.

A „robots.txt” című bejegyzést 2005. 08. 02. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2008. 11. 14., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.