Web spam

február 27, 2005

Keresőoldalak találati listáinak szennyezése

A web spammelésének nem sok köze van a „hagyományos” email spam-hoz, még sincs rá jobb szó. Talán a webszennyezés lenne a legjobb kifejezés: a web spam (kereső spam) célja a kereső programok félrevezetése, az arra „méltatlan” oldalak találati ranglistán előkelő helyekre juttatása, elszennyezve ezzel a Találati rangsorokat A sok érdektelen, haszontalan oldal exponálásával megnehezítik a Céltudatosan kereső felhasználók életét, így a keresőoldalak és a keresők felhasználói egyaránt károsultjai a webszennyezésnek. Az előbbieknek folyamatosan kötik le erőforrásait a web spamet használó oldalak kiszűrésére tett újabb és újabb erőfeszítések, az utóbbiak pedig egyre nehezebben találnak rá az őket érdeklő, hasznos oldalakra. Egyes témában, a Weben legelterjedtebb nyelveken akkora a spammelés mértéke, hogy az már komolyan nehezíti a keresést. A web szennyezése az e-mail spammel ellentétben nem illegális tevékenység.

A web spam célja az, hogy minél több, a céloldalakra mutató Külső hivatkozást hozzon létre, illetve a céloldalakra mutató Linkre rakott kulcsszavaksegítségével az egyes Kereső-kifejezésekkel kapcsolatban jó helyezésre hozza fel a céloldalt a Találati rangsorokban.

A keresőspam módszerei, eszközei

  • Saját oldalakon automatizált megoldásokkal (értelmetlen) tartalom generálásása. Nagyszámú weblap létrehozásával és megfelelő linkelésével a PageRank értéket felturbózva a [Link spam]melés szempontjából értékes hivatkozó oldalak hozhatóak létre. Ezek az oldalak formailag sokszor blogok, melyeknek előfordulási aránya egyesek szerint megdöbbentő méreteket ölt: http://www.geektronica.com/2005-06-30-the-strange-world-of-blogspot-spam-blogs
  • Lejárt domainnevek megvásárlása és újraaktiválása azok PageRank értékének kihasználására (A használaton kívüli oldalakra sokszor továbbra is számos értékes hivatkozás mutat, a hivatkozó oldalak, katalógusok aktualizálásának hiánya miatt.)
  • visszaélés mások oldalaival: Komment spam, Wiki spam, Referrer spam formájában külső hivatkozásokat generálva.

Web spam fajtái

Link Spam: visszaélés a weblapok számával

Minden weboldal létezése révén, alanyi jogon kap egy szavazatot a weblapok általános fontosság szerinti Rangsorolása során (lásd például PageRank technológia). Ezzel a körülménnyel élnek vissza a linkspammerek, amikor olyan webhelyeket hoznak létre, melyeken rengeteg automatikusan generált weboldal található értelmetlen, haszontalan tartalommal (Lásd a Példa keresőspam-re cikket). Nagyszámú weblap megfelelő összelinkelése esetén például magas PageRank értékeket adhatnak át ezek a Linkfarmnak is nevezett weblap-komplexumok más, értelemmel bíró webhelyeknek, közvetve javítva így azok helyezéseit a Találati rangsorban.

A témában való további elmélyüléshez jó kiindulópontként szolgálhat Benczúr A. András, Csalogány Károly, Sarlós Tamás és Uher Máté angol nyelvű publikációja: SpamRank – Fully Automatic Link Spam Detection (130 kilobájtos PDF fájl)

A „Web spam” című bejegyzést 2005. 02. 27. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2006. 12. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások