Keresőoldalak összehasonlítása (2004. február)

október 30, 2004

Az oldal tartalma már elavult.

Aktuális verzió: Keresők összehasonlítása

Melyik kereső programmal lehet a legjobban keresni magyar nyelvű weboldalak között? : Google kereső, [vizsla.origo.hu], heureka.hu, goliat.hu, altavista, Yahoo! kereső, Hotbot, Teoma?

Ebben a cikkben többféle megközelítésből kerülnek górcső alá a legnagyobb Szabadszavas keresők. Ha nem akarod végigolvasni a cikket, íme a végeredmény: a legjobb kereső szerintem a Google, Második legjobb az alltheweb.com, ami ugyanazt az adatbázist használja, mint a vizsla, viszont sokkal egyszerűbb, gyorsabb, nyugtatóbb a kezelőfelülete. (ha nem zavar a magyar nyelvű keresőfelület és az origo katalógusának hiánya) A többi keresővel a dolgok jelenlegi állása szerint nem érdemes foglalkozni.

Magyar nyelv specifikus kérdései

1)Magyar nyelvű tartalom felismerése, magyar oldalak közötti keresés lehetővé tétele.

2)Ékezetek kezelése: Ékezetes karakterek helyes felismerése, bármilyen kódolásban is legyen a szöveg.

3)Szótövezés: Magyar nyelvű szavak szótövének megállapítása, és nemcsak a keresőszó, hanem a szó toldalékolt alakjainak (többesszám, toldalékolt alakok, stb.) is figyelembevétele.

Adatbázis minősége

4)Minél több lap: Megfelelően sok lap van beindexelve és feldolgozva a kereső adatbázisában

5)Minél aktuálisabb állapot: Folyamatos és nagyarányú indexelés következtében a friss oldalak változásai minél hamarabb bekerülnek a kereső adatbázisába, a teljes adatállomány újraindexelése rövid időn belül bekövetkezik.

6)Csak valódi tartalom: Kizárólag a spammolás érdekében létrehozott, egyébiránt haszontalan oldalak kiszűrése

Találati lista minősége

7)Fontos dolgok kiemelése: Hiába a sok beindexelt oldal, ha a találati lista nem a leginkábbodaillő, legfontosabb oldalakat hozza ki a legjobb helyezésekkel, egy kulcsszóra rákeresve.

Felhasználói felület minősége

8)Egyszerűség: Könnyen áttekinthető, gyorsan betöltődő (nyitó)oldal.

Milyennek is kellene lennie az ideális keresőnek ?

Vizsgálatunkhoz felhasználjuk a Szószablya projekt web-gyakorisági szótárát: az ebben leggyakrabban előforduló 20 magyar szóra keresve elemezzük a keresők működését: (Köszöntettel tartozom Németh László-nak hasznos segítségéért)

  • A beindexelt lapok hozzávetőleges nagyságrendjéről kaphatunk képet, ha rákeresünk a leggyakoribb szavakra
  • Mivel ezek a szavak szinte minden oldalon előfordulnak, ezért a találati listák legelső helyezéseit a magyar web legfontosabb oldalainak kellene elfoglalnia ideális rangsorolási algoritmus esetén.
  • Bizonyos időközönként rákeresve erre a 20 szavas készletre, nyomon lehet kísérni a keresők adatbázisának változásait.

A keresőkről általában

Robotok indexelik az oldalakat. A Keresőrobot segítségével adatbázisok épülnek. Egy adatbázist sokszor több keresőszolgáltatás használ. Kicsit kusza, hogy ki milyen adatbázist használ, illetve melyik keresőszolgáltatás ésadatbázis kinek a tulajdonában van, mert sok az átfedés. Az alábbi táblázat áttekintést ad a főbb robotokról, és az általuk épített adatbázisok főbb elérhetőségi helyeiről.

googlebot [Google] és Yahoo! kereső
Larbin goliat.hu
Fast-Webcrawler Alltheweb és [vizsla.origo.hu].Origo
Inktomi Slurp HotBot és MSN kereső
Scooter Altavista
  • a [Goglebot], fast-webcrawler és a scooter az egyes cégek saját fejlesztése, de a saját szolgáltatásokon kívül számos partner keresőszolgáltatás használja még adatbázisukat.
  • a larbin egy nyílt forráskódú indexelőprogram, melyet valószínűleg a goliat.hu is használ
  • az inktomi-nak nincsen saját keresőoldala, csak más keresőszolgáltatásokon keresztül érhető el. Sajnos ezért kevésbé jól használható magyar nyelvű keresésre.

A vizsgálandó keresők kiválasztása

1) Magyar nyelvű tartalom felismerése

  • Kiestek a rostán az alábbi keresők: Ask Jeeves / Teoma, Gigablast

2) Ékezetek kezelése

  • A goliat nem ismeri fel a html entitásokkal kódolt ékezetes betűket, hanem kihagyja. (Õ = Ő például)
  • Az inktomi nem képes a latin-1 karakterkészleten kívül eső betűket kezelni: (pl. ő és ű)

3) Szótövezés

  • Nemrég vezette be a [Google] új algoritmusát, amely már képes angol szavakat szótövezni

4) A beindexelt magyar nyelvű oldalak mennyisége

  • Sorban rákerestünk a leggyakoribb húsz magyar szóra, melyek:
    a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha

Sok esetben a kereső nem adott találatot, vagy azt jelezte, hogy nincsen találat, vagy pedig túl általánosnak minősítette a keresési feltételt. A diagramon látható lyukak ezért keletkeztek egyes keresőknél.

összes kereső találatainak áttekintő diagramja

Jól látható, hogy a Fast (origo vizsla és alltheweb) adatbázisa nagyságrendekkel több oldalt jelzett, mint a [Google]-é. Valószínüleg ennél is jobb helyezést ért volna el a goliat, de nem hagyott keresni a leggyakoribb öt magyar szóra. Ezért az alábbi diagram már csak az 6.-20. leggyakoribb magyar szavakat vizsgálva összegez: Alegnagyobb meglepetés, hogy a [Google] csak a középmezőnyben foglal helyet.

összes kereső találatainak öszesített diagramja

5) A beindexelt magyar nyelvű oldalak frissessége

Az adatállomány frissességének egyik jele, ha változik a beindexelt oldalak mennyisége. (optimális esetben bővül) Az első vizsgálathoz képest megismételtük a keresést egy nap és egy hét múlva. A goliat által kijelzett találati oldalak száma semmit sem változott, ez alapján valószínűsíthető, hogy az adatbázis semmit sem változott egy hét alatt.
A [Google] és az Alltheweb adatbázisának bővülését az alábbi diagram mutatja:

összes kereső találatainak öszesített diagramja

Az adatbázis naprakészségének másik jele, ha aktuális, nemrég felkapott témákra, kulcsszavakra keresünk rá: három kulcsszó (konbinációt9 vizsgáltunk, mindegyik a vizsgálat időpontjához képest uszkve három héttel hamarabb került be a köztudatba: „való világ 3”, egyik beköltöző: „Pandora”, aki sokáig a legkeresettebb kulcsszó is volt,illetve egy internetes jelenség, a halapenz.hu-val kapcsolatos botrány/polémia miatt a „hálapénz” kulcsszó.

„pandora” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
Egy oldal a pandora.inf.elte.hu gépről és kilenc oldal a www.pandora.hu -ról, a keresett témához semmi közük. (5375 találat) Egy Pandora’s Box nevű szexvideó oldal, a P.Box együttes nyitólapja kétszer, két oldal az elte pandora nevű gépéről. Pozitív, viszont, hogy a találatokat több csoportba rendezte, és felkínálta a választást a különböző csoportok között: a friss hírek, hírek, magyar csoport között megjelenik a keresett téma is, bár a [Google]-nél jóval kevesebb és kevésbé releváns találattal. (13706 találat) Az első két oldalvalami az uhulinux oldaláról, de az összes többi konkrétan a keresett témával foglalkozik, két kattintáson belül el lehetett jutni a hölgy honlapjáig is… (11500 találat) Öt találat ugyanaz volt, mint az Alltheweb eredménye, de megjelent a televíziós műsor hivatalos honlapja is az oldalak között.(2891 találat)

„való világ” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
AValó Világ 2. szériájához köthető kevéssé fontos öt oldal: (pl. hanganyag, operatőrök oldala, stb.), Illetve a házat felépítő cég három oldala szerepel az első helyezések között. (8474 találat) Első az aktuális műsorfolyam hivatalos oldala, második egy azóta megszűnt, vélhetőleg nemhivatalos oldal, egyébként blog bejegyzések, fórum, kapcsolódó hírek és vélemények. 10. lett itt is a házat készítő cég. Csupán kettő, nem a témával folgalkozó oldal volt. (18400 találat) Első a VV 3 honlapja, második a VV1, harmadik a VV2 honlapja, további hat nagy portálok témával foglalkozó oldala, az utolsó szintén az, de egy kisebb oldalon megjelentetett vélemény. Talán kissé túlprezentált az origo portáljának jelenléte, a három hivatalos VV honlapon túl még négy origós oldal jelent meg. (Az alltheweb-en keresve, ami olyan mintha az Origó Vizsláját kérdeznénk, csak egyszer jelenik meg Origós oldal.) (27335 találat) Kissé más találatokat hozott ki, mint a [Google],az Origo oldalai nem voltak annyian (7 helyett csak négy), de a VV3 és a VV1 oldalát ugyanúgy kihozta, tehát használhatóságban semmiben sem maradt el az eredménylistája. (6518 találat)

„hálapénz” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
Aparaszolvenciával általánosságban foglalkozó oldalak, ebből hat találat ugyanarról a szerverről, melynek első helyezett lapja 1998-ban íródott. (105 találat) A paraszolvenciával általánosságban foglalkozóoldalak, színes hírtől kezdve a komoly híren át a kamara etikai kódexéig. Feltűnik a 8. helyen a halapenz.hu egy azóta már leszedett oldala! (7658 találat) Hét találat foglalkozott konkrétan a halapenz.hu-val. Ebből egy már arról szólt, hogy megszűnt a kérdéses oldal, négy pedig az oldal tartalmának klónozásairól számolt be, atöbbi a témával foglalkozó topic volt. (14000 találat) Hetedikként megjelent a halapenz.hu, mégis a legtöbb oldal a (hét) a keresett témához volt kapcsolható, de találatok nagyobb portálok nyitóoldalaitjelezték, ahol egyszer valamikor feltehetőleg szalagcímként feltűnt a téma, nem pedig maguk a témával foglalkozó konkrét oldalak címei kerültek beindexelésre. (2633 találat)

A legjobb találatokat a [Google] szolgáltatta,
második legjobb az Inktomi adatbázisából dolgozó Hotbot lett, de a különbség igyen kicsi az Alltheweb-hez képest, ami lehetett véletlen is. Helyezését indokolja az is, hogy jóval kevesebb beindexelt lapból hozta ki esetenként a Google-t is elérő hasznosságú találati listáját.
azAlltheweb találatai illeszkedtek a kulcsszavak jelentéséhez, bár az aktuálisabb jelentéstartalmukkal kapcsolatban kevésbé igazítottak el, ha a lap alján felkínált további kulcsszó szerinti csoportosításokra kattintottunk, akkor használhatóbbak voltak a találatok.
A goliat.hu egyszerűen leginkább használhatatlan találatokat adott.

6) Az értékes tartalom előtérbe helyezése

Az előző pont keresései is érdekes információkkal szolgálhattak e tekintetben, de ellenőrizzük le egy egyszerű kereséssel a keresőmotorokat. Mindenki a saját műfajában indul: rákeresünk a kereső nevére ugyanabban a keresőben. Mit tud magáról a keresőprogram? Mindenhol a magyar nyelvű oldalak között kerestünk.

alltheweb, altavista, hotbot

Nekik nincsen magyar nyelvű kezelőfelületük, úgyhogy értelemszerűen nem versenyezhetnek ebben a számban.

goliat : keresőszó: goliat

Első az index szabadszavas keresője, amit a goliat hajt, utána egy goliat.c3.hu nevű gépről jönnek minfenféle forgalmi statisztikák kilométer hosszan. A goliat.hu oldal sehol.

alltheweb (=vizsla.origo.hu) : keresőszó: vizsla

Az első találat az origo.hu, a második a vizsla.origo.hu, ami teljesen rendben is van. Van mág pár oldal a vizsláról mint kutyáról és az origo egy linkfarm jellegű megoldása.

google : keresőszó: google

Az első találat az a google.co.hu, a többi nagyjából nagyobbacska oldalak [Google]-val foglalkozó cikke.

7) Felhasználói felület

Az alábbi táblázat bemutatja, hogy az egyes keresők nyitóoldalainak eléréséhez mennyi adatot kell letölteni. A diagramból kitűnik, hogy miért jobb az alltheweb.com felületéről elérni a vizsla.origo.hu által is használt adatbázist. A második legnagyobb oldalméretet a goliat.hu szolgáltatta, több adatot kellett egy egyszerű nyitólaphoz letölteni, mint a Yahoo! kereső igencsak túltelített oldalának megtekintéséhez. Plusz még kéretlenül felugró reklámablakot is kapunk. A Hotbot-nál nagyon szimpatikus a csak szöveges felület választásának lehetősége. Bárvalószínűleg ennek a régebbi böngészőkkel való kompatibilitás is az indoka.

A vizsgálat:

A cikk írása óta a Yahoo! kereső áttért az Inktomi adatbázisának használatára, az MSN pedig saját roboton dolgozik. Az Alltheweb is úgy látszik, átvenni készül  valamiféle Yahoo! kereső keresőtechnológiát, mint azt az URL hozzáadására szolgáló oldalon írják.

A „Keresőoldalak összehasonlítása (2004. február)” című bejegyzést 2004. 10. 30. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 07. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások