Címke: keresőoldalak

Melyik a legjobb kereső?

Ez a cikk nem törekszik tudományos igényességre, viszont többfajta szemszögből is megvizsgálja a keresők működését, úgymint:

  • Keresőadatbázisok mérete
  • Az adatbázisok használhatósága
  • Keresők adatainak frissessége
  • Keresőrobot aktivitása
  • Keresőprogramok felhasználóinak száma

A vizsgálatok 2005 augusztus végén, szeptember első napjaiban készültek, tehát a 2005 augusztusi állapotokat tükrözik.

Változások az elmúlt fél évben

A magyar nyelven való keresés szempontjából két fontos esemény történt az elmúlt fél évben:

  • az MSN kereső keresővel már lehet magyar nyelvű kezelőfelülettel, magyar nyelvű weboldalakra leszűkítve is keresni.
  • új magyar gyártású, komoly keresőadatbázissal rendelkező keresőprogram jelent meg, a kurzor.hu kereső

A vizsgálatban részt vevő keresők

Csak olyan keresőket vizsgáltam meg, melyeknél mód van kizárólag magyar nyelvű weblapok közötti keresésre is. Összesen kilenc keresőt vizsgáltam, melyek használati értékük alapján három csoportba sorolhatóak be. A felsorolás sorrendje nagyjából a keresők használhatóságának sorrendjével egyezik meg, és egyben a vizsgálat konklúziójának is tekinthető.

Nagy nemzetközi keresők, melyekkel minden megtalálható

Hasznos magyar keresők, gyakorlatilag mindent megtalálnak

További magyar keresők, komoly adatbázissal

AlapműIndex

A zoohoo.hu, heureka.hu, goliat.hu keresők kivételével minden kereső segítségével meg lehetett találni mind az öt alapművet (bővebben lásd: AlapműIndex). Az indexek értéke a következőképpen alakult:

A fenti adatokból jól látszik, hogy bár a Yahoo! kereső! és az MSN Search némileg több releváns oldalt tart adatbázisában, mint a Google, ám ezt a Google híresen jó Rangsorolása kompenzálni tudta. A felsorolásban szereplő három magyar üzemeltetésű keresőoldal már jóval kevesebb, negyedannyi, ötödannyi oldalt talált meg, rangsorolásuk hatékonysága azonban meglepően jó.

Adatbázisok mérete gyakori magyar szavak alapján

A keresőadatbázisok méreteinek összehasonlítása a a SzóSzablya szerint az interneten található húsz leggyakoribb magyar szó (a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha) segítségével történt. A keresett szavakra kiírt találatok száma az alábbi grafikonon tekinthető meg:
A leggyakoribb húsz magyar szóra adott találatok a fontosabb keresőkben.

A diagramon jól látszik, hogy két kereső, a Yahoo! kereső! és a goliat.hu kimagaslóan sok találati oldalt jelentett. A keresések tapasztalatai alapján (lásd AlapműIndex meghatározása) a goliat.hu által kijelzett értékek nem tekinthetőek valósnak (lásd például ezt az eredményt), a Yahoo! kereső! által jelzett értékeket szintén fenntartásokkal kell kezelni. Nem szabad szem elől téveszteni továbbá, hogy a Keresőadatbázisok mérete nem minden! Az alábbi diagramon csak a reálisabbnak tűnő eredményeket kijelző keresők szerepelnek:
A leggyakoribb húsz magyar szóra adott találatok a fontosabb keresőkben 2.

Megfigyelhető, hogy néhány kereső egyes kulcsszavakat ún. Stopszónak vett, ezért nem írt rá ki találatot. Továbbá a zoohoo.hu kereső ezzel a módszerrel nem vizsgálható, mert nem írja ki a találati oldalak számát.

Adatbázisok mérete az Alapműindex alapján

A Yahoo! kereső! és a goliat.hu által kijelzett találatok száma iránti kételyeimet némileg alátámasztja a vizsgált alapművekre rákeresés során kapott találatok száma: A Yahoo! kereső! itt is a legtöbb találatot nyújtotta, de számbeli fölénye nem olyan kiugró mértékű, mint a fenti diagramon. A goliat.hu pedig a mezőny közepén található úgy, hogy volt olyan kifejezés, amelyre egyáltalán nem adott találtatot, szemben a többi vizsgált keresővel.
A fontos keresők találatainak száma a vizsgált alapművekre.

Adatbázisok frissessége

A keresők adatbázisaiban szereplő adatok frissességét a weben újonnan megjelenő szavak, kifejezések segítségével tesztelhetjük. Az index.hu augusztus végi cikkei között böngészve öt új kifejezést választottam ki tesztelésre:

  • augusztus 14-én jelentette be az Apple, hogy feladja több évtizedes hagyományát és Mighty Mouse néven előáll az első többgombos egér modellel.
  • augusztus 22-én jelent meg az indexen az első cikk a nyári uborkaszezont lezáró „politikai” botrányról, amit röviden csak Szatmári-ügyként emlegettek: román és magyar lapok cikkeztek egy állítólagos román kémnőről, némi erotikus szállal is bonyolítva a történetet.
  • augusztus 24-én indította útjára blogját az MTV elnöke, mely a mi szempontunkból csak a rudizoli kifejezés első megjelenére miatt érdekes.
  • augusztus 26-án jelent meg a Katrina hurrikán pusztításairól az első cikk, mely aztán New Orleans elárasztásával fontos témává nőtte ki magát az interneten is.
  • augusztus 29-én cikkeztek először az életet állítólag meghosszabbító génről, melyet Klóthó génnek kereszteltek el.

A különböző keresőkben a pontos kifejezésre kerestem rá, a kifejezéseket idézőjelbe téve. Mivel a heureka.hu és a goliat.hu keresőkkel nem lehet pontos kifejezésre rákeresni, ezért ebben a versenyszámban nem indulhattak.

szeptember 6. Google Yahoo! kereső! MSN Search vizsla24 Zoohoo SZTAKI kereső kurzor.hu
mighty mouse 4550 2960 891 44 0 23 10 augusztus 14.
Szatmári ügy 9260 1840 323 39 0 0 0 augusztus 22.
rudizoli 137 9 275 5 14 7 0 augusztus 24.
Katrina hurrikán 64400 66800 10502 4316 16 0 0 augusztus 26.
Klóthó gén 953 4090 862 31 0 0 0 augusztus 29.
13947 4809 1489 88 14 30 10

A fenti táblázat jól muatatja, hogy naprakész (hétrekész) adatbázist még mindig csak a nagy nemzetközi keresők tudnak fenntartani.

A következő két vizsgálat 26 véletlenszerűen kiválatsztottk, különböző profilú látogatottságú webhely Látogatottsági statisztika‘i elemzésével készült. Az oldalak egy része saját praxisomból származik, más részüket viszont a [Google] és a Yahoo! kereső keresők segítségével találtam, a “Vizsgálati időszak: Augusztus 2005” Kereső-kifejezés segítségével. Mindegyik webhely Webalizer rendszert használt, és csak a 2005. augusztusi adatokat elemeztem.

Keresőrobotok aktivitása

A keresőadatbázisokban található adatok mennyiségére és frissességére következtethetünk abból is, hogy a számukra adatot gyűjtő Keresőrobot hány találatot okoztak a vizsgált oldalon. A vizsgált oldalakat messze a Google robotja, a Google Inc. keresőrobotjai indexelte részletesebben/gyakrabban, tőlük jóval lemaradva következik a másik két nagy kereső, a Yahoo! kereső ([[Yahoo! kereső]! Slurp] nevű robot) és az MSN kereső ([MSNBot] nevű keresőrobot). Érdekes, hogy a nagy keresők robotjaihoz hasonló mértékű tevékenységet csak a zoohoo.hu kereső számára gyűjtő [Jyxobot] mutatott fel. A [[kurzor.hu] robot]on kívül kimutatható mértékű aktivitás nem volt tapasztalható a vizsgált oldalakon, bár ez nem jelenti azt, hogy a SZTAKI Kereső, heureka.hu, goliat.hu egyáltalán ne látogatták volna az oldalakat.

Vizsgált kereső programok: keresőrobotok által okozott találatok száma. 2005. augusztus

Keresőoldalak felől érkező forgalom nagysága

A vizsgálatban részt vevő keresőoldalakon túl a magyarországi Tematikus katalógusok legnagyobbika, a startlap.hu felől érkező forgalom nagyságát is feltüntettem az alábbi grafikonon. Jól látszik, ha ezt nem tettem volna, akkor a Google szinte egyeduralkodónak számított volna a keresők mezőnyében. A különböző tematikus startlap oldalak felől érkező forgalom mértéke meglepő volt számomra, hasonlóan a kurzor.hu kereső felől érkező felhasználók számához. Ez utóbbi „teljesítménye” azonban a vizsla24.hu szabadszavas keresőjéhez képest eltörpül a [Google] mellett. A Yahoo! kereső és a MSN kereső felől érkező látogatók száma rendkívül kevés volt, a többi kereső felől pedig gyakorlatilag nem is érkeztek látogatók a vizsgált oldalakra.

Kereső programok felől érkező forgalom mértéke 2005. augusztus

Konklúzió

A fenti két vizsgálat alapján négy fő kategóriába sorolhatóak a vizsgált keresők:

  • érdemeinek megfelelően sokan használt kereső: [Google]
  • jó teljesítményt felmutató, weboldalak indexelésébe nagy energiát fektető keresők, melyek használatának mértéke messze elmarad szolgáltatásaik minőségétől: a Yahoo! kereső, az MSN kereső, és kicsit a zoohoo.hu keresők is arra várnak, hogy a felhasználók felfedezzék őket
  • valamilyen okból sokak által használt oldalak, de nem elsősorban szolgáltatásaik minősége miatt: kurzor.hu kereső és kicsit a vizsla24.hu. Előbbi sokat köszönhet annak, hogy a www.google.hu címről sok látogatója érkezik közvetlen átirányítással, az utóbbit pedig az origo portálon betöltött helye miatt használják relatíve sokan.
  • komoly adatbázissal rendelkező keresők, melyek használati értéke még vagy már nem felel meg a mai elvárásoknak, ezért aztán kevesen is használják őket: már: heureka.hu, goliat.hu; még: SZTAKI Kereső

Érdekes továbbá, hogy mennyien használják a *.lap.hu oldalakat: mindez jól mutatja, hogy egy megfelelően szervezett webkatalógus is igen hasznos lehet a mindennapi keresések során.

A „Keresőoldalak összehasonlítása (2005. augusztus)” című bejegyzést 2006. 01. 28. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 06. 05., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Melyik a legjobb kereső program (2005 február)?

A magyar nyelven történő keresésre a legjobb kereső a [Google]. Nem sokkal lemaradva tőle következik a Yahoo! kereső illetve a Yahoo! kereső adatbázisát használó vizsla.origo.hu. Az MSN Keresőnek is az élbolyban lenne a helye, ha le lehetne szűkíteni a keresést a magyar nyelvre. Menetközben figyeltem fel a Gigablast-ra, ami még egy kipróbálásra érdemes alternatív kereső. A többi keresőre véleményem szerint jelenleg nem érdemes az időt vesztegetni.

Vizsgálat

Többfajta módon vizsgáltam a keresőket: A leggyakoribb húsz magyar szóra, nemrégiben keletkezett magyar kifejezésekre, a Himnuszra rákresve, illetve az AlapműIndex segítségével. Ezekkel a vizsgálatokkal az adatbázisok nagyságát, frissességét és a találatok sorbarendezésének hatékonyságát vettem górcső alá.

Az egy évvel ezelőtti vizsgálatokhoz (Keresőoldalak összehasonlítása (2004. február)) képest egyszerűbb dolgom van, tekintve, hogy a Yahoo! kereső bevásárolt keresőkből, így az olyan oldalak mint az http://altavista.com vagy az http://alltheweb.com találatai is már a Yahoo! kereső által fejlesztett adatbázisból származnak. Emellett a [Google] maradt az egyetlen nemzetközi oldal, ahol magyar nyelvre leszűkítve is lehet keresni. (Az MSN kereső és a Teoma oldalain nincs erre lehetőség.) A magyar oldalak közül a [vizsla.origo.hu] került górcső alá, ami a Yahoo! kereső adatbázisából származó találatok alapján működik, ezenkívül a goliat.hu, a heureka.hu és mint új, kísérleti szolgáltatást– a SZTAKI kereső működését vizsgáltam.

Találatok számának elemzése a leggyakoribb húsz magyar szó alapján

Az egyik legfontosabb kérdés, hogy hány magyar nyelvű oldal szerepel a keresőoldalak adatbázisában, mert ha egy weboldal nincsen benne az adatbázisban, akkor nem fogjuk megtalálni a keresőkben. Feltételeztem, hogy a leggyakoribb magyar szavakra rákeresve következtetni lehet a beindexelt lapok nagyságrendjére. Ritka szavak esetén szintén sokatmondó lehet a találatok száma, azonban ebben az esetben nagyobb a véletlen szerepe a kapott eredményekben. Ezért tehát először a a SzóSzablya szerint az interneten található húsz leggyakoribb magyar szóra (a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha) kerestem rá.

  • Korántsem biztos, hogy ténylegesen annyi lap szerepel az adatbázisban, mint amennyit a keresőoldal kijelez.
  • Elképzelhetõ, hogy a találati oldalak nagy száma paradox módon az oldalak feldolgozásának hiányosságaiból ered:
    • majdhogynem természetes, hogy nem magyar nyelvű oldalak is szerepelnek a kapott találatok között, tehát ha egy kereső rosszabb hatékonysággal különbözteti meg a magyar tartalmat a nem magyar tartalomtól, akkor úgy tűnhet, hogy nagyobb az adatbázisa.
    • ha a Tárhely kiválasztása esetén ugyanazt az oldalt más fejléccel, stb. többször is beindexeli a keresõ (például egy hírportál cikkje mellett a gyakran változó aktuális hírek is szerepelnek ugyanazon az oldalon, ekkor az oldal tartalma mindig más és más lesz, alényegi tartalom viszont ugyanaz marad.)
    • ha beindexeli a haszontalan, egyébként a Web spamkategóriájába tartozó odalakat is
    • dinamikus oldalaknál sokszor egy tartalomhoz többféle úton is el lehet jutni, ekkor az oldalak URL-je más és más, de a tartalom szóról szóra ugyanaz (Például egy aktuális hírhez a fõoldalról is el lehet jutni, de a hír kategórájának eloldaláról illetve az Oldaltérkép felõl is.)

    A találatok száma az húsz leggyakoribb magyar szóra rákeresve.

    Kimagaslóan a legtöbb oldalt a goliat.hu jelezte ki, bár az első négy szóra nem engedett rákeresni. Utána következett a [Google], majd a Yahoo! kereső kereső. A szintén a Yahoo! kereső! adatbázisából dolgozó [vizsla.origo.hu] már jóval kevesebb oldalt jelzett ki magyar nyelvű oldalnak, míg a kísérleti üzemmódban működő SZTAKI kereső lett az utolsó helyezett ebből a szempontból.

A keresőprogramok adatbázisainak változása az elmúlt időszakban

A Google volt az egyetlen olyan keresőprogram, ami stabilan bővítette adatbázisát, alapvető technológiai váltások nélkül. Ha kiváncsi arra, hogy az elmúlt egy évben pontosan hogyan változott a keresők által beindexelt oldalak száma, akkor olvasd el a Kereső adatbázisok mérete (2004.) című cikket.

Találatok minőségének elemzése a leggyakoribb húsz magyar szóra rákeresve

Mivel a leggyakoribb húsz magyar szó a weblapok döntő többségében szerepel, ezért ezekre a szavakra rákeresve szinte minden magyar nyelvű lapnak esélye van a találati listára való bejutásra. Ideális esetben a Szabadszavas keresőknak a hasonló találatok közül a legfontosabbakat, legjobbakat kellene a találati rangsor élére kihozni. Ezért a legfontosabb, legnagyobb webhelyek nyitólapjai kellene, hogy elfoglalják előkelő helyeket a Találati rangsorban. Az első tíz találat elemzése alapján azonban nem csak a Rangsorolás hatékonyságát állapíthatjuk meg, hanem nagyvonalakban benyomást kaphatunk, hogy a különböző keresők a weblapok mely tulajdonságait tekintik fontosnak a rangsoroláskor.

Google

Rögtön az a szóra rákeresve több érdekességre figyelhetünk fel: Az első helyezett egy olyan oldal lett, ami egyedül csak egy vicces videót tartalmaz ( http://www.funpic.hu/swf/numanuma.html ). Ez az eset egyértelműen mutatja egyrészt a Külső hivatkozás vagyis a PageRank fontosságát, másrészt a Linkre rakott kulcsszavak erejét ( majd kétszáznegyven bejövő hivatkozást mutatott jelzett ki a Google). Egy másik jelenség miatt egyáltalán nem a legfontosabb oldalak értek el top helyezést: Az oldal címében (elérési útvonalában) szereplő kulcsszavaknak nagyon nagy súlya van. Akkor is számításba kerülnek, ha a keresett kulcsszó csak egy töredékét jelenti az egész elérési útvonalnak (az a betű sok címben, sokszor előfordul Az előbb említett oldal elérési útvonalában is kétszer.) Az ‘és’ keresőszóra kapott találatok is világosan alátámasztják az előbbieket: mivel az ‘és’ ékezetes formában nem szerepel domainnevekben, sem elérési útvonalakban, ezért a találati lista sokkal kiegyensúlyozottabb: az első helyezéseket minisztériumok, egyéb fontos szervezetek és kiadványok nyitóoldalai érték el. Hasonlóan a ‘már’ és a ‘még’ kifejezésekre rákeresve is sokkal több nagyobb webhelyhez tartozó oldalt kapunk. Mivel ezek a szavak ritkábban szerepelnek a weboldalak megnevezésében, címében (TITLE), ezért itt is előfordulnak olyan lapok, melyek beljebb találhatóak egy-egy webhely struktúrájában.

Yahoo! kereső

A Találati rangsor első helyein rengeteg, nem .hu domain alatt bejegyzett oldal található. Egyes webhelyek, egyes ingyenes honlapfarmok, mint például a blogspot.com, angelfire.com vagy a geocities.com meglehetősen túlprezentáltak. Fontos magyar webhelyek helyett fontos nemzetközi helyek magyar nyelvű aloldalai szerepelnek az előkelő helyeken. (pl. http://gnu.org) Mindezek mellett nagyon sok nem magyar nyelvű oldalt tüntet fel magyar nyelvűként. A keresett kulcsszavak többször is előfordultak az első tíz helyezett oldal Szövegtörzs-ében. A google-val ellentétben a kulcsszavak ritkán fordulnak elő a helyezett oldalak címében illetve elérési útvonalában.

vizsla

Bár a Yahoo! kereső adatbázisát használja, találati rangsora azonban annál sokkal-sokkal jobb minőségű: úgy néz ki gyakorlatilag, mintha a legtöbb nem .hu domain alatt található oldalt kiszűrnénk a Yahoo! kereső! találataiból (ezzel sok, tévesen magyar nyelvűnek kijelzett oldaltól is megtisztítva az eredményt). Nem tudom, hogy ezt hogy érik el, a helyükben én biztos, hogy a vizsla katalógusban már benne levő oldalakat preferálnám a szabadszavas keresésnél is. A Yahoo! kereső!-hoz hasonlóan itt is a kulcsszavak többször fordulnak elő a szövegtörzsben, de végeredményben az ideálist majdnem megközelítő Találati rangsor-at kapunk: zömében fontos oldalak kerültek bele az első tíz találat közé.

goliat

A tizenhat találati rangsor első tíz helyén majd’ mindig ugyanaz a bő tucatnyi oldal osztozik (melyek nem sorolhatóak a legfontosabb magyar webhelyek közé), körülbelül az első tíz oldal nyolcvan százaléka ebből a körből kerül ki. A keresett szavakat általában kijelzi akkor is, ha az Elérési útvonalban fordult elő, és akkor is, ha a Szövegtörzsben. A fent említett oldalakkal kapcsolatban ellenben csak elvétve jelzi ki, hogy ezeket a kulcsszavakat fellelte volna. Ezt kétféleképpen lehet magyarázni: vagy a [Google] példáját követve valami PageRank féle algoritmus eltúlzott mértékű használatával illetve a Linkre rakott kulcsszavak túlzott figyelembevételével állunk szemben, vagy egyszerűen csak a goliat.hu-nak valamilyen szinten köze van ezekhez az oldalakhoz; ekkor viszont bújtatott reklámról van szó.

SZTAKI kereső

A kapott találatok általában változatosak, noha fel lehet fedezni néhány olyan (általában nem túl fontos) oldalt, ami sok kulcsszóra rákeresve elöl végez, bár ezek mindegyike tartalmazta is szövegtörzsében és/vagy címében a keresett szót. Emellett fontosnak látszik az is, hogy a keresett kifejezés hányszor ismétlődik az oldalon. Összességében a nagy, fontos oldalak alig jelentek meg az első tíz találat között. Sokszor problémák vannak az ékezetekkel, és volt példa rá, hogy JavaScript kódrészletet is mutatott találatként.

Heuréka

Eléggé változatos oldalakat találni a találati listkban. A freeblog.hu, a blog.nol.hu és a szanalmas.hu az a három lap, amit túlprezentáltnak mondhatunk. Olykor egymás után több aldomain is következik a listákban. A kapott oldalak túlnyomó többségének szerepelt a TITLE-jében a keresett szó. A találati oldala nagy része azonban tavaly decemberben és novemberben került utoljára frissítésre. Pozitív, hogy minden oldalnál kiírja az utolsó indexelés idejét. Negatív, hogy nem emeli ki az oldalon talált kulcsszó szövegkörnyezetét.

Nemrégiben keletkezett kulcsszavakra keresés

Képet kaphatunk a kereső programok adatbázisainak frissességéről, ha nemrég felbukkant, megalkotott szavakra, kifjezésekre keresünk rá. Emellett tovább finomíthatja az egyes adatbázisok nagyságáról alkotott elképzeléseket is. Az alábbi szavakat választottam ki, némileg persze önkényesen:

  • szökőár, a december végi tragikus események kapcsán került be nagy számban az adatbázisokba
  • nyócker, az animációs film címe, tavaly került bemutatásra.
  • fészekrakó, a kormány új kezdeményezése, mely februártól indult, de az év elejétől egyre több szó esett róla
  • hantaméter, az ellenzék ex-kormányfőjének ezévi országértékelése során volt hallható először ez a kifejezés, a múlt héten
  • vizsla24, pár nappal ezelőtt tűnt fel ezen az új néven az origo kereső-szolgáltatása

keresőoldalak találatai néhány újonnan létrejött magyar szóra

goliat heuréka vizsla msn search google yahoo
szökőár 247 9556 14757 28355 98400 360000
nyócker 144 664 906 36297 30200 18100
fészekrakó 8781 867 3836 19103 87400 190000
hantaméter 0 5 5 507 1090 8
vizsla24 0 7 9 1412 2400 72

A grafikon alapján egyértelműen a Yahoo! kereső! tűnik a nyertesnek, ám a táblázatot megnézve jól látszik, hogy a Yahoo! kereső! csak két keresőszó esetén produkált kiemelkedő teljesítményt. Megfigyelhető továbbá, hogy a legújabban (a keresés ideje előtt pár nappal) felbukkant szavakkal kapcsolatban látványosan alulmarad a Yahoo! kereső!, ezzel olyan érdekes helyzetet idéz elő, hogy a [vizsla.origo.hu] kereső-szolgáltatás új neve a vizsla24 jóval kevesebbszer szerepelt a vizsla24 adatbázisában, mint a Google-éban, vagy akárcsak az MSN kereső-éban.
A SZTAKI kereső és a Teoma kereső gyakorlatilag nem adott találatot a fenti szavakra.

Isten áldd meg a magyart teszt

Sokat elmond a keresők szolgáltatásainak minőségéről, ha egy olyan magyar nyelvű alapműre keresünk rá, mint a Himnusz. Alapvető elvárás, hogy a Isten áldd meg a magyart keresőkifejezésre rákeresve a találati rangsor első helyezettje közölje a Himnusz teljes szövegét, emellett nem árt, ha valamilyen pluszinformációt is nyújt a Himnusszal kapcsolatban, egyszóval elvárás, hogy a kersésünk szempontjából leghasznosabb oldal kerüljön az első helyre. Emellett további elvárás, hogy a kereső megfelelően értelmezze szándékunk, és csak az olyan oldalakat listázza ki, amelyekben szerepel a kereső-kifejezés összes szava. Fontos szempont továbbá, hogy anélkül dobja ki a kifejezést pontosan ilyen formában tartalmazó oldalakat a találatok elejére, hogy ezért nekünk bármilyen plusz intézkedést kellene tegyünk (Pl. idézőjelbe tenni a keresőkifejezést, vagy logikai kifejezéseket alkalmazni, esetleg egy további keresőűrlapot kitölteni.)

Google

Egy meglehetősen gagyi kinézetű dalgyűteményes oldal, a tartalom viszont értékes. A szöveghez nincsen semmilyen kommentár, viszont egyből le is lehet tölteni a Himnuszt mp3-ban. ( http://ingeb.org/songs/istenald.html )

MSN Search

Egy amerikai magyar fiatalember személyes honlapja, szöveghű angol fordítással, rövid bevezetővel ( http://www.korossy.org/magyar/himnusz.html )

Yahoo! kereső!, vizsla24

Az angol nyelvű wikipédia oldala, angol fordítással, rövid bevezetővel, ami világviszonylatban kontextusba helyezi a művet. ( http://en.wikipedia.org/wiki/Isten_%E1ldd_meg_a_magyart )

Teoma

Az első találat nem volt elérhető. A második találat szintén egy több webhely által licenszelt online enciklopédia bejegyzése. ( http://www.asinah.net/articles/content/i/is/isten_aldd_meg_a_magyart.html )

goliat

Automatikusan nem vette figyelembe az a szót, viszont a többi szót szókapcsolatokra bontotta és ennek megfelelően első körben el kellett dönteni, hogy pl. az „isten áldd”, „meg magyart” vagy az „isten áldd meg” és a „magyart” előfordulásai alapjánkérjük le a listát. Némi felesleges felhasználói beavatkozás után kapott találati lista élén a himnusz.hu domain szerepelt. Ez nyilvánvalóan egy megvásárolt, de parkolópályán tartott domainnévhez rendelt kultúrált megoldás, ami a teljes szövegen kívűl tartalmaz még pár linket. ( http://www.himnusz.hu )

heuréka

Közel s távol nem lehetett találni olyan oldalt, ami a himnuszról szólt volna. Ehelyett csak olyan találatok szerepeltek, melyek tartalmazták a kereső-kifejezés szavainak valamelyikét.

Alapműindex

A keresők AlapműIndex szerinti rangsorolása a következő volt:

  1. Gigablast : 1645/7
  2. [Google] : 1570/8
  3. MSN kereső : 3132/32
  4. Yahoo! kereső : 1420/18
  5. Teoma, [vizsla.origo.hu], goliat.hu, heureka.hu, SZTAKI kereső : értékelhetetlen

 

A „Keresőoldalak összehasonlítása (2005. február)” című bejegyzést 2005. 03. 22. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 09. 01., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Melyik volt a legjobb kereső 2004. áprilisában?

Az itt leírtak már nem aktuálisak. A Keresők összehasonlítása oldalon olvashatsz az aktuális helyzetről!

 

Az elmúlt negyedévben rengeteg változás történt a kereső-szolgáltatások frontján.

Yahoo.com

A Google adatbázisa helyett már az Inktomi az Fast és az Altavista adatbázisának, vélhetően algoritmusainak felhasználásával épített saját rendszert használ. A sok beindexelt oldal ellenére a találati lista minősége gyatra, leginkább haszálhatatlan, mert

    • Kizárólag magyar oldalak közötti keresés során rengeteg nem magyar nyelvű találat is kilistázásra kerül.
    • .hudomain alatt található oldalak csak elvétve fordulnak elő, leginkább.com .net  domainek vannak jelen. Közöttük is igen gyakori ageocities.com, blogspot.com.
    • A szavak előfordulásának számahangsúlyos szerepet kap, ezért néhány hosszú oldal erősentúlprezentált, illetve a valóban fontos oldalak helyett hosszú, deérdektelen oldalak foglalják el az első helyeket.

Mindazonáltaltetten érhető a fejlesztés, melyet az Inktomira épülő adatbázissalvégeztek. Első látásra a yahoo! eredményei úgy néznek ki, minthabeszúrtunk volna jópár új oldalt az inktomi találatai közé. Jobbanmegnézve megfigyelhető, hogy találati sorrend egy kicsit eltér, kicsitjobb.

vizsla.origo.hu

Az oldalon megjelenik a Yahoo!logója (powered by Yahoo! search), ami a fentiek fényében komolyaggodalomra adhatna okot, azonban hál’ Istennek nem igaz, azaz csakrészben. Ugyanis az oldal továbbra is az Alltheweb.com-nak is szállítóFast adatbázisát használja, mint eddig. Tény továbbá, hogy a Yahoo!tulajdonában áll ez az adatbázis is.

Továbbra is komoly hibái vannak az adatbázisnak, nem tudja igazán jól felismerni a magyar oldalakat, az  el  keresőszóra egyiptomi oldal jön be első helyre, a  de  keresőszóra francia, katalán és spanyol oldalak kerülnek az első tízbe, a  mint  keresőszóra szintúgy jönnek a nem magyar oldalak.

Továbbrasem tökéletes a rangsorolás: úgy gondolnám, hogy a leggyakoribb magyarszavakra rákeresve a legnagyobb webhelyeknek kellene benne lennie azelső 10-ben, azonban ez kb. csak felerészben igaz.

Érdekes szolgáltatás, hogy meg lehet nézni, hogy egy adott pillanatban melyik volt a legutóbbi tíz keresőszó.

alltheweb.com

Valamitörtént. Hiába dolgozik ugyanabból az adatbázisból a vizsla és azalltheweb, ez utóbbi rengeteg idegennyelvű oldalt hoz ki találatként.Mintha a vizsla okosabban „detektálná”, melyik oldal magyar. Nemkezdtem el kutatni mélyebben a jelenség gyökerét, nem különösebbenérdemes ezekkel a keresőkkel foglalkozni, mert sajnos a Google mellettmég mindig a futottak még kategóriában (szebb szóval az alternatívkeresőb között) van a helyük.

hotbot.com

A találati sorrend hasonló a yahoo!-éhoz, de mintha attól árnyalatnyival rosszabbnak tűnne.

google.co.hu

Azutóbbi három hónapban nagy változások történtek a Googletáján, és ez nem feltétlenül a magyar felhasználóknak kedvez.

  • márkijelzésre kerülnek az ékezet nélküli kulcsszavakat tartalmazó oldalakis. Ez nyilvánvalóan hasznos pl.a spanyol nyelvterületen, (ahol azékezetek a hangsúlyt jelölik, de jelentésmegkülönböztető szerepüknéhány kivételtől eltekintve nincsen.) ám a magyar felhasználóknak csakhátrány. Emiatt jóval több találatot jelez ki a kereső mint régebben. 
  • Adomainnevekben található kulcsszavak és ékezettelenített kulcsszavakszerepe megnőtt a rangsorolás során, sőt mitöbb akkor is figyelembeveszi őket, ha domainnév karakterláncának csak egy töredéke, szótagja.Emiatt sok idegennyelvű oldal is előkelő helyet kap a találati listában.

Mindazonáltalmég mindig messze a leghasználhatóbb helyezési rangsort a Googleszolgáltatja, nem beszélve az adatbázis frissességéről és méretéről.

goliat.hu

Atalálati rangsor használhatatlan nem túl jelentős oldalak tűnnek elő,gyakran egy szerveren található, hasonló oldalak foglalják el az elsőtíz helyet.

heureka.hu

A rendszer vesztére kiír dátumotis az oldalakhoz. Lassan történelmi jelentőségű lesz az adatbázisa, nemszabadna frissíteni. Webtörténeti kutatásokhoz ideális, talán.

A „Keresőoldalak összehasonlítása (2004. április)” című bejegyzést 2004. 10. 31. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 04. 01., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Az oldal tartalma már elavult.

Aktuális verzió: Keresők összehasonlítása

Melyik kereső programmal lehet a legjobban keresni magyar nyelvű weboldalak között? : Google kereső, [vizsla.origo.hu], heureka.hu, goliat.hu, altavista, Yahoo! kereső, Hotbot, Teoma?

Ebben a cikkben többféle megközelítésből kerülnek górcső alá a legnagyobb Szabadszavas keresők. Ha nem akarod végigolvasni a cikket, íme a végeredmény: a legjobb kereső szerintem a Google, Második legjobb az alltheweb.com, ami ugyanazt az adatbázist használja, mint a vizsla, viszont sokkal egyszerűbb, gyorsabb, nyugtatóbb a kezelőfelülete. (ha nem zavar a magyar nyelvű keresőfelület és az origo katalógusának hiánya) A többi keresővel a dolgok jelenlegi állása szerint nem érdemes foglalkozni.

Magyar nyelv specifikus kérdései

1)Magyar nyelvű tartalom felismerése, magyar oldalak közötti keresés lehetővé tétele.

2)Ékezetek kezelése: Ékezetes karakterek helyes felismerése, bármilyen kódolásban is legyen a szöveg.

3)Szótövezés: Magyar nyelvű szavak szótövének megállapítása, és nemcsak a keresőszó, hanem a szó toldalékolt alakjainak (többesszám, toldalékolt alakok, stb.) is figyelembevétele.

Adatbázis minősége

4)Minél több lap: Megfelelően sok lap van beindexelve és feldolgozva a kereső adatbázisában

5)Minél aktuálisabb állapot: Folyamatos és nagyarányú indexelés következtében a friss oldalak változásai minél hamarabb bekerülnek a kereső adatbázisába, a teljes adatállomány újraindexelése rövid időn belül bekövetkezik.

6)Csak valódi tartalom: Kizárólag a spammolás érdekében létrehozott, egyébiránt haszontalan oldalak kiszűrése

Találati lista minősége

7)Fontos dolgok kiemelése: Hiába a sok beindexelt oldal, ha a találati lista nem a leginkábbodaillő, legfontosabb oldalakat hozza ki a legjobb helyezésekkel, egy kulcsszóra rákeresve.

Felhasználói felület minősége

8)Egyszerűség: Könnyen áttekinthető, gyorsan betöltődő (nyitó)oldal.

Milyennek is kellene lennie az ideális keresőnek ?

Vizsgálatunkhoz felhasználjuk a Szószablya projekt web-gyakorisági szótárát: az ebben leggyakrabban előforduló 20 magyar szóra keresve elemezzük a keresők működését: (Köszöntettel tartozom Németh László-nak hasznos segítségéért)

  • A beindexelt lapok hozzávetőleges nagyságrendjéről kaphatunk képet, ha rákeresünk a leggyakoribb szavakra
  • Mivel ezek a szavak szinte minden oldalon előfordulnak, ezért a találati listák legelső helyezéseit a magyar web legfontosabb oldalainak kellene elfoglalnia ideális rangsorolási algoritmus esetén.
  • Bizonyos időközönként rákeresve erre a 20 szavas készletre, nyomon lehet kísérni a keresők adatbázisának változásait.

A keresőkről általában

Robotok indexelik az oldalakat. A Keresőrobot segítségével adatbázisok épülnek. Egy adatbázist sokszor több keresőszolgáltatás használ. Kicsit kusza, hogy ki milyen adatbázist használ, illetve melyik keresőszolgáltatás ésadatbázis kinek a tulajdonában van, mert sok az átfedés. Az alábbi táblázat áttekintést ad a főbb robotokról, és az általuk épített adatbázisok főbb elérhetőségi helyeiről.

googlebot [Google] és Yahoo! kereső
Larbin goliat.hu
Fast-Webcrawler Alltheweb és [vizsla.origo.hu].Origo
Inktomi Slurp HotBot és MSN kereső
Scooter Altavista
  • a [Goglebot], fast-webcrawler és a scooter az egyes cégek saját fejlesztése, de a saját szolgáltatásokon kívül számos partner keresőszolgáltatás használja még adatbázisukat.
  • a larbin egy nyílt forráskódú indexelőprogram, melyet valószínűleg a goliat.hu is használ
  • az inktomi-nak nincsen saját keresőoldala, csak más keresőszolgáltatásokon keresztül érhető el. Sajnos ezért kevésbé jól használható magyar nyelvű keresésre.

A vizsgálandó keresők kiválasztása

1) Magyar nyelvű tartalom felismerése

  • Kiestek a rostán az alábbi keresők: Ask Jeeves / Teoma, Gigablast

2) Ékezetek kezelése

  • A goliat nem ismeri fel a html entitásokkal kódolt ékezetes betűket, hanem kihagyja. (Õ = Ő például)
  • Az inktomi nem képes a latin-1 karakterkészleten kívül eső betűket kezelni: (pl. ő és ű)

3) Szótövezés

  • Nemrég vezette be a [Google] új algoritmusát, amely már képes angol szavakat szótövezni

4) A beindexelt magyar nyelvű oldalak mennyisége

  • Sorban rákerestünk a leggyakoribb húsz magyar szóra, melyek:
    a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha

Sok esetben a kereső nem adott találatot, vagy azt jelezte, hogy nincsen találat, vagy pedig túl általánosnak minősítette a keresési feltételt. A diagramon látható lyukak ezért keletkeztek egyes keresőknél.

összes kereső találatainak áttekintő diagramja

Jól látható, hogy a Fast (origo vizsla és alltheweb) adatbázisa nagyságrendekkel több oldalt jelzett, mint a [Google]-é. Valószínüleg ennél is jobb helyezést ért volna el a goliat, de nem hagyott keresni a leggyakoribb öt magyar szóra. Ezért az alábbi diagram már csak az 6.-20. leggyakoribb magyar szavakat vizsgálva összegez: Alegnagyobb meglepetés, hogy a [Google] csak a középmezőnyben foglal helyet.

összes kereső találatainak öszesített diagramja

5) A beindexelt magyar nyelvű oldalak frissessége

Az adatállomány frissességének egyik jele, ha változik a beindexelt oldalak mennyisége. (optimális esetben bővül) Az első vizsgálathoz képest megismételtük a keresést egy nap és egy hét múlva. A goliat által kijelzett találati oldalak száma semmit sem változott, ez alapján valószínűsíthető, hogy az adatbázis semmit sem változott egy hét alatt.
A [Google] és az Alltheweb adatbázisának bővülését az alábbi diagram mutatja:

összes kereső találatainak öszesített diagramja

Az adatbázis naprakészségének másik jele, ha aktuális, nemrég felkapott témákra, kulcsszavakra keresünk rá: három kulcsszó (konbinációt9 vizsgáltunk, mindegyik a vizsgálat időpontjához képest uszkve három héttel hamarabb került be a köztudatba: „való világ 3”, egyik beköltöző: „Pandora”, aki sokáig a legkeresettebb kulcsszó is volt,illetve egy internetes jelenség, a halapenz.hu-val kapcsolatos botrány/polémia miatt a „hálapénz” kulcsszó.

„pandora” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
Egy oldal a pandora.inf.elte.hu gépről és kilenc oldal a www.pandora.hu -ról, a keresett témához semmi közük. (5375 találat) Egy Pandora’s Box nevű szexvideó oldal, a P.Box együttes nyitólapja kétszer, két oldal az elte pandora nevű gépéről. Pozitív, viszont, hogy a találatokat több csoportba rendezte, és felkínálta a választást a különböző csoportok között: a friss hírek, hírek, magyar csoport között megjelenik a keresett téma is, bár a [Google]-nél jóval kevesebb és kevésbé releváns találattal. (13706 találat) Az első két oldalvalami az uhulinux oldaláról, de az összes többi konkrétan a keresett témával foglalkozik, két kattintáson belül el lehetett jutni a hölgy honlapjáig is… (11500 találat) Öt találat ugyanaz volt, mint az Alltheweb eredménye, de megjelent a televíziós műsor hivatalos honlapja is az oldalak között.(2891 találat)

„való világ” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
AValó Világ 2. szériájához köthető kevéssé fontos öt oldal: (pl. hanganyag, operatőrök oldala, stb.), Illetve a házat felépítő cég három oldala szerepel az első helyezések között. (8474 találat) Első az aktuális műsorfolyam hivatalos oldala, második egy azóta megszűnt, vélhetőleg nemhivatalos oldal, egyébként blog bejegyzések, fórum, kapcsolódó hírek és vélemények. 10. lett itt is a házat készítő cég. Csupán kettő, nem a témával folgalkozó oldal volt. (18400 találat) Első a VV 3 honlapja, második a VV1, harmadik a VV2 honlapja, további hat nagy portálok témával foglalkozó oldala, az utolsó szintén az, de egy kisebb oldalon megjelentetett vélemény. Talán kissé túlprezentált az origo portáljának jelenléte, a három hivatalos VV honlapon túl még négy origós oldal jelent meg. (Az alltheweb-en keresve, ami olyan mintha az Origó Vizsláját kérdeznénk, csak egyszer jelenik meg Origós oldal.) (27335 találat) Kissé más találatokat hozott ki, mint a [Google],az Origo oldalai nem voltak annyian (7 helyett csak négy), de a VV3 és a VV1 oldalát ugyanúgy kihozta, tehát használhatóságban semmiben sem maradt el az eredménylistája. (6518 találat)

„hálapénz” kulcsszó

goliat.hu alltheweb.com google.co.hu hotbot.com
Aparaszolvenciával általánosságban foglalkozó oldalak, ebből hat találat ugyanarról a szerverről, melynek első helyezett lapja 1998-ban íródott. (105 találat) A paraszolvenciával általánosságban foglalkozóoldalak, színes hírtől kezdve a komoly híren át a kamara etikai kódexéig. Feltűnik a 8. helyen a halapenz.hu egy azóta már leszedett oldala! (7658 találat) Hét találat foglalkozott konkrétan a halapenz.hu-val. Ebből egy már arról szólt, hogy megszűnt a kérdéses oldal, négy pedig az oldal tartalmának klónozásairól számolt be, atöbbi a témával foglalkozó topic volt. (14000 találat) Hetedikként megjelent a halapenz.hu, mégis a legtöbb oldal a (hét) a keresett témához volt kapcsolható, de találatok nagyobb portálok nyitóoldalaitjelezték, ahol egyszer valamikor feltehetőleg szalagcímként feltűnt a téma, nem pedig maguk a témával foglalkozó konkrét oldalak címei kerültek beindexelésre. (2633 találat)

A legjobb találatokat a [Google] szolgáltatta,
második legjobb az Inktomi adatbázisából dolgozó Hotbot lett, de a különbség igyen kicsi az Alltheweb-hez képest, ami lehetett véletlen is. Helyezését indokolja az is, hogy jóval kevesebb beindexelt lapból hozta ki esetenként a Google-t is elérő hasznosságú találati listáját.
azAlltheweb találatai illeszkedtek a kulcsszavak jelentéséhez, bár az aktuálisabb jelentéstartalmukkal kapcsolatban kevésbé igazítottak el, ha a lap alján felkínált további kulcsszó szerinti csoportosításokra kattintottunk, akkor használhatóbbak voltak a találatok.
A goliat.hu egyszerűen leginkább használhatatlan találatokat adott.

6) Az értékes tartalom előtérbe helyezése

Az előző pont keresései is érdekes információkkal szolgálhattak e tekintetben, de ellenőrizzük le egy egyszerű kereséssel a keresőmotorokat. Mindenki a saját műfajában indul: rákeresünk a kereső nevére ugyanabban a keresőben. Mit tud magáról a keresőprogram? Mindenhol a magyar nyelvű oldalak között kerestünk.

alltheweb, altavista, hotbot

Nekik nincsen magyar nyelvű kezelőfelületük, úgyhogy értelemszerűen nem versenyezhetnek ebben a számban.

goliat : keresőszó: goliat

Első az index szabadszavas keresője, amit a goliat hajt, utána egy goliat.c3.hu nevű gépről jönnek minfenféle forgalmi statisztikák kilométer hosszan. A goliat.hu oldal sehol.

alltheweb (=vizsla.origo.hu) : keresőszó: vizsla

Az első találat az origo.hu, a második a vizsla.origo.hu, ami teljesen rendben is van. Van mág pár oldal a vizsláról mint kutyáról és az origo egy linkfarm jellegű megoldása.

google : keresőszó: google

Az első találat az a google.co.hu, a többi nagyjából nagyobbacska oldalak [Google]-val foglalkozó cikke.

7) Felhasználói felület

Az alábbi táblázat bemutatja, hogy az egyes keresők nyitóoldalainak eléréséhez mennyi adatot kell letölteni. A diagramból kitűnik, hogy miért jobb az alltheweb.com felületéről elérni a vizsla.origo.hu által is használt adatbázist. A második legnagyobb oldalméretet a goliat.hu szolgáltatta, több adatot kellett egy egyszerű nyitólaphoz letölteni, mint a Yahoo! kereső igencsak túltelített oldalának megtekintéséhez. Plusz még kéretlenül felugró reklámablakot is kapunk. A Hotbot-nál nagyon szimpatikus a csak szöveges felület választásának lehetősége. Bárvalószínűleg ennek a régebbi böngészőkkel való kompatibilitás is az indoka.

A vizsgálat:

A cikk írása óta a Yahoo! kereső áttért az Inktomi adatbázisának használatára, az MSN pedig saját roboton dolgozik. Az Alltheweb is úgy látszik, átvenni készül  valamiféle Yahoo! kereső keresőtechnológiát, mint azt az URL hozzáadására szolgáló oldalon írják.

A „Keresőoldalak összehasonlítása (2004. február)” című bejegyzést 2004. 10. 30. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 07. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások