Szótövezés

április 16, 2006

Felismerik-e a keresők a ragozott alakokat?

Ha például az „egér” kulcsszóra keresünk, egyes keresők csak az „egér” kulcsszó előfordulása alapján állítják össze a találatokat, míg a magyar szavak szótövezésére képes keresők akár az „egerek”, „egérfélék”, „egérrel”, stb. alakokat is figyelembe veszik.

A SZTAKI Kereső volt a legelső, mely képes volt a szótövezésre már 2004 évvégi indulásakor. Hosszú ideig ez volt az egyetlen szótövezésre képes kereső, mindaddig, amíg 2006 elején meg nem jelent a tango.hu, majd pár hónappal később a PolyMeta kereső. Az alábbi képernyőképeken a szótövezés működésére láthatóak példák az egyes keresők esetén:

Magyar keresőprogramok

SZTAKI kereső

A SZTAKI kereső találati listáiban gyakran tűnnek fel a ragozott alakok, a szótövezés funkció pedig szükség esetén ki- vagy bekapcsolható:

SZTAKI kereső találatai az egér kulcsszóra

PolyMeta metakereső

A PolyMeta a MorphoLogic technológiájával szótövez; ez a funkció nem kapcsolható ki:

PolyMeta kereső találatai az egér kulcsszóra

tango.hu kereső

A tango.hu is szótövez, azonban az ékezetek kezelésében nem a legjobb: az első találati oldalak szinte kizárólág Eger városához kapcsolódó találatokkal vannak tele.

tango.hu kereső találatai az egér kulcsszóra

Nemzetközi keresőprogramok

A Google kereső 2003 vége óta képes egyszerű szótövezésre angol nyelven, például az egyes szám – többes szám eltéréseket tudja kezelni. Ezt egyrészt nem nehéz megcsinálni, mert az angol csak relatív kevés szót toldalékol, másrészt pedig a legnagyobb piac kedvéért minden bizonnyal bonyolultabb esetben is megcsinálták volna. Majd’ két és fél évet kellett várni, míg 2006 márciusában felbukkantak a magyar nyelvű szótövezés első jelei. Például a „kereső optimalizálás” Kereső-kifejezésre nemcsak a „kereső” kulcsszó, hanem a „keresés” kulcsszó is kiemelve jeleniki meg a Találati rangsorban. Hasonló módon a „keresés optimalizálás” kifejezés esetén a „kereső” kulcszó is kiemelve jelenik meg. A jelenség nem érhető egykönnyen tetten akkor, ha pusztán a „keresés” vagy a „kereső” Kulcsszavakat használjuk.

Google kereső: szótövezés

Google kereső: szótövezés

Úgy tűnik, a Google Inc. egyelőre csak kísérletezik a szótövezéssel, mindenesetre az esetek többségében nem figyelhető meg a jelenség, lásd például a fent használt „egér” kulcszót. A kivonatokban feltűnik pl. az „egerek” forma, azonban a Google nem emeli ki azt.

Google kereső találatai az egér kulcsszóra

Olvasók tapasztalatai:

2006. április Még elég kevés ragot ismer fel a Google (igazán biztosan a többesszám jelét, ritkábban az -a/-e, -on/-en); illetve néhol az eltérő szófajt (kereső – keresés). Ezekre elég könnyen elő lehet hozni példákat, ha olyan kifejezést írsz be, melynek egyértelműen az alternatív (vagyis toldalékolt/-atlan, egyes/többesszámú) megjelenéseit találja relevánsabbnak a kereső.

Például az alábbiakra egyaránt tapasztalható:

  • autók szerelés (ahol ugye az autó szerelés kombináció előfordulása jellemzőbb)
  • szlovák szótárak (itt az igazán fontos találatok inkább a „szótár” szót tartalmazzák)
  • sztaki keresés (helyett logikusabb: sztaki kereső)
  • vasút menetrend (nyilván: vasúti menetrend)
  • nemzet bank, budapesti főváros, műszaki egyetemen, friss hír (hasonló logika mentén…)
  • ablakok zsiráf (magyarázni sem kell :-))

A Google a „nagykereskedés” és a „nagykereskedelem” közti kapcsolatot is látja (ld. keresés: „sport nagykereskedés”) 🙂

2006. júniusHa például beírjuk, hogy intenet, akkor az elírt változatok jelennek meg találatként, de ha egy legalább két szóból álló kifejezésre keresünk, mint pl. magyar intenet, akkor már a „magyar internet” kifejezésnek megfelelő találatok jelennek meg, és furcsa módon ennek tényéről nem is tájékoztat a Google.

A „Szótövezés” című bejegyzést 2006. 04. 16. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 10. 27., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Ez elég buta

2007. 07. 28. 06:22 · Névtelen hozzászóló →

A „mí” szóra rákeresve megmutatja „A mítoszok vége” című oldalt, kiemelve a title-ben a „mí”-t 🙂

fózólap

2007. 10. 27. 06:24 · Névtelen hozzászóló →

Helló!

Ma találtam a statbanindukciós fózólapÉs tényleg a google főzőlapnal látja.Fantasztikus, de kiírja így?

NT

Re: fózólap

2007. 10. 27. 06:52 · Névtelen hozzászóló →

Fekete Pákó? 🙂

Re: fózólap

2007. 10. 27. 07:36 · Névtelen hozzászóló →

Vagy valaki félreütött: az ő és az ó egymás mellett van a billentyűzeten.