Címke: fontosság

A megadott kulcsszavak szerinti rangsorolás

A beírt Kereső-kifejezés előfordulása alapján rangsorba állíthatóak a weboldalak, az alábbi szempontok figyelembe vételével:

  • Hol vizsgálják a kulcsszavak előfordulását a keresők?
  • Megtalálható-e a keresett kifejezés az adott oldallal kapcsolatban vizsgált helyeken?
  • Hányszor, milyen gyakorisággal található meg a kifejezés?
  • Hol jelennek meg a keresett Kulcsszavak?

A fenti paraméterek vizsgálatának szerepe van a Web spam kiszűrésében is.

Hol keresik a kulcsszavakat a keresőK?

A Fontos keresők manapság már nemcsak az oldalon előforduló kulcsszavak előfordulását elemzik, hanem az oldalra hivatkozó külső és belső Linkre rakott kulcsszavak között, sőt az oldalra mutató Külső hivatkozások szövegkörnyezete is számításba jöhet. Az oldalon magán a TITLE elemben, a Meta tagok közül a Description meta tagban és a Szövegtörzsben található HTML elemek többségében található szövegekben keresnek, azonban kivételt képeznek például a kommentként beillesztett elemek, vagy az IFRAME elemekben található információk.

Megtalálható-e a keresett kifejezés?

Több kulcsszó esetén az összes szónak elő kell, hogy forduljon a vizsgált helyeken. Az egyes keresők nem feltétlenül veszik komolyan a Céltudatosan kereső felhasználó által beírt Kulcsszavakat. Lehet, hogy azért, mert épp egy Stopszóról van szó, de akár javaslatokat is kijelezhetnek az általuk helyesnek vélt kifejezésekre illetve megjeleníthetnek ékezetes és ékezet nélküli verziókat tartalmazó oldalakat is a találatok között. Emellett nem feltétlenül veszik figyelembe a központozást sem: 2005 november Például a Google kereső a kötőjellel írt szavakra egybe és külön írt változatokat is keres, a külön írt szavak esetén pedig kötőjellel írt találatokat is megjelenít.

Hányszor, milyen gyakorisággal jelennek meg a szavak?

Nem csak az számíthat, hogy hány alkalommal jelenik meg egy kifejezés az oldalon, hanem az is, hogy a szöveg egészéhez képest milyen százalékos arányban szerepel az oldalon egy adott szó, más szóval mekkora a Kulcsszósűrűség.

Hol jelennek meg a keresett szavak?

Attól függően, hogy hol jelennek meg az egyes szavak, más és más súllyal esnek latba. A Oldal kulcsfontosságú részein szereplő szavak szerepe sokkal fontosabb, továbbá azt is vizsgálják a keresők, hogy az oldal elején, vagy végén található-e az adott szó. Elképzelhető, hogy az is számít, hogy pl. egy bekezdésen belül hol található az kifejezés. Vélhetőleg felismerik továbbá a webhelyen található oldalak olyan állandóan ismétlődő részeit, mint például a fejlécek, láblécek és egyéb navigációs elemek, és az itt található kulcsszavak kisebb súllyal veszik figyelembe. Fontos szempont, hogy elsősorban abban a sorrendben legyenek jelen a kulcsszavak, mint ahogy azt a felhasználó beírta. Ezen belül is előnyt élveznek azok az oldalak, ahol minél kisebb a Kulcsszótávolság, tehát praktikusan ugyanaz a kifejezés szerepel a weblapon.

Keresésfüggő fontosság és a spam kiszűrése

Ha például természetellenesen túl sokszor fordul elő a keresett kifejezés egy oldalon -túl nagy a Kulcsszósűrűség-, akkor előfordulhat, hogy arra a kifejezésre „büntetésben” lesz az adott oldal, ezért gyakorlatilag nem fog helyezést elérni a Találati rangsorban. Ugyanakkor hasonló, kisebb arányban előforduló kifejezésekre akár előkelő helyen is megjelenhet az adott lap.

Összegzés

A keresésfüggő fontosság „értéke” minden egyes kereső-kifejezésre más és más lesz. Korántsem biztos, hogy egy adott kifejezés megfelelő számű és megfelelő módon történő megjelenése a garantálja a relevanciát és a minőségi választ a keresőknek feltett kérdésre. Ezért a Fontos keresők a keresés-specifikus relevanciát kombinálják az oldal Általános fontosságával, és ezalapján készítik el találatok a Rangsorolását.

A „Keresésfüggő fontosság” című bejegyzést 2005. 11. 25. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2006. 12. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások

Az információforrás minősége szerinti súlyozás

A keresők kezdetben csak a Keresésfüggő fontosságot vizsgálták. Könnyen belátható azonban, hogy nem biztos, hogy egy Kereső-kifejezés segítségével feltett kérdésre az a honlap adja meg a legjobb választ, amelyiken a legtöbbször, vagy az Oldal kulcsfontosságú részei közül a legtöbben fordulnak elő a keresett Kulcsszavak.

Az információ minőségének megállapítása mellett az általános fontosság a Web spam negatív hatásainak kivédésében is szerepet jűtszik. Számtalan olyan tulajdonság tartozik az általános fontosságot növelő tényezők közé ugyanis, melyre az oldalt üzemeltető webmesternek kevés ráhatása van. Egyszerűbb például egy adott kulcsszó gyakoriságát megnövelni a saját oldalunkon, mint elérni mondjuk, hogy az index.hu hivatkozzon a webhelyünkre.

Általános fontosság szempontjai

Az általános fontosság eldöntésénél nemcsak az adott weblap tulajdonságai jöhetnek számításba, hanem az egész webhelyre vonatkoztatott tulajdonságok is. Mivel a Keresők rangsorolási szempontjai üzleti titkot képeznek, ezért az alábbiak között vannak spekulatív tényezők is:

  • Az adott webhelyet körülvevő linkhálózat elemzése (statikus, térbeli adatok)
  • A weboldal kora, változásának gyakorisága (dinamikus, időbeli adatok)
  • Időbeli és térbeli adatok kombinált vizsgálata (a linkhálózat változásai)
  • A kereső és a kapcsolódó szolgáltatások működése során szerzett adatok figyelembe vétele

A linkhálózat elemzése

  • A leghíresebb módszer a Google kereső PageRank számítása, mely a tudományos publikációk citációs indexeihez hasonló elven alapuló automatizált, algoritmikus módon az egyes weboldalakra bejövő hivatkozások számát elemzi, és ezt tovább súlyozza a hivatkozó oldalra mutató Külső hivatkozások száma alapján, és így tovább.
  • Minden bizonnyal azóta már a kimenő Külső hivatkozások elemzését is segítségül hívják az oldalon taláható információk értékének mérlegelésekor, tekintve, hogy értékes tartalommal kontextusban további értékes tartalomra mutató hivatkozások kell, hogy legyenek.
  • További módszer lehet a hasznos oldalak meghatározására, ha a fontosság súlyozásánál számításba vesznek egyes, emberek által szerkesztett rendszereket. Jó példa erre a Google kereső és az Open Directory Project (ODP) összefonódása: az ODP-ben szereplő oldalak előrébb kerülhetnek a Tematikus katalógusokban nem szereplő egyéb oldalaknál. Manapság pedig a Wikipédia és a Fontos keresők közeledéseinek lehetünk tanúi, valószínűleg végeredményben hasonló célból. A jövőben valószínű, hogy a del.icio.us-hoz hasonló rendszerek használóinak értékítéletét is figyelembe fogják venni: minél többen vesznek fel egy oldalt a saját linkek közé, annál jobb lehet az oldal.
  • A jó minőségű oldalakat körülvevő, természetes módon létrejött Külső hivatkozásokból álló linkhálózat karakterisztikája eltér a Web spam oldlakétól, ennek vizsgálata is hasznos lehet a Találati rangsor minőségének javításakor: A manipulációs célból létrehozott oldalak azonosítása a Rossz szomszédságok behatárolását teszi lehetővé.

Az idő szerepe: a weboldal kora, változásai

  • Milyen régen keletkezett egy információ: Egy tegnap bejegyzett Domainnév alatt nagy valószínűség szerint rosszabb minőségű információ található, mint egy többb éves oldalon, kiváltképp, ha az oldal rendszeresen változott a keletkezése óta eltelt időszakban.
  • Milyen gyakran változik az információ: Az idők során rendszeresen változó tartalmú webhely valószínűleg értékesebb, mint egy évek óta változatlan oldal.
  • Mikor változott utoljára az adott weblap: Minél régebben változott az oldal, annál nagyobb a valószínűsége, hogy tartalma már elavult.

Az időbeli és térbeli adatok kombinált vizsgálata

  • Külső hivatkozások számának változásai, azok csökkenő vagy növekvő tendenciája. Csökken vagy nő-e az oldal népszerűsége?
  • Az oldalra mutató linkek keletkezésének vagy megszűnésének sebessége: A hirtelen keletkezett és a gyorsan megszűnő, hasonló jellegű linkek a külső hivatkozások számának mesterséges felpumpálásáról árulkodhatnak.

A keresőcégek működése során szerzett adatok

  • A kereső működése során szerzett adatok:
    • Hány Kereső-kifejezésre jelenik meg egy oldal a Találati rangsorban, és milyen helyezéssel? Ha egy oldal hirtelen sok helyen jó helyezéssel jelenik meg, akkor lehet, hogy valamilyen manipulatív technikával juttatták oda. A Google kereső például minden egyes adatbázisában szereplő domainról nyilvántartja, hogy mely kifejezésekre jelenik meg leggyakrabban az adott oldalról származó találat a rangsorokban: minderre bizonyíték, hogyha a Google Sitemaps oldalain regisztrálunk egy új webhelyet, akkor ezek az adatok azon nyomban megtekinthetőek.
    • Hányszor fordul elő olyan, hogy a Látogatók továbblapoznak a találati listában? Ekkor valószínű, hogy a Top 10 pozícióban levő lapok nem adják meg a megfelelő választ az adott Kereső-kifejezésre, tehát elképzelhető, hogy az utánuk következő helyezettek jobb választ adnak.
  • A kereső kiegészítő szolgáltatásai révén nyert adatok:
    • A Google Inc. számos olyan szolgáltatást üzemeltet, mellyel adatokat gyűjt a felhasználói szokásokról: például mely oldalakat milyen gyakran látogatnak, ott hány lapot néznek meg, stb., stb. A Google Eszköztár, vagy a Google Web Accelerator értékes adatokat továbbít a központba, nem is beszélve a Google Analytics által készített kimutatásokról. Ezek mind túl értékes információnak tűnnek ahhoz, hogy egy épeszű cégvezető lemondjon a felhasználásukkal járó előnyökről.

Összegzés

A fentiekben felsorolt szempontok közül egyikről sem ismert, hogy konkrétan milyen szerepe, milyen súlya van jelenleg a Fontos keresők Rangsorolási mechanizmusaiban. A PageRank kiszámításának módszerét anno még elég részletesen dokumentálták a Google-ről szóló első Tudományos publikációkban, további részletek például kikövetkeztethetőek a Google Inc. által beadott szabadalmakból, más tényezők felhasználása pedig logikusnak tűnhet.

Mivel mindegyik szemponttal kapcsolatban beszélhetünk kivételekről (Például bizonyos információtípus esetén a régebbi, keveset változó információ értékesebb lehet.), ezért valószínűleg nem az egyes szempontok súlya számít, hanem ezek össszességének elemzése.

A „Általános fontosság” című bejegyzést 2005. 11. 24. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2006. 12. 09., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások