AOL keresések statisztikái

augusztus 8, 2006

Tudományos céllal elérhetővé tett adatok a keresésekről

A Google kereső találati eredményeit felhasználó AOL nyilvánosságra hozott egy három hónapon át gyűjtött, 650 ezer felhasználó által megadott közel 20 milliónyi kereső-kifejezésből álló adathalmazt, melynek mérete 439 MB. A gond csak annyi volt, hogy a kifejezések mellett az egyes felhasználókat egy vélelen számmal azonosították: sok esetben pedig egyszerűen, nagy biztonsággal beazonosíthatóak a felhasználók az általuk megadott keresőkifejezések alapján (pl. amikor saját nevükre vagy oldalukra keresnek rá.) Emiatt pedig gyorsan levették a fájlt az eredeti helyéről, ezért ezt a verziót csak tükrüzések segítségével lehet elérni, melyek listája például a http://www.gregsadetsky.com/aol-data/ oldalon található meg.

A logfájlban megtalálható adatok

  • AnonID – Az eredeti felhasználói név helett véletlenszerűen generált szám
  • Query – Használt Kereső-kifejezés
  • QueryTime – Keresés ideje
  • ItemRank – Ha a felhasználó rákattintott az egyik találatra, akkor a találat Rangsorolása
  • ClickURL – A fenti esetben a találati oldal domainneve.

Böngészés az adatok között

http://www.aolsearchdatabase.com/

http://www.dontdelete.com/

Ahogy az várható volt, több oldalon indult olyan szolgáltatás, mely lehetővé teszi ennek az adathalmaznak a weben történő lekérdezését.

Ha pedig történetesen nem Windows-t használsz, akkor egyszerűen kitömörítheted a fájlt, majd a terminált megnyitva, beírhatsz olyanokat, mint:

  grep 'index\.hu' user-ct-test-collection-01.txt

Átkattintási arányok a top 10 pozícióban

http://www.jimboykin.com/click-rate-for-top-10-search-results/

Az AOL adatbázis alapján kiszámolták, hogy hányan kattintanak egy adott találati lista 1-10. helyén lévő találatokra. Az eredmény azt mutatja, hogy már az első oldalon listázott weblapokra történő kattintásban is óriási (nagyságrendi) különbség van az előkelőbb helyen lévők javára, tehát a Top 10 pozíció sem mindig elég…

Eredeti oldalak

Az adatok eredetileg itt jelentek meg, azonban azóta már nem elérhetőek:

link a fájlra: research.aol.com/pmwiki/pmwiki.php?n=Research.Research?action=downloadman&upname=500kusers.tgz

oldal: research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months

A „AOL keresések statisztikái” című bejegyzést 2006. 08. 08. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 07. 05., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások