Címke: adatbányászat

Gondoltam, érdekes lenne nyomon követni, hogy az idei év leglátványosabb weboldal-költöztetése (apród.hu » olx.hu) miképpen csapódik le a Google adatbázisában. Bő fél éve kezdtem el figyelni, hogy hogyan alakul a Google által kijelzett, az adatbázisában található weblapok száma az egyes domainekről.

Az alábbi kép mintegy hetvenezer magyarországi kis- és közepes vállalkozás webes jelenlétének elemzése alapján készült. Ebből a hetvenezres adatmintából relatív egyszerű eljárással ki lehetett nyerni kb. tizenegy és félezer vállalkozás weboldalához kapcsolódó térképes adatokat. Magyarul ez a hőtérkép azt mutatja, hogy Magyarország mely régióiban mekkora a webes aktivitása van a vállalkozások derékhadának, azaz a kkv-knak.

A magyarországi kkv-k hőtérképe, weboldalaik alapján

A weboldallal rendelkező vállalkozások hőtérképe jól mutatja az ország Budapest-központúságát. Budapesten, és a tőle kivezetű utak mentén túl leginkább a vidéki városok körül csomósodnak a pontok. Érdekes megfigyelni a Balatoni régió körüli foltot is. Hasonlóan láthatjuk a hegységeink és az Alföld egyes régióinak fehér foltja közötti különbséget is. Az a pár, Magyarországon kívüli pont annyit jelent, hogy magyarországi vállalkozók weboldalain olykor ezek a határon túli címek is szerepeltek.

Budapest és agglomeráció web hőtérképe
Budapesten és agglomerációjában működő, weboldallal rendelkező cégek hőtérképe.
Budapest web hőtérképe
Budapest központjában működő, weboldallal rendelkező cégek hőtérképe

Érdekes, hogy mennyire a Nagykörút plusz pár utcányi területre összpontosul a legtöbb vállalkozás, vagy hogy a budai oldalon mennyivel szellősebben találhatóak a weboldallal rendelkező vállalkozások adathalmazából, első megközelítésben, könnyen kinyerhető adatmintából származó pontok.

A hőtérképeket az OpenHeatMap szolgáltatással hoztam létre. Részletesebb, böngészhető formátumban itt található: http://www.openheatmap.com/view.html?map=StoneputNASDAQsWitherbees

Alkotó emberként különösen rossz látni, amikor egy sok jó ötlettel, lelkesedéssel és munkával létrehozott projekt beleáll a földbe. Egykoron a lap.hu oldalak mindkét oldalán (szerkesztői és linkajánlói) aktív félként működve is már egy ideje úgy tűnt, hogy a végét járja a startlap, és vele együtt a „lap.hu” mozgalom, de véleményem szerint a számok — melyek ritkán hazudnak — sajnos azt mutatják, hogy a lap.hu rendszere is lassan az iwiw sorsára fog jutni.

Sokan kérdezték a választások után, hogy bejöttek-e a választási jóslataim? Nos, a Google Trends segítségével idén sem sikerült hajszálpontosan előrejelezni a szavazatokat, azt azonban újfent bebizonyította a módszer, hogy a pártok nevére történő keresések gyakoriságának vizsgálatával majdnem a közvéleménykutatások eredményeinek pontosságával jósolhatóak meg a pártlistákra adott szavazatok arányai.

Négy éve tudtuk, mennyien kerestek az egyes pártok neveire, és abból végül mennyi szavazat lett. Idén is tudjuk, mennyire keresnek ugyanezen pártok neveire, ezért a megfelelő aránypárokkal jó eséllyel meg tudjuk jósolni a 2014-es parlamenti választások végeredményét. Február végén már elemeztem az akkori adatokat: egy hónap elteltével, a választások előtt pár nappal érdemes újból, utoljára felállítani az az aránypárokat.

A 2014-es parlamenti választások esélyeit latolgató cikksorozatban ezúttal a választási kampány finisében a pártok által működtetett hivatalos Facebook oldalak népszerűségének változásait foglalom össze, aktualizálva a február elején írtakat.

Szó esett már az oldalon a pártok lájkjainak változásáról, mint a pártszimpátiák online tükréről. Van azonban egy olyan, a felhasználóknak a pártokkal kapcsolatos webes aktivitását mérő szám, ami létezett már az előző országgyűlési választások, sőt a korábbi EP-választások során is: ez pedig a Google Trends által kijelzett relatív keresésgyakoriság. Ahhoz, hogy megbecsüljük az idei országgyűlési választás eredményeit, nincs más dolguk, mint hogy összehasonlítsuk a Google Trends által akkoriban mért értékeket a korábbiakban kapott, valós szavazatarányokkal.

Választások eredménye a Facebook szerint sorozat második részében a tavaly szeptembere óta rendszeresen mért párt-facebook oldalak lájkolóit és az oldalak által generált interakciókat veszem górcső alá, hogy bemutassam, a Facebook adataiban tükröződő szimpátiák hogyan változtak nap mint nap az elmúlt öt hónapban.

Tavaly ősszel jutott eszembe, hogy a választások közeledtével nyomon kellene követni, hogy hogyan változik napról-napra a kisebb nagyobb pártok Facebook  szimpatizánsainak száma, és az általuk gerjesztett Facebook „visszhang” mértéke. Az alábbiakban a rendszeres mérések eredményei alapján készített grafikonok következnek. Akkor még nem lehetett látni, melyik párt mivé válhat majd néhány hónap múlva, így a kiválasztott pártok az akkor értelmezhető Facebook oldallal, komolynak vehető pártok közül kerültek ki.

A választások közeledtével vigyázó szemüket sokan a közvélemény-kutatásokra vetik, holott a 2014-es parlamenti választások eredményeinek megjósolására most egy olyan új eszköz is rendelkezésünkre állna, mely korábban még nem is létezett: a magyar intenetezők közel fele által használt Facebook vizsgálatával ugyanis közvetlen visszajelzést kaphatunk az emberek pártpreferenciáiról.

Multi-diszciplináris, matematikán alapuló tudományág

Az adatbányászat tudományának nagy szerepe van a Szabadszavas keresők fejlesztésében, megismerése segíthet a Kereső rendszerek működése‘nek jobb megértésében. Álljon itt egy részlet Bodon Ferenc Adatbányászati algoritmusok tanulmány című írásának bevezetőjéből, mely hasznos olvasmány az adatbányászat témakörében elmélyülni szándékozók számára:

…Az adatok azonban önmagukban nem hasznosak,hanem a belőlük kinyerhető, a vállalat igényeihez igazodó, azt kielégítő információkra lenneszükség. Ez egy újabb szükségletet teremt: egy olyan eszköz iránti igényt, ami képes arra, hogy információszerzéscéljából elemezze a nyers adatokat. Ez az új eszköz az adatbányászat.Adatbányászati (data mining) algoritmusokat az adatbázisból történő tudásfeltárás (knowledgediscovery in databases) során alkalmaznak. A tudáskinyerés adatbázisokból egy olyan folyamat,melynek során érvényes, újszerű, lehetőleg hasznos és végső soron érthető mintákat fedezünk fel azadatokban. Ezt gyakran megtehetjük különböző lekérdezések eredményeinek vizsgálatával, azonbanez a megoldás lassú, drága és nem elég átfogó. Nem is beszélve arról, hogy az emberi szubjektivitássokszor hibás, továbbá az adatbázisok olyan nagyok lehetnek, hogy egyes lekérdezések elfogadhatatlanullassan futnak le. Jogos tehát az igény, hogy a legismertebb, leggyakoribb elemzéstípusokhozspeciális módszereket, algoritmusokat fejlesszenek ki, amelyek gyorsan és pontosan szolgáltatnakegy objektív képet az adatbázisokban található „kincsről”.Az adatbányászatot az üzleti élet és a marketing keltette életre. Még ma is ezek az adatbányászat főmozgató rugói. Szerencsére az adatbányászat lehetőségeit egyre több területen ismerik fel, melynekeredményeként az alapkutatásoknak is egy fontos eszköze lett. Alkalmazzák az orvosbiológiában,genetikában, távközlésben, csillagászatban, . . .

Az adatbányászat egy multi-diszciplináris terület. Az alábbi ábrán látható, hogy mely tudományterületekeszközeit használja: Az adatbányászat és határterületei
Az adatbányászat több hangsúlyt fektet az algoritmusokra, mint a statisztika, és többet a modellekre, mint a gépi tanulás eszközei (pl. neurális hálózatok). Mára már az adatbányászat akkora területté nőtte ki magát, hogy szinte lehetetlen átlátni magas színvonalon az egészet.

Copyright © 2002-2005 Bodon Ferenc
Ezen dokumentum a Free Software Foundation által kiadott GNU Free Documentation license 1.2-es, vagy bármely azt követő verziójának feltételei alapján másolható, terjeszthető és/vagy módosítható. Nincs Nem Változtatható Szakasz, nincs Címlap-szöveg, nincs Hátlap-szöveg. A licenc magyar nyelű fordítása a http://hu.wikipedia.org/wiki/A_GNU_Szabad_Dokumentációs_Licenc_szövege oldalon található.

SZTAKI Adatbányászat és webes keresés kutatócsoportja

http://www.ilab.sztaki.hu/websearch/index.hu.html

A fenti címen található Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutató Intézete Informatikai Kutatólaboratórium „Adatbányászat és webes keresés” kutatócsoportjának honlapja.

Ez a műhely (Data minig and web search) fejleszti a SZTAKI keresőt. Ezenkívül érdekes megismerkedni még az alábbi projektekkel:

Szövegbányászat cikksorozat

http://www.vazsonyi.hu/szovegbanyaszat/

Idézet Vázsonyi Miklós honlapjáról:

„A szövegbányászat témájú nemzetközi irodalom rövid idő leforgása alatt már óriásira nötte ki magát, mialatt a vonatkozó magyar nyelvű szakirodalmi anyagok csak csekély mértékben szaporodtak. Munkámmal ezt a hiányt igyekeztem megszüntetni, és jelen cikksorozatommal egy olyan átfogó és ugyanakkor kellően a részletekben elmélyedő áttekintést szolgáltatni, amely lefedi a szövegbányászat legfontosabb ismereteit, alkalmazási területeit, módszereit, kihívásait, ezáltal ellátva ismeretterjesztési célját.”

A „Adatbányászat” című bejegyzést 2005. 07. 01. napján publikáltam, az azóta már bezárt webni.innen.hu oldalon. Ezt az írást és az innen hivatkozott régi tartalmakat a Webni! Archívum oldalán gyűjtöttem össze. Mivel az utolsó módosítás dátuma: 2007. 03. 29., ezért az itt olvasható információk már részben vagy teljes egészében elavultak lehetnek.

Archivált hozzászólások