Új Szó, 2012. február (65. évfolyam, 26-50. szám)

2012-02-08 / 32. szám, szerda

16 DlGlTÁLlA ÚJ SZÓ 2012. FEBRUÁR 8. www.ujszo.com A kereső megtehetné, hogy a világ összes weboldalát állandóan ismétlődve feltérképezné, de ennek az lenne az eredménye, hogy összeomlana a net Hogyan működik a Google kereső? A weboldalak fontosságát a rájuk mutató linkek száma, minősége alapján határozza meg (Képarchívum) A Google leginkább egy misztikus fekete dobozra hasonlít. Egészen sok mindent lehet tudni a működés fő elemeiről, de a külső szemlélő szá­mára átláthatatlan a fo­lyamat, ahogy a milli­árdnyi webes dokumen­tum univerzumaiból azonnal elérhető talála­tokat kapunk. ÖSSZEFOGLALÓ A 2012-es Superweek konfe­rencián Gary Illyés, a Google zürichi irodájának elemzője nyitotta fel egy néhány percre a Google kereső motorháztető­jét. Gary elmondása szerint a kereső működésének alapjait az új Google-alkalmazottaknak egy 6 órás prezentációban szokták elmagyarázni, ezúttal azonban mindössze röpke 25 perc állt rendelkezésre. A Google és minden más modern kereső tevékenységé­nek alapja, hogy az általa felfe­dezett webhelyeket letölti, ke­reshető rendszerbe rakja és az oldalakat, dokumentumokat értékeli. A Google alapja és si­kerének kulcsa mind a mai na­pig a rangsorolás algoritmusán nyugszik. Sergei Brin és Larry Page, a cég alapítói 1998-ban írták meg a Stanford Egyete­men „The anatomy of a larga- scale hypertextual Web search engine” című tanulmányukat, amiben lefektették elméleteik alapját. Az elv lényege, hogy a weboldalak fontosságát a rájuk mutató linkek száma, minősé­ge alapján határozza meg. Ezt megelőzően minden kereső kulcsszó alapon, a keresések gyakorisága szerint határozta mega fontosságot. A szabadalmaztatott Page- Rank algoritmus felforgatta a keresőpiacot, sokáig szinte ki­zárólag ez alapján rangsorolt a nyugati világ legnépszerűbb keresője. Az évek során a Goog­le sok titkos adalékot adott a PageRankhez, sőt, mostanra már maga a mérőszám nem is számít túl sokat a több tucat egyéb kritikus szempont és a körülbelül 400 féle szignál mel­lett, ami meghatározza a do­kumentumok relevanciáját egy adott keresésre. A recept a Coca-Cola esetéhez hasonlóan titkos, pontosan senki nem tudja, hogyan zajlik a teljes in­dexelési értékelési folyamat, a folyamatoknak mindössze a logikai felépítését ismerheti meg a nép. Nem mehet teljes gázzal Gary Illyés előadásában hangsúlyozta, hogy a kereső működése egy átláthatatlanul bonyolult folyamat, a működtetése pedig már az ele­jén komoly problémákba ütkö­zik. A Google a rendelkezésére álló erőforrásaival megtehetné, hogy a világ összes weboldalát és weben fellelhető dokumen­tumát állandóan ismétlődve térképezné fel, de ennek na­gyon gyorsan az lenne az eredménye, hogy összeomlana az internet. Fura elképzelni, de ha a keresőrobotok teljes gáz­zal nekiesnének a webnek, ak­kor a hálózat bizonyos pontjai nagyon gyorsan túlterhelőd­nének. Az elemző szerint a webmes- terek a jelenlegi állással ellen­tétben nagyon nem szeretnék a keresőket, ha „brute force” megoldásokat használnának. Erre szerencsére nincs is szük­ség, egyrészt azért, mert mára az algoritmusok pontosan ké­pesek megállapítani, hogy a webes tartalomnak mely része változik nagyon ritkán és mik az online világ ütőerei. Továb­bá a webnek van egy jelentős része, amit szükségtelen alapo­san vizsgálni, ilyen például minden, amit a Google spam- nek gondol vagy gyenge és je­lentéktelen tartalomnak. A feladat évekkel ezelőtt az volt, hogy egy olyan rendszer jöjjön létre, ami képes felis­merni a hasznos és haszonta­lan, a pörgős és statikus, az egyedi és ismétlődő tartalmak közti különbségeket és ennek megfelelően időzíteni a craw- lerek, azaz a keresőrobotok lá­togatásait. A mai Google már pontosan felismeri egy hírol­dalon az adatvédelmi szabály­zatot és az impresszumot, tud­ja, hogy a láblécben talált in­formációk minden oldalon ott vannak és többnyire a tarta­lom szempontjából lényegte­len kiegészítéseket tartalmaz­nak. Jó eredménnyel méri fel a gépezet azt is, hogy mi a spam tartalom és minőségi értékelé­seket képes hozzáadni minden egyes URL-hez. Ha egy tartalom csak súrolja a webes hulladék kategória ha­tárát és még Matt Cutts se mondaná rá, hogy spam, de az algoritmus úgy ítéli meg, hogy mégis az, akkor a robotok egy­szer átnézik a tartalmat, majd hosszú időre magára hagyják és nyüván az indexekben is nehe­zen bukkanhat fel. A Googlebot értelmes?! A Googlebot mondhatni egy értelmes „lény”, valójában egy egyszerű webes kliens. Körül­belül úgy kell elképzelni mint a cUrl vagy a Lynx parancssoros böngészőket, amik képesek ol­vasni a HTML kódokat, motor viszont nincs mögöttük. A Googlebot a tartalmat csupán letölti, de nem értelmezi, nem minősíti, a benne lévő JavaSc- ripteket nem futtatja le. Termé­szetesen a webhelyekre vonat­kozó előírásokat betartja, a robots.txt állományt minden esetben ellenőrzi és ahol nem szívesen látott vendég, oda nem is megy be. Ellenben köve­ti a HTML átirányításokat és vizsgálja az URL-t, értelmezi azt és kitalálja, hogy a benne ta­lálható paraméterekből mit hagyhat figyelmen kívül. Egy adott tartalmi oldal vagy dokumentum felett végtelen számú URL állítható elő a pa­raméterek miatt, a Googlebot egyik alapvető feladata az, hogy kibogozza ezeket és meg­állapítsa, hogy melyik az elsőd­leges és alapvető URL, amit ál­talánosan lehet használni. A többi URL sem megy a kukába, bekerülnek egy közös adatbá­zisba, de a feldolgozás során mindig az elsődleges cím kerül használatba. Egy algoritmus mindenek felett A használat alatt nem csak azt értjük, hogy a keresőoldalon megjelenő találatok alapanya­gaként szerepel, ugyanis a Goog- le-nél szabály az, hogy egyik bel­ső fejlesztő csapat sem ír saját le­töltőket, klienseket, hanem szi­gorúan mindenki a sztenderd rendszert használja. Egyrészt fe­lesleges erőforrás-pazarlás len­ne, ha a csapatok párhuzamosan elkezdenének azonos megoldá­sokat kódolni, másrészt minő­ségbiztosítási okokból sem len­ne szerencsés hagyni ezt. A ren­delkezésre álló erőforrások és lehetőségek birtokában egy hi­bás döntés is elég lenne ahhoz, hogy illetéktelen, törvényeket megszegő robotok fussanak vé­gig akár véletlenül a weben. A hivatalos Googlebot jólnevelt, a szabályok betartását a cég ellen­őrzi. A Googlebot munkája a kuta­tásban és a letöltésben gyakorla­tilag ki is merül. Itt kapcsolódik be á második fokozat, az elemző szoftver, a Parser. Ennek elsőd­leges feladata, hogy minden szöveges tartalmat HTML-be konvertáljon, kereshetővé, ér­telmezhetővé tegyen. A web tele van például PDF állományokkal, amik alapból nem használható­ak, de miután a Parser átmegy rajtuk, máris a rendszer hasznos tagjaivá válnak. A Parser szintén egy univerzális eszköz a Google berkein belül, a botokhoz hason­lóan szintén mindenki ezt hasz­nálja, hasonló okokból. Parser: JavaScriptet is futtat A konvertálás mellett a Pár- ser fontos feladata, hogy kivon­ja a komplex URL-eket a doku­mentumokból és az eredmé­nyeket a közös URL-adatbázis- ba öntse be. Továbbá felismeri a Googlebottal ellentétben a nem-HTML átirányításokat is, mint például a metatageket vagy a JavaScript megoldáso­kat is. 2010 óta publikus, hogy a Parser adott esetben végre­hajtja, lefuttatja a scripteket, ha átirányításról van szó, akkor az a link is bekerül az indexelésbe, keresésbe és rangsorolásba. A Parser felismeri az oldalon szereplő korlátozásokat, pél­dául a noindex vagy a nosnip- pet címkéket és ezt eltárolja az adatbázisban, az oldal a web- mester akaratának megfelelő­en kerül be vagy marad ki bizo­nyos találatokból. Ha a web- mester nem engedi rá a tarta­lomra a keresőt, az akkor is ké­pes megállapítani, hogy mi van benne - ha elegendő számú és minőségű link mutat egy nem követhető oldalra, akkor a Google a ráutaló jeleket értel­mezve felvázolja, hogy az adott dokumentum miről szól, anél­kül, hogy konkrétan feltérké­pezné. Persze, ha a robot telje­sen ki van tiltva, akkor ez nem történik meg. Caffeine: osztályozó részleg Amennyiben ez a fázis is ké­szen van, akkor lép akcióba az indexelést végző program, a Caffeine. Ahogy a neve is sejte­ti, ennek a szoftvernek az erős­sége, hogy rendkívül gyorsan képes értelmezni a rendelkezé­sére bocsátott információkat és azokat újrarendezni és a fel­használók elé tálalni. A Caffei­ne a feltérképezett dokumen­tumokat percek alatt képes fel­dolgozni és továbbadni a ki­szolgáló felületnek, ennek kö­szönhető, hogy az elmúlt évek­ben a gyakran frissített oldalak tartalmai szinte azonnal megje­lennek a keresési találatok közt. Teljesen természetes, hogy egy híroldal megjelent anyaga a publikálás után 1-2-3 percen belül már a találatok közt szerepel. Pedig minden egyes feltér­képezett dokumentum átfut a Caffeine rendszeren. A prog­ram több száz műveletet végez el azonnal, például kiszámolja a PageRanket, felismeri a spam formákat, megkeresi az URL kanonikus verzióját, felismeri a kulcsszóhalmozást, a duplikált és rejtett tartalmakat. Ha a szö­veg ugyanolyan színű mint a háttér, azt instant büntetéssel jutalmazza a Google Caffeine. 400 szempont ír le egy webes dokumentumot A Caffeine kezdetben 200, mára már körülbelül 400 kü­lönböző jelet használ minden egyes dokumentum minősíté­sére. Ezek listája természetesen féltve őrzött titok, a fenti példák triviálisak és néhány egyéb is könnyen kikombinálható józan paraszti ésszel is akár. Miután mind a 400jelet elemzett, a Caf­feine létrehoz egy belső haszná­latra szánt egyedi dokumentu­mot az eredetiből, amibe beke­rül minden kinyert és képzett információ is. Ez azonnal beke­rül az indexbe, majd körülbelül fél perccel később már a megfe­lelő keresésre a a találati listá­ban is feltűnik a link és minden kiegészítő információ. A Caffeine alapos, az általa elemzett 400 szempont közt olyanok is feltűnnek, amik az adatok vizuális helyét is figye­lembe veszik a weboldalon. A korábbi keresőkben teljesen lényegtelen volt, hogy az olda­lon belül hol jelent meg egy szöveg, a Caffeine esetében vi­szont már-már emberi kényes­ség képzelhető el. Kitalálja, hogy mi az igazi tartalom, mi lehet fontos, mi lehet releváns. Csak működik Az eredmény pedig egy olyan webkereső, amelybe ha címet írunk, térképet mutat, ha paraméterekkel szűkítünk, akkor a megfelelő dokumen­tumokat tálalja elénk, meg­mutatja az oldal előnézetét és valóban percek alatt visszaad­ja az új és fontos tartalmakat. Persze furcsa dolgok mindig történhetnek, a listákba beke­rülhetnek érdekes, emberi ésszel átgondolva nem odaillő dolgok, de a webmesterek is meglepődnek néha, hogy mi­lyen kulcsszavakra keresve ju­tottak el látogatók az oldaluk­ra. A kereső működése így leír­va egyértelmű és tiszta, de akit komolyabban érdekel az talál­hat a webmester fórumokban, szakblogokban vagy a szakér­tők környezetében igazi ínyencségeket, (hw)

Next

/
Thumbnails
Contents