cu atât de mult vorbesc despre relevanța aceste zile, m-am gândit să vă prezint o parte din tehnologia din spatele motorului de căutare, și ceea ce diferențele potențiale dintre ele ar putea fi. Există unele interesante ia pe tehnologia de căutare de la rezultatele de pre-clasament pe zbor la rețele neuronale la căutarea pe bază de comunitate.
comparând ‘Big Four’
în aceste articole, mă voi concentra pe ‘Big Four. Acestea sunt motoarele considerate a deține spațiul de căutare. Acestea sunt Google, Yahoo!, MSN, și întrebați Jeeves. Primele vor fi Google și Yahoo!
Google – Google este probabil cel mai cunoscut motor de căutare. Când au lansat, au fost considerați cei mai relevanți.
cum funcționează Google
au determinat relevanța în primul rând pe algoritmul lor PageRank. PageRank, în esență, spune că un site care are mai multe link-uri de intrare decât concurenții lor este probabil un site mai bun, prin urmare, ar trebui să rang mai mare. Webmasterii și – au dat seama curând de acest lucru și, de asemenea, și – au dat seama că tot ce trebuiau să facă era să construiască un număr crescut de link-uri-suficiente link-uri pentru a-și depăși concurenții-pentru a se clasa foarte bine. Desigur, Google a reacționat schimbând oarecum algoritmul de clasare. Acum există elemente de autoritate și relevanță aplicate algoritmului PageRank.
cum funcționează Google este, odată ce paginile sunt accesate cu crawlere și indexate de Googlebot (a se vedea articolul meu anterior pe motoarele de căutare păianjeni) acestea sunt returnate la Google pentru clasament.

Google folosește mii de servere pentru a calcula aceste clasamente. Se uită la sute de factori – atât pe pagină, cât și în afara paginii (cum ar fi linkurile de intrare). Ei folosesc sute de algoritmi pentru a efectua aceste calcule. În esență, ar trebui să existe un algoritm pentru fiecare factor. Algoritmii cântăresc paginile și le atribuie valorile. Aceste valori sunt apoi stocate pentru o utilizare ulterioară.
când un utilizator efectuează o interogare, un alt set de algoritmi cântărește valorile calculate anterior unul împotriva celuilalt pentru a determina relevanța generală. Rezultatele sunt apoi scoase la browser-ul utilizatorilor.
după cum ne putem imagina, acest tip de cerință de putere de procesare trebuie să fie uriașă. În plus, în funcție de cât de repede Google returnează rezultatele, nu se pot scrie prea multe date pe hard disk-urile serverelor individuale. Prin urmare, trebuie să presupunem că cea mai mare parte a indexului Google se află practic în memorie. Sau cel puțin părțile care sunt servite utilizatorilor.
data viitoare când efectuați o căutare, vedeți cât de repede Google returnează rezultatele. Am căutat „serach engine” (l-am scris intenționat greșit) și a returnat 68.900 de rezultate. În plus, motorul a returnat câteva rezultate sponsorizate în partea laterală a paginii, precum și o sugestie de ortografie. Totul în 0,36 secunde.
și pentru interogări populare motorul este chiar mai rapid. De exemplu, căutările pentru Hurricane Kathrina sau MTV awards (ambele evenimente recente) au luat mai puțin decât .2 secunde fiecare.
și Google este renumit pentru descentralizare și redundanță. Pentru fiecare pagină cache există probabil 2-3 copii stocate, poate chiar mai mult. Google împarte indexul în părți foarte mici – la fel de mici ca 2 megaocteți fiecare și, așa cum am menționat mai devreme, aceste secțiuni de 2 megaocteți sunt stocate pe toată infrastructura Google. Fiecare secțiune de 2 Megabyte poate fi stocată lângă o secțiune fără legătură. De exemplu, pot exista câteva pagini de pe un site pentru animale de companie lângă pagini de pe un blog, lângă pagini de pe un site de comerț electronic.
în timp ce fiecare centru de date acționează independent de celălalt, există probabil unele suprapuneri în SARCINI.
Imaginați-vă o cameră cu mii de calculatoare care rulează la unison unul cu celălalt. Acum imaginați-vă că aceeași cameră copiată de peste si peste la toate celelalte centre de date răspândite în întreaga America de Nord.
din cauza acestor centre de date diferite, fiecare acționând separat, dar cu același scop final, am experimentat lunar „Google Dance”. Google Dance a fost acea perioadă de timp în care Google își va actualiza rezultatele căutării în centrele de date. Mai mult, fiecare centru de date se va actualiza singur, astfel încât paginile care s-ar fi clasat pe locul 1 într-un centru de date ar putea să nu fi apărut în top 30 pe alte centre de date.
desigur, factorii Google a folosit pentru a rang pagini sa schimbat în timp. Acestea pun mai puțin accent pe PageRank, dar este încă important. Este important să rețineți că mutarea diferiților factori în cadrul calculului poate avea un impact foarte mare asupra clasamentului unui site. De exemplu, dacă site-ul are un PageRank ridicat, dar o densitate scăzută a cuvintelor cheie, acesta poate ocupa locul 1 dacă PageRank afectează calculul mai târziu, cu toate acestea site-ul poate dispărea din rezultate dacă PageRank este considerat mai devreme.
și probabil asta se întâmplă acum – Google a mutat în esență factorul PageRank în altă parte în calculul final. Amintiți-vă, există probabil sute de factori care afectează clasamentele. Rearanjarea ordinii în care sunt aplicate clasamentelor finale poate avea un impact dramatic asupra plasării generale pe pagina cu rezultatele căutării.
Google pare, de asemenea, să fi trecut de la o actualizare o dată pe lună la un index de actualizare mai perpetuă. Rareori observăm că schimbările se întâmplă, dar se întâmplă la un nivel mai incremental, cu mai multe actualizări majore care se întâmplă mai rar.
cred că s – ar putea vedea Google ca o serie de straturi-fiecare strat bazându-se pe munca efectuată de stratul înainte. Stratul superior este singurul la care suntem expuși prin browser, totuși acea pagină pe care o vedeți nu ar exista fără munca efectuată de straturile inferioare.
acum, să ne uităm la Yahoo
Yahoo! – În timp ce nimeni altul decât Yahoo!inginerii s știu sigur, putem specula că Yahoo! tehnologia de căutare funcționează foarte similar cu Google
motivul Yahoo! este atât de dificil de a evalua este pentru că ei nu au construit într-adevăr un motor de căutare de la sol ca Google sau MSN. Desigur, Yahoo! căutare vedeți este unic în sine, cu toate acestea Yahoo! și-a construit căutarea pe spatele altor tehnologii pe care le-au achiziționat în anii precedenți.
a fost doar în jurul valorii de Crăciun 2002, când Yahoo! serviciul de căutare achiziționat Inktomi. Până atunci Yahoo! au primit rezultatele căutării fie de la Inktomi, fie mai recent Google. De fapt, până în momentul în care au cumpărat Inktomi au existat speculații că Yahoo! ar cumpăra Google.
a fost doar câteva luni după aceasta că Overture (o companie de publicitate pay-per-click) achiziționat Altavista – una dintre primele și cele mai puternice motoare de căutare acolo. Apoi, la doar câteva săptămâni după aceea Overture achiziționat Alltheweb.com de la rapid.
era clar că Overture urma să se mute în spațiul de căutare algoritmică.
dar la scurt timp după acest rumblings a început că Yahoo! poate fi interesat de achiziționarea unora sau a tuturor tehnologiei Overture. Și în iulie 2003 Yahoo! a cumpărat într-adevăr Uvertură.
nu am auzit prea multe despre Yahoo! căutare până în februarie 2004 – atunci compania a lansat propria versiune de căutare algoritmică. Și nu era ceea ce se așteptau mulți. Unii au crezut că vor rebrand pur și simplu Inktomi, în timp ce alții au crezut că vor rebrand una dintre achizițiile de uvertură și vor transforma căutarea Altavista sau Alltheweb în Yahoo! căutare.
dar nu asta s-a întâmplat. Yahoo! și-au construit propria căutare, îmbinând caracteristici din toată tehnologia pe care o dețineau.
ei au avut super rapid Inktomi și AltaVista crawlerele, precum și surprinzător de bun AllTheWeb și AltaVista algoritmi de clasificare. Deci, ei piure că toate împreună pentru a obține Yahoo! Căutare.
Yahoo! Căutarea nu este cu mult diferită de Google. Propriul site web spune că analizează paginile folosind mai mulți factori pentru a determina relevanța pentru o interogare de căutare, iar rezultatele acestei analize sunt ceea ce vede utilizatorul atunci când efectuează o interogare.
desigur Yahoo! la fel ca toate celelalte motoare, a petrecut ultimul an sau mai mult de lucru pentru a îmbunătăți algoritmii săi clasament. Când au ieșit pentru prima dată, se părea că au pus mult accent pe pagina de pornire a unui anumit site, cu mai puțin accent pe linkurile de intrare sau chiar pe celelalte pagini ale site-ului.
cu toate acestea, în ultimele luni am observat o schimbare subtilă de la clasamentele numai pe pagina de pornire la clasarea mai multor pagini de site unde pagina de pornire s-a clasat odată.
în plus, acestea tind să clasifice linkurile de intrare diferit de Google. Când efectuați o verificare link pe Google și aceeași verificare pe Yahoo! rezultatele Google tind aproape întotdeauna să fie mai mici. Google spune că acest lucru se datorează faptului că arată doar un instantaneu al linkurilor „relevante”, în timp ce Yahoo! arată-le pe toate, indiferent de relevanță.
și există și alte diferențe, dar există prea multe pentru a trece prin în acest articol.
este suficient să spunem că Google și Yahoo! utilizați aproximativ aceeași tehnologie pentru a obține rezultate similare. Acordat, veți vedea diferențe în clasament, dar acest lucru se datorează multor lucruri. De exemplu, Yahoo! se pare că se actualizează mai rar decât Google. Am lucrat cu site-uri care au pagini noi indexate și clasate în Google în câteva zile de la creare și uneori poate dura luni de zile pentru Yahoo! pentru a face același lucru.
în esență, ceea ce spun este aceasta: dacă tot ce vă preocupă este rangul – atunci optimizarea pentru Google vă va aduce clasamente decente în Yahoo! dar poate dura doar mai mult pentru tine să apară în Yahoo! rezultatele căutării. Asta pentru că, în cele din urmă, tehnologia din spatele Yahoo! și Google este foarte asemănător.
mâine, însă, vă voi prezenta două motoare unice. Unul care pretinde că folosește tehnologia rețelelor neuronale și unul care folosește comunitatea ca bază pentru clasamentele sale.