最近の関連性について多くの話をして、私は検索エンジンの背後にある技術のいくつかを紹介し、それらの間の潜在的な違いが何であるかを紹介したいと思った。 コミュニティベースの検索にニューラルネットワークにその場で事前ランキングの結果から検索技術にいくつかの興味深いテイクがあります。
「四大」を比較すると
ここでは、「四大」に焦点を当ててみたいと思います。”これらは、検索スペースを所有すると考えられているエンジンです。 彼らはGoogle、Yahoo!、MSN、およびJeevesに尋ねます。 まずはGoogleとYahoo!
Google–Googleはおそらく最もよく知られている検索エンジンです。 彼らが立ち上げたとき、彼らは最も関連性が高いと考えられていました。
Googleの仕組み
彼らは主にPageRankアルゴリズムで関連性を決定しました。 PageRankは本質的に競争相手が多分よりよい場所であるより多くの本国行きリンクがある場所が、従ってより高くランク付けするべきであると言う。 ウェブマスターはすぐにこれを実現し、また彼らがしなければならなかったすべてがリンクの増加された数を造ることだったことをわかった–競争相手を上回る十分なリンク–非常にランク付けするため。 Googleはもちろん、ランキングアルゴリズムを多少変更することで反応しました。 今度はPageRankのアルゴリズムに適用される権限および関連性の要素がある。
Googleの仕組みは、ページがgooglebotによってクロールされ、インデックス化されると(検索エンジンのスパイダーに関する私の前の記事を参照してください)、彼らはランキングのためにGoogleに返されます。

Googleは、これらのランキングを計算するためにサーバーの数千人を採用しています。 彼らは何百もの要因を–ページのそしてページを離れて見る(本国行きリンクのような)。 彼らはこれらの計算を実行するために何百ものアルゴリズムを使用します。 基本的には、因子ごとに一つのアルゴリズムが必要です。 アルゴリズムでは、ページに重みを付け、その値を割り当てます。 これらの値は、後で使用するために保存されます。
ユーザーがクエリを実行すると、以前に計算された値を互いに比較して、全体的な関連性を判断します。 結果は、ユーザーのブラウザに出力されます。
想像できるように、このタイプの処理能力要件は巨大でなければなりません。 また、Googleが結果を返すどのくらいの速に基づいて、多くのデータは、個々のサーバーのハードドライブに書き込むことができません。 したがって、Googleのインデックスのほとんどが事実上メモリに存在すると仮定する必要があります。 または、少なくともユーザーに提供される部分。
次に検索を実行するときは、Googleが結果を返す速度を見てください。 私は”serach engine”を検索しました(私は意図的にスペルを間違えました)、68,900の結果を返しました。 さらに、エンジンは、ページの側面全体にいくつかのスポンサーの結果だけでなく、スペルの提案を返しました。 すべて0.36秒で。
そして、一般的なクエリのためにエンジンはさらに高速です。 たとえば、Hurricane KathrinaまたはMTV awards(両方の最近のイベント)の検索では、より少ない時間がかかりました。各2秒。
そして、googleは地方分権と冗長性で有名です。 キャッシュされたページごとに、おそらく2-3コピーが保存されています。 Googleはインデックスを非常に小さな部分に分割します–それぞれ2メガバイトと小さい、と私は前述したように、これらの2メガバイトのセクションは、Googleのインフラストラクチャ上に格納されています。 各2メガバイトのセクションは、無関係なセクションの隣に格納することができます。 たとえば、ブログのページの隣にペットサイトのページがいくつかあり、eコマースサイトのページの隣にあるとします。
各データセンターは他のデータセンターとは独立して動作しますが、タスクに重複がある可能性があります。
何千ものコンピュータが一斉に動いている部屋を想像してみてください。 今、同じ部屋が北米全体に広がる他のすべてのデータセンターに何度もコピーしたことを想像してみてください。
これらの異なるデータセンターのために、それぞれが別々に行動しますが、同じ最終目標を持って、私たちは毎月”Google Dance”を体験していました。 Googleのダンスは、Googleがデータセンター全体で検索結果を更新する期間でした。 さらに、各データセンターは独自に更新されるため、あるデータセンターで1位にランクされている可能性のあるページは、他のデータセンターのトップ30には表示されていない可能性があります。
もちろん、Googleがページをランク付けするために使用した要因は、時間の経過とともに変更されました。 彼らはPageRankにあまり重点を置いていますが、それはまだ重要です。 計算内でさまざまな要因を移動すると、サイトのランキングに大きく影響する可能性があることに注意することが重要です。 たとえば、サイトに高いPageRankがあるが、キーワード密度が低い場合、PageRankが後で計算に影響を与える場合は#1にランクされる可能性がありますが、PageRankが以前に考慮された場合、サイトは結果から消えてしまう可能性があります。
そして、これはおそらく今起こっていることです–Googleは本質的に最終的な計算のどこか別の場所にPageRank係数を移動しました。 覚えておいて、ランキングに影響を与える要因の可能性が高い何百もあります。 最終的なランキングに適用される順序を並べ替えることにより、検索結果ページの全体的な配置に劇的な影響を与える可能性があります。
Googleはまた、月に一度の更新から、より永続的に更新されるインデックスに移動したようです。 変更が起こることに気付くことはめったにありませんが、より増分的なレベルで発生し、より多くの主要な更新が頻繁に発生することはありません。
私は一つが一連のレイヤーとしてGoogleを見ることができると思います–各レイヤーは、前のレイヤーによって実行された作業 一番上の層は、私たちがブラウザを介して公開されている唯一のものですが、あなたが見るそのページは、下位の層によって実行される作業なしには存
さて、ヤフーを見てみましょう
Yahoo! -ヤフー以外の誰もいない間!sエンジニアは確かに知っている、我々はそのYahooを推測することができます! 検索技術はGoogleの
と非常によく似ています。 彼らは本当にgoogleやMSNのようなゼロから検索エンジンを構築していないので、測定することは非常に困難です。 もちろん、Yahoo! あなたが参照してください検索は、しかし、Yahoo! 彼らは前の年に購入した他の技術の背中にその検索を構築しています。
ちょうど2002年のクリスマスの頃、Yahoo! 検索サービスInktomiを購入しました。 それまではYahoo! Inktomiまたは最近ではGoogleからの検索結果を受け取っていました。 実際には、彼らがInktomiを購入するまで、Yahoo! Googleを買うだろう。
それは序曲(ペイパークリック広告会社)がそこに最初と最強の検索エンジンの一つであるAltavistaを購入したことを、この そして、その序曲を購入してからわずか数週間後にAlltheweb.com 高速から。
Overtureがアルゴリズム検索空間に移動することは明らかでした。
しかし、このうなり声が始まった直後にYahoo! Overtureの技術の一部またはすべてを購入することに興味があるかもしれません。 そして2003年7月にYahoo! 確かに序曲を購入しました。
ヤフーについてはあまり聞いていませんでした。 2004年2月までの検索–同社は、アルゴリズム検索の独自のバージョンを立ち上げたときです。 多くの人が期待していたものではありませんでした。 他の人は、彼らがオーバーチュアの購入のいずれかをリブランドし、ヤフーにAltavistaまたはAlltheweb検索のいずれかを回すだろうと思ったが、いくつかは、彼らは単にInktomi 検索してみてください。
しかし、それは何が起こったのかではありません。 Yahoo! 彼らが所有しているすべての技術から一緒に機能をcobbling、独自の検索を構築しました。
彼らは超高速InktomiとAltavistaクローラだけでなく、驚くほど良いAllthewebとAltavistaランキングアルゴリズムを持っていました。 だから、彼らはYahooを得るためにすべて一緒にそれをマッシュ! 検索してみてください。
Yahoo! 検索はGoogleと大差ありません。 自分のウェブサイトでは、検索クエリとの関連性を判断するために多くの要因を使用してページを分析し、その分析の結果は、クエリを実行したときにユーザーが見るものであると述べています。
もちろんYahoo! 他のすべてのエンジンと同様に、そのランキングアルゴリズムを改善するために、過去一年以上の作業を費やしてきました。 彼らが最初に出て来たときに、本国行きリンクのより少ない重点のある特定の場所のホームページ、また更に他の場所のページの多くの重点を置いたよう
しかし、ここ数ヶ月、ホームページのみのランキングから、ホームページが一度ランク付けされた複数のサイトページランキングへの微妙なシフトに気づいた。
さらに、彼らはgoogleとは異なるインバウンドリンクをランク付けする傾向があります。 Googleでリンクチェックを実行し、Yahoo!で同じチェックを実行すると、次のようになります。 Googleの結果は、ほとんど常に低くなる傾向があります。 Googleは、これは、「関連性のある」リンクのスナップショットのみを表示するのに対し、Yahoo! 関係なく、関連性のそれらすべてを示しています。
そして、他の違いもありますが、この記事では通過するにはあまりにも多くあります。
同様の結果を返すには、ほぼ同じ技術を使用してください。 あなたはランキングの違いが表示されます付与されたが、これは多くのものによるものです。 例えば、Yahoo! Googleよりも頻繁に更新されないように見えます。 私は新しいページが索引付けされ、作成の幾日以内のGoogleでランク付けし、時々Yahooのための月を取ることができる場所を使用した! 同じことをする。
基本的に私が言っていることはこれです:あなたが懸念しているすべてがランクであれば–Googleのために最適化すると、Yahooでまともなランキングが得ら しかし、それはちょうどあなたがYahooに表示するのに時間がかかることがあります! 検索結果. それは、最終的には、両方のYahooの背後にある技術があるからです! そして、Googleは非常に似ています。
しかし、明日、私は二つのユニークなエンジンを紹介します。 ニューラルネットワーク技術を使用すると主張するものと、そのランキングの基礎としてコミュニティを使用するもの。