« アジャイルメディア・ネットワークに参加した | メイン | ブロガーの歴史 »

2007年05月08日

アレクサ(Alexa)動作の仕組み — MarkeZine併載コラム

MarkeZine併載コラム 第三回

図表入りの完成版はマーケジンの連載をどうぞ。


アレクサはどうやって動いているか

第一回第二回と、アレクサ(Alexa)の統計データの読み方について説明をしてきました。

今回は、アレクサがどのようにして統計データを作っているのか、というアレクサの内部の仕組みについて解説します。

アレクサがどのようにしてデータを集めているのかを知らずに、アレクサの統計データを盲信してしまう例がネット上には氾濫しています。データ収集の仕組みを理解していれば、アレクサに何ができて何ができないのか、というのも自然にわかるでしょう。

他人のアクセスを数える仕組み

ワールドワイドウェブ(WWW)上でのネットサービスは、クライアント(ブラウザ)がサービスを受けたいウェブサイトのサーバに一対一で直接アクセスする分散型のサービスです。

どこかに巨大な中央サーバがあり、すべてのアクセスがそこを通っているのであれば、そこで集計をすることで人気の順位はわかります。

しかし、誰もが勝手に好きなサーバにアクセスするウェブの世界では、クライアントのブラウザか、サーバのウェブサイトのどちらかで、アクセスを捕捉しなければこのような統計値は取れません。

クライアントともサーバとも関係の無い、まったくの第三者であるアレクサは、クライアントのブラウザにデータ集計のためのツールを組み込んでもらうことによって、そのユーザのアクセス先情報を収集しているのです。

昔はブラウザに組み込まれていたAlexaの集計ツール

マイクロソフト ウィンドウズに同梱されているブラウザInternet Explorerのかなり昔のバージョンや、一時期のNetscape/Mozillaブラウザには、このアレクサのデータ収集ツールが内蔵されていた時期がありました。

これらのブラウザでは、閲覧中のサイトに似ている関連サイトを教えてくれるという機能をオンにすることができたのですが、実はこれがアレクサの仕組みを使ったものだったのです。アレクサのサーバに対して見ているページのアドレスを流す代わりに、同じページを見ているほかの人達がどんなウェブサイトを見ているのかという情報が得られるという、いわばギブアンドテイクの情報サービスだというわけです。

そのような事情から、2000年頃にはアレクサは非常に多くのウェブユーザのアクセス情報を収集できていました。多くの、さまざまなユーザからのデータを集められたことで、データの信頼度は高かったといえますし、その情報が確からしかったことで、アレクサの情報もウェブサイト運営者のチェックすべき指標の一つとなったのです。

しかし、その後、Internet ExplorerやFirefoxなどの有名なブラウザに最初からこの仕組みが登録されるということはなくなりました。アレクサからみれば、もっとも重要なデータの入手経路が経たれたことになります。

今は希望者がインストールするAlexaツールバーで集計

そこで、アレクサは減少するデータ取得先をカバーするために、アレクサ・ツールバーの配布に力を入れます。Internet Explorer用に作られたこのツールバーをインストールすると、上記の類似サイト情報を表示する機能を付け加えたり、アレクサのページに行かなくても今見ているページのアレクサ・ランキング等をブラウザのメニューに表示させることができます。

アレクサ・ツールバーの配布ページ:

Alexa-Toolbar-download-page.png

アレクサのランキングやリーチを参考にしていたウェブマスターやマーケッターを中心に、アレクサ・ツールバーはそこそこ広まっていきました。

その他のデータ入手先

Amazonの所有している検索エンジンであるa9.comが提供するA9ツールバーでも、アレクサのデータを集めていました。A9ツールバーは、FirefoxやMozillaブラウザ版も提供されたことから、アレクサに興味のあるFirefox/Mozilla系のユーザにとっての選択肢となりました。

また、A9ツールバーは、アレクサ・ツールバーとはまた異なるオマケ機能(Diary機能など)を付加することで別の対象からもアクセス情報を収集しようとしました。しかしその後、A9.comの開発方針の変更に伴い、A9ツールバーの開発・サポートは中止し、A9ツールバー自体もアンインストールするように呼びかけられています。( http://toolbar.a9.com/ )

A9ツールバー配布終了の告知ページ:
A9-Toolbar-discontinued.png

また、それらのツールバーが対応していないOSやブラウザの利用者の中には、アレクサ・ツールバーの動作を解析し、それと同じように振舞うクローンツールを書いた人たちもいます。たとえば、FirefoxブラウザでAlexaのデータを表示するためのアドオンツールなどがそれにあたります。

これらの勝手に作成されたクローンから送られたアクセス情報も、Alexaの集計データに反映されているはずです。

Alexaツールバーが行なっていることを見てみる

では、アレクサ・ツールバーがInternet Explorerにインストールされているときに背後で何が起こっているのか、簡単に見てみましょう。

ブラウザからインターネットへのアクセスを監視するようなプログラム(プロキシ)を設定した上で、Internet Explorerから適当なウェブサイトをアクセスしてみます。

実験では、なるべく読み込むファイルの少ないサイトがわかりやすいので、グーグルのサイトにアクセスしてみました。

その際に、Internet Explorer(の中のアレクサ・ツールバー)から、以下のようなリクエストが、http://data.alexa.com/ というアレクサのサイトに向かって送信されていました。

アレクサ・ツールバーがアレクサに送信していたデータ:
GET /data/**************?cli=10&dat=snba&ver=7.2&cdt=********&url=http://www.google.co.jp/ HTTP/1.1

ブラウザの解像度などいろいろな情報が含まれているのですが、私のPCに固有の部分は***で隠してあります。

送られているリクエストの末尾には、IEで開いたグーグルのURLが含まれていますね。これを受け取ることで、アレクサは、あるユーザがこの時刻に、グーグルのトップページに一回アクセスした、ということを知ることができるわけです。

ネットサーフィンでページを切り替えるたびに、新たに表示したページのURLが全部、アレクサに送られます。

あとは、世界中のツールバーユーザから送られてきたこのようなデータを集計し、グラフも作ることで、これまで見てきたような統計情報が提供できている、というわけです。

前述のアレクサ・ツールバー互換ツールも、この同じ情報を自分で組み立てて送ることで、引き換えにオリジナルのツールバーと同様のランキング情報などを得るようにできています。

まとめ

現在のアレクサは、主にアレクサ・ツールバーを配布し、そこから収集したアクセス先やアクセス回数のデータを集計することで、各ドメインへのアクセス数や頻度の統計を作っていることがわかりました。

直感的に、インストールした人だけから集めたデータでどれだけ正確な統計になるのか、という疑問がわいてくるのではないかと思います。

また、見ているページの情報を全部他社(アレクサ)に送ってしまうという仕組みはどうなのか、と感じられた方もいるかもしれません。これについても実際に議論が起こっています。

この連載の次回以降の回で、それらの問題についても説明したいと思います。

投稿者 秋元 : 2007年05月08日 09:10

トラックバック

このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/1352

 
mg src="http://img.awasete.com/image.phtml?u=http%3A%2F%2Flabs.cybozu.co.jp%2Fblog%2Fakky%2F" width="160" height="140" alt="あわせて読みたい" border="0">

著書

PHPxWebServiceAPIConnections.jpg

プロフィール

週三日勤務で、残りは個人で活動しています