« Google翻訳が自社製エンジンに移行 | メイン | PHPでメッセージキューを使う »

2007年10月24日

Alexa(アレクサ)の統計データの問題点

MarkeZine併載コラム 第八回

このシリーズは、Markezineの連載との併載になっている。説明図なども作ってもらっているのでマーケジンのほうが読みやすいかもしれない。


アレクサの問題点

前回は、アレクサの統計データを誤解してしまうケースについて説明してきました。今回は、統計データ自体の問題点を指摘していきます。

  • 有名ブロガーによる問題提起
  • サーバ側の統計とつきあわせたユーザ達
  • 国(言語)単位でのデータ数増減の不均衡

アレクサのデータ提供者に偏りがある

オンラインゲームや携帯電話サイト、Windowsユーザ以外について測れないのは前回解説の通りですが、WindowsでInternet Explorerを使っているユーザであっても、必ずしも正確なデータが取れているとは限りません。

アレクサに統計データを提供している人たちは、アレクサのツールバーをインストールしている人たちです。決してランダムに選ばれているわけではありません。それが問題となる場合があります。

アレクサのデータ提供者が何千人、あるいは何万人いるのかは非公開なのでわかりません。しかし、多いとはいってもインターネットの全ユーザからみれば微々たるもののはずです。

Googleの人気ブロガーによる検証例

実例をあげましょう。Googleの検索品質チームで働き、検索とSEOに関するブログで有名なMatt Cutts氏が、彼のサイトのAlexaトラフィックの異常さをブログで指摘した件は有名です。

Askといえば、日本でもAsk.jpを展開している検索エンジンです。グーグル、ヤフー、マイクロソフトLiveの三つには引き離されていますが、それでも世界4位のシェアを持つ検索エンジンで、数パーセントであってもユーザ数、アクセス数は膨大なはずです。

しかし、Matt Cutts氏は、彼のブログのAlexaトラフィックをAskのそれと比較し、Askの4分の1ものアクセスが彼のブログにあることになっているのを発見しました。

alexa-ask-and-mattcutts.png
Matt Cutts氏のブログより。検索エンジンAskと、Matt Cuttsブログは4倍しか違わない?

彼のブログは確かに人気ブログですが、ニュースやブログなどでの取り上げられ方や世の中の一般ネットユーザの認知度からいってもこの結果はありえません。

彼のブログを購読するような人のほとんどが、SEO業者やSEOに興味のある人で、そのような人たちはAlexaツールバーをインストールしている割合は、一般のネットユーザよりもはるかに高いはずです。そのために、Alexaのデータ上ではありえないほど大きなトラフィックがあるように見えてしまったのでしょう。

このブログに限らず、SEO関係の人気サイトやブログは、Alexaの統計では実際のアクセス数よりもかなり上位に出る傾向にあることが知られています。

ユーザによるサーバ側統計とのつきあわせプロジェクト

アレクサのデータの信頼度を調べるために運営されているこのようなサイトもあります。

Alexaのランキングと、実際にアクセスしたユニークビジター数の相関を、さまざまなサイトの運営者からデータを集めることで求めようというプロジェクトです。

alexa-and-server-stats-relevance.gif
Alexaランクと訪問者数の相関は…なくはない程度?

このプロジェクトにデータを提供しているのは、サイトにやってきた匿名のサイト管理者なので、入力されたランキングとサーバサイドのデータが正確かどうかという保証はありません。

それでも、たとえイタズラによる嘘の入力があったとしても、これだけ多くの参加者が無意味に違う数値をわざわざ入れるとは考えにくいです。ここは、ほとんどのデータが事実であるとして話を進めます。

グラフ中の線が、全体的な相関関係を代表したものとなります。なんとなく、ランクが上のほうが実際のアクセス数が多そう、という相関関係が見られて、グラフ中にも相関の線は引いてあります。

しかし、個々の点が線から大きく離れているケースも、かなりあることがわかります。Alexaでのランクは高いのに、実際のアクセスは非常に少ないサイトもあれば、Alexaでは低い評価でも、同じランクの他のサイトに比べて10倍以上のアクセスがあったり、というのもそこそこあるようです。

このような実状を知っていれば、Alexaで出てくるランキングやトラフィック量を成果測定や広告効果の推定に使うのは危うい、というのは自然と導き出されるのではないでしょうか。

国ごとのデータ提供者数の変動が大きい

Matt Cutts氏の例のように、アレクサのツールバーを入れるか入れないかによって、特定のカテゴリのドメインが実力以上に高く集計されてしまうことが起こりえます。

この現象が非常に大きな形で出てくる別の事例が、国、より正確には言語によるツールバー普及数の変動です。

アレクサの統計データがウェブ全体のトラフィックをより正しく切り取るためには、アレクサ・ツールバーを使うユーザが偏りを持たないことが条件となります。

しかし、アレクサやアレクサ・ツールバーの存在はどのようにして知られ、普及するのでしょうか? それは、この連載を含むウェブサイト運営者向けの情報サイトでの解説記事や、ブログなどでの紹介によるものでしょう。

でも、全世界のユーザに対して一斉に同じ記事やブログが影響を及ぼすことはありません。その最も大きな要因は、言語の壁です。この連載の記事が公開されたときに、アレクサのことを知ってツールバーをインストールするのは、日本語の読めるユーザだけですから、そこでは日本語のサイトをよく見る、あるいはほとんど日本語のサイトしか巡回することがないユーザです。

このように、ある言語でアレクサが紹介され、その言語内で突然、アレクサ・ツールバーの普及率が高まる、という現象は実際に観測されています。実例を見てみましょう。

モンゴルのデータを例に、アレクサの統計の弱点を検証する

Alexaでは、国別のトラフィック上位サイトをランキングしているので、モンゴルの上位サイトを見てみます。

ここから、モンゴル向けにのみモンゴル語で提供されている上位サービスについて、いくつか過去5年間の統計データを見てみましょう。

alexa-mongolian-traffic.png
モンゴルの有力サイトgoogle.mn, olloo.mn, caak.mnの近年のトラフィック

さて、アレクサのデータからすると、モンゴルで上位の人気サイトは、どれも2007年に入ってから10倍近いトラフィックの伸びをしめしています。モンゴルで携帯電話の普及が伸びているというニュースはどこかで見ましたが、ウェブの利用が一年もしないうちに本当に10倍に伸びたのでしょうか?

他の指標とつきあわせるという意味で、モンゴルの政府統計公報を見てみます。幸い、モンゴル語と英語の併記となっていました。公開されている最新の2007年6月版 [pdf]によれば、インターネットの利用料金も、インターネットアクセスの提供規模も、2006年とほとんど変わるところがありません。

internet-statistics-by-mongolian-government.png
モンゴルの政府統計公報のサイト

次に、モンゴルの国別ドメイン(.mn)で、アレクサ(alexa.com)について語られているページを検索エンジンで検索してみます。

出てきたほとんどのサイトはモンゴル語で読めませんが、いくつか開いてブログらしいものの日付を見てみると、早いもので2006年の10月、多くは2007年の言及です。

alexa-in-mongolian-on-google-search.png
googleで検索した、モンゴルでのAlexa紹介記事

この例から読み取れるように、モンゴル語圏のウェブでは、2006年の終わりごろからアレクサとアレクサ・ツールバーの存在が知られるようになり、それに呼応するようにモンゴルでサービスをしているネットサービスの多くが、実際にはありえないほどの伸びを、それもほぼ同じ伸び率で記録していることになります。

今回たまたまモンゴルを対象に調べてみて、例として出すには極端すぎる結果が出たので私も驚いたのですが、モンゴルの場合はネット人口もですが総人口自体が小さいこともその理由かと思います。以前ベトナムでも同様の調査をし、主要なベトナムのサイトについてアレクサの統計がある期間に突然2倍になったのもわかっています。

世界でのツールバー普及動向に翻弄されるトラフィック統計

欧米や日本では、アレクサ・ツールバーはかなり以前から知られていて、SEOの業者やサイト運営者にはインストールしていた人も多くいました。その後、このツールバーをスパイウェアと認定して(見ているサイトの情報を送るという意味では、アレクサが信用できなければそういう考えもできるでしょう)削除するウィルス対策ツールが登場したりと、ツールバー利用者の数は伸びていません。

しかし、最近になってネットが普及してきたような国では特に、今アレクサが知られ、ツールバーが大量にインストールされているという事情があります。そのために、全世界の統計に対する割合でトラフィックの数値やグラフが出るアレクサでは、実際のトラフィックが減少していないにも関わらず、アメリカや日本でサービスを行っているサイトの数値が最近になって減少してきているように見えてしまうのです。

米国のユーザからは米国外の、特に非英語圏のネットの情勢は注目されにくいため、この要因に関しては英語圏でもまだあまり広まっていない話ですが、筆者としてはこの要因はかなり大きく、アレクサの統計データを使って特定の国(言語)のウェブ市場の浮沈を語ることをほとんど不可能にしていると見ています。

今回のまとめ

アレクサにデータを送っている人の構成によって、アレクサの統計データは簡単に変化してしまうことがわかったと思います。

アレクサのトラフィックデータは、単体でそれのみを使って何かを判断するには向いていないデータだといえます。

最近は、アレクサのグラフで語ることの危険性が多少理解されてきたようで、以前のような断定口調の記事やブログは減り、「あくまで参考資料」というかんじで添えられることが多くなったように見えます。

また、アレクサの競合サービスから統計やグラフを持ってくるケースも増えてきましたが、その競合サービスがどのようにデータを集めているのか理解していないと、結局同じ失敗を繰り返しているだけになる、というのは注意を喚起しておきたいと思います。アレクサの競合サービス達については、この連載の後の回でまとめてご紹介しようかと考えています。

投稿者 秋元 : 2007年10月24日 10:00

トラックバック

このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/1616

 
mg src="http://img.awasete.com/image.phtml?u=http%3A%2F%2Flabs.cybozu.co.jp%2Fblog%2Fakky%2F" width="160" height="140" alt="あわせて読みたい" border="0">

著書

PHPxWebServiceAPIConnections.jpg

プロフィール

週三日勤務で、残りは個人で活動しています