国ごとのデータ提供者数の変動が大きい
Matt Cutts氏の例のように、アレクサのツールバーを入れるか入れないかによって、特定のカテゴリのドメインが実力以上に高く集計されてしまうことが起こりえます。
この現象が非常に大きな形で出てくる別の事例が、国、より正確には言語によるツールバー普及数の変動です。
アレクサの統計データがウェブ全体のトラフィックをより正しく切り取るためには、アレクサ・ツールバーを使うユーザが偏りを持たないことが条件となります。
しかし、アレクサやアレクサ・ツールバーの存在はどのようにして知られ、普及するのでしょうか? それは、この連載を含むウェブサイト運営者向けの情報サイトでの解説記事や、ブログなどでの紹介によるものでしょう。
でも、全世界のユーザに対して一斉に同じ記事やブログが影響を及ぼすことはありません。その最も大きな要因は、言語の壁です。この連載の記事が公開されたときに、アレクサのことを知ってツールバーをインストールするのは、日本語の読めるユーザだけですから、そこでは日本語のサイトをよく見る、あるいはほとんど日本語のサイトしか巡回することがないユーザです。
このように、ある言語でアレクサが紹介され、その言語内で突然、アレクサ・ツールバーの普及率が高まる、という現象は実際に観測されています。実例を見てみましょう。
モンゴルのデータを例に、アレクサの統計の弱点を検証する
Alexaでは、国別のトラフィック上位サイトをランキングしているので、モンゴルの上位サイトを見てみます。
ここから、モンゴル向けにのみモンゴル語で提供されている上位サービスについて、いくつか過去5年間の統計データを見てみましょう。
モンゴルの有力サイトgoogle.mn, olloo.mn, caak.mnの近年のトラフィック
さて、アレクサのデータからすると、モンゴルで上位の人気サイトは、どれも2007年に入ってから10倍近いトラフィックの伸びをしめしています。モンゴルで携帯電話の普及が伸びているというニュースはどこかで見ましたが、ウェブの利用が一年もしないうちに本当に10倍に伸びたのでしょうか?
他の指標とつきあわせるという意味で、モンゴルの政府統計公報を見てみます。幸い、モンゴル語と英語の併記となっていました。公開されている最新の2007年6月版 [pdf]によれば、インターネットの利用料金も、インターネットアクセスの提供規模も、2006年とほとんど変わるところがありません。
モンゴルの政府統計公報のサイト
次に、モンゴルの国別ドメイン(.mn)で、アレクサ(alexa.com)について語られているページを検索エンジンで検索してみます。
出てきたほとんどのサイトはモンゴル語で読めませんが、いくつか開いてブログらしいものの日付を見てみると、早いもので2006年の10月、多くは2007年の言及です。
googleで検索した、モンゴルでのAlexa紹介記事
この例から読み取れるように、モンゴル語圏のウェブでは、2006年の終わりごろからアレクサとアレクサ・ツールバーの存在が知られるようになり、それに呼応するようにモンゴルでサービスをしているネットサービスの多くが、実際にはありえないほどの伸びを、それもほぼ同じ伸び率で記録していることになります。
今回たまたまモンゴルを対象に調べてみて、例として出すには極端すぎる結果が出たので私も驚いたのですが、モンゴルの場合はネット人口もですが総人口自体が小さいこともその理由かと思います。以前ベトナムでも同様の調査をし、主要なベトナムのサイトについてアレクサの統計がある期間に突然2倍になったのもわかっています。
世界でのツールバー普及動向に翻弄されるトラフィック統計
欧米や日本では、アレクサ・ツールバーはかなり以前から知られていて、SEOの業者やサイト運営者にはインストールしていた人も多くいました。その後、このツールバーをスパイウェアと認定して(見ているサイトの情報を送るという意味では、アレクサが信用できなければそういう考えもできるでしょう)削除するウィルス対策ツールが登場したりと、ツールバー利用者の数は伸びていません。
しかし、最近になってネットが普及してきたような国では特に、今アレクサが知られ、ツールバーが大量にインストールされているという事情があります。そのために、全世界の統計に対する割合でトラフィックの数値やグラフが出るアレクサでは、実際のトラフィックが減少していないにも関わらず、アメリカや日本でサービスを行っているサイトの数値が最近になって減少してきているように見えてしまうのです。
米国のユーザからは米国外の、特に非英語圏のネットの情勢は注目されにくいため、この要因に関しては英語圏でもまだあまり広まっていない話ですが、筆者としてはこの要因はかなり大きく、アレクサの統計データを使って特定の国(言語)のウェブ市場の浮沈を語ることをほとんど不可能にしていると見ています。
今回のまとめ
アレクサにデータを送っている人の構成によって、アレクサの統計データは簡単に変化してしまうことがわかったと思います。
アレクサのトラフィックデータは、単体でそれのみを使って何かを判断するには向いていないデータだといえます。
最近は、アレクサのグラフで語ることの危険性が多少理解されてきたようで、以前のような断定口調の記事やブログは減り、「あくまで参考資料」というかんじで添えられることが多くなったように見えます。
また、アレクサの競合サービスから統計やグラフを持ってくるケースも増えてきましたが、その競合サービスがどのようにデータを集めているのか理解していないと、結局同じ失敗を繰り返しているだけになる、というのは注意を喚起しておきたいと思います。アレクサの競合サービス達については、この連載の後の回でまとめてご紹介しようかと考えています。