トップ100万ウェブサイトのrobots.txtを解析した人とその結果
An Analysis of the World's Leading robots.txt Files(世界のリーダーたちの robots.txt ファイル)というブログで、世界の上位100万サイトの robots.txt を解析したベン・フレデリクソンさん(Ben Frederickson)の話が出ていました。
フレデリクソンさんは、解析結果から、3つの面白い気づきを紹介してくれています。
Googlebot にしか見せないサイト
Googleボット以外のすべてのボットを拒否する、という設定のサイトは意外に多いそうです。
大手サイトでは例えば、フェイスブック(robots.txt)が厳しいということ。実際に見ると Apple や Baidu など有名どころのクローラーはいくつか受け付けているのですが、基本的には「その他は不許可」という指定をしています。
アメリカ国勢調査のサイトも、Google, Yahoo, Microsoft の3社のbotしか受け付けておらず、例えば真剣にGoogle の対抗馬を目指しているような DuckDuckGo の bot はアクセスできません。
記事中に、主要言語ごとの人気サイトで DuckDuckGo のクローラを許すかどうかの表があるのですが、かなり多くのサイトがアクセスを禁止しています。DuckDuckGo を排除しているというわけではなく、よく知らないものやマイナーなものはすべて不許可、という態勢ですね。
今後、新しい検索エンジンや、その他のクローラーを使ったサービスが出てきても、多くのサイトはアクセスが禁止されているのが現状ということですね。
みんながブロックするクローラー上位ランキング
より多くのドメインで拒否されているクローラーは何だろう? という集計もしています。一番人気は MJ12bot 。続いて AhrefsBot, Baiduspider, Nutch… と続きます。
日本語のブログでも、このあたりの bot を止めたい、アクセスが多すぎて困る、という記事を見かけるので、いろいろなサイトの運営者が迷惑と思っているのでしょう。Google bot なら見に来ればその後の実ユーザーの来訪も見込めますが、ユーザーを連れてこないのにボットに絨毯爆撃のようにアクセスされても困るだけですからね。
サイトを丸ごとダウンロードするようなツールの bot も、禁止リストに入っていることが多いそうです。
robots.txt で求人
Pinterestなど、robots.txt のコメントで人間向けの勧誘をしているサイトも多いようです。
ピンタレストは採用中!(Pinterest is hiring!)
HTMLのコメントにもこういうのありますが、実際これで採用につながることってあるんですかね?
ソースコード
Pythonで書かれた robots.txt クローラのコードは Github で公開されています。
via Hacker News