カテゴリー
データ可視化

トップ100万ウェブサイトのrobots.txtを解析した人とその結果

An Analysis of the World's Leading robots.txt Files(世界のリーダーたちの robots.txt ファイル)というブログで、世界の上位100万サイトの robots.txt を解析したベン・フレデリクソンさん(Ben Frederickson)の話が出ていました。

フレデリクソンさんは、解析結果から、3つの面白い気づきを紹介してくれています。

Googlebot にしか見せないサイト

Googleボット以外のすべてのボットを拒否する、という設定のサイトは意外に多いそうです。

大手サイトでは例えば、フェイスブック(robots.txt)が厳しいということ。実際に見ると Apple や Baidu など有名どころのクローラーはいくつか受け付けているのですが、基本的には「その他は不許可」という指定をしています。

アメリカ国勢調査のサイトも、Google, Yahoo, Microsoft の3社のbotしか受け付けておらず、例えば真剣にGoogle の対抗馬を目指しているような DuckDuckGo の bot はアクセスできません。

記事中に、主要言語ごとの人気サイトで DuckDuckGo のクローラを許すかどうかの表があるのですが、かなり多くのサイトがアクセスを禁止しています。DuckDuckGo を排除しているというわけではなく、よく知らないものやマイナーなものはすべて不許可、という態勢ですね。

今後、新しい検索エンジンや、その他のクローラーを使ったサービスが出てきても、多くのサイトはアクセスが禁止されているのが現状ということですね。

みんながブロックするクローラー上位ランキング

より多くのドメインで拒否されているクローラーは何だろう? という集計もしています。一番人気は MJ12bot 。続いて AhrefsBot, Baiduspider, Nutch… と続きます。

日本語のブログでも、このあたりの bot を止めたい、アクセスが多すぎて困る、という記事を見かけるので、いろいろなサイトの運営者が迷惑と思っているのでしょう。Google bot なら見に来ればその後の実ユーザーの来訪も見込めますが、ユーザーを連れてこないのにボットに絨毯爆撃のようにアクセスされても困るだけですからね。

サイトを丸ごとダウンロードするようなツールの bot も、禁止リストに入っていることが多いそうです。

robots.txt で求人

Pinterestなど、robots.txt のコメントで人間向けの勧誘をしているサイトも多いようです。

ピンタレストは採用中!(Pinterest is hiring!)

ロボット用のファイルを読んでいるあなたがもし人間なら、デジタルオーシャンで働くべきだ

私たちもロボットは好き。私たちとボットについて語り合いましょう(Angel.co)

HTMLのコメントにもこういうのありますが、実際これで採用につながることってあるんですかね?

ソースコード

Pythonで書かれた robots.txt クローラのコードは Github で公開されています。

via Hacker News

カテゴリー
ネットのサービス

Emoji Life – あなたがツイッターでどんな絵文字を使っているかを調べてくれるサービス

Emoji Life (絵文字ライフ)は、ツイッターでこれまでつぶやいたツイートを分析して、どんな絵文字をいつ、何回ぐらい使っているか教えてくれるという新サービスです。@jsneedles さんが開発、@david_diam さんがデザインしました。

利用するには、ツイッターアカウントとの連携が必要です。

emoji-life-rights-request

要求されるアクセス権は、この通り最小限のもの。勝手につぶやかれたりする心配はありません。

emoji-life-emojinating

数秒で結果は帰ってきました。

emoji-life-results

僕は基本的に絵文字を使わないので、あまり楽しい結果ではありませんけど。

自分では使った記憶がないのですが、Emoji Life の分析によると、僕は最近のつぶやきの中でハート、コピーライト、カメラの絵文字を一回ずつ使っていたようです。

こちらM.C. ハマー氏の解析結果

emoji-life-mc-hammer

半数近いツイートが絵文字を含んでおり、実に43種類もの絵文字を使いこなしているようです。絵文字の普及ってすごいですね。

利用したユーザーの解析結果は、emoji.life/(ユーザー名) で一般アクセスできるようなので、絵文字の利用動向について知られたくない人、というのがもしいたら、使わない方がいいかもしれないですね。あんまり実害なさそうな気はしますが。

via TheNextWeb

カテゴリー
技術

ソーシャルネットワークを避けてても、友達が使っていれば非メンバーの友人関係が推測できる、という研究

ソーシャルネットワークでは1+1=3になる(One plus one makes three for social networks)、というタイトルの研究が公開されています。

ソーシャルネットワーク上の会員は、しばしばプライベートな情報を公開することを選択します。そうして多少のプライバシーを犠牲にする代わりに、様々な機会や娯楽を楽しむことができるというわけです。私たちはここで、会員間で確認された友人関係と、会員から非会員へのメールアドレス情報という、一見無害そうに見える情報の組み合わせだけから、非会員と他の非会員の間の関係性を導けることを示します。機械学習により、ある会員が知っている二人の非会員が知り合いかどうかを、会員登録している人の割合や非会員のメールアドレスの登録割合を保守的に見積もったとしても、ROC曲線下の面積(AUC)が0.85以上にて推定できました。
Abstract

プライベートな情報をソーシャルネットワークに与えるのが嫌だ/不安だ、としてフェイスブックなどの登録を避ける人もいると思いますが、たとえ自分が登録しなくても、自分の知人達が登録していて、その知人が自分のメールアドレスをサービスに教えていたら、機械的にあなたの交友関係を推定できる可能性がある、というのがこの研究です。
下の図では、丸い点がそれぞれ人を表し、人と人との間がつながっている場合、それは友人関係を示しています。
黒い点が会員で、赤い点は、黒い会員がメールアドレスを登録している非会員で、緑の一方向の線でメールアドレスを知っていることを示しています。そうした時、機械学習により、赤い点と他の赤い点に関係(赤い線)があるかどうかを推定するという話。
Modelnetwork
フェイスブックに限らず、登録時にgmailやyahooメールなどのアカウントから、アドレス帳の情報を渡してソーシャルネット上で知人を探す、という仕組みがありますね。僕は怖いので使ってませんが。もし過去にメールをやりとりした人がアドレス帳をサービスに渡せば、自分が登録しなくても自分とその人の関係性は登録されるわけです。複数の人からそうやってメールアドレスで指されていれば、それを使ってジグゾーパズルの穴を埋めるように、自分がソーシャルグラフの中のどこに居るのか当てられても不思議はないということですね。
この記事では、ごくごく単純な友人関係とメールアドレスだけを使っていますが、ソーシャルネットワーク業者からすれば、これ以外にも誕生日や性別や住所など、参考にできるデータは大量にあるわけで、それらを駆使すれば、より精度よく、「まだ参加していない非会員」についても絞込みができるだろう、ということです。
上の図では人口の30%が会員登録している、というモデルですが、実際にそれ以上の割合で周囲の人がソーシャルネットワークに登録しているような人も増えていくでしょう。登録したプライバシー情報を何にどう使われるか心配だ、という問題は、単に「自分は参加しないから大丈夫」ということではなく、自分が参加しようとしまいと、ある程度節度を持ってデータを使ってもらうように求めていかないといけないのかもしれないですね。
via Staying Off Facebook Won't Protect Your Privacy