カテゴリー
データ可視化

東京人が一番眠りが短い – 腕輪センサーのJawboneが公開した各国の生活時間データがおもしろい

腕輪方のセンサーと、そのデータを使ったライフ・トラッキングのwebサービスを提供している Jawbone 社が、ユーザーから集まったデータを集計して世界各国の生活パターンの違いをまとめています

jawbone-sleep-pattern-around-the-world

上のチャートは一日のそれぞれの時間で、寝ている人の割合を都市ごとにプロットしたものです。

オレンジ色の線が東京のユーザーのものなのですが、他の都市の人たちと比べて、あきらかに寝ている時間帯が内側に寄っている=睡眠時間が短い、のがわかります。

平均して5時間46分、は、最も長いオーストラリア・メルボルンの6時間58分よりも1時間以上短いことになります。

5時間46分の睡眠は、いくらなんでも短すぎるようにも思えますが、これらの睡眠時間は、実際にベッドに入ってから出るまでの時間ではなく、Jawbone のリストバンドが検知した、ベッドの中で本当に寝入ってから目が覚めるまでの時間だということ。ベッドに入ってからもなかなか寝られない、という人は短めに出てしまうのですね。

明け方の4時半、東京では寝ている人の割合が一番高く、93%になります。7%の人はその時間に起きているということですが、ドバイはもっとすごくて、常に全体の10%以上の人は起きているそうです。

昼寝(シエスタ)のイメージがあるスペインで、マドリードの3%の人しか実際には昼寝していないのに、北京では6%の人が昼食のあとに昼寝しているとかも興味深いですね。

リンク先のブログでは、チャートで表示する都市をインタラクティブに選択できるので、興味のある方は自分でいろいろ触って比較すると楽しいかと思います。

「Jawbone のようなセンサーデバイスを使って自分の睡眠や活動を管理しようとする人」だけのデータなので、多少は偏っているかもしれないのですが、それでもお国柄の違いのようなものが見えてきて面白い可視化ではないかと思います。

via Flowing Data

カテゴリー
技術

ソーシャルネットワークを避けてても、友達が使っていれば非メンバーの友人関係が推測できる、という研究

ソーシャルネットワークでは1+1=3になる(One plus one makes three for social networks)、というタイトルの研究が公開されています。

ソーシャルネットワーク上の会員は、しばしばプライベートな情報を公開することを選択します。そうして多少のプライバシーを犠牲にする代わりに、様々な機会や娯楽を楽しむことができるというわけです。私たちはここで、会員間で確認された友人関係と、会員から非会員へのメールアドレス情報という、一見無害そうに見える情報の組み合わせだけから、非会員と他の非会員の間の関係性を導けることを示します。機械学習により、ある会員が知っている二人の非会員が知り合いかどうかを、会員登録している人の割合や非会員のメールアドレスの登録割合を保守的に見積もったとしても、ROC曲線下の面積(AUC)が0.85以上にて推定できました。
Abstract

プライベートな情報をソーシャルネットワークに与えるのが嫌だ/不安だ、としてフェイスブックなどの登録を避ける人もいると思いますが、たとえ自分が登録しなくても、自分の知人達が登録していて、その知人が自分のメールアドレスをサービスに教えていたら、機械的にあなたの交友関係を推定できる可能性がある、というのがこの研究です。
下の図では、丸い点がそれぞれ人を表し、人と人との間がつながっている場合、それは友人関係を示しています。
黒い点が会員で、赤い点は、黒い会員がメールアドレスを登録している非会員で、緑の一方向の線でメールアドレスを知っていることを示しています。そうした時、機械学習により、赤い点と他の赤い点に関係(赤い線)があるかどうかを推定するという話。
Modelnetwork
フェイスブックに限らず、登録時にgmailやyahooメールなどのアカウントから、アドレス帳の情報を渡してソーシャルネット上で知人を探す、という仕組みがありますね。僕は怖いので使ってませんが。もし過去にメールをやりとりした人がアドレス帳をサービスに渡せば、自分が登録しなくても自分とその人の関係性は登録されるわけです。複数の人からそうやってメールアドレスで指されていれば、それを使ってジグゾーパズルの穴を埋めるように、自分がソーシャルグラフの中のどこに居るのか当てられても不思議はないということですね。
この記事では、ごくごく単純な友人関係とメールアドレスだけを使っていますが、ソーシャルネットワーク業者からすれば、これ以外にも誕生日や性別や住所など、参考にできるデータは大量にあるわけで、それらを駆使すれば、より精度よく、「まだ参加していない非会員」についても絞込みができるだろう、ということです。
上の図では人口の30%が会員登録している、というモデルですが、実際にそれ以上の割合で周囲の人がソーシャルネットワークに登録しているような人も増えていくでしょう。登録したプライバシー情報を何にどう使われるか心配だ、という問題は、単に「自分は参加しないから大丈夫」ということではなく、自分が参加しようとしまいと、ある程度節度を持ってデータを使ってもらうように求めていかないといけないのかもしれないですね。
via Staying Off Facebook Won't Protect Your Privacy

カテゴリー
技術

ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図

ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図
Language communities of Twitter
作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各都市の観光地を可視化する、というのをやって話題になった人ですね。
ヨーロッパの様子。言語の切れ目でぼんやりと国境が見えてきます。
Twitterbylanguageseurope
カタランとかスイスとか旧ユーゴとか、面白いですね。
こちらが日本周辺を切り出したもの。
Twitterbylanguagesjapanese
海上の座標でつぶやかれた日本語のツイートがけっこうあるような。GPSの精度の問題か、漁船やフェリーとかからつぶやく人がそんなにいるのか、理由はわかりませんが。
あと台湾の中国語の色が日本語の色と似てるのがまぎらわしいです。
つぶやきの言語を判定するには、言語判定のライブラリを使っているそうです。
ちなみに、文字列からそれがどの言語かを推定する言語判定ライブラリとしては、サイボウズ・ラボでも中谷さんが開発しているLanguage Detectionライブラリがあり、これ検出精度もかなり高いようです。もし上記のような地図など作ってみたい方がいたらぜひ試してみてください。
via Language communities of Twitter