「統計」タグアーカイブ

ギレンホール実験 – 有名人のミススペルの傾向を分析

ギレンホール実験(Gyllenhaal experiment)は、スペルが難しい有名人の一人である俳優のジェイク・ギレンホール氏の名前を冠した、面白い調査結果です。

著者のラッセル・ゴールデンバーグ氏(Russell Goldenberg)とマット・ダニエルズ氏(Matt Daniels)はまず、2011年頃にグーグルが公開した、「ブリトニー・スピアーズのグーグル検索60万回のデータ」から、人々がどのように彼女のファーストネームを間違えているかを可視化します。

7文字ですが、正しく入力できた人の割合は8割強。2割弱の人はスペルを間違っているということです。

このようなスペルが怪しい可能性のある有名人を、巨大掲示板 reddit の書き込みデータから (sp?) = 「スペル違うかも」と添えられた単語を探すことで特定するという手法が最近提案されていて、それらを参考にした「よくスペルを間違えられている有名人」の名前クイズを遊ぶことができます。

ホームラン記録で日本でも有名になったマーク・マグワイヤ氏のスペルをうろ覚えで入れてみたのがこちら。

最大8種類の「正解」および「よくある間違い」、そして、”Your Path”として、自分が入れたものも表示されます。

クイズで出てくるその他の難しいスペルの有名人としては、マシュー・「マコノヒー」、スカーレット・「ヨハンセン」
、「マコーレ」・カルキン、コリン・「キャパニック」らが挙げられています。

中には、正解率が2割を切っているものや、正しい綴りよりも多くの人が答えている間違っている綴り、なんていうものもあります。

これらのデータは、JSON形式でこちらからダウンロードすることもできます。

名前のスペルについては、間違われようが気にしない、というか実害もそれほど無いかもしれませんが、大量のデータの間違いを分析することで面白い結果が取れるというのはいろいろ他にも実験できそうですね。

Aileen – 周囲のWiFiデバイスをカウントしてその場の人数を記録するツール

Aileen は、WiFi の電波から周囲にあるスマートフォンなどのデバイスを数え、記録するためのツールです。

WiFi がオンになっているデバイスのMACアドレスを使って、周囲にあるデバイスの数を記録し、時系列データなどをダッシュボードでまとめて表示します。(MACアドレスはハッシュ値のみ保存されます)

Aileen は、利用者として NGO による人道的な活動を想定しているということ。たとえば、難民キャンプでの人の出入りや活動を見守る、といった使い方です。キャンプの中にいる難民の数の変化をより正確に計ることで、サービス提供側の人員計画などを立てやすくすることができるのだとか。

先月にはコードがオープンソースで公開されており、WiFi 情報を収集して利用するというセンシティブな目的に対し、正体不明の第三者のツールに頼らずに済むのが利点だということです。

また、難民キャンプなどでは常に安定したインターネット接続が使えるとは限りません。そのような利用シーンを考え、Aileen を動かすPC自体はインターネット接続が無くても動けるようになっています。複数台を設置してデータ収集している場合は、ネットに接続した時点で情報を送信するそうです。(ハッシュ化された個々のMACアドレスを送信するのではなく、集計した結果のみを送るそうです)

今月には、ギリシアのレスボス島にある実際の難民キャンプで、2セットが試験運用を開始しているそう。

難民といえども、今は普通にスマートフォンを持っているのだろうと思います。むしろ情報収集等のために無いと困るぐらいかもしれません。デバイスを持たない人もいますが、スマートフォンの存在から人数を計るというのは、人手を掛けずにすむ効率的な方法なのかもしれないですね。

日本に今難民キャンプはありませんが、プライバシーへの配慮がされていることや、オープンソースとして動作の仕組みが公開されていることから、NGO などで他の人道的な運営に転用したりすることもできるかもしれません。

HomeCourt – バスケットボールのシュート結果を画像認識で自動記録するアプリ

HomeCourtは、スマートフォンのカメラを使ったバスケットボールの練習支援アプリケーションです。打ったシュートをリアルタイムで追跡し、結果をまとめてくれます。

シュート練習が映っているアプリの画面の右上に、シュートの企図回数や成功数、コート内でのシュート位置がリアルタイムで更新されていますね。

このアプリ、コートの外側に三脚でスマートフォンを固定設置して、3ポイントラインやゴールなどを認識させると、その後に打ったシュートの位置や結果が判定されます。また、シュート時の動画をスローモーションで見返したり、それをコーチと共有する機能もあるそう。

こちらが統計結果の表示画面例。コートのどの地点からシュートを試みて、その結果がどうだったかがわかりやすく表示されていますね。距離や角度ごとの成功率や、成功率が経時でどう変化してきたかも出てくるので、得意・苦手の把握や自分の成長の度合いの確認に使えそうです。

ラインの線の色、背景に木などが無い屋内コートが良い、ボールは標準的な色、十分な明るさ、など、より良い認識のための条件はいくつもあるものの、こういった結果が画像/動画認識技術の進歩によってスマートフォンレベルで動くようになったのはすごいですね。

ウェブサイトには利用者として大学チームのロゴも多数表示されていて、実際の練習に使われているようです。効率よく上達を目指すために、こういった支援ツールが中高生の部活などにもどんどん普及していくかもしれないですね。

HomeCourt - The Basketball App

カテゴリ: Sports, Health & Fitness
言語: 英語
価格: 無料
バージョン: 3.0.1

開発者: NEX Team Inc.
公開日: 2018-01-16
評価(全バージョン):
(745人のレビュー)
評価(現バージョン):
(5人のレビュー)

スクリーンショット

screenshot 0screenshot 1screenshot 2screenshot 3screenshot 4screenshot 5screenshot 6screenshot 7screenshot 8screenshot 0screenshot 1screenshot 2screenshot 3screenshot 4screenshot 5screenshot 6screenshot 7screenshot 8

via VentureBeat

英語で一番使われる(笑)はLOLじゃなかった – Facebookの統計データから

Facebook Research の Sarah Larson さんが発表したのが、メッセージやコメントなどで「笑っている状態」を表現する文字についての統計です。

英語で「笑っているよ」を表現する方法としては、LOL = laugh out loud = 大笑い、とか LMAO = laugh my ass off などが有名かと思います。でも、こんな略語が本当に良く使われているんでしょうか?

Larson さんは、5月最終週のFacebookの投稿・コメントを正規表現を使って集計し、全体の15%のユーザーがこういった(笑)表現を使っていたという結果を得ました。さらにその内訳はというと、

(chart image: Facebook Research)
(chart image: Facebook Research)

このグラフのようになります。一番多かったのは”ha”、そしてそれを繰り返した”haha”, “hahaha”などのグループ。日本語で言うなら、コメントした後に”ハハハ”と書くような感じですね。

次が絵文字系、そして”he”, “hehe”(ヘヘ)と続きます。

LOLは1.9% の使用で、50分の1ぐらい。見ないわけでもないけど、そんなにみんなLOLを使っているわけでもない、ということがわかりました。

Facebookだけのデータではありますが、Facebookの英語圏での普及率や使われ方を考えると、ネット一般で見てもそれほど傾向は違わないのではないかなと想像します。

via VentureBeat

絵文字合衆国アメリカ – 各州ごとに人気のある絵文字は何か?

iPhone向けテキスト入力支援アプリの SwiftKey が、自社アプリを使って入力された絵文字のデータをアメリカの州ごとに分析し、インタラクティブな地図 United States of Emoji にまとめました。

united-states-of-emoji
(Swiftkey)

SwiftKeyのページでは、地図上の各州を選び、その州での絵文字の使われ方の特徴を知ることができます。

たとえば、ハワイでどの州よりも使われている絵文字は以下の5個。

hawaii-emoji

波や虹の絵文字がアメリカのどこよりもハワイで使われている、と言われると、なるほど、という気もしますね。

ニューヨークの自由の女神やアリゾナのサボテン、ワシントンのコーヒーカップなどは、なるほどその州でよく使われそうだ、とわかりますが、よくわからないものも多いですね。絵文字といえばいつも話題に出てくるウンコマークは、バーモント州で一番良く使われているのだとか。何でだ。

「どの州よりもこの州で使われている絵文字」だけでなく、

emoji-in-new-york

* この州でより多く使われている絵文字
* この州でより使われていない絵文字
* この州でより使われている絵文字のジャンル
* この州でより使われていない絵文字のジャンル

なども見ることができます。

SwiftKey のユーザーが入力した絵文字、という前提はありますが、それなりに各州の特徴のようなものが出ていて面白い地図ですね。

via The Next Web

あなたがチェスの駒だったとして、生き残るには何になればいいか?

質問サイト Quora での、「平均的なチェスの対局での、個々のコマの生き残る確率は?」(What are the chances of survival of individual chess pieces in average games?)という質問に対するOlivere Brennanさんの素晴らしい回答。

chess-survival-rate

マスターレベル(レーティング2200以上)の棋譜220万局を集計して作られたのが上の図。チェスの初期配置図のコマのある場所に、そのコマが最後まで生き残る確率が書かれています。

480px-AAA_SVG_Chessboard_and_chess_pieces_03.svg

キングは半分ぐらいの生存率かと思ったら、詰んだ時点で終わりで100%生存という風に見るのですね。

一兵士として死ぬ確率が高いのは、中央あたりのポーンや、ナイトやビショップということです。女王も半分の確率で居なくなってしまいます。

王様の次に生き残りやすいのは、キング側の端の、h列のポーンが70%を超える高い生存率です(なお、今回の確率は、プロモーションした場合も生存、として集計しているそうです)。

王様だと必ず生き残るので、王様になれるなら王様になるのも一つの手ですが、戦後に敗戦の責任を負って生きるのもたいへんでしょう。一兵士(ポーン)になって戦場から離れた端っこの方にいるのも、生き残るための一つの方策と言えるかもしれません。

# あくまでチェスの話ですよ

220万局を集計したC#のコードはGithubで公開されています

将棋だったら誰も死なずに投降して裏切るだけですし、取られた時点で最初にどこにあった駒かわからなくなってしまうので同じような統計は取れなさそうですね。

東京人が一番眠りが短い – 腕輪センサーのJawboneが公開した各国の生活時間データがおもしろい

腕輪方のセンサーと、そのデータを使ったライフ・トラッキングのwebサービスを提供している Jawbone 社が、ユーザーから集まったデータを集計して世界各国の生活パターンの違いをまとめています

jawbone-sleep-pattern-around-the-world

上のチャートは一日のそれぞれの時間で、寝ている人の割合を都市ごとにプロットしたものです。

オレンジ色の線が東京のユーザーのものなのですが、他の都市の人たちと比べて、あきらかに寝ている時間帯が内側に寄っている=睡眠時間が短い、のがわかります。

平均して5時間46分、は、最も長いオーストラリア・メルボルンの6時間58分よりも1時間以上短いことになります。

5時間46分の睡眠は、いくらなんでも短すぎるようにも思えますが、これらの睡眠時間は、実際にベッドに入ってから出るまでの時間ではなく、Jawbone のリストバンドが検知した、ベッドの中で本当に寝入ってから目が覚めるまでの時間だということ。ベッドに入ってからもなかなか寝られない、という人は短めに出てしまうのですね。

明け方の4時半、東京では寝ている人の割合が一番高く、93%になります。7%の人はその時間に起きているということですが、ドバイはもっとすごくて、常に全体の10%以上の人は起きているそうです。

昼寝(シエスタ)のイメージがあるスペインで、マドリードの3%の人しか実際には昼寝していないのに、北京では6%の人が昼食のあとに昼寝しているとかも興味深いですね。

リンク先のブログでは、チャートで表示する都市をインタラクティブに選択できるので、興味のある方は自分でいろいろ触って比較すると楽しいかと思います。

「Jawbone のようなセンサーデバイスを使って自分の睡眠や活動を管理しようとする人」だけのデータなので、多少は偏っているかもしれないのですが、それでもお国柄の違いのようなものが見えてきて面白い可視化ではないかと思います。

via Flowing Data

アメリカ人の学歴・性別・専攻と生涯収入の関係を可視化したインタラクティブ・グラフ

Fusionによるこのインタラクティブグラフでは、最終学歴や性別、専攻などに応じて、アメリカ人の収入がどのように変化していくかを、給与比較サービスPayScaleが利用者から集めたデータを基に見せてくれます。

以下は、高校を卒業してすぐ働いた場合と、4年制大学を出た場合の比較。高校を出て15年目あたりで、生涯賃金が逆転しています。

degree-and-lifetime-income-in-us

学部卒と修士や博士卒では? 学校に長くいるほど年収は高くなるのですが、累計では最初の学費の分のマイナスがなかなか埋まらないことがわかります。

degree-and-income-in-us

MBAやロースクール、医学部の効果は? これらの専攻は生涯賃金を押し上げていますね。

mba-law-medicine-and-lifetime-income

男性と女性で比較することも。日本よりは差が少なそうですが、それでも男性であることが大きく給与に影響していますね。

lifetime-income-male-and-female

via Featured Charts – Should You Take the Plunge? – Fusion.net

自前のメールサーバーを使っていても多くのメールはGmailユーザーの友人経由でGoogleに捕捉されている、という話

自分の電子メールは自分のサーバで管理し、プライバシーを守りたいとしてきた ベンジャミン・ヒル(Benjamin Marko Hill)さんが、Gmailのサービスが開始した2004年からの10年間の自分のプライベート用メールアドレスのメールボックスを解析してみたところ、近年では1/3から半分近くのメールがGmailのサービスにも知られている、という結果が出たそうです。

ヒルさんは、ネットの検閲に反対するなどの活動で知られる電子フロンティア財団(EFF)のディレクターでもある友人のピーター・エカーズリーさんがGmailを使っていることを知って驚き、「Googleにすべてのメールデータを持たれていてもいいのか?」と尋ねたところ、エカーズリーさんが「友人が全員Gmailユーザーなら、結局自分のメールもGmailに把握されてしまっているから」と答えたことをきっかけに、自分の過去のメールがはたしてGmailを経由しているかどうかを調べる気になったということです。

メールボックス内のメールのFromやToを解析し可視化するPythonとRのコードは公開されています。

emails_gmail_over_time

毎週受け取ったメールの総数(赤)と、そのうちヘッダからGoogleのサーバーを経由していたとわかったメールの総数(青)をプロットしたものが上のグラフです。毎週の変動が多いですが、グレイでプロットされた移動平均を見ると、Googleに知られているメールの割合が年を追うごとに少しずつ増えて、最近では1/3のメールがGmailに絡んでいることがわかります。銀行やオンラインショップからの案内メール等はGmailから発信されていないことが多いだろうことを考えると、それ以外の普通のメールではGmailから発信されている割合はさらに高くなるのではということ。

また、自分が返答したメールについて、返答した元のメールの発信がGmailからであれば、返事もGmailを経由して返っていると仮定してカウントしたところ、今は半数ぐらいのメールはGmailのサーバに向けて送っている = 自分の返事したメールの半数はGoogleに読まれ得る、という数字が出たとのこと。ヒルさんがGmailを選んだのは彼の周囲でGmailユーザーが多いだろうと考えてのことで、HotmailやYahoo! Mailなど他のメールサービスでも同じような話はありますし、それらのどこからも見えていないメールの割合はだいぶ小さくなるのかもしれません。

メールがソーシャルなコミュニケーションのツールである限り、自分が自前のメールサーバーを建てたところで、友達がみんな大企業のメールサービスを使えば、自分のメールの多くも大企業の入手するところとなってしまうわけですね。以前ご紹介した、友達が多数ソーシャルネットワークに参加していると、参加していなくても自分の交友関係が把握され得る、という研究と通じるところがありますね。

自分も私用のメールではGmailを重用していますし、このような状況で手間を掛けて自前メールサーバーを構築・維持したいとも思わないので、これらの大手の業者が自分のメールの中身を万が一にも悪用しないことを期待するしかないですが。

via @HackerNews

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。