カテゴリー
データ

ShootingTracker.com – アメリカの乱射事件データベース

ShootingTracker.com (射撃追跡.com)は、アメリカにおける大量射殺事件のデータベース(DB)です。

2013年からの銃を使った乱射事件のデータが、ネットユーザーからの報告ベースでまとめられています。

shootingtracker.com

巨大掲示板redditの中の「GunsAreCool(銃は素晴らしい)」という、名前からして明らかに活発な論争を巻き起こしているテーマコミュニティ(subreddit) の中で、提唱されてまとめられているこのデータは、「世界でただ一つのクラウドソース型銃乱射事件追跡サイト(the world’s only crowd sourced mass shooting tracker)」として、各メディアでも取り上げられているということです。

ニュースなどで報じられた銃による乱射や大量殺人事件を、ウェブのフォームやtwitterで知らせてもらい、それをまとめることで網羅的なデータベースができ、それを逆に参照して記事に使うメディアも出てきています。

そもそものDB化の動機は、メディアがよく使う”Mass Shooting”(大量射撃)という用語の定義がはっきりしないことにあったようです。

古いFBIの”Mass Murder”(大量殺人)の定義は、「一度の事件で4人以上を殺すこと」。この定義を銃での”Mass Shooting”にも援用するなら、途中に間隔を置いての4人以上の銃撃殺人や、実際に2012年に起きた18人に乱射したけれど死亡者は1人だった事件は、「大量射撃」ではない。ということにもなります。

DBの管理者はまた、アメリカでの大量銃撃事件のメディアでの報道は「十分でない」と考えているようです。メディア側には、報道することで真似をして同種の事件が増えるという主張もあるようなのですが。

このデータを実際に使って、ワシントンポストがインタラクティブな可視化ツールを公開しています。

mass-shootings-visualized-by-washington-post

あなたの考える”Mass Shooting”が、m人以上の死亡者とn人以上の負傷者なら「大量だ」と思うのであれば、それをこのフォームで選ぶと、2015年に発生した条件にあう乱射事件が、その件数とともにリストされます。

FBI式であれば、2015年にはこれまでで40件の”mass shooting”が起こっていた、ということになりますね。どんな定義で数えても、日本では考えられない件数ではありますが。

このようなまとめデータは、実際に起こっている問題の規模や、それがメディアや政治等で過剰・過小に扱われたりしていないかをチェックするためにも有用なように思います。

カテゴリー
データ

不倫サイトの流出データからわかった、人気の高い「嘘の誕生日」

不倫希望者マッチングサービスAshley Madisonの利用者データ流出がニュースを賑わしています。世界中の3600万人ユーザーの登録データがBitTorrentなどのファイル共有で流れているということで、この興味深いビッグデータを使った解析や評論などもぽつぽつと登場しています。

米ワシントンポストが取り上げたのが、登録者の誕生日情報。こちらのツイッターのメッセージでも表の部分が共有されています。

左の赤い表が、流出ユーザーの誕生日の設定の多寡。横軸が月、縦軸が日の一年間で、色の濃いところほど、平均よりも多くのユーザーが誕生日と指定している日となります。

人がいつ生まれるかはおおむね平均化されているとすれば、ある一日を見たときにその日が誕生日の人は全体の1/365の割合でいるはず。しかし、一番集中している元旦1月1日は、利用者全体の実に12分の1が誕生日と指定していたそうです。

他に赤色の濃いところを見ていくと、月を1月にしたまま日だけを変更したケース、日を1日にしたまま月だけを変更したケースとして、表の左端と上端が濃くなっています。また、2月2日、3月3日… と、ゾロ目の誕生日も登録者が多いです。

他に多いのが記念日系。2月14日のバレンタインデー、4月20日の大麻の日、7月4日のアメリカ独立記念日、なども、覚えやすい嘘の日として愛用している人がいるようで、うっすらと濃くなっていますね。日本人だと何の記念日を使うかもわかると面白そうです。

右の青い表は生まれ年の分布ですが、こちらは実際に利用者が多い1980年代を中心に分布しているものの、末尾が0や5とキリの良い年が少し多かったりします。一番多い生まれ年は1978年だったそうですが、これはもしかしたら登録時のデフォルトだったのかもしれません。

ワシントンポストも、「この統計からネットユーザー一般が同じ傾向で嘘の誕生日を使うとは断言できない。なんとなれば、このデータは(妻や夫に対しての)嘘つきを集めたものだからだ」とまとめているので、嘘の誕生日を使っている人の率は多少一般より高いかもしれません。

ただ、僕もそうですが、明らかに正確な生年月日を必要としないだろうwebサービスから生年月日を問われた時に、本当のものではない生年月日を使う人はそれなりにいるのではないかと思います。

ネットのサービスで本当の誕生日を入れるものなのか?

誕生日というのは結構プライバシー的に重要なデータで、役所でも企業サービスでも本人確認の為に求めらることがそれなりにあります。本名と誕生日、電話番号などだけで本人確認としてしまうようなサービスだと、他人に誕生日を知られてしまっただけで自分に成りすまされてしまうということもあるでしょう。

今となっては、「誕生日を知ってるから本人」なんて運用は危険この上ないとは思いますが、ソーシャルネットワークの流行などから後、多くのネットサービスで当然のように誕生日を尋ねてくるようになりました。ソーシャル系のサービスではつながっている友人に対して機械的に友人の誕生日を通知し、交流を活性化させようとしたりもしているので、誕生日の祝い祝われが大事なユーザーは本当の誕生日を入れがちになるかもしれません。

via The Verge

カテゴリー
データ

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。