Category Archives: データ

is-vegan 菜食主義者のための食品判定ライブラリ in JavaScript

肉や魚だけでなく、牛乳など直接は命を奪わない食材も忌避する完全菜食主義(ヴィーガン)のためのライブラリが is-
vegan
です。

利用例はこんな感じ。牛乳はダメで、豆乳はOKと。


import * as isVegan from 'is-vegan';

// example for single ingredient
isVegan.isVeganIngredient('soy'); // true
isVegan.isVeganIngredient('milk'); // false

作りとしては src/util/canbevegan.json と nonvegan.json に食材の名前が列挙してあるだけのシンプルなもの。これを訳せば日本語でも使えるかもしれないですね。レシピサイトの材料リストを見て、菜食主義対応かどうかを表示する、なんていう拡張を作ったりできそうです。

食べ物の規制ということだとイスラム教のハラールについても is-haral 的なライブラリが有ったりするのかな、とGitHub を探してみましたが、見つかりませんでした。あちらは単純に食材の種類で決まるわけではないので同じ手は使えないのかもしれませんね。

via Hacker News

米Yahoo!の株価/為替APIが停止

アメリカの株価や各通貨の交換レートが取得できる、米Yahoo! の finance API が、エラーを返すようになっていました。どうやら 2017-10-31 からこの状態になっているようです。

止まったのは REST API と、CSV によるダウンロードの両方。こういうエラーメッセージが帰ってきます。

このサービスは利用規約に違反して使われていたことにわたしたちは気づきました。そのため、サービスは終了しました。今後の市況や株価データのリサーチには finance.yahoo.com をお使いください

It has come to our attention that this service is being used in violation of the Yahoo Terms of Service. As such, the service is being discontinued. For all future markets and equities data research, please refer to finance.yahoo.com.

株価や為替のデータが無料で参照できる API として、オープンソースのツールなどもこの API を多く使っていたため、遮断から後で動かなくなったサイトや、困っているエンドユーザーが多いようです。Github で CSV ダウンロードのURLを検索すると、2万件以上ヒットしました。

ニュースサイトでも、「Yahoo のAPIが返事しないので…」というエラーを出してるところがありました。こんな感じで、API を使って表示しているサイトでエラーやデータ無しの状況が広がっていそうです。

米Yahoo のユーザーサポートページでは、APIの復活を望むコメントが寄せられ、それへの投票が呼びかけられています。

リアルタイム性の高い株価データは、高価な元データをYahoo! が購入し、それを無料で10年以上も配っていたわけで、メディアとしてAOLと統合された Yahoo! には維持が難しかったのかもしれません。

予告なしに突然止まったことに憤る人も多いですが、ビジネスとして仕方が無かったのかもしれません。

代替

reddit や Hacker News でいくつか替わりに使えそうな、無料あるいは無料枠のあるサービスやAPIが紹介されています。

株価に関しては、

為替に関しては、

などの名前が上がっています。呼び出し回数の上限があったり、数分前のデータだったりと、無料なだけにいろいろ制約があるかもしれません。まあ、それほど重要な使い方をしているなら、有料のAPIを購読しなさいということですね。

# 本当に取れるかは確認してません

イギリス中の自転車事故などを地図上で一望できるwebサービス

Bikedata は、イギリスにおける自転車に関するデータを地図上にプロットした、インタラクティブな情報地図です。

この画面では、道路のどの場所で自転車事故が発生したことがあるか、が、ピンクのマーカーで示されています。

通勤やツーリングの計画を立てる時に、事故が頻発するところを知って避ける、といった使い方もできるでしょうね。スマートフォンアプリなどで、事故の多い場所に近づいたら注意をうながす、みたいなものを作ったりもできるかもしれません。

サイトでは、事故の他にも、交通量、自転車の盗難、駐輪場、サイクルレーンの写真、など、様々な自転車に関するデータを表示することができます。

さらに、このサイトのソースはGPLv3 で公開されています。

元データは国によるもの

イギリス政府のデータ公開サイトに、道路の安全データ(Rode Safety Data)というのがあり、ここではSTATS19 という書類で報告された2005年から2014年までの事故のデータが公開されているようです。

100Mぐらいあるデータを見てみたら、こんな感じで緯度経度や日時、事故の状況を表すフラグを持つレコードが大量にあるCSVファイルでした。

こういったデータが公にされているのはいいですね。このデータを API 化して自転車事故について Cyclestreets.net が提供し、それを Google Maps APIなどを使って可視化したのが今回のサービス、ということになります。

via Maps Mania

「個人デイトレーダーの8割は赤字」 取引情報共有サイトのデータを解析した人の話

eToro というヨーロッパの株取引サービスは、「ソーシャル・トレーディング」サービスです。ユーザーが取引情報を公開・共有できるようになっていて、さらに他のユーザーの取引を「コピーする」ことができるそうです。うまい成績を上げている人の取引をコピーすることで自分も儲けられる(かもしれない)、というのがウリなんでしょうね。

多くのユーザーの取引の結果が公開されていることから、ブログCuriousGnuの中の人は、「では平均的なユーザーはデイトレードで儲かっているんだろうか?」と思い、データを集めてその平均を調べました。eToroでデータを公開していたユーザーは83300人。それをヒストグラムにしたものが以下です。

etoro-shared-trading-average-histogram

横軸の0のところがプラスマイナス0、トントンですね。この時のデータでは、79.5%のユーザーがマイナスとなり、中央値の人で36.3%のお金を失っていたということです。

これでデイトレードのリスクが高い、と言うにはいろいろと突っ込みどころもあります。たとえば以下のようなもの。

  • eToroのユーザー (デイトレードの下手なユーザーが集まるサイトだったかも)
  • 自分の取引を公開共有するようなユーザー (上手いユーザーは共有しないのかも)
  • ある過去12か月間のデータ (たまたまデイトレードの人に不利な環境の続いた12か月だったかも)
  • 3回以上取引した人をデイトレーダーとしている (デイトレーダーの定義に必ずしもあわない)

株の売買をどんどんやってほしいサービス側はこんなデータを出さないでしょうから、見える範囲のデータでできることを調べるとすればこれぐらいが限度なのかもしれません。

via Hacker News

ShootingTracker.com – アメリカの乱射事件データベース

ShootingTracker.com (射撃追跡.com)は、アメリカにおける大量射殺事件のデータベース(DB)です。

2013年からの銃を使った乱射事件のデータが、ネットユーザーからの報告ベースでまとめられています。

shootingtracker.com

巨大掲示板redditの中の「GunsAreCool(銃は素晴らしい)」という、名前からして明らかに活発な論争を巻き起こしているテーマコミュニティ(subreddit) の中で、提唱されてまとめられているこのデータは、「世界でただ一つのクラウドソース型銃乱射事件追跡サイト(the world’s only crowd sourced mass shooting tracker)」として、各メディアでも取り上げられているということです。

ニュースなどで報じられた銃による乱射や大量殺人事件を、ウェブのフォームやtwitterで知らせてもらい、それをまとめることで網羅的なデータベースができ、それを逆に参照して記事に使うメディアも出てきています。

そもそものDB化の動機は、メディアがよく使う”Mass Shooting”(大量射撃)という用語の定義がはっきりしないことにあったようです。

古いFBIの”Mass Murder”(大量殺人)の定義は、「一度の事件で4人以上を殺すこと」。この定義を銃での”Mass Shooting”にも援用するなら、途中に間隔を置いての4人以上の銃撃殺人や、実際に2012年に起きた18人に乱射したけれど死亡者は1人だった事件は、「大量射撃」ではない。ということにもなります。

DBの管理者はまた、アメリカでの大量銃撃事件のメディアでの報道は「十分でない」と考えているようです。メディア側には、報道することで真似をして同種の事件が増えるという主張もあるようなのですが。

このデータを実際に使って、ワシントンポストがインタラクティブな可視化ツールを公開しています。

mass-shootings-visualized-by-washington-post

あなたの考える”Mass Shooting”が、m人以上の死亡者とn人以上の負傷者なら「大量だ」と思うのであれば、それをこのフォームで選ぶと、2015年に発生した条件にあう乱射事件が、その件数とともにリストされます。

FBI式であれば、2015年にはこれまでで40件の”mass shooting”が起こっていた、ということになりますね。どんな定義で数えても、日本では考えられない件数ではありますが。

このようなまとめデータは、実際に起こっている問題の規模や、それがメディアや政治等で過剰・過小に扱われたりしていないかをチェックするためにも有用なように思います。

不倫サイトの流出データからわかった、人気の高い「嘘の誕生日」

不倫希望者マッチングサービスAshley Madisonの利用者データ流出がニュースを賑わしています。世界中の3600万人ユーザーの登録データがBitTorrentなどのファイル共有で流れているということで、この興味深いビッグデータを使った解析や評論などもぽつぽつと登場しています。

米ワシントンポストが取り上げたのが、登録者の誕生日情報。こちらのツイッターのメッセージでも表の部分が共有されています。

左の赤い表が、流出ユーザーの誕生日の設定の多寡。横軸が月、縦軸が日の一年間で、色の濃いところほど、平均よりも多くのユーザーが誕生日と指定している日となります。

人がいつ生まれるかはおおむね平均化されているとすれば、ある一日を見たときにその日が誕生日の人は全体の1/365の割合でいるはず。しかし、一番集中している元旦1月1日は、利用者全体の実に12分の1が誕生日と指定していたそうです。

他に赤色の濃いところを見ていくと、月を1月にしたまま日だけを変更したケース、日を1日にしたまま月だけを変更したケースとして、表の左端と上端が濃くなっています。また、2月2日、3月3日… と、ゾロ目の誕生日も登録者が多いです。

他に多いのが記念日系。2月14日のバレンタインデー、4月20日の大麻の日、7月4日のアメリカ独立記念日、なども、覚えやすい嘘の日として愛用している人がいるようで、うっすらと濃くなっていますね。日本人だと何の記念日を使うかもわかると面白そうです。

右の青い表は生まれ年の分布ですが、こちらは実際に利用者が多い1980年代を中心に分布しているものの、末尾が0や5とキリの良い年が少し多かったりします。一番多い生まれ年は1978年だったそうですが、これはもしかしたら登録時のデフォルトだったのかもしれません。

ワシントンポストも、「この統計からネットユーザー一般が同じ傾向で嘘の誕生日を使うとは断言できない。なんとなれば、このデータは(妻や夫に対しての)嘘つきを集めたものだからだ」とまとめているので、嘘の誕生日を使っている人の率は多少一般より高いかもしれません。

ただ、僕もそうですが、明らかに正確な生年月日を必要としないだろうwebサービスから生年月日を問われた時に、本当のものではない生年月日を使う人はそれなりにいるのではないかと思います。

ネットのサービスで本当の誕生日を入れるものなのか?

誕生日というのは結構プライバシー的に重要なデータで、役所でも企業サービスでも本人確認の為に求めらることがそれなりにあります。本名と誕生日、電話番号などだけで本人確認としてしまうようなサービスだと、他人に誕生日を知られてしまっただけで自分に成りすまされてしまうということもあるでしょう。

今となっては、「誕生日を知ってるから本人」なんて運用は危険この上ないとは思いますが、ソーシャルネットワークの流行などから後、多くのネットサービスで当然のように誕生日を尋ねてくるようになりました。ソーシャル系のサービスではつながっている友人に対して機械的に友人の誕生日を通知し、交流を活性化させようとしたりもしているので、誕生日の祝い祝われが大事なユーザーは本当の誕生日を入れがちになるかもしれません。

via The Verge

[アメリカ] 男女性別不明なユニセックス・ネーム

データ処理に関するブログ FlowingData で紹介されていたのは、聞いただけでは女性か男性かわからない、どちらの性別でもつけられることがあるファーストネームの統計結果です。

most-unisex-names-in-us-history-chart

1930年以降のデータで男性にも女性にもつけられてきた名前が、もっともどっちつかずだった順番に第1位のジェシー(Jessie)から並べられています。青いのが男性の、赤いのが女性の子供にその命名がされた割合を示しています。白い丸は、その名前の男女比が最も均衡していた、一番半々に近かった年を表しているそうです。

日本でいうと、「かおる」とか「ひろみ」、「あきら」、「しのぶ」といった名前にあたるでしょうか。英語の中性的な名前がどれか、なんて考えたこともなかったので、リストを順番に見るだけでも面白いです。

上から、ジェシー、マリオン、ジャッキー、アルバ、オリー、ジョディー、クレオ、ケリー、フランキー、グァダループ、キャリー、トミー、エンジェル、ホリス、サミー、ジェイミー、クリス、ロビー、トレーシー、メリル、ノエル、レネ、ジョニー、アリエル、ジャン、デボン、クルズ、ミシェル、ゲール、ロビン、ドリアン、ケーシー、ダナ、キム、シャノン。

このような両性的な名前の人は、すべて合わせてもアメリカ人全体からみれば1%にも満たないということですが、聞いたことがあるような名前も含まれていますね。

日常的にアメリカ人と多く接したりしてなければ、日本人が持つこれらの名前に対する性別の印象は、歌手や映画俳優などの外国の有名人に影響されるのではないでしょうか。僕だったら、「ジャッキー」は男、「ジョディー」は女、「マリオン」は女、「フランキー」は男、と思い込んでしまいそうですが、それぞれ、かなりの割合で、その名前で反対の性の人が存在することがわかります。他に、エンジェルは男性の方が多いとか、女性のサミーが半数近くになってきているとかも、僕の感覚とは違っています。

アメリカ人たち自身の子供の命名についても有名人の影響というのは同じようにあり、その名前を持った有名人の活躍で、これらのユニセックスな名前が、ある時突然一方の性別に偏っていくことがグラフからもわかるようです。グラフ中にも特記されていますが、陸上選手のマリオン・ジョーンズのオリンピック金メダル獲得は女の子のマリオンを増やしたし、初の黒人メジャーリーガー、ジャッキー・ロビンソンの登場は、男の子のジャッキーを増やしています。

24位のアリエル(Ariel)は、ディズニーの人魚姫から僕も女性の名前だと思い込んでいましたが、映画の公開までは男性の方がむしろ多く、映画から後に大きく女性の方に振れたのですね。40歳以上のアリエルさんは男性で、40歳以下のアリエルさんは女性が多い、ということのようです。

主要なウェブサービス支持者の政治的傾向を調べたチャート Politics of the Social Web

今年はアメリカ大統領選挙の年で、アメリカではこれから秋にかけて選挙の話・政治の話が盛り上がっていくと思われます。

そんな中、EngageがリリースしたPolitcs of the Social Web(ソーシャルウェブ上の政治)は、Facebookのデータの統計から作られた面白い情報です。

「eBayをよく使うユーザーはロムニー支持で政治にも積極的」とか、「Tumblrユーザーはオバマ支持だが政治にあまり興味が無い」といった傾向を見ることができます。

Facebookのプロフィールでは自身の政治的傾向を登録して公開できます(日本人はそんなに使ってないし見てもいないのではと思いますが)。それらのユーザーが、これらのwebサービスやオンラインゲームなどに対してFacebookで押した「イイネ!」と、政治的傾向の関連を数千人分集めてプロットしたところ、このような傾向が出たということ。

フェイスブックで好きだと表明することが、必ずしも本当に好きかどうか、良く使っているかを表すとは限らないですが、Engageの主張ではこのようなデータを知ることで、自陣営の支持者が多いサービスや少ないサービス、投票を働きかけて動いてくれそうなユーザーが多いサービスや少ないサービス、という傾向を知ることができ、オンライン広告の予算配分等を効率よくできるようになるはずだ、と言っています。

日本でも、2ちゃんねる利用者が保守的で、はてなユーザーはリベラル、といった政治的傾向が語られることがありますが、FacebookのイイネやMixiのコミュニティで表明された個人の嗜好を大量に集めると、そういった印象が本当に正しいのかどうか調べることができるのかもしれませんね。

フェイスブックのつながりから国と国の間の関係度を抽出したインタラクティブ・マップ

Mapping the World’s Friendship(世界の友人関係をマッピング)では、フェイスブックのソーシャルグラフの国籍情報を利用して、どの国とどの国の間にフレンドが多いのかを教えてくれるインタラクティブな地図です。
Facebookfriendshipsinternational
大陸ごとに色分けされた丸が、それぞれの国を表します。ある国をクリックすると、その国のフェイスブック利用者が持っている友人関係の総数に対して、それぞれの国の人に対して持っている友人関係の割合を求め、上位1位から5位までを表示してくれます。
日本を選んでみると、日本のフェイスブック利用者からつながっている他国の利用者は、韓国、フィリピン、台湾、マレーシア、香港、の順で多い、ということになりますね。フィリピンやマレーシアが上位に出てくるのは、ちょっと「本当かな?」と思わなくもないですが、アメリカとかは上位ではないんですね。
アメリカ合衆国からみると、メキシコ・カナダ・ドミニカ共和国などの隣国、イギリスやオーストラリアなどの英語圏諸国とのつながりが強い、と。全体的に、同じ言語・近い言語を話す国の間や、旧植民地と宗主国、移民が多く移動している二国、経済的な結びつきが強い二国、などの間で、国境を越えた友人関係が多く形成されているようです。
他国と比べて、島国日本の利用者の多くは日本国内でだけつながっている割合が多そうで、日本関連ではそれほど面白いつながりは見えてこないのですが、アイルランドとポーランド・リトアニア、とか、スペインとルーマニア、とか、「近くもないのにそこがそんなに関係が深かったのか」みたいな関係が見えてきたりもして、なかなか飽きない地図です。
地図の下側には、選んだ国ごとに、その国と深い関係にある国や、その歴史的な事情などについての短い解説も出てきます。
via How people are connected on Facebook, by country

ネットで共有されるのは、猫より犬のほうが多い by Bit.ly

URL短縮サービスのBit.lyが、人々が共有したURLのデータを解析して、どの動物がどらぐらい共有されているかを調べたそうです。
Whatshouldicuddle
これまで、インターネットでもっとも人気のある動物はネコである、と言われてきましたし、LOLCatやNyancatなどネコを扱ったインターネットの流行も多いと思います。しかし、上のグラフにあるように、犬が猫よりも1.5倍も共有されているということです。これは動物全体の37%を占めます。鳥・ウサギ・ペンギン・熊・七面鳥(これは感謝祭シーズンに調査したためらしい)・ヒヨコ・猿、などと続きますが、犬と猫の二つが残りを圧倒しています。
なお、グラフの赤と青は、赤が複数の犬や猫、青が単数の犬や猫だそうで、犬派では複数の犬を指すことが多いけれど、猫派は複数・単数同じぐらいで登場しています。
via The Big Secret About Cats On The Internet