カテゴリー
データ

names.io – 徹底的な?姓名データベース

names.io は、世界の多数の姓(surname)と名(first name)を集めたデータベース、と言っているテキストデータで、GitHub で公開されています。

Exhaustive(徹底的な)が示すように、あらゆる国の姓名を収集しているそうで、README にも入手元へのリンクを多数載せていますが、その規模はというと「姓が10万種類、名が16万種類」だそう。あれ?

日本の姓は30万種類ぐらいあるそう。ローマ字表記のこのデータベースでは同じ音の姓はかなり整理されるだろうとは思いますが、それにしても10万種類で「徹底的な」はないかな、と。

ただこのテキストファイル、同じく公開されているスクリプトで各所のデータを持ってきて加工して作成していることから、データの入手元を増やしていけば、本当に網羅的なものになる可能性もあるでしょう。issues には追加すると良さそうな提案が集まってきています。

最初に「すごい」「完全」と打ち出すことで、あえて突っ込みを受けて改善していこうということなのかもしれません。

via Hacker News

カテゴリー
データ可視化

Citylines – 世界各都市の公共鉄道網の変遷を見られる歴史地図

citylines.coは、世界の都市鉄道の路線がいつ開設されたか、をプロットした地図です。

1920年東京周辺の鉄道網
1920年東京周辺の鉄道網

△の再生ボタンを押すと、その都市の初めての鉄道ができてから現在までの時系列での鉄道網の変化を見せてくれます。東京は1960年代の都電の廃線が印象的でした。

1920年大阪周辺の鉄道網
1920年大阪周辺の鉄道網

二つの都市を並べて見るモード(Compare)もあります。これは1945年の東京とニューヨークを並べたもの。

日本では東京、大阪、名古屋と長崎の4都市のデータが入っています。名古屋は現在の地下鉄データのみ、長崎はデータが空でしたが。

データはオープンデータとして公開されています。自分で足りないデータを貢献することも可能。

日本のデータはまだまだ少ないので、調べて追加してあげるのもいいですね。鉄道好きの子供なら夏休みの自由研究とかにもできそうです。

via Maps Mania

カテゴリー
データ可視化

ロンドンで一番ひどいバス停を見つける – ビッグデータ活用事例

ビッグデータ解析サービスの英コグニシオ社(Kognitio)が公開している、ロンドン最悪のバス停(The worst bus stop in London)は、ロンドン交通局の運営するバス運行に関する膨大なデータを使って、運行状況に関して優秀なバスやひどいバスを見つけるというプロジェクトです。

対象となるデータの規模は以下。

  • データ数 4,938,534,706
  • バス停の数 19,687個
  • バス路線数 675本
  • バスの台数 9,641台

ロンドン交通局のオープンデータというページがあるので、ここから入手できるのでしょうね。

これらのデータから、たとえば、7つの運行ゾーン毎に、「バスがとても遅れるバス停」「時刻表より前にバスが来がちなバス停」などのランキングが求められています。

これは「ロンドンで最も出発が遅れる路線」。走ってて遅れるのではなく出発が遅れるってどういうこと? と思いますが、運転手が遅刻するとかそういうのもあるんでしょうか。

こちらなんかは良い方の結果で、最も時間に正確なルート。路線のバスのうち85%が時刻表から外れずに走っているそうです。

郵便番号でランキング

バスが正確な地域、不正確な地域をランキングするには、郵便番号(の上3桁)が使われています。

なんで郵便番号? と思うかもしれませんが、イギリス(や西洋の多く)の住所は通りの名前+番号なので、おおまかなエリアを示すには郵便番号が便利なのかもしれませんね。

ロンドンで最も使えないバス停は

すべてを総合した、ロンドンで最悪のバス停は、ヒースロー空港近くのリングウェイ(Ringway)バス停だそうです。時刻表通りに来るバスの割合は全体の4%、25本に1本しかないのだとか。

ロンドン交通局自身も、いろいろとデータ処理して同様の情報は持っているのかもしれませんが、こうやってオープンデータとして公開することで、第三者が検証したり改善提案してくれたりするのはいい感じです。