カテゴリー
データ

names.io – 徹底的な?姓名データベース

names.io は、世界の多数の姓(surname)と名(first name)を集めたデータベース、と言っているテキストデータで、GitHub で公開されています。

Exhaustive(徹底的な)が示すように、あらゆる国の姓名を収集しているそうで、README にも入手元へのリンクを多数載せていますが、その規模はというと「姓が10万種類、名が16万種類」だそう。あれ?

日本の姓は30万種類ぐらいあるそう。ローマ字表記のこのデータベースでは同じ音の姓はかなり整理されるだろうとは思いますが、それにしても10万種類で「徹底的な」はないかな、と。

ただこのテキストファイル、同じく公開されているスクリプトで各所のデータを持ってきて加工して作成していることから、データの入手元を増やしていけば、本当に網羅的なものになる可能性もあるでしょう。issues には追加すると良さそうな提案が集まってきています。

最初に「すごい」「完全」と打ち出すことで、あえて突っ込みを受けて改善していこうということなのかもしれません。

via Hacker News

カテゴリー
データ可視化

Pianogram – 鍵盤のどの音階がどれぐらい弾かれるかを可視化

Pianogram は、ある曲がピアノ上で弾かれる際に、どの鍵がどれぐらい使われるかというのを可視化するサービスです。

pianogram-la-campanella

上はリストのラ・カンパネラを処理したもの。

「エリーゼのために」や、可視化の結果がわかりやすいショパンの「黒鍵のエチュード」や「チョップスティックス」など10曲を選んで、解析結果が表示できるようになっています。

また、MIDI形式のファイルをアップロードすれば同じように解析してくれます。拡張子.MID のピアノ曲のファイルを上げてみたところ、それらしい結果が出力されました。

via Flowing Data