カテゴリー
データ

names.io – 徹底的な?姓名データベース

names.io は、世界の多数の姓(surname)と名(first name)を集めたデータベース、と言っているテキストデータで、GitHub で公開されています。

Exhaustive(徹底的な)が示すように、あらゆる国の姓名を収集しているそうで、README にも入手元へのリンクを多数載せていますが、その規模はというと「姓が10万種類、名が16万種類」だそう。あれ?

日本の姓は30万種類ぐらいあるそう。ローマ字表記のこのデータベースでは同じ音の姓はかなり整理されるだろうとは思いますが、それにしても10万種類で「徹底的な」はないかな、と。

ただこのテキストファイル、同じく公開されているスクリプトで各所のデータを持ってきて加工して作成していることから、データの入手元を増やしていけば、本当に網羅的なものになる可能性もあるでしょう。issues には追加すると良さそうな提案が集まってきています。

最初に「すごい」「完全」と打ち出すことで、あえて突っ込みを受けて改善していこうということなのかもしれません。

via Hacker News