カテゴリー
データ

Stack Overflowがネット環境の無い所でも回答群にアクセスできるオフライン利用プロジェクトを発表

英語圏のプログラミングQ&Aサイト大手 Stack Overflow の発表した Overflow Offline プロジェクトは、プログラミングの疑問が出た時に検索でお世話になることの多い Stack Overflow やその姉妹サイト群の回答情報をダンプしたデータを、インターネットが使えなかったり貧弱な地域でアクセスできるようにしようというものです。

少し前ならネット接続はもっと手に入れにくいもので、たとえば Wikipedia なんかもデータがまとめてダンプできるため、PCやスマートフォンにダウンロードしてオフラインで検索できるアプリには需要があり、なんなら Wikipedia のデータだけを持ち歩ける専用デバイスも存在しました。

しかし、今ならどこのお店でもWi-Fiが提供されているし、携帯電話ネットワークの通信も安価にアクセスできるように思います。そんな今でもオフラインのアクセスが必要なのはどういう状況なんでしょうか?

リリースの中で取り上げられている事例の一つは刑務所。少年刑務所でプログラミングを学んだ後に出所して企業のCTO になったある女性は、友人に四半期ごとにStack Overflow のサイトをダンプしたデータを差し入れてもらってプログラミングを覚えたということ。

このような事例もあったことから、ネットのコンテンツをダウンロードしてアクセスすることを支援している団体Kiwixと連携し、より使いやすい形で Stack Overflow が支援した形でオフラインアクセスができるようにしようというのが今回の話だそう。

また、南極基地で Python + Puppet を使っているプログラマ、インターネット普及率34%のカメルーンで安定した無料Wi-Fi を提供することが難しい大学、などの事例も紹介されています。

そうは言っても、初級の言語入門ならともかく、あるいは初級レベルであっても、現代のプログラミングはパッケージマネージャで提供されるライブラリ群の利用が必須に近い状況で、オフラインでプログラミング学習をするのは実際には大変なのかなと思います。

主要パッケージもThe Overflow Offline プロジェクトのようにオフラインで持ち込めるようにすればいいのかもしれませんが、依存に応じて無数の細かいバージョン違いのパッケージが必要となったり、必要な修正がされたバージョンが手に入らなかったりもしそうです。Q&Aサイトのデータだけでなく、オフラインでプログラミング学習をしてもらおうとするとこのへんにも仕組みが必要なのかなとも思いますね。

via Hacker News

カテゴリー
データ

disposable-email-domains – 使い捨てメールのドメイン一覧

disposable-email-domains/disposable-email-domains は、使い捨てメールアドレスのサービスで提供されるメールアドレスのドメインを収集しているオープンデータです。

メールアドレスへの到達確認ができないと使えない・登録できないウェブサービスは多いでしょう。その一方で、登録したメールアドレスが流出するなどして後日無関係なスパムメールが送られてくる、という問題も起こります。

それを嫌がって、一時的にだけ転送が行われる使い捨てメールのサービスを使って、いわば「使い逃げ」してしまうサービス利用者も現れます。
9
今回のドメインリストは、そういった長期的に顧客となることがないユーザー、サービスの利用(掲示板への投稿など)に責任を持たずに逃げてしまうユーザー、を避けるという意味で、メール登録を要求するサービス運営者にとって有用なものではないでしょうか。

同時に提供されている allowlist.conf ファイルの方は、「使い捨てメールに間違えられやすいが使い捨てではないアドレスのリスト」ということで、これも有用でしょう。

カテゴリー
データ

names.io – 徹底的な?姓名データベース

names.io は、世界の多数の姓(surname)と名(first name)を集めたデータベース、と言っているテキストデータで、GitHub で公開されています。

Exhaustive(徹底的な)が示すように、あらゆる国の姓名を収集しているそうで、README にも入手元へのリンクを多数載せていますが、その規模はというと「姓が10万種類、名が16万種類」だそう。あれ?

日本の姓は30万種類ぐらいあるそう。ローマ字表記のこのデータベースでは同じ音の姓はかなり整理されるだろうとは思いますが、それにしても10万種類で「徹底的な」はないかな、と。

ただこのテキストファイル、同じく公開されているスクリプトで各所のデータを持ってきて加工して作成していることから、データの入手元を増やしていけば、本当に網羅的なものになる可能性もあるでしょう。issues には追加すると良さそうな提案が集まってきています。

最初に「すごい」「完全」と打ち出すことで、あえて突っ込みを受けて改善していこうということなのかもしれません。

via Hacker News