カテゴリー
情報共有ツール

Nntpit – reddit 掲示板をNNTPで読むゲートウェイ

巨大掲示板 reddit を往年のネットニュースのプロトコル NNTP で読むためのゲートウェイだそうです。

1990年代まで隆盛を誇ったネットニュース。バケツリレー式で掲示板の書き込みを伝播させる分散型掲示板、日本では fj というトップグループの下で日本語の掲示板が多数存在し、学者や学者の卵や企業の研究員らが所属あり実名ありで議論を繰り広げていました。

ネットニュースのプロトコルである NNTP を今でも使ってる掲示板がどれぐらい残っているのかわかりませんが、NNTP クライアントが手になじんでる人は、昔から親しんだUIで掲示板を読むのが楽なのかもしれません。

nntpit の作者は、ネットニュースのクライアントの一つである slrnで、reddit を読むためにこのゲートウェイを作ったようです。

# 今のところ、nntpit の動作確認は slrn だけで行われているということ。

まだ読み込みだけに対応しており、投稿はできないということ。Netnews clientでreddit を読み書きしたいという人がほかにもいれば、今後の改良もあるかもしれませんね。

将来 twitter や Facebook がもし下火になったとしても、その時に出てきた次のサービスを twitter クライアントで楽しむ、みたいなことをする人もいるのかな。

via Hacker News

カテゴリー
ネットのサービス

Pushshift.io – reddit掲示板の過去投稿を提供するwebサービス/API

pushshift.io は、英語圏の巨大掲示板 reddit の過去の書き込みを蓄積し提供しているサイトです。ジェイソン・バウムガートナーさん(Jason Baumgartner)という個人の方による運営です。

FAQ ページを読むと、過去のデータを期間やキーワード、ユーザー等で一括取得したい時に使うサービスだということ。新規のコメントをリアルタイムで取得したい時は reddit 公式の API を使ったほうが良いとありますね。

reddit は巨大な掲示板なので、データ量も相当になると思いますが、 Pushshift は個人 + 寄付によって維持されているようです。

Pushshift API を使ったサービス

過去の膨大なコメントにAPIやCSVでアクセスできるということで、これを利用したサービスもいろいろ存在するようです。

revddit

任意の reddit ユーザーに対し、削除した/削除されたコメントを検索できるサービス。

自分の記憶にない8年前のコメントが出てきました。僕が消したわけではなさそう。スレッドがアーカイブされた結果見えなくなっているという意味でしょうかね。

Pushshift Reddit Search

いろいろな指定で、過去の reddit 掲示板をテキスト検索できるサービス

PSAW

Pushshift API を Python 3 から呼び出すためのラッパーライブラリ。

最新のスレッドを100件取るにはこんな感じ。

# The `search_comments` and `search_submissions` methods return generator objects
gen = api.search_submissions(limit=100)
results = list(gen)

スラング等が多く入った日常英語の書き文字データを大量に入手できるので、自然言語処理や機械学習の実験に使えるのではないかと思いました。

via Hacker News

カテゴリー
技術

ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定

とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。

数年前の話、Tom さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。

外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。

ユーザーを特定する情報を、見えない文字に変換して埋め込む

ログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字の並びに変換します。そして、この文字列が、掲示板のコメントを表示する際に文章の間に埋め込まれるようにします。

コピー&ペーストされた外部の掲示板等を見ると、目には見えませんがそちらにもこのゼロ幅文字を組み合わせた文字列が含まれているので、そこから逆への変換を適用することで、コピーをしたユーザーのIDがわかる、というわけです。

GitHub 上で公開されたデモコードがこちら。動くデモがこちらです。

1 で入れたユーザー名が入っていないように見える2 のテキストをコピーすると、コピー先の 3 から、元のユーザー名が取り出せていますね。

データ列をASCII文字64個でエンコードすれば Base64 ですが、このデモでは 4種類のゼロ幅文字を使った ZeroWidth4 とでもいうべきエンコーディングですね。

元ブログ記事では、この手法を掲示板に組み込んで新しい情報を流したところ、数時間でコピーされた文章からユーザー名を回復し、流出者を特定できた、と語っています。

この場合はうまくいきましたが、この仕掛けを知った上で無実の他人のユーザーIDに書き換える、といった反撃も考えられるので、ユーザー名をそのまま組み込むとかではなく、改竄があればわかるような形にするのがより良いだろう、とも述べられていました。

自衛ツールの登場など

この記事が広く読まれたので、Chrome拡張が早速登場。ゼロ幅文字を絵文字に変換して表示する拡張で、こういうのを入れておくと何かが埋め込まれているな、というのを見つけられますね。急いで作られたせいか、ユーザーが能動的にクリックしないと絵文字表示されないなど、実用するには今一つですが。

それと、英語のテキストでやってる分には問題ないですが、そもそも役割があって文章中にゼロ幅文字が含まれている言語もあるので、一律に除去したり警告したりするようなツールでは不十分だと言えそうですね。

情報を守る立場からすれば、このような追跡手法をいくつも持って仕掛けておくことは有用でしょう。

逆に、内部告発など悪事を暴く活動として秘密情報をコピーする立場から見れば、このような仕掛けがないかを確認したり、同定されないよう過剰と思われる情報を切り落とすツール等を使うなど、ある程度のリテラシーが必要となってきそうですね。

via reddit

関連

忍者猫(Ninja Cat)絵文字がWindows 10に登場 – 合字用Zero Width文字

Unicodeの空白文字を使ってクリックトラッキング – URLに同様の文字を入れ込む

市販のプリンターは印刷時に追跡用の隠しコードを描き込んでいるものがある

[追記 2018-04-11] 隠し情報をゼロ幅文字エンコードする仕組み – Qiita – Ruby で試してみた方