カテゴリー
データ可視化

Map of Reddit – レディット掲示板の勢力を可視化したインタラクティブ地図

英語圏中心の巨大無料掲示板サービス Reddit の分野ごと(subreddit)を、ジャンルやカテゴリの類似、人気などを表すように一枚の地図にまとめたのが Map of Reddit です。

都市と国か、あるいは星と星系か。

拡大して都市(星?)をクリックすると、そのサブ掲示板の説明や新着書き込みが左側に表示されます。

近しい他のサブ掲示板との関係性なども辿れるため、気づいていなかった有用な掲示板の発見につながるかもしれません。

左上には検索ボックスもあり、英単語から関連するサブ掲示板を見つけることもできます。

地図全体の下の方には離れて別の大陸がありますね。こちらは国名も出てないしなんだろうと思ってクリックしたら、18歳以上かを尋ねられました。18歳未満禁止の subreddits はこちらの大陸にまとめられているようです。

大きめの都市(星?)でメンバー数が数百万から数千万。無数にある小さなドットにも数百人とかの参加者がいて、それぞれの議論が行われている。普段検索から迷い込んでも一つの掲示板の一つのスレッドでしかありませんが、こうやって全体像を見せられるとその大きさ、幅広さがわかりますね。

JavaScript/Vue.js 製のソースコードも公開されています。このwebサービス用のサブ掲示板 MofR もあり、カテゴリ分類の間違いや機能追加の要望などを受け付けているようです。

via Hacker News

カテゴリー
情報共有ツール

Nntpit – reddit 掲示板をNNTPで読むゲートウェイ

巨大掲示板 reddit を往年のネットニュースのプロトコル NNTP で読むためのゲートウェイだそうです。

1990年代まで隆盛を誇ったネットニュース。バケツリレー式で掲示板の書き込みを伝播させる分散型掲示板、日本では fj というトップグループの下で日本語の掲示板が多数存在し、学者や学者の卵や企業の研究員らが所属あり実名ありで議論を繰り広げていました。

ネットニュースのプロトコルである NNTP を今でも使ってる掲示板がどれぐらい残っているのかわかりませんが、NNTP クライアントが手になじんでる人は、昔から親しんだUIで掲示板を読むのが楽なのかもしれません。

nntpit の作者は、ネットニュースのクライアントの一つである slrnで、reddit を読むためにこのゲートウェイを作ったようです。

# 今のところ、nntpit の動作確認は slrn だけで行われているということ。

まだ読み込みだけに対応しており、投稿はできないということ。Netnews clientでreddit を読み書きしたいという人がほかにもいれば、今後の改良もあるかもしれませんね。

将来 twitter や Facebook がもし下火になったとしても、その時に出てきた次のサービスを twitter クライアントで楽しむ、みたいなことをする人もいるのかな。

via Hacker News

カテゴリー
ネットのサービス

Pushshift.io – reddit掲示板の過去投稿を提供するwebサービス/API

pushshift.io は、英語圏の巨大掲示板 reddit の過去の書き込みを蓄積し提供しているサイトです。ジェイソン・バウムガートナーさん(Jason Baumgartner)という個人の方による運営です。

FAQ ページを読むと、過去のデータを期間やキーワード、ユーザー等で一括取得したい時に使うサービスだということ。新規のコメントをリアルタイムで取得したい時は reddit 公式の API を使ったほうが良いとありますね。

reddit は巨大な掲示板なので、データ量も相当になると思いますが、 Pushshift は個人 + 寄付によって維持されているようです。

Pushshift API を使ったサービス

過去の膨大なコメントにAPIやCSVでアクセスできるということで、これを利用したサービスもいろいろ存在するようです。

revddit

任意の reddit ユーザーに対し、削除した/削除されたコメントを検索できるサービス。

自分の記憶にない8年前のコメントが出てきました。僕が消したわけではなさそう。スレッドがアーカイブされた結果見えなくなっているという意味でしょうかね。

Pushshift Reddit Search

いろいろな指定で、過去の reddit 掲示板をテキスト検索できるサービス

PSAW

Pushshift API を Python 3 から呼び出すためのラッパーライブラリ。

最新のスレッドを100件取るにはこんな感じ。

# The `search_comments` and `search_submissions` methods return generator objects
gen = api.search_submissions(limit=100)
results = list(gen)

スラング等が多く入った日常英語の書き文字データを大量に入手できるので、自然言語処理や機械学習の実験に使えるのではないかと思いました。

via Hacker News