カテゴリー
ネットのサービス

Pushshift.io – reddit掲示板の過去投稿を提供するwebサービス/API

pushshift.io は、英語圏の巨大掲示板 reddit の過去の書き込みを蓄積し提供しているサイトです。ジェイソン・バウムガートナーさん(Jason Baumgartner)という個人の方による運営です。

FAQ ページを読むと、過去のデータを期間やキーワード、ユーザー等で一括取得したい時に使うサービスだということ。新規のコメントをリアルタイムで取得したい時は reddit 公式の API を使ったほうが良いとありますね。

reddit は巨大な掲示板なので、データ量も相当になると思いますが、 Pushshift は個人 + 寄付によって維持されているようです。

Pushshift API を使ったサービス

過去の膨大なコメントにAPIやCSVでアクセスできるということで、これを利用したサービスもいろいろ存在するようです。

revddit

任意の reddit ユーザーに対し、削除した/削除されたコメントを検索できるサービス。

自分の記憶にない8年前のコメントが出てきました。僕が消したわけではなさそう。スレッドがアーカイブされた結果見えなくなっているという意味でしょうかね。

Pushshift Reddit Search

いろいろな指定で、過去の reddit 掲示板をテキスト検索できるサービス

PSAW

Pushshift API を Python 3 から呼び出すためのラッパーライブラリ。

最新のスレッドを100件取るにはこんな感じ。

# The `search_comments` and `search_submissions` methods return generator objects
gen = api.search_submissions(limit=100)
results = list(gen)

スラング等が多く入った日常英語の書き文字データを大量に入手できるので、自然言語処理や機械学習の実験に使えるのではないかと思いました。

via Hacker News

カテゴリー
データ可視化

ロンドンで一番ひどいバス停を見つける – ビッグデータ活用事例

ビッグデータ解析サービスの英コグニシオ社(Kognitio)が公開している、ロンドン最悪のバス停(The worst bus stop in London)は、ロンドン交通局の運営するバス運行に関する膨大なデータを使って、運行状況に関して優秀なバスやひどいバスを見つけるというプロジェクトです。

対象となるデータの規模は以下。

  • データ数 4,938,534,706
  • バス停の数 19,687個
  • バス路線数 675本
  • バスの台数 9,641台

ロンドン交通局のオープンデータというページがあるので、ここから入手できるのでしょうね。

これらのデータから、たとえば、7つの運行ゾーン毎に、「バスがとても遅れるバス停」「時刻表より前にバスが来がちなバス停」などのランキングが求められています。

これは「ロンドンで最も出発が遅れる路線」。走ってて遅れるのではなく出発が遅れるってどういうこと? と思いますが、運転手が遅刻するとかそういうのもあるんでしょうか。

こちらなんかは良い方の結果で、最も時間に正確なルート。路線のバスのうち85%が時刻表から外れずに走っているそうです。

郵便番号でランキング

バスが正確な地域、不正確な地域をランキングするには、郵便番号(の上3桁)が使われています。

なんで郵便番号? と思うかもしれませんが、イギリス(や西洋の多く)の住所は通りの名前+番号なので、おおまかなエリアを示すには郵便番号が便利なのかもしれませんね。

ロンドンで最も使えないバス停は

すべてを総合した、ロンドンで最悪のバス停は、ヒースロー空港近くのリングウェイ(Ringway)バス停だそうです。時刻表通りに来るバスの割合は全体の4%、25本に1本しかないのだとか。

ロンドン交通局自身も、いろいろとデータ処理して同様の情報は持っているのかもしれませんが、こうやってオープンデータとして公開することで、第三者が検証したり改善提案してくれたりするのはいい感じです。

カテゴリー
データ可視化

中世から現代まで、21万枚の絵画に使われている色の変化をRで可視化したグラフ

過去から現在までの大量の絵画データを使い、「時代の色遣い」があるかどうかを調べようとしたマーティン・ベランダーさん(Martin Bellander)のブログから。

大量の絵画データの取得先は、グーグルのアート・プロジェクトWikiアートなどいくつか候補があったのですが、英BBCのサイト Your Paintings を選んだということです。このBBCのサイトにはイギリスを中心にヨーロッパ絵画が収められていると思われます。

paintings-bbc

21万枚を越える絵画データが閲覧できるということで、Windows上のR言語スクリプトで全絵画ファイルのURLを取得し、そこから、画像ファイル、描かれた年(年代で示されているものは最初の年)、油彩かアクリルかテンペラか混合技法か、などの情報を取得保存しています。

ファイルが壊れているものなどを自動・手動で除去した後で、描かれた年ごとにまとめ、各絵画から100個の点をランダムにサンプリングし、色相・彩度・明度を調べ足しこみます。

colors-history-of-paintings

グラフの左側にある白い部分は、その年代の絵画が無かったからですね。全体的に、絵画に使われている色の多くが赤・オレンジ・黄色で占められているというのがわかります。

また、20世紀に入ってから青や緑の量が増えていることがわかります。これについてもベランダーさんは考察し、いくつか仮説を立てています。

  • 「青」という色や名前が他の色と比べ新しい概念・認識である(Business Insiderの記事)
  • (グラフでカウントしてない)暗い色・黒を、青として取ってしまっている
  • 古い絵画ほど、経年変化で青色の樹脂が失われている
  • 昔は青い絵の具が高価だったが安くなって使われるようになった

他にも、全体的な絵画界の流行としてそうなった要素もあるかもしれませんね。どれも決め手というほどの理由でもなさそうで、コメント欄では議論が続いています。

コメント欄では1914年からの映画ポスターの色を分析したという2012の記事も紹介されていて、絵画だけでなく、20世紀は青色の利用が増えた時代と言えるかもしれません。

via Flowing Data