カテゴリー
データ可視化

自前のメールサーバーを使っていても多くのメールはGmailユーザーの友人経由でGoogleに捕捉されている、という話

自分の電子メールは自分のサーバで管理し、プライバシーを守りたいとしてきた ベンジャミン・ヒル(Benjamin Marko Hill)さんが、Gmailのサービスが開始した2004年からの10年間の自分のプライベート用メールアドレスのメールボックスを解析してみたところ、近年では1/3から半分近くのメールがGmailのサービスにも知られている、という結果が出たそうです。

ヒルさんは、ネットの検閲に反対するなどの活動で知られる電子フロンティア財団(EFF)のディレクターでもある友人のピーター・エカーズリーさんがGmailを使っていることを知って驚き、「Googleにすべてのメールデータを持たれていてもいいのか?」と尋ねたところ、エカーズリーさんが「友人が全員Gmailユーザーなら、結局自分のメールもGmailに把握されてしまっているから」と答えたことをきっかけに、自分の過去のメールがはたしてGmailを経由しているかどうかを調べる気になったということです。

メールボックス内のメールのFromやToを解析し可視化するPythonとRのコードは公開されています。

emails_gmail_over_time

毎週受け取ったメールの総数(赤)と、そのうちヘッダからGoogleのサーバーを経由していたとわかったメールの総数(青)をプロットしたものが上のグラフです。毎週の変動が多いですが、グレイでプロットされた移動平均を見ると、Googleに知られているメールの割合が年を追うごとに少しずつ増えて、最近では1/3のメールがGmailに絡んでいることがわかります。銀行やオンラインショップからの案内メール等はGmailから発信されていないことが多いだろうことを考えると、それ以外の普通のメールではGmailから発信されている割合はさらに高くなるのではということ。

また、自分が返答したメールについて、返答した元のメールの発信がGmailからであれば、返事もGmailを経由して返っていると仮定してカウントしたところ、今は半数ぐらいのメールはGmailのサーバに向けて送っている = 自分の返事したメールの半数はGoogleに読まれ得る、という数字が出たとのこと。ヒルさんがGmailを選んだのは彼の周囲でGmailユーザーが多いだろうと考えてのことで、HotmailやYahoo! Mailなど他のメールサービスでも同じような話はありますし、それらのどこからも見えていないメールの割合はだいぶ小さくなるのかもしれません。

メールがソーシャルなコミュニケーションのツールである限り、自分が自前のメールサーバーを建てたところで、友達がみんな大企業のメールサービスを使えば、自分のメールの多くも大企業の入手するところとなってしまうわけですね。以前ご紹介した、友達が多数ソーシャルネットワークに参加していると、参加していなくても自分の交友関係が把握され得る、という研究と通じるところがありますね。

自分も私用のメールではGmailを重用していますし、このような状況で手間を掛けて自前メールサーバーを構築・維持したいとも思わないので、これらの大手の業者が自分のメールの中身を万が一にも悪用しないことを期待するしかないですが。

via @HackerNews