カテゴリー
社会

Gmail の文章サジェスト機能、ジェンダーバイアスの強化を避け性別の人称代名詞を(当面は)避けることに

次を予測して文章を提案してくれるスマートコンポーズ機能

Gmail の実験機能の一つに、スマートコンポーズ(Smart Compose)という機能があり、Gmail の言語設定を英語にした上で設定でオンにすると使えるようになります。

この機能は、途中まで入力した文章を基に、全文を予測してグレーの文字で提案してくれるという機能です。

日ごろから日本語入力でIMEを使っている我々にしてみれば、入力時にある程度先を提案してくれる(たとえば、「おは」と書いたら「おはようございます」が候補に出る)のは英語圏の人たちよりもなじみ深い仕組みかと思います。Gmail の Smart Compose は、それを文の終わりまで拡張したようなものになります。

実験機能でオンにしないと使えないとはいえ、Gmail から送られるメッセージの11% でこの機能がオンにされているということで、英語圏のヘビーユーザーは結構使っているのかもしれません。

データ学習から提案される ‘he’ や ‘she’ のバイアス

ところが、Gmail の担当チームは、このサジェストが ‘he’ や ‘she’ といった三人称の人称代名詞を、既存データのバイアスに影響されて選んでしまうことに気づいてしまったそう。

「私は来週投資家に会うつもりだ。君も…」 と書こうとすると「…に会うかい?」と、必ず「彼」が出てきたというのです(「投資家」の場合)。

Google が持っている膨大な文章データから自動生成するとそうなる、ということで、特定の職業の性別を男女どちらかに推定しまうことに Google 自体の罪があるわけではありません。多くの人々が内包しているバイアスなのでしょう。

しかし、このようなサジェスト機能をみなが使い続けると、サジェストがまた次に生み出される文章のバイアスを強化してしまう可能性がありますね。バイアスの無い she/he の提案が今は難しいと考えたチームは、さしあたりこのような提案になる場合は提案そのものをしないという決定を下したそうです。

via Reuters via TheNextWeb

カテゴリー
技術

メールの返信をプログラムが「提案」する機能をグーグルが開発

本日、グーグルのリサーチブログで、メールの返答を勝手に考えてくれる機能 Smart Reply ができた、という発表がありました。smart reply = 賢い返答、ですね。

まだこの Smart Reply を試せるところは無いようですが、Gmailブログに出ているアニメーションGIFで、どんな感じの機能かが見て取れます。

(credit: Gmail Blog)
(credit: Gmail Blog)

「来月休暇を取ろうと思うんだけど、あなたの休暇予定は決まってるか? 決まってたら教えてほしい」という、社内での休暇取得を調整するメールに対して、アプリの下部に3種類の回答案が表示されます。

「まだ計画してません」「ちょうどあなたに送ったところです」「今それについて検討していたところです」の3つの案が表示され、このユーザーは3つめの案を選び、そこに続けて自分の言葉でメールを続けていきます。

今回ブログで報告しているグーグルの研究者Greg Corradoさんは、モバイルでメールの返事を書くことのたいへんさから、もしメールの内容が簡単な返答で済むようなものかどうか判定できて、ワンクリックで選べる雛形が出てきたらどうだろう、という同僚のアイデアを聞いて、挑戦してみようと思ったとのこと。

6月に発表された論文では、大量の既存の会話データを使い、しかし英語についての知識は内蔵していないプログラムによって、人生の意味について人間とチャットするプログラムを作っていますが、今回の成果はその研究の延長にあるということ。

このスマートリプライシステムでは、時系列データ(この場合は単語-単語のつながり)を扱うリカレントニューラルネットワーク(RNN)二組の一方で受け取ったメールをエンコードしていき、他方で可能な返答を予測していくそうですが、この時に伝わるベクトルが、「あなたは明日フリーですか?」という文章と「明日は都合の良い日ですか?」という文章でちゃんと似たものになるそうです。

また、3つの提案がどれも似たものになってしまう、というプロトタイプの問題点は、3つの回答の意味がそれぞれ離れたものになるように調整したのだとか。あと何にでも「愛してるよ」と返してしまう癖があって困った、みたいな話もあって興味深いです。感謝の気持ちを表すのにそういう言葉も多々含まれるからだろう、ということで、そのへんは出にくくなるように調整したのだとか。

今週後半には、AndroidiOS の Inbox アプリで、この Smart Reply が使えるようになるということです。残念ながら英語のみですが、アプリの対応版が出たらぜひ試してみたいところです。

こういう研究がさらに進んでいけば、提案から選ぶ、どころではなく、単純なものや定期的なものについては、プログラムが勝手に応答してしまうような未来も来るのかもしれないですね。

カテゴリー
データ可視化

自前のメールサーバーを使っていても多くのメールはGmailユーザーの友人経由でGoogleに捕捉されている、という話

自分の電子メールは自分のサーバで管理し、プライバシーを守りたいとしてきた ベンジャミン・ヒル(Benjamin Marko Hill)さんが、Gmailのサービスが開始した2004年からの10年間の自分のプライベート用メールアドレスのメールボックスを解析してみたところ、近年では1/3から半分近くのメールがGmailのサービスにも知られている、という結果が出たそうです。

ヒルさんは、ネットの検閲に反対するなどの活動で知られる電子フロンティア財団(EFF)のディレクターでもある友人のピーター・エカーズリーさんがGmailを使っていることを知って驚き、「Googleにすべてのメールデータを持たれていてもいいのか?」と尋ねたところ、エカーズリーさんが「友人が全員Gmailユーザーなら、結局自分のメールもGmailに把握されてしまっているから」と答えたことをきっかけに、自分の過去のメールがはたしてGmailを経由しているかどうかを調べる気になったということです。

メールボックス内のメールのFromやToを解析し可視化するPythonとRのコードは公開されています。

emails_gmail_over_time

毎週受け取ったメールの総数(赤)と、そのうちヘッダからGoogleのサーバーを経由していたとわかったメールの総数(青)をプロットしたものが上のグラフです。毎週の変動が多いですが、グレイでプロットされた移動平均を見ると、Googleに知られているメールの割合が年を追うごとに少しずつ増えて、最近では1/3のメールがGmailに絡んでいることがわかります。銀行やオンラインショップからの案内メール等はGmailから発信されていないことが多いだろうことを考えると、それ以外の普通のメールではGmailから発信されている割合はさらに高くなるのではということ。

また、自分が返答したメールについて、返答した元のメールの発信がGmailからであれば、返事もGmailを経由して返っていると仮定してカウントしたところ、今は半数ぐらいのメールはGmailのサーバに向けて送っている = 自分の返事したメールの半数はGoogleに読まれ得る、という数字が出たとのこと。ヒルさんがGmailを選んだのは彼の周囲でGmailユーザーが多いだろうと考えてのことで、HotmailやYahoo! Mailなど他のメールサービスでも同じような話はありますし、それらのどこからも見えていないメールの割合はだいぶ小さくなるのかもしれません。

メールがソーシャルなコミュニケーションのツールである限り、自分が自前のメールサーバーを建てたところで、友達がみんな大企業のメールサービスを使えば、自分のメールの多くも大企業の入手するところとなってしまうわけですね。以前ご紹介した、友達が多数ソーシャルネットワークに参加していると、参加していなくても自分の交友関係が把握され得る、という研究と通じるところがありますね。

自分も私用のメールではGmailを重用していますし、このような状況で手間を掛けて自前メールサーバーを構築・維持したいとも思わないので、これらの大手の業者が自分のメールの中身を万が一にも悪用しないことを期待するしかないですが。

via @HackerNews