カテゴリー
技術

BugBug – 機械学習によるバグの自動トリアージ by Mozilla/Firefox

Mozilla Hacks で、2月から導入された BugBug というバグレポートの自動分類ツールの紹介が読めます。

Mozilla の様々な製品/コンポーネントに対して発行されたバグ報告を、とりあえずどの製品のどのコンポーネントに属するものかを分類して、そのコンポーネントの担当者に早く届くようにする、というのか今回のツール導入の目的だそうです。

大災害時などに負傷者の治療作業の順番をつける「トリアージ」と同様のことをバグに対して行う「バグトリアージ」というわけ。

“Teaching machines to triage Firefox bugs” より、概念図

これまではというと、ボランティアや開発者が人手でバグを分類し設定することで担当者に届けられていたのですが、ここの分類に日数が掛かっていて、バグが解消されるまでの期間が長くなっていた、と。

機械学習で分類させるには、どんなバグレポートがどのコンポーネントに対するものか、という過去の正しいデータが必要ですが、Mozilla でこれまで発行されたバグレポートは20年以上の期間での153万件を越えるそう。

これが人力でおおむね正しく分類されているので、これをXGBoostに食わせることで、新たに到着したバグレポートが属するコンポーネントの予測が自動的にできるのだそうです。

2月末に一部のプロダクトに対して導入運用を始め、350件のバグを自動分類し、そのチケットの解決までの日数の(外れ値を除いた)中央値は2日間と改善されたそう。ちなみに、今は60%の信頼度で分類して、80%以上の適合率を達成しているそうです。

今後の計画としては、重複チケットの検出、バグレポートに欠けている内容(たとえばバグの再現方法)を見つけて報告者に追加してもらう、リリース版での重要なバグを素早く発見する、などを検討しているということ。

大きな製品になるとバグレポートも膨大に届き、切り分けだけでたいへんな人的リソースを必要とするのでしょうけれど、その部分の自動化は開発側にも利用者側にも大きな恩恵を与えそうですね。

via VentureBeat

カテゴリー
ネットのサービス

Gamedetect.io – ゲーム画面の画像からゲーム名を当てるサービス

GameDetect.io のフォームにビデオゲームの画面写真を与えると、JSON でそれがどのゲームに似ているかを返してくれます。

適当な画像をアップロードすると、以下のような形でゲームタイトルとそのゲームである確からしさを戻してきます。


{
"filename":"dragonquest5.jpg",
"predictions":[
{
"label":"stardew valley",
"probability":0.568226
},
{
"label":"the legend of zelda a link to the past",
"probability":0.15813187
},
{
"label":"super mario maker",
"probability":0.031073814
},
{
"label":"factorio",
"probability":0.027034273
},
{
"label":"don t starve together",
"probability":0.020903632
}
],
"speed_ms":1113
}

Tensorflow と Golang によって実装されており、学習データとしてはTwitch のゲーム配信画面をスクレイプしたものを使っています。ゲーム実況にはゲームのタイトル情報とゲーム画面があるので、これを正答として学習させ、モデルを作っているのですね。

そのような作りなので、回答で出てくる候補のゲームはTwitch で今最も多く中継されているゲームトップ100 からだけとなっています。(冒頭で試したドラクエ5 の画面では、Stardew Valley やゼルダなど画面の似ているものが出てしまっていますね。)

カテゴリー
社会

Gmail の文章サジェスト機能、ジェンダーバイアスの強化を避け性別の人称代名詞を(当面は)避けることに

次を予測して文章を提案してくれるスマートコンポーズ機能

Gmail の実験機能の一つに、スマートコンポーズ(Smart Compose)という機能があり、Gmail の言語設定を英語にした上で設定でオンにすると使えるようになります。

この機能は、途中まで入力した文章を基に、全文を予測してグレーの文字で提案してくれるという機能です。

日ごろから日本語入力でIMEを使っている我々にしてみれば、入力時にある程度先を提案してくれる(たとえば、「おは」と書いたら「おはようございます」が候補に出る)のは英語圏の人たちよりもなじみ深い仕組みかと思います。Gmail の Smart Compose は、それを文の終わりまで拡張したようなものになります。

実験機能でオンにしないと使えないとはいえ、Gmail から送られるメッセージの11% でこの機能がオンにされているということで、英語圏のヘビーユーザーは結構使っているのかもしれません。

データ学習から提案される ‘he’ や ‘she’ のバイアス

ところが、Gmail の担当チームは、このサジェストが ‘he’ や ‘she’ といった三人称の人称代名詞を、既存データのバイアスに影響されて選んでしまうことに気づいてしまったそう。

「私は来週投資家に会うつもりだ。君も…」 と書こうとすると「…に会うかい?」と、必ず「彼」が出てきたというのです(「投資家」の場合)。

Google が持っている膨大な文章データから自動生成するとそうなる、ということで、特定の職業の性別を男女どちらかに推定しまうことに Google 自体の罪があるわけではありません。多くの人々が内包しているバイアスなのでしょう。

しかし、このようなサジェスト機能をみなが使い続けると、サジェストがまた次に生み出される文章のバイアスを強化してしまう可能性がありますね。バイアスの無い she/he の提案が今は難しいと考えたチームは、さしあたりこのような提案になる場合は提案そのものをしないという決定を下したそうです。

via Reuters via TheNextWeb