Tag Archives: 機械学習

AdBlock Radio – 機械学習+ユーザー投稿でラジオ番組の広告やトークを飛ばす

AdBlock Radio は、名前の通り、ラジオ広告をブロックするためのサービス/ツールです。音声データから、ラジオ番組のトーク、音楽、そして広告を判別させ、広告やトークの部分を除外することができます。

広告抜きpodcastラジオ再生ツール buffer

AdBlock Radio を使ったwebアプリ buffer の Docker 版を手元で動かしてみました。起動して localhost をブラウザで開くと、カタログから podcast ラジオ局を最大4局まで選ぶ画面になります。

4局について、「音楽を飛ばす」「トークを飛ばす」のチェックを入れて開始ボタンを押すと、サーバアプリケーションが podcast データをバッファしていきます。

バッファされたラジオ音源は上のように色分けされていきますが、青が音楽、緑がトーク、赤が広告と思われる箇所となります。トークや広告を聴かない設定にしておくと、緑や赤に再生が差し掛かったところで、次の青まで再生が飛ばされ、音楽が終わっても次の音楽がすぐに続きます。

とは言っても判定も完全ではなく、ところどころに灰色の「何かわからなかった」部分がまだらに入ったりもします。CM の一部が音楽として再生されたり、ラップなど言葉が多い音楽ではトーク(緑)や不明(灰)の細かい帯のようになったりしました。

最初、なんで4局選ばせるのかな、と思ったのですが、CMやトーク部分を飛ばしてずっと聴いていると、その局の再生が最新に追いついてしまうから、次の局、次の局へと切り替わっていく作りなんですね。4局分のデータを使って、音楽だけを途切れずに流し続ける仕組みということになります。

ラジオ局の情報はCommunity Radio Station Boardから取得したものをベースにしているようです。このサイトにはコミュニティFM局を中心に日本のラジオ局も多数載っていますが、Adblock Radio のリストには日本の局は含まれていないようです。

トークやCMの判定はスペイン語など英語以外のラジオ局でもそれなりに動いているのを確認したので、おそらく登録して試せばそこそこ動くのでしょうね。

影響

ラジオ局は広告料もテレビやネットに比べて安いそうですし、こんなadblockツールを使う人が増えたら広告料への影響が大きいでしょうね。

個人的には、ラジオにCMが入るのは昔からなので慣れているというか、ウェブ広告やYouTube の広告などに比べるとそれほど気になりません。

ウェブ広告はポップアップや全画面広告、動画広告などいろいろなヤンチャが過ぎたために、広告ブロックツールを使う人を増やしてしまった歴史がありますが、ラジオ局が無くなってしまうような影響が出るのであれば、この Adblock Radio のようなツールは少しやりすぎなのではないかなあ、とも思います。

まあ、それとは別に、放送内容を自動でカテゴライズして切り出すというアイデアは面白く、何か他にもいい応用があるかもしれません。

via Hacker News

米アニメエキスポで評判を呼んだ「俺の嫁(Waifu)自動販売機」

Waifu Labs は、一点もののアニメ風の少女イラストを機械学習によって生成してくれるという webサービスです。

内部の生成の仕組み自体は、Gwern さんのThis Waifu Does Not Exist (解説) を流用しているもので、StyleGAN による自動生成された「存在しない(=既存作品等に無い新規の)アニメイラスト」画像です。

今回のサイトは、完全なランダムで一枚を生成するというオリジナルとは違い、生成の段階で16種類提示される「最初の好み」「色の傾向」「細部」「ポーズ」を選んでいくことで、自分が選択した好みのオリジナルのイラストが得られる、というものになります。

生成された一点画像は、枕やポスターとして購入できる、というのがサイトの狙っているビジネスモデルでしょうか。

作者チームはこのシステムをアメリカ・ロスアンゼルスの Anime Expo に持ち込み、ブースを設けてカスタムのイラストを販売(英語圏でいうところの commission)し、希望者の長蛇の列を作ったのだと、ブログで裏話が公開されています。

ツイッター等のソーシャルメディアでアイコンをこういったアニメ絵にしてる人が特に日本語圏では多く、既存の作品から切り取ったものを使ってる場合は著作権や利用権について突っ込みが入ることも多いと思います。こんな風に自分の希望から他にないイラストが自動生成できてしまうのですから、こういったものを使えばその問題も解消しますね。

また、これぐらいのイラストが数分で無料で手に入ってしまうとなると、ちょっとしたカットを描くような仕事にも影響がでるかもしれませんね。

それから、著作権やオリジナリティという意味では、こういった自動生成のデータを大量に公開し続けておくと、後から人力で描かれたイラストと非常に似たものも存在し、「先行公開していた」と主張することだってできるかもしれません。機械的な自動生成が簡単に使えるようになることで、いったい著作権って何だ、というような騒動が起き、仕組みの対応も迫られる近未来があるかも。

機械学習で3塁コーチの盗塁サインを見破る

実験工作系有名YouTuberのマーク・ローバーさんの新作は、実用的で面白く、機械学習がどんなものかを野球ファンに強く印象づけるような動画です。野球のコーチが出すブロックサインを、機械学習を使って当ててしまおうという企画。

まずは子供の野球を使って単純なサインを当てるのですが(02:00)、これはサインと盗塁したかどうかを3通り入力しただけで当てられるようになってしまいます。この時点では、帽子と左耳を連続で触った時だけが盗塁の指示でした。

動画は04:00 あたりから機械学習の簡単な紹介をし、06:00 からは、50人の草コーチに尋ねたブロックサインの作り方を説明します。

ほとんどのコーチが、あらかじめ決めておいた場所=インディケーターを触った後にどこを触るかで、盗塁を伝えていることから、機械学習を使うまでもなく、90%の盗塁サインは見破れるとなりました。

残りの10% を見破るものとして、ニューラルネットワークを適用します。

正しいデータの入力は、まだ泥臭い方法を使っています。3塁ベースコーチの様子をカメラを設置して撮影し(11:40)、学習結果を用意しておきます。

そして、スターバックスの空のカップに隠した GoPro で映したコーチをスマートフォンで見ながら、すべての動作をアプリ上で入力すると… アプリが盗塁か否かをたちどころに教えてくれます。

今は動画で撮影したコーチの膨大なサインから、一挙手ごとに正解データを入力しているのでたいへんでしょう

ローバー氏は動画の終わりに、「各リーグにはそれぞれ、こういった機械を使ったサイン破りを禁ずるルールがあるはず」「決してルール破りを奨励するものではありません」と(12:40)。

実際にプロの試合でこんなものを使ってしまっては、野球の面白さが無くなってしまいますからね。個人的にはもう、コーチもバッテリーもハンドサインじゃなくて無線で連絡しちゃってもいいのではと思いますが。試合時間短縮にもつながるでしょうし。

野球とサインという日常的でわかりやすい事例(北米と日本だけかもしれませんけど)で、機械学習の活用法やその仕組みをおもしろく解説しているよい動画だと思いました。

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

GrandType – キータイプの間隔データを機械学習させ、ユーザーを特定するプロジェクト

GradTypeは、英文を入力する際のキータイピングの癖を使って、今誰がタイプしているのかを特定しようという実験プロジェクトです。

まず、GitHub で認証した状態で、出てくる英文を入力することを繰り返します。すべて小文字で良く、正しい文字とスペースキーを打った時しか先へは進みません。打ち間違えたとしても間違えた文字は入らないのでそのまま続けます。

この時、サービスの裏側ではキーと次のキーが打たれる間の時間を記録し、RNNで学習させているそうです。

文章のバリエーションはそれほど多くありません。数十回入力した後で、ログアウトし、ユーザーとして認識していない状態で同じように英文をタイプすると、

RNNでより「似ている」と判定されたユーザー5名が表示されます。

多数のユーザーが試しているためか、なかなか当ててくれませんでした。(一回は自分のユーザー名が当てられたのを見ましたが、スクリーンショットを撮っていませんでした)

実用的にはスペルを打ち間違えたり直したりするデータを使った方が、より個人の特定はしやすいだろうと思いますが、研究としてはキーとキーの間隔時間だけでどこまでやれるかというのを見ているようです。

匿名で入力できる、と思われているようなサイトにおいても、個人の癖を収集して人物の同定を行うなんてことも、より簡単にできるようになっていくかもしれませんね。

Hacker News では、それへの対策として、キータイプの癖を攪乱するというツールも紹介されていました。匿名個人の特定ではなく、認証にタイピングの癖を使うといった研究もあるようです。

ソースコードが公開されています。

via Hacker News

BugBug – 機械学習によるバグの自動トリアージ by Mozilla/Firefox

Mozilla Hacks で、2月から導入された BugBug というバグレポートの自動分類ツールの紹介が読めます。

Mozilla の様々な製品/コンポーネントに対して発行されたバグ報告を、とりあえずどの製品のどのコンポーネントに属するものかを分類して、そのコンポーネントの担当者に早く届くようにする、というのか今回のツール導入の目的だそうです。

大災害時などに負傷者の治療作業の順番をつける「トリアージ」と同様のことをバグに対して行う「バグトリアージ」というわけ。

“Teaching machines to triage Firefox bugs” より、概念図

これまではというと、ボランティアや開発者が人手でバグを分類し設定することで担当者に届けられていたのですが、ここの分類に日数が掛かっていて、バグが解消されるまでの期間が長くなっていた、と。

機械学習で分類させるには、どんなバグレポートがどのコンポーネントに対するものか、という過去の正しいデータが必要ですが、Mozilla でこれまで発行されたバグレポートは20年以上の期間での153万件を越えるそう。

これが人力でおおむね正しく分類されているので、これをXGBoostに食わせることで、新たに到着したバグレポートが属するコンポーネントの予測が自動的にできるのだそうです。

2月末に一部のプロダクトに対して導入運用を始め、350件のバグを自動分類し、そのチケットの解決までの日数の(外れ値を除いた)中央値は2日間と改善されたそう。ちなみに、今は60%の信頼度で分類して、80%以上の適合率を達成しているそうです。

今後の計画としては、重複チケットの検出、バグレポートに欠けている内容(たとえばバグの再現方法)を見つけて報告者に追加してもらう、リリース版での重要なバグを素早く発見する、などを検討しているということ。

大きな製品になるとバグレポートも膨大に届き、切り分けだけでたいへんな人的リソースを必要とするのでしょうけれど、その部分の自動化は開発側にも利用者側にも大きな恩恵を与えそうですね。

via VentureBeat

Gamedetect.io – ゲーム画面の画像からゲーム名を当てるサービス

GameDetect.io のフォームにビデオゲームの画面写真を与えると、JSON でそれがどのゲームに似ているかを返してくれます。

適当な画像をアップロードすると、以下のような形でゲームタイトルとそのゲームである確からしさを戻してきます。


{
"filename":"dragonquest5.jpg",
"predictions":[
{
"label":"stardew valley",
"probability":0.568226
},
{
"label":"the legend of zelda a link to the past",
"probability":0.15813187
},
{
"label":"super mario maker",
"probability":0.031073814
},
{
"label":"factorio",
"probability":0.027034273
},
{
"label":"don t starve together",
"probability":0.020903632
}
],
"speed_ms":1113
}

Tensorflow と Golang によって実装されており、学習データとしてはTwitch のゲーム配信画面をスクレイプしたものを使っています。ゲーム実況にはゲームのタイトル情報とゲーム画面があるので、これを正答として学習させ、モデルを作っているのですね。

そのような作りなので、回答で出てくる候補のゲームはTwitch で今最も多く中継されているゲームトップ100 からだけとなっています。(冒頭で試したドラクエ5 の画面では、Stardew Valley やゼルダなど画面の似ているものが出てしまっていますね。)

Gmail の文章サジェスト機能、ジェンダーバイアスの強化を避け性別の人称代名詞を(当面は)避けることに

次を予測して文章を提案してくれるスマートコンポーズ機能

Gmail の実験機能の一つに、スマートコンポーズ(Smart Compose)という機能があり、Gmail の言語設定を英語にした上で設定でオンにすると使えるようになります。

この機能は、途中まで入力した文章を基に、全文を予測してグレーの文字で提案してくれるという機能です。

日ごろから日本語入力でIMEを使っている我々にしてみれば、入力時にある程度先を提案してくれる(たとえば、「おは」と書いたら「おはようございます」が候補に出る)のは英語圏の人たちよりもなじみ深い仕組みかと思います。Gmail の Smart Compose は、それを文の終わりまで拡張したようなものになります。

実験機能でオンにしないと使えないとはいえ、Gmail から送られるメッセージの11% でこの機能がオンにされているということで、英語圏のヘビーユーザーは結構使っているのかもしれません。

データ学習から提案される ‘he’ や ‘she’ のバイアス

ところが、Gmail の担当チームは、このサジェストが ‘he’ や ‘she’ といった三人称の人称代名詞を、既存データのバイアスに影響されて選んでしまうことに気づいてしまったそう。

「私は来週投資家に会うつもりだ。君も…」 と書こうとすると「…に会うかい?」と、必ず「彼」が出てきたというのです(「投資家」の場合)。

Google が持っている膨大な文章データから自動生成するとそうなる、ということで、特定の職業の性別を男女どちらかに推定しまうことに Google 自体の罪があるわけではありません。多くの人々が内包しているバイアスなのでしょう。

しかし、このようなサジェスト機能をみなが使い続けると、サジェストがまた次に生み出される文章のバイアスを強化してしまう可能性がありますね。バイアスの無い she/he の提案が今は難しいと考えたチームは、さしあたりこのような提案になる場合は提案そのものをしないという決定を下したそうです。

via Reuters via TheNextWeb

履歴書の機械学習が女性差別になってしまい、Amazonが止めたというニュース

ロイターの記事 “Amazon scraps secret AI recruiting tool that showed bias against women

アマゾン社の中の人による匿名の情報ということだけれど、2014年に組まれたチームが、求職者からの履歴書を機械学習して(アマゾンレビューのように)星5つでランク付けをしたら、ソフトウェア開発者や他の技術者の高評価が男性に偏ってしまうことに気づいた、ということです。

学習に使った過去10年の求職者に占める男性の割合が多かったために、男性的な言葉を多く使った履歴書が優秀とされてしまったそうです。入力にバイアスが掛かってれば、結果にも掛かるのはある意味当たり前ですね。アマゾンに限らず、アメリカのIT企業で社員の男女比や有色人種比率が公表されたり比較されたりしている中で、これまでのやり方をベストとして強化すれば、属性にこだわらず優秀な人を取るということができなくなってしまいそうです。

記事によれば、結局、このチームは解散となったということ。今は別のチームで、重複したデータを削除するとか、多様性が保たれるようにスクリーニングするとか、よりマイルドな使い方を追及しているということです。

顔認識がアジア系男性を「目が開いてない」と拒絶 ニュージーランド

Facebook上でニュージーランド人のリチャード・リーさんが公開したメッセージがこれ。

パスポートの更新をしようとオンライン手続きをする際に、自分の顔写真をアップロードしたところ、「被写体の目が閉じています」というエラーになって受け付けてくれなかった、という事件です。

多数の既存の顔写真を機械学習させた結果で、目を閉じている写真をエラーにしているのだと思いますが、教師データとして世界中の顔写真ではなく、ヨーロッパ系やマオリ系が多数というニュージーランドの顔データを使ったのかもしれません。

アジア人の目をことさら取り上げたり強調して描いたりすることは、人種差別として厳しい批難を受けるようになってきています。10月に欧州連合の委員が巻き起こした事件は記憶に新しいところ。

欧州連合(EU)のギュンター・エッティンガー欧州委員(デジタル経済・社会担当)=ドイツ=が、中国人を「つり目」と呼ぶなど差別的な発言を繰り返していたことが暴露され、批判にさらされている。

差別発言に批判=欧州委員、中国人を「つり目」:時事ドットコム

上の記事がYahoo!ニュースに転載されていた時に寄せたコメントが掲載終了で見えなくなっているので、こちらに転記しておきます。

つり目(slant-eyes)は、西洋において東アジア人の顔面の特徴を揶揄する際に使われる典型的な差別表現になっています。2008年にはスペインのバスケットボール・ナショナルチーム、2009年には歌手のマリー・サイラス、2013年にはスペインのバイクレーサー、マルク・マルケスがこの表現で炎上しています。

今回は中国人を指してのものですが、マルク・マルケスの時は日本人が対象でした。

今回のリーさんは、笑い話として共有して世界中に広まりましたが、そのコメント欄でやはり差別的な書き込みをするような人も出てくるわけです。

ニュージーランドのパスポートセンターも、悪気があってシステムを作ったわけではないと思いますが、機械学習のための元データの選定についても学習させるデータのセットが本当にそれでいいのか、というのを考えないといけないのでしょうね。

via Bored Panda