カテゴリー
ネットのサービス

機械学習で3塁コーチの盗塁サインを見破る

実験工作系有名YouTuberのマーク・ローバーさんの新作は、実用的で面白く、機械学習がどんなものかを野球ファンに強く印象づけるような動画です。野球のコーチが出すブロックサインを、機械学習を使って当ててしまおうという企画。

まずは子供の野球を使って単純なサインを当てるのですが(02:00)、これはサインと盗塁したかどうかを3通り入力しただけで当てられるようになってしまいます。この時点では、帽子と左耳を連続で触った時だけが盗塁の指示でした。

動画は04:00 あたりから機械学習の簡単な紹介をし、06:00 からは、50人の草コーチに尋ねたブロックサインの作り方を説明します。

ほとんどのコーチが、あらかじめ決めておいた場所=インディケーターを触った後にどこを触るかで、盗塁を伝えていることから、機械学習を使うまでもなく、90%の盗塁サインは見破れるとなりました。

残りの10% を見破るものとして、ニューラルネットワークを適用します。

正しいデータの入力は、まだ泥臭い方法を使っています。3塁ベースコーチの様子をカメラを設置して撮影し(11:40)、学習結果を用意しておきます。

そして、スターバックスの空のカップに隠した GoPro で映したコーチをスマートフォンで見ながら、すべての動作をアプリ上で入力すると… アプリが盗塁か否かをたちどころに教えてくれます。

今は動画で撮影したコーチの膨大なサインから、一挙手ごとに正解データを入力しているのでたいへんでしょう

ローバー氏は動画の終わりに、「各リーグにはそれぞれ、こういった機械を使ったサイン破りを禁ずるルールがあるはず」「決してルール破りを奨励するものではありません」と(12:40)。

実際にプロの試合でこんなものを使ってしまっては、野球の面白さが無くなってしまいますからね。個人的にはもう、コーチもバッテリーもハンドサインじゃなくて無線で連絡しちゃってもいいのではと思いますが。試合時間短縮にもつながるでしょうし。

野球とサインという日常的でわかりやすい事例(北米と日本だけかもしれませんけど)で、機械学習の活用法やその仕組みをおもしろく解説しているよい動画だと思いました。

カテゴリー
ネットのサービス

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

カテゴリー
技術

GrandType – キータイプの間隔データを機械学習させ、ユーザーを特定するプロジェクト

GradTypeは、英文を入力する際のキータイピングの癖を使って、今誰がタイプしているのかを特定しようという実験プロジェクトです。

まず、GitHub で認証した状態で、出てくる英文を入力することを繰り返します。すべて小文字で良く、正しい文字とスペースキーを打った時しか先へは進みません。打ち間違えたとしても間違えた文字は入らないのでそのまま続けます。

この時、サービスの裏側ではキーと次のキーが打たれる間の時間を記録し、RNNで学習させているそうです。

文章のバリエーションはそれほど多くありません。数十回入力した後で、ログアウトし、ユーザーとして認識していない状態で同じように英文をタイプすると、

RNNでより「似ている」と判定されたユーザー5名が表示されます。

多数のユーザーが試しているためか、なかなか当ててくれませんでした。(一回は自分のユーザー名が当てられたのを見ましたが、スクリーンショットを撮っていませんでした)

実用的にはスペルを打ち間違えたり直したりするデータを使った方が、より個人の特定はしやすいだろうと思いますが、研究としてはキーとキーの間隔時間だけでどこまでやれるかというのを見ているようです。

匿名で入力できる、と思われているようなサイトにおいても、個人の癖を収集して人物の同定を行うなんてことも、より簡単にできるようになっていくかもしれませんね。

Hacker News では、それへの対策として、キータイプの癖を攪乱するというツールも紹介されていました。匿名個人の特定ではなく、認証にタイピングの癖を使うといった研究もあるようです。

ソースコードが公開されています。

via Hacker News