カテゴリー
fun

「ロンドンの時刻を教えて?」 どこのロンドンを返すか

Appleウォッチに「ロンドンは何時?」と訊いたら、数秒間応答が無かったうえに返されたのはカナダのロンドンの時刻だった、というツイッターでの報告がありました。

ジョン・グルーバー氏の有名ブログ Daring Fireball では、自身も Apple Watch を試してカナダのロンドンの時刻が返ってきたことを検証しています。

さらに、同氏の家にある Siri を搭載している HomePod ではイギリスのロンドンの時刻が返ってきたそう。これについて「カナダのロンドンを返すのもコモンセンスが無いが、デバイスごとに一貫してない応答をするのはもっと悪い」と評しています。

冒頭のツイートへの応答では、自分はイギリスの時刻が返ってきた、という人や、イギリスのロンドンとカナダのロンドン、今の場所からの距離が近い方を回答してるのでは、などの推測もありましたが、同じ家の中でも違う回答が来るのはちょっと困りますね。それに、近いとはいってもアメリカ人が訪ねたロンドンのほとんどはイギリスのロンドンの方になるのではと思います。

グルーバー氏はまた、DuckDuckGo, Google/Googleアシスタント, Alexa, Bing の他の検索エンジンやスマートアシスタントをすべて試し、そのどれもがイギリスのロンドンの時刻を返したとレポートしています。

カナダにロンドンがあるのは知りませんでした。Wikipediaによれば人口36万人もいるそうで、かなりの都会ではないですか。なおアメリカ・ケンタッキー州にもロンドンがあり、こちらは群都がある町で人口は7000人台のようです。

オンタリオ州に住んでいる人にとってはカナダのロンドンが正しい場合もあるのかなと思いますが、自動応答に常識を持たせるのは各社の工夫が必要なところでしょうね。

私も以前、Google Maps で日本橋までの所要時間を調べようとして新宿から大阪までの経路が出たことがあります。ここ数年はそんな目には遭っていないので、このあたりも中の人が調整したんでしょうね。

カテゴリー
ネットのサービス

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

カテゴリー
技術

テレビから”Alexa”と流れてもAlexaが反応しない技術をAmazonがスーパーボウルに向け投入

4日に行われるスーパーボウルでは Amazon もスマートスピーカー アレクサのTVCMを流すようですが、それに先がけて「テレビが “Alexa” という言葉を流しても家の Alexa 機器が反応しない技術」を配備したと Amazon の開発者ブログで明かされています。

この技術、基本的には、発話された”Alexa”に対する指紋のようなデータ(acoustic fingerprint)を使い、家庭でユーザーが発した”Alexa”ではないということを判定するもの。

既知のCM中の”Alexa”については、あらかじめ音声指紋を計算しておき、Echo デバイスがその場で突合せをして撥ねているそうです。なので、今回のCMに出てくる”Alexa”を無視するだけであれば、サーバ側の処理は不要ということになります。

ただ、それだけではなく、同時に広い地域の多数のEchoデバイスから、同じ発声の”Alexa”が届いた時に、これをテレビやラジオの放送によるものだとリアルタイムに判定して無視することもできるのだそうです。事前に知らされてない状態でラジオのDJがリスナー達のAlexaを起動しようとしても、防げるようになった、ということになります。

スーパーボウルで流される予定の動画は、YouTube で既に公開されています。ハリソン・フォード氏が出演。過去の「うまくいかなかった Alexa 組み込みデバイス」を紹介するという面白動画になっています。

https://www.youtube.com/watch?v=8y-1h_C8ad8

テレビ・ラジオだけでなく、世の中に広く存在する”Alexa”に対処してるとすると、例えば Google Home が喋る”Alexa”にも反応しなくなってるかもしれませんね。そうすると過去にご紹介したこういう遊びは動かなくなるのかな。