カテゴリー
ネットのサービス

Phonetic Bad Word Filter – 読むと不適切に聴こえる文章をフィルタしてくれるAPI

Phonetic Bad Word Filter API は、字面では一見問題なさそうに見えるが、声に出して読み上げるとヤバイ単語に聴こえてしまう文章や、スペルをわざと間違えることでテキスト合致によるフィルタをすり抜けようとする侮辱語などを発見してブロックするための API です。

API は RapidAPI のサービスで提供されていて、無料枠の利用でもクレジットカードの登録が必要です。

APIの呼び出しサンプルでは、実際のヘイトな単語を使うわけにはいかないので “car” という単語がまずい単語だと見立てて、”kar” という似たような発音になる綴りで置き換えても”car”を検知できますよ、というものになっています。

実際にはここに、いわゆるNワードなどを検知するように指定するということですね。

APIの使い道

APIの作者はもともと、Talking Banana(話すバナナ)というアイデアで、バナナの形の人形に YouTube や Twitch での中継中に視聴者のコメントを自動読み上げさせていたようです。

しかし、入力した結果が大勢の人に見られているライブ動画ですぐ読み上げられるとなると、出てくるのがイタズラ。特に侮辱後や人種差別にあたる言葉をわざと打ち込むというイタズラが登場してしまいました。

ヘイトスピーチにあたるような単語をブラックリスト登録することで、元の文に問題のある単語が直接含まれている場合は読み上げがされないよう対処できたのですが、イタズラする方に「機械に喋らせたら、問題のある単語に聴こえるような別の単語の組み合わせ」を入れてくる人が現れたんだそう。

単語一つだけでも、機械に合成させたら禁止ワードに聴こえる組み合わせをリスト化するのは大変そうです。さらに、単語単位での置き換えではなく、ひとつながりの複数の単語の並びの中に、喋ってみたら禁止ワードが聴こえてしまう、というようなものについて、事前にブロックリストを作るのはかなり難しいことでしょう。

喋らせてみたらまずいかも、という入力を実際に合成させた音をチェックさせるというアイデア、誤検出もありそうには思いますが前記のような用途であれば、ファンの入れた単語が間違って読み上げられなくてもそこまで大きな問題ではないのでしょう。

ユーザー入力をそのまま使うサービスというのは攻撃の対象になりやすいもので、できれば作らない方が楽だとは思います。しかし参加者のフィードバックが表示されることの価値も多いんでしょうね。今回の話は、技術と工夫で一旦はイタズラに勝った、という話で、いつもこういう勝ち筋があるといいのですが。

via reddit

カテゴリー
fun

「ロンドンの時刻を教えて?」 どこのロンドンを返すか

Appleウォッチに「ロンドンは何時?」と訊いたら、数秒間応答が無かったうえに返されたのはカナダのロンドンの時刻だった、というツイッターでの報告がありました。

ジョン・グルーバー氏の有名ブログ Daring Fireball では、自身も Apple Watch を試してカナダのロンドンの時刻が返ってきたことを検証しています。

さらに、同氏の家にある Siri を搭載している HomePod ではイギリスのロンドンの時刻が返ってきたそう。これについて「カナダのロンドンを返すのもコモンセンスが無いが、デバイスごとに一貫してない応答をするのはもっと悪い」と評しています。

冒頭のツイートへの応答では、自分はイギリスの時刻が返ってきた、という人や、イギリスのロンドンとカナダのロンドン、今の場所からの距離が近い方を回答してるのでは、などの推測もありましたが、同じ家の中でも違う回答が来るのはちょっと困りますね。それに、近いとはいってもアメリカ人が訪ねたロンドンのほとんどはイギリスのロンドンの方になるのではと思います。

グルーバー氏はまた、DuckDuckGo, Google/Googleアシスタント, Alexa, Bing の他の検索エンジンやスマートアシスタントをすべて試し、そのどれもがイギリスのロンドンの時刻を返したとレポートしています。

カナダにロンドンがあるのは知りませんでした。Wikipediaによれば人口36万人もいるそうで、かなりの都会ではないですか。なおアメリカ・ケンタッキー州にもロンドンがあり、こちらは群都がある町で人口は7000人台のようです。

オンタリオ州に住んでいる人にとってはカナダのロンドンが正しい場合もあるのかなと思いますが、自動応答に常識を持たせるのは各社の工夫が必要なところでしょうね。

私も以前、Google Maps で日本橋までの所要時間を調べようとして新宿から大阪までの経路が出たことがあります。ここ数年はそんな目には遭っていないので、このあたりも中の人が調整したんでしょうね。

カテゴリー
ネットのサービス

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism