カテゴリー
ネットのマーケティング

トヨタ、ラジオCMから運転手のiPhone Siriに命令する – スウェーデン

以前とあるポッドキャストでキャスターが「ヘイ、Siri」と喋ったところ、聴いていたリスナーのiPhoneが反応して困った、という話を聞いたことがあります。

「ヘイ、シリ」でも「オーケー、グーグル」でも「ヘイ、コルタナ」でも「アレクサ」でも、音声で命令を受け取るこれらのサービスは誰の声でも反応してしまうため、近くのスピーカーから流れてくれば起動しますし、それが適切な命令になっていればそれを実行してしまうでしょう。

という前提で、スウェーデンのトヨタが仕掛けたのが、ラジオを通して運転中のドライバーの iPhone を機内モードにしてしまうというCM

[追記 2023-01] トヨタは動画の公開を止めていますね。Siri などのスマートアシスタントが出始めの頃にインパクトのある面白広告(のアイデア)でしたが、再現映像であっても観られなくなってしまったのは残念です。

(旧リンク https://www.youtube.com/watch?v=NqZBVTMrgFA )

最初の20秒は、過去に運転中のテキスト送信で交通事故に遭い、後遺症に悩んでいる人の体験談。

「もしドライバー自身が運転中の危険なスマートフォン操作を止められないなら、我々がそれをしてあげればどうだろう?」

「Siri がオンになっていて充電されているなら、『ヘイ、シリ』と叫べばiPhone を制御できる。誰でも。そう、ラジオでさえも」

「もし運転中のメッセージ送信やウェブサーフィンがたいへんなリスクだと聞いてもあなたが電話を置かないなら、この広告がそれをやりましょう」

「ヘイ、シリ!」

ダッシュボードに置かれた iPhone が反応します。

「機内モードをオンにしてくれ」

Siri 「本当に機内モードをオンにしていいんですね?」

toyota-radio-cm-controls-siri

「そうだ。携帯電話がついた状態で運転することは非常に危険だ」

Siri 「わかりました。機内モードをオンにします」

と、ラジオからの命令で iPhone は機内モードにされてしまいました。

運転中じゃなくて、家でラジオを聴いてる人はいなかったんですかね?

トヨタ・スウェーデンが公開しているこの動画は、「スウェーデンのラジオでこんなことをしたよ」という報告の動画で、いわば再現ビデオです。

# 言葉もスウェーデン語じゃなくて英語ですしね。

実際にラジオCMがどこの局でどれぐらいの対象を相手に流れたのかは書いてないのですが、実際に広くこのCMを流したら、各所から文句が来そうだなあ、と思いました。啓発CMとしてインパクトは高いけど。

本人の声を登録して本人じゃないと動かない、とするのは技術的にはかなり大変そうです。ラジオや録音した自動メッセージを使って他人のスマートフォンを勝手に操作する、という事例は今後もどんどん増えてきそうですね。

電話を切る、ぐらいなら危害は加えられないでしょうけど、音声認識で操作できる対象が増えれば、推理小説のトリックになりそうな悪意のある使われ方もいずれ目にするようになるかもしれません。

via The Verge

カテゴリー
技術

Vistaの音声認識セキュリティホールに思う

via Vistaで勝手にファイルを削除されるセキュリティホールが見つかる など

たとえば「ファイルを削除」といった音声をMP3ファイルに録音し、友達に送ります。それを友達が再生すると、マイクが認識してしまえばそのとおりに作動してしまいます。

マイクロソフトから、このセキュリティホールの存在を認めたという返事を貰ったというGeorge Ouの話では、この問題は

  • マイクとスピーカーがつながって
  • 音声認識機能がオンになっている

という状況でのみ発生するらしい(そりゃそうだ)。とりあえずの回避策は、

  • マイクやスピーカーを切れば、このセキュリティホールは発動しない。
  • コマンドを実行するような音楽ファイルを開いてしまったら、メディアプレイヤーを閉じ、音声認識機能をオフにして、コンピュータを再起動するべきということ。(間に合うのだろうか)

いろんなところで、「良くないコマンドを実行させる音声ファイルを送りつけて」みたいに書かれているけど、そんなことしなくても、開くと音が鳴るウェブページに誘導するとか、YouTube等に最初は魅力的な動画で、途中でいきなりコマンドを喋る動画をアップロードするとか、任意の音を鳴らすだけならいろいろありそうな気がする。

# これまで、その手のいたずらは起こってないのかな。動画の途中からいきなり不快なものを挿し込むとか。

MSの回答はもちろん今危険にさらされている人のための暫定的な対策で、今後ちゃんとした対策を考えるのだと思うけど、音声認識機能をあきらめる、という以外の解決法ってどういうものだろう?

OSが音楽を鳴らすときに、「これはOSが鳴らしてる音だよ」みたいな識別信号を(人間に聞こえない周波数で)混ぜたりするのかなあ。しかし、単純なものならそれを含めて音声を作ればいいわけで、そうすると識別信号に時間情報やシステム固有のキーを入れるとか…

それか、自分の出した音をちょっとだけ覚えておいて、それを入力の音声から差し引くとか…

なんにしてもリソースを喰いそうだなあ。CPUベンダーとかハードベンダーが喜ぶかも。