Tag Archives: 音声

AdBlock Radio – 機械学習+ユーザー投稿でラジオ番組の広告やトークを飛ばす

AdBlock Radio は、名前の通り、ラジオ広告をブロックするためのサービス/ツールです。音声データから、ラジオ番組のトーク、音楽、そして広告を判別させ、広告やトークの部分を除外することができます。

広告抜きpodcastラジオ再生ツール buffer

AdBlock Radio を使ったwebアプリ buffer の Docker 版を手元で動かしてみました。起動して localhost をブラウザで開くと、カタログから podcast ラジオ局を最大4局まで選ぶ画面になります。

4局について、「音楽を飛ばす」「トークを飛ばす」のチェックを入れて開始ボタンを押すと、サーバアプリケーションが podcast データをバッファしていきます。

バッファされたラジオ音源は上のように色分けされていきますが、青が音楽、緑がトーク、赤が広告と思われる箇所となります。トークや広告を聴かない設定にしておくと、緑や赤に再生が差し掛かったところで、次の青まで再生が飛ばされ、音楽が終わっても次の音楽がすぐに続きます。

とは言っても判定も完全ではなく、ところどころに灰色の「何かわからなかった」部分がまだらに入ったりもします。CM の一部が音楽として再生されたり、ラップなど言葉が多い音楽ではトーク(緑)や不明(灰)の細かい帯のようになったりしました。

最初、なんで4局選ばせるのかな、と思ったのですが、CMやトーク部分を飛ばしてずっと聴いていると、その局の再生が最新に追いついてしまうから、次の局、次の局へと切り替わっていく作りなんですね。4局分のデータを使って、音楽だけを途切れずに流し続ける仕組みということになります。

ラジオ局の情報はCommunity Radio Station Boardから取得したものをベースにしているようです。このサイトにはコミュニティFM局を中心に日本のラジオ局も多数載っていますが、Adblock Radio のリストには日本の局は含まれていないようです。

トークやCMの判定はスペイン語など英語以外のラジオ局でもそれなりに動いているのを確認したので、おそらく登録して試せばそこそこ動くのでしょうね。

影響

ラジオ局は広告料もテレビやネットに比べて安いそうですし、こんなadblockツールを使う人が増えたら広告料への影響が大きいでしょうね。

個人的には、ラジオにCMが入るのは昔からなので慣れているというか、ウェブ広告やYouTube の広告などに比べるとそれほど気になりません。

ウェブ広告はポップアップや全画面広告、動画広告などいろいろなヤンチャが過ぎたために、広告ブロックツールを使う人を増やしてしまった歴史がありますが、ラジオ局が無くなってしまうような影響が出るのであれば、この Adblock Radio のようなツールは少しやりすぎなのではないかなあ、とも思います。

まあ、それとは別に、放送内容を自動でカテゴライズして切り出すというアイデアは面白く、何か他にもいい応用があるかもしれません。

via Hacker News

Speech2Face – 声からあなたの顔つきを当てる研究

声から、喋っている人がどんな顔なのかを推定する、という研究です。

上に並んでいるのが、短文の音声メッセージの話者です。これ左端はダニエル・クレイグ氏(007)ですよね。他はわかりませんが。

サイトで再生ボタンを押すと、推定に使われた音声データが聴けます。10秒も無いぐらいの短い文章です。

そして、下に並んでいるのが、その音声から深層ニューラルネットワークを利用して推定した話者の顔。

学習データとしては、インターネット/YouTube 上の数百万の人が喋っている動画を使ったそうです。「こんな風貌の人は、こんな風に話す」というデータを大量に食わせることで、「こんな風に話す人は、こんな見た目なことが多い」という変換を得たということですね。

推測結果には性別・ジェンダー・人種など繊細な問題が絡むことから、倫理的な注意書きが添えられています。学習データは全人類の平均的な喋り方を集めたのではなく、YouTube などから動画を集めたことから、データには当然バイアスがあります、と。YouTube に出ているような人の喋り方、に偏っているかもしれないし、喋っている言語のサンプルが少なかったりする言語の場合も偏りがあるかもしれない、などなど。

また、話者本人を特定したり、話者のファッション(髪の色やメガネ等)を特定したりは当然できません。(メガネをかけた人特有の話し方、とかない限り)

アプリやブラウザに対して喋ると顔写真を出してくれたり、というお遊びサービスは面白そうですが、その先にどのような実用的な応用がありうるのか。何か面白いことができそうな研究ではありますね。

via Futurism

電動キックスクーター シェアリングの LIME、案内音声をハックで差し替えるイタズラに遭う

オーストラリア、ブリスベンのカンガルーポイントで、LIME 社のシェアリング電動スクーターが複数台同時にハックされるという事件が発生しています。

ステーションに並んだスクーターが、一斉に「一緒に乗りましょう」「私を連れまわして」などと喋っています。

オリジナルの内蔵音声が、何者かの手によって書き換えられたのではということです。

こちらの動画では、スクーターを勝手に持ち去った際の警告が差し替えられています。

ニュースでも「差別的」と言っていますが、移民風の喋り方などがそれにあたると感じられているのでしょう。

LIME や競合の Bird の電動キックスクーターについては、無料で解錠して乗るハックや、リモートから突然ブレーキを掛けるハックも出ていて、YouTube を検索すれば多数出てきます。

欧州中心に電動キックスクーターのシェアが爆発的に広がっているようですが、本体の電子部分が Bluetooth で簡単にアクセスできるタイプのものが有ったり、セキュリティ面で心配な事件も多いようです。

via Brisbane Times via Reddit

Q – 性別のない合成音声=ジェンダーレス・ボイスを各社音声アシスタントに採用呼びかけ

Q は、グーグル/アップル/アマゾン/マイクロソフトなどIT大手のスマートスピーカーや音声アシスタントに向けて提案された、男性でも女性でもない合成音声です。

サイトトップでクリックすると、その男女どちらでもない合成音声を聴いてみることができます。

デンマーク・コペンハーゲンのLGBTパレード団体やAIのバイアス問題に対処しようという団体らによって制作されたこの音声は、GoogleアシスタントやAmazonアレクサなどの音声アシスタントの音声が「男性声」「女性声」からの選択を強いていることに対する問題提起だということ。

言われてみれば、機械で合成しているのだから人工音声で男性か女性の声を選ばないといけない理由はないわけです。

「テクノロジー企業は、合成音声の性別を選択できることで人々がより快適になると信じ、性別をテクノロジーに持ち込んでいます」

「残念なことに、これらによって性別が必ずはっきりどちらかの2つに分かれる、というステレオタイプの永続化が補強されてしまうのです」

なるほど。応答ができて情報が返せればいいのですから、機械の合成音声にわざわざ性別を与える必要はないのかもしれません。男性声・女性声が今すぐ無くなるとは思えませんが、中性声を追加することはそれほど抵抗なく採用してもらえる可能性もあるのではないでしょうか。

このQの音声モデルは、数千の候補者から数人を選び、その人たちに話してもらった声のピッチを変換することで作ったと、紹介動画にありました。

「世界初のジェンダーレス音声」とサイトでは言っています。これまでも中性的な音声合成はいろいろ存在していたと思うので、世界初は言い過ぎではないかとも思いますが、ジェンダー中立を訴えて作成されたという意味ではこれまでになかったものでしょうか。

via Hacker News

voicecoder.net – Alexaの音声でカスタマイズできるゲーム

Voice Coder、「音声でコーディングを学ぼう」とあるこのプロジェクトは、Amazon Alexa を使って初歩のプログラミングを学べる、というサービス/スキルです。

Alexa スキルと連動させたブラウザゲームにおいて、横スクロールゲームで背景画像を切り替えたり、自機が地面や障害物、アイテムと衝突した際に起こるイベントを切り替えたり(ライフが減る、音が鳴る、ポイントが増える、など)を、音声で指示することができます。

と、動画のデモでは動いているのですが、実際に自分で使おうとすると、Alexaスキルがうまく動いていないのか、アクセスコードを話してくれず、自分でプログラミングを試すことはできませんでした。

元のゲームのパラメータを音声で変えられる、と言ってしまえばそれだけで、「音声でプログラミング」は言い過ぎかもしれません。ですが、スマートフォンで文字を書いたり、パソコンでキーボードを打ったりすることが身についてない小さな子供でも、このような音声インタフェースなら使うことができます。ゲームもプログラムで動いていて、それを変更することができるんだ、という体験をさせるにはいいのかもしれません。

via Hacker News

子供の歌声を腕のイレズミにした母親

腕の刺青に対してスマートフォンをかざすと、スマートフォンから子供のかわいらしい歌声が再生される、という動画がありました。

見た目のインパクトはあるし、音声波形らしき入れ墨なのでイレズミとして実際の声の波形を彫り込んだのかと最初思ったのですが、どうもそうではなさそう。これは、Skin Motionというサービスが生成した「波形風のバーコード」で、このサービスのスマートフォンアプリを使って認識させて、サーバ側にアップロードしておいた音楽/音声を再生させているということのようです。

二次元バーコードの刺青で参照先のコンテンツを再生する、という話だとそれほど珍しいわけでもなくて、QRコードのイレズミが5,6年も前のものがいくつも見つかります。

普通の一次元バーコード刺青となると、それこそスマートフォン以前からありますし。

この手の「実体はインターネット上などにあって、そこをポイントしているだけ」の情報の体への埋め込みは、リスクが高そうな気がしますねえ。サービス提供者が停止したらどうするんだ、とか。イレズミの場合は、皮膚に傷がついたり、シミやシワが増えたりしただけで、読み取りできなくなりそう、というのもありますし。

さらに、このSkin Motion、アプリの登録に39.99ドル(¥4,290)、毎年のサービス料も9.99ドル(¥990)掛かるようです。

背中のイレズミに財宝のありかが隠されている、だと伝奇小説によくありそうな話ですが、毎年お金を払って維持するようなもの、となると刺青を彫るのが普通という文化の人にとっても、賢い選択とは言いにくいのではないかなあ…

via Geekologie

AutoMute – ブラウザの音声再生を全部デフォルトオフにできるChrome拡張

AutoMute は、Chrome ブラウザからとにかく音が出ないようにできるブラウザ拡張です。

インストール直後の設定は、あらゆるサイトでの音声がオフになっています。すべてのタブにミュートのマークが表示され、マークをクリックしたり、拡張アイコンのメニューから選択したりすることで、個別に再生を許可することもできます。

YouTube など、サイト側で用意しているミュート機能とは別のレイヤで止まっているため、場合によっては拡張でアンミュートして、動画側でのアンミュートして、としないと聴こえないこともあります。

音楽等が突然再生されたりすると非常に困る、といった職場で働いているような人たちは、保険のために入れるといいのかもしれませんね。絶対にどんな音も鳴らなくていい、ということなら、OSのドライバを止めるとかイヤホンジャックを埋めるとかもありですが、この拡張であれば、音がしても大丈夫なサイトだけ許可したり、どうしても音を聴かなければいけない時だけ設定を変えて聴いたりすることができます。

via LifeHacker via TheNextWeb

Google Homeがディズニーの新作「美女と野獣」の頼まれない広告を流す

家庭用の音声アシスタントとしてAmazonエコーと競争中のGoogleホームですが、ユーザーが望んでもいない新作映画の宣伝を勝手に始められた、という話がネットに流れて問題となっているようです。

あるユーザーが撮影した動画がツイッターに上がっています。

「OKグーグル、今日の僕の予定は?」と語りかけると、時刻、天気予報、職場までの予想通勤時間、を話した後に、「ところで、ディズニー映画『美女と野獣』は本日公開です。今回は(父親の)モーリスではなくベルが発明家です…」から、ベルについてもっと知りたければ質問して、と続けています。

ユーザーがディズニーや美女と野獣について質問した結果話しているのではなく、今日の予定の後に勝手に宣伝を始めているように見えます。reddit では、これに不快感を覚えた人たちが議論しています。「Amazon Echo とどっちを買うべきかはっきりしてよかった」などというコメントもあります。

ITブログVentureBeatがGoogle社に問い合わせたところ、「これは広告ではありません。我々のパートナーをゲストとして迎え、彼らのお話をシェアしてもらっただけです」という返事が来たのだと。

VentureBeat によれば、現地の午後3時過ぎには今日の予定を聞いても美女と野獣については話されなくなったということ。また、消息筋の話ではグーグルとディズニーの間に今回お金のやりとりは無かったようだとの話も。

「お金が動いてないから広告ではない」とは思いませんが、テキスト検索の横に広告を出して儲けるのが本業の会社ですから、音声アシスタントの会話に広告が混ざってくるのもある意味既定路線なのかもしれません。近未来の家の中は多少なりともこんな感じになっていくのでしょう。

ウェブサイトの横に出てくる広告は無視できても、音声で喋られると無視は難しいし、購買行動に何らかの影響は与えられるかもしれないですね。

AmazonエコーとGoogleホームで無限ループ会話

人類が滅んだ後にロボット同士が会話し続ける、みたいな

Amazonの音声アシスタントEchoと、Googleの音声アシスタントHomeを並べて、無限に続く会話をさせている動画です。

動画主アダム・ジャコウェンコさん「アレクサ、今晩の僕の予定は?」
Amazon Echo「今晩は一つのイベントがあります。6時に『ヘイ、グーグル。今晩の僕の予定は?』があります」
Google Home 「今晩6時に予定があります。タイトルは『アレクサ、今晩の僕の予定は?』です」
Amazon Echo「今晩は一つのイベントがあります。6時に『ヘイ、グーグル。今晩の僕の予定は?』があります」
Google Home 「今晩6時に予定があります。タイトルは『アレクサ、今晩の僕の予定は?』です」

…以下無限に続く。

via Geekologie

Vistaの音声認識セキュリティホールに思う

via Vistaで勝手にファイルを削除されるセキュリティホールが見つかる など

たとえば「ファイルを削除」といった音声をMP3ファイルに録音し、友達に送ります。それを友達が再生すると、マイクが認識してしまえばそのとおりに作動してしまいます。

マイクロソフトから、このセキュリティホールの存在を認めたという返事を貰ったというGeorge Ouの話では、この問題は

  • マイクとスピーカーがつながって
  • 音声認識機能がオンになっている

という状況でのみ発生するらしい(そりゃそうだ)。とりあえずの回避策は、

  • マイクやスピーカーを切れば、このセキュリティホールは発動しない。
  • コマンドを実行するような音楽ファイルを開いてしまったら、メディアプレイヤーを閉じ、音声認識機能をオフにして、コンピュータを再起動するべきということ。(間に合うのだろうか)

いろんなところで、「良くないコマンドを実行させる音声ファイルを送りつけて」みたいに書かれているけど、そんなことしなくても、開くと音が鳴るウェブページに誘導するとか、YouTube等に最初は魅力的な動画で、途中でいきなりコマンドを喋る動画をアップロードするとか、任意の音を鳴らすだけならいろいろありそうな気がする。

# これまで、その手のいたずらは起こってないのかな。動画の途中からいきなり不快なものを挿し込むとか。

MSの回答はもちろん今危険にさらされている人のための暫定的な対策で、今後ちゃんとした対策を考えるのだと思うけど、音声認識機能をあきらめる、という以外の解決法ってどういうものだろう?

OSが音楽を鳴らすときに、「これはOSが鳴らしてる音だよ」みたいな識別信号を(人間に聞こえない周波数で)混ぜたりするのかなあ。しかし、単純なものならそれを含めて音声を作ればいいわけで、そうすると識別信号に時間情報やシステム固有のキーを入れるとか…

それか、自分の出した音をちょっとだけ覚えておいて、それを入力の音声から差し引くとか…

なんにしてもリソースを喰いそうだなあ。CPUベンダーとかハードベンダーが喜ぶかも。