カテゴリー
プライバシー

Google検索結果のアドレスを貼り付けると「一回前の検索ワード」が漏れる事がある

ジェレミー・ルービンさんがブログで、グーグル検索した結果を共有した際に一つ前に調べたキーワードが共有先に漏れる場合があると伝えています

再現手順はこんな感じ。

  1. ChromeやFirefoxブラウザのアドレスバーで「最初の検索」で検索
  2. 検索結果のページの検索ボックスで「次の検索」で検索
  3. アドレスバーのURLの中に、「最初の検索」と「次の検索」の両方が入っている

検索キーワードが日本語などの場合は、URL中の表示はエンコードされてそのままでは日本語として読めない場合がありますが、これは変換して戻そうと思えば簡単にできます。

google-search-leaks-previous-keywords

アドレスバーに、「最初の検索」が出ています。

Google検索結果ページ(拡大)

簡単に確かめたいならアルファベットや数字だけで上記の再現手順を試してもいいでしょう。URLに出てきた一番目の検索ワードをそのまま目視できます。

このアドレスをメール等にコピー&ペーストして送ってしまうと、「2番目の検索」で検索した結果を送ったつもりが、「最初の検索」という文字列もURLの中に含めて送ってしまうということです。

Internet Explorer でも、アドオンでアドレスバーの検索エンジンをGoogleにすると同じことになりますね。デフォルトのBing検索ではBingに行くので当然再現しませんが。

問題点と影響

ルービン氏の場合は、友人から送られてきた検索結果のアドレスを見てこれに気づいたようですが、その時にURLに含まれていた前の検索ワードは、その友人が文章中に書いているとても一般的な単語だったということ。その友人は、そのとても基本的な単語の意味を調べないとその文章が書けなかったのかもしれない、とルービン氏は推測し、このように関係のない検索ワードが他人に漏れてしまうのは恥ずかしい場合もあるだろう、と述べています。

簡単な単語の意味を調べてたぐらいならまだしも、検索してるのが人に知られたらもっと恥ずかしいキーワードというのもあるでしょうね。

あまりひどいものはご紹介できないのですが、これは2chから見つけたもの

google-search-kindaichi

「金田一一」を検索した同じページで、続けて「金田一二三男」を検索し、それを掲示板に貼り付けたんですね。まあこのケースでは漏れたとしても害はありません。

これまでグーグル検索結果のページのURLを掲示板等に貼り付けたり、メールで他の人に送ったりした人は、もしわかるなら送ったURLに一つ前の検索ワードが含まれていないか、含まれていたとしたらバレて困るキーワードではないか、確認したほうがいいかもしれません。といっても、確認して困っても削除・撤回できない場合も多そうですけど。

完全ではないですが、たとえばGoogle検索で “www.google.co.jp/search?q=” を含めて検索すると、検索結果を貼り付けたページが見つかりますね。site: で限定すれば自分のブログを確認したりもできます。

検索結果を共有する機会、となると、ツイッターやFacebook の過去の書き込み、チャットサービスのログ、などもあるでしょう。

ルービン氏はこの問題についてグーグル社にも伝えたそうですが、「仕様です」「修正しません」という回答を受けたそうです。自分で気をつけないといけないようですね。

via Hacker News

カテゴリー
ネットの事件

グーグル検索で特定の数式”-4^(1/4)”を与えるとアダルトサイトが表示されるバグが発見される

英語の質問サイトQuoraにて、「グーグルで”-4^(1/4)”で検索するとなぜかポルノサイトが出てくるんだけど?」という質問が話題になっています。実際に手元で検索してみても、アダルトサイトばかりが検索結果に表示されます。

-4^(1_4)

「セーフサーチ: 強」の時はさすがに何も出ないようなので、何がなんでもアダルトな結果を見たくない人にまで見せてしまうという事故にはならずに済んだ模様。

この質問を見て試してみた人たちの「俺も俺も」の証言が集まってきた結果、この数式に限らず、桁数の数字が3つ並んでマイナス記号を含む一定のキーワードで、この結果が引き起こされることが絞り込まれてきました。

この質問は先月にされたようですが、一昨日になってQuoraにGoogle検索チームのエンジニアが登場し、これがグーグル検索のバグであることを認めました。そして彼は、実際にどういう条件でアダルトサイトの検索になってしまうのかを説明しています。

アダルトサイトを出してしまう数式は、必ずしも

“-4^(1/4)”

という形である必要はなく、グーグル検索の内部では、この数式は

-4 “1 4”

と同等の扱いなんだそうです。この検索は、

  • -4 : 4を含まない
  • “1 4” : 1と4が連続している

の両方を満たすもの、という意味で、両者は矛盾しているので、検索結果は本来なら0件になるはずです。

しかし、この矛盾した検索指示にマッチしてしまうウェブサイトが、どうもグーグルのデータベースの中に存在し、それらが表示されてしまう。それこそが今回のバグの原因だ、ということだそうです。

なぜかわかりませんが、グーグルの内部で、今回表示されてしまうようなアダルト系のページが、これらの存在しないキーワードに結び付けられてしまっているようですね。

たとえば、こんなキーワードでも、症状は発生しました。

-1 “1 b”

Quoraの回答者たちが示した組み合わせとしては、以下のようなものも効くようです。

“1 2” -1
“1 2” -2
“9 8” -9
“h 3” -h
“15 12” -12
“apple 1” -apple
“apple 1” -1

Quoraの他のある回答者は、アダルトサイトは検索上位に出るための工夫(SEO)をものすごく頑張っているので、ありとあらゆるキーワードで引っかかるようになっているのだ、と予想していましたが、機械的にいろんなパターンを生成してグーグルを騙そうとした結果が、効いたという可能性もあるのかもしれません。

このバグは現在修正するよう頑張っている、ということなので、試せるのはあと少しの間かもしれません。

今修正に追われている中の技術者には気の毒ですが、これだけ広く使われている、現在世の中にある中でも最も複雑で大規模であろうwebサービスにおいてこんなバグが有り、しかもバグの出方が笑ってしまうような結果、というのはすごいですね。

これまでにもこのバグを見つけてた人は何百人といたのかもしれませんが、疑問に思ってしかるべきところで質問してみるというのは重要ですね。

via Google search bug returns porn results for 'contradictory queries' | The Verge