カテゴリー
ネットのサービス

GoogleがHTMLフォームの送信先もインデックスすると発表

張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。 JavascriptやFlashの中から他ページへのリンクを抽出するとい […]

張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。

JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。

クロールされるフォームは以下のようなものに限定されるようだ。

  • GETメソッドであること
  • robot.txtなどで除外指定されていないこと
  • passwordフィールドを持たないこと
  • user, id, accountなどのフィールドを持たないこと

これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。

この方法で見つかったリンクはこれまでのPageRank計算には加算されず、クロール対象をより広げるために使われる。

この機能強化の影響だが、まずジェネレータ系や検索機能を持つサイトで、サブミットしないと情報が出てこなかったサイトで、よりGoogleの結果が増えそうだ。

また、フォームやボタンで人間以外が下位のページに入ってこないようにしていたサイトでは、これまで出なかったページがGoogleの検索結果に出てくるようになる。