GoogleがHTMLフォームの送信先もインデックスすると発表
張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。
JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。
クロールされるフォームは以下のようなものに限定されるようだ。
- GETメソッドであること
- robot.txtなどで除外指定されていないこと
- passwordフィールドを持たないこと
- user, id, accountなどのフィールドを持たないこと
これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。
この方法で見つかったリンクはこれまでのPageRank計算には加算されず、クロール対象をより広げるために使われる。
この機能強化の影響だが、まずジェネレータ系や検索機能を持つサイトで、サブミットしないと情報が出てこなかったサイトで、よりGoogleの結果が増えそうだ。
また、フォームやボタンで人間以外が下位のページに入ってこないようにしていたサイトでは、これまで出なかったページがGoogleの検索結果に出てくるようになる。