« [MarkeZine併載コラム] あのCGMサイトが流行ったワケ 行ったことのある国を記録するサイト「World66」 | メイン | Googleのデータセンターがどこにあるかを示した地図 »
2008年04月12日
GoogleがHTMLフォームの送信先もインデックスすると発表
張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。
JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。
クロールされるフォームは以下のようなものに限定されるようだ。
- GETメソッドであること
- robot.txtなどで除外指定されていないこと
- passwordフィールドを持たないこと
- user, id, accountなどのフィールドを持たないこと
これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。
この方法で見つかったリンクはこれまでのPageRank計算には加算されず、クロール対象をより広げるために使われる。
この機能強化の影響だが、まずジェネレータ系や検索機能を持つサイトで、サブミットしないと情報が出てこなかったサイトで、よりGoogleの結果が増えそうだ。
また、フォームやボタンで人間以外が下位のページに入ってこないようにしていたサイトでは、これまで出なかったページがGoogleの検索結果に出てくるようになる。
投稿者 秋元 : 2008年04月12日 10:09
トラックバック
このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/1851
このリストは、次のエントリーを参照しています: GoogleがHTMLフォームの送信先もインデックスすると発表:
» googleのクロールはどこまで見に来るのか from コーディングディレクターを目指してますが何か?
これまで、googleの検索ロボットは、htmlのソースの中しか見に来ないと思っ... [続きを読む]
トラックバック時刻: 2008年04月12日 11:14
» GoogleはHTMLフォームもクロールする from すくなどっとねっと
GoogleがHTMLフォームの送信先もインデックスすると発表より。
ざっくりまとめるとmethodがGETでログインフォームじゃなかったらクロールすると... [続きを読む]
トラックバック時刻: 2008年04月18日 16:47