« [MarkeZine併載コラム] あのCGMサイトが流行ったワケ 行ったことのある国を記録するサイト「World66」 | メイン | Googleのデータセンターがどこにあるかを示した地図 »

2008年04月12日

GoogleがHTMLフォームの送信先もインデックスすると発表

張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。

JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。

クロールされるフォームは以下のようなものに限定されるようだ。

  • GETメソッドであること
  • robot.txtなどで除外指定されていないこと
  • passwordフィールドを持たないこと
  • user, id, accountなどのフィールドを持たないこと

これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。

この方法で見つかったリンクはこれまでのPageRank計算には加算されず、クロール対象をより広げるために使われる。


この機能強化の影響だが、まずジェネレータ系や検索機能を持つサイトで、サブミットしないと情報が出てこなかったサイトで、よりGoogleの結果が増えそうだ。

また、フォームやボタンで人間以外が下位のページに入ってこないようにしていたサイトでは、これまで出なかったページがGoogleの検索結果に出てくるようになる。

投稿者 秋元 : 2008年04月12日 10:09

トラックバック

このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/1851

このリストは、次のエントリーを参照しています: GoogleがHTMLフォームの送信先もインデックスすると発表:

» googleのクロールはどこまで見に来るのか from コーディングディレクターを目指してますが何か?
これまで、googleの検索ロボットは、htmlのソースの中しか見に来ないと思っ... [続きを読む]

トラックバック時刻: 2008年04月12日 11:14

» GoogleはHTMLフォームもクロールする from すくなどっとねっと
GoogleがHTMLフォームの送信先もインデックスすると発表より。 ざっくりまとめるとmethodがGETでログインフォームじゃなかったらクロールすると... [続きを読む]

トラックバック時刻: 2008年04月18日 16:47

 
mg src="http://img.awasete.com/image.phtml?u=http%3A%2F%2Flabs.cybozu.co.jp%2Fblog%2Fakky%2F" width="160" height="140" alt="あわせて読みたい" border="0">

著書

PHPxWebServiceAPIConnections.jpg

プロフィール

週三日勤務で、残りは個人で活動しています