カテゴリー
ネットの事件

Google Japanのトップページのページランクが9から5に

Googleの社内ブロガーで、検索スパム対策担当としてSEO界では非常に有名なマットカッツさん(Matt Cutts)が、twitterでこんな書き込みをしている。Gen Kanaiさんに教えてもらった。

Google.co.jp PageRank is now ~5 instead of ~9. I expect that to remain for a while.

http://google.co.jp/のページランクは9ではなく5になった。これは当面の間続くだろう

同じ会社内で変な話ではあるが、自社であっても基本のルールは厳しく適用する、という姿勢を示すことは、Googleにとってもいろいろこれまで厳しい取締りを主導してきたマットカッツさんにとっても重要なのだろう。

via Google Penalizing Google

[追記 2008.02.18] Google Japanの説明が出た。

カテゴリー
執筆

明日のDevelopers Summitでお話します

デベロッパーズサミット 2009

まだ内容を詰めているのですが(すいません)。ウェブ技術の将来ということですが、あまり技術技術はしてません。このブログで普段書いているようなことがいろいろ出ると思います。

カテゴリー
技術

ブログ本文を取り出しやすくするマイクロフォーマットについて(ちょっと)調べてみた

ほんとにちょっとなので期待しすぎないで。

XPathの不便なところ – ぶろぐ。@はてなで、特に意味はないけど(笑)XPathで本文を探しにくいサンプルとしてこのブログが上げられていた(すいませんほんとに)。

そのXPathは、LDRFullFeedで使うことを想定しているということ。見てみたら、WebページのURLから本文を取るためのデータで、そこは参加者が持ち寄って作るデータベースらしい。

LDRがlivedoor Readerだとすると、このブログは全文出してるので本文はそっから取れるのだけれど、このデータはそれに限らずいろいろな本文を取り出すスクリプトで参照されるから、フィードから本文が全部取れるかどうかはまた別の話なのかもしれない。

とにかく、スクリプトに優しくないということなので個別ページのHTMLのソースを見てみた。で、上のページもあわせて読むと、なんとなく不親切な構造なんだろうな、というのは把握した。

で、今の構造はどうしてこうなってるか考えたけど、たぶん最初にMT3をインストールしたときの構造をベースに、弊社のウェブデザイナーにお願いしたんだと思う。もともとMTはこういう構造なんではなかろうか。

microformatsのページで、ブログのマイクロフォーマットはどうあるべきか、というところを読む。

ここでは、Movable TypeやWordPressといったインストール型のブログシステムや、BloggerやLiveJournalなどのブログサービス、CMSや掲示板などの著名なものについて、本文をどう指しているか調べているのだけれど、まとめというか列挙になっていて、各システムでまったく違う構造や(あったとしても)マイクロフォーマットが割り振られているようだ。

ここまで読んで、実際にどう改造すると機械にもやさしいブログになれるのか、ちょっとわからなくなってきた。もしMovable Typeのデフォルトがこれなら、XPathはちょと複雑でも、今のままの形にしておけば「Movable Typeブログ向け汎用SITEINFO」みたいなものがきくのかなあ、などとも思ったり。

MTの構造を残したまま、別のもっとダイレクトな(idを振った)本文のdivを入れるというのが落としどころかもしれない。どうしよう?

参考

ここよりも後でここより前を指定するXPath – 0x廃棄階層 – 統治局

水都大阪のポスターがヤバイ とか(2009/02/09の雑記) – Hinemosu それなのかなあ。でもなんで”center”?