« プログラマーになりたい中学生から取材を受けた | メイン | 明日のDevelopers Summitでお話します »

2009年02月10日

ブログ本文を取り出しやすくするマイクロフォーマットについて(ちょっと)調べてみた

ほんとにちょっとなので期待しすぎないで。

XPathの不便なところ - ぶろぐ。@はてなで、特に意味はないけど(笑)XPathで本文を探しにくいサンプルとしてこのブログが上げられていた(すいませんほんとに)。

そのXPathは、LDRFullFeedで使うことを想定しているということ。見てみたら、WebページのURLから本文を取るためのデータで、そこは参加者が持ち寄って作るデータベースらしい。

LDRがlivedoor Readerだとすると、このブログは全文出してるので本文はそっから取れるのだけれど、このデータはそれに限らずいろいろな本文を取り出すスクリプトで参照されるから、フィードから本文が全部取れるかどうかはまた別の話なのかもしれない。

とにかく、スクリプトに優しくないということなので個別ページのHTMLのソースを見てみた。で、上のページもあわせて読むと、なんとなく不親切な構造なんだろうな、というのは把握した。

で、今の構造はどうしてこうなってるか考えたけど、たぶん最初にMT3をインストールしたときの構造をベースに、弊社のウェブデザイナーにお願いしたんだと思う。もともとMTはこういう構造なんではなかろうか。

microformatsのページで、ブログのマイクロフォーマットはどうあるべきか、というところを読む。

ここでは、Movable TypeやWordPressといったインストール型のブログシステムや、BloggerやLiveJournalなどのブログサービス、CMSや掲示板などの著名なものについて、本文をどう指しているか調べているのだけれど、まとめというか列挙になっていて、各システムでまったく違う構造や(あったとしても)マイクロフォーマットが割り振られているようだ。

ここまで読んで、実際にどう改造すると機械にもやさしいブログになれるのか、ちょっとわからなくなってきた。もしMovable Typeのデフォルトがこれなら、XPathはちょと複雑でも、今のままの形にしておけば「Movable Typeブログ向け汎用SITEINFO」みたいなものがきくのかなあ、などとも思ったり。

MTの構造を残したまま、別のもっとダイレクトな(idを振った)本文のdivを入れるというのが落としどころかもしれない。どうしよう?

参考

ここよりも後でここより前を指定するXPath - 0x廃棄階層 - 統治局

水都大阪のポスターがヤバイ とか(2009/02/09の雑記) - Hinemosu それなのかなあ。でもなんで"center"?


投稿者 秋元 : 2009年02月10日 14:28

トラックバック

このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/2135

コメント

勝手にネタにしてすいません。
idで取ると高速動作なので、出来ればidで取りたいという大前提があり、本ブログでidに本文が含まれる最小範囲が『センター領域』をしめす"center"だけなのです。

投稿者 hide10 : 2009年02月11日 08:57

ああ、もともとあるidを使うなら、ということですね。了解しました。

CSSの理念とかからいくと、意味的に本文と通るidを別途つけるのがいいかな、と思ったものですから。で「標準的な名前があるのかな」と思って上のように調べたら迷い込んでしまったという…

ネタにしていただくのは、むしろ嬉しいぐらいです(笑)。ありがとうございます。

投稿者 秋元 : 2009年02月13日 14:27

 
mg src="http://img.awasete.com/image.phtml?u=http%3A%2F%2Flabs.cybozu.co.jp%2Fblog%2Fakky%2F" width="160" height="140" alt="あわせて読みたい" border="0">

著書

PHPxWebServiceAPIConnections.jpg

プロフィール

週三日勤務で、残りは個人で活動しています