« キーワード抽出モジュールを作ってみた | メイン | Perl Monger への道は遠い »

2006年04月27日

Lingua::JA::Summarize 0.02

 昨日公開した Lingua::JA::Summarize の 0.02 をリリースします。

Lingua-JA-Summarize-0.02.tar.gz
(5/2 追記: 0.04 をリリースしました)

 主な変更点は以下のとおりです。

 ・O'reilly や mp3 といった英単語を一語として扱えるモードを追加 (デフォルトで有効になります)
 ・たつをさんにご指摘いただいたバグ (ありがとうございます!) を修正
 ・POD をちゃんと書いた
 ・example/keyword.cgi のバグを修正

 モードの指定は、コンストラクタの引数で行います。よく使われるであろう引数としては、 mecab (mecab のパスを指定) や default_cost (未知の単語のコスト値) 等があるでしょうか。また、キーワードを取り出す際に、検出の閾値 (threshold) や最大の語数 (maxwords) を指定することもできます。他のオプションについては、POD をご参照ください。

use Lingua::JA::Summarize;

my $s = Lingua::JA::Summarize->new({
    mecab => '/usr/local/mecab-0.81/bin/mecab', # mecab のパス (デフォルトは "mecab")
    default_cost => 1600, # 未知の単語のコスト値 (デフォルトは 800, 大きいほど珍しい)
});
$s->analyze('この文章を解析します。');
my @keywords = $s->keywords({
    threshold => 1, # キーワードとして扱う閾値 (デフォルトは 5, 大きいほど厳しい)
    numwords => 5, # キーワードとして取り出す最大の語数 (デフォルトは 5)
});
print join(' ', @keywords) . "\n";

 Charsbar さんの Win32 用パッチは、まだ適用していません。現時点ではソースコード中に日本語の文字が EUC でハードコードされているので、make install するだけでは、どのみち Windows 上で動作しないと思うからです。
 ソースコード中に日本語文字を埋め込む方法って、どういうのがお行儀のいい方法なんでしょう? 文字参照で書いて、実行時に Jcode::convert するのが正解?

投稿者 kazuho : 2006年04月27日 14:59 このエントリーを含むはてなブックマーク このエントリーを含むはてなブックマーク

トラックバック

このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/568

このリストは、次のエントリーを参照しています: Lingua::JA::Summarize 0.02:

» Lingua::JA::Summarize ver0.02 from Charsbar::Note
さっそくアップデートされていますね。 http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/su... [続きを読む]

トラックバック時刻: 2006年04月27日 16:58

» Template::Plugin::Lingua::JA::Summarizeを作ってみた from Clouder::Blogger
Kazuhoさんが作られた Lingua::JA::Summarize を TT から使うためのモジ... [続きを読む]

トラックバック時刻: 2006年04月28日 02:20

» perl - 勝手に添削 - Lingua::JA::Summerize 0.02 from 404 Blog Not Found
突然ですが、勝手に添削の時間です。 Perl Best Practices Damian Conway 今回は、 Kazuho... [続きを読む]

トラックバック時刻: 2006年04月28日 15:28