« キーワード抽出モジュールを作ってみた | メイン | Perl Monger への道は遠い »
2006年04月27日
Lingua::JA::Summarize 0.02
昨日公開した Lingua::JA::Summarize の 0.02 をリリースします。
主な変更点は以下のとおりです。
・O'reilly や mp3 といった英単語を一語として扱えるモードを追加 (デフォルトで有効になります)
・たつをさんにご指摘いただいたバグ (ありがとうございます!) を修正
・POD をちゃんと書いた
・example/keyword.cgi のバグを修正
モードの指定は、コンストラクタの引数で行います。よく使われるであろう引数としては、 mecab (mecab のパスを指定) や default_cost (未知の単語のコスト値) 等があるでしょうか。また、キーワードを取り出す際に、検出の閾値 (threshold) や最大の語数 (maxwords) を指定することもできます。他のオプションについては、POD をご参照ください。
use Lingua::JA::Summarize;my $s = Lingua::JA::Summarize->new({
mecab => '/usr/local/mecab-0.81/bin/mecab', # mecab のパス (デフォルトは "mecab")
default_cost => 1600, # 未知の単語のコスト値 (デフォルトは 800, 大きいほど珍しい)
});
$s->analyze('この文章を解析します。');
my @keywords = $s->keywords({
threshold => 1, # キーワードとして扱う閾値 (デフォルトは 5, 大きいほど厳しい)
numwords => 5, # キーワードとして取り出す最大の語数 (デフォルトは 5)
});
print join(' ', @keywords) . "\n";
Charsbar さんの Win32 用パッチは、まだ適用していません。現時点ではソースコード中に日本語の文字が EUC でハードコードされているので、make install するだけでは、どのみち Windows 上で動作しないと思うからです。
ソースコード中に日本語文字を埋め込む方法って、どういうのがお行儀のいい方法なんでしょう? 文字参照で書いて、実行時に Jcode::convert するのが正解?
投稿者 kazuho : 2006年04月27日 14:59
トラックバック
このエントリーのトラックバックURL:
http://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/568
このリストは、次のエントリーを参照しています: Lingua::JA::Summarize 0.02:
» Lingua::JA::Summarize ver0.02 from Charsbar::Note
さっそくアップデートされていますね。 http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/su... [続きを読む]
トラックバック時刻: 2006年04月27日 16:58
» Template::Plugin::Lingua::JA::Summarizeを作ってみた from Clouder::Blogger
Kazuhoさんが作られた Lingua::JA::Summarize を TT から使うためのモジ... [続きを読む]
トラックバック時刻: 2006年04月28日 02:20
» perl - 勝手に添削 - Lingua::JA::Summerize 0.02 from 404 Blog Not Found
突然ですが、勝手に添削の時間です。
Perl Best Practices
Damian Conway
今回は、
Kazuho... [続きを読む]
トラックバック時刻: 2006年04月28日 15:28