Kazuho@Cybozu Labs: Lingua::JA::Summarize 0.02

« キーワード抽出モジュールを作ってみた | メイン | Perl Monger への道は遠い »

2006年04月27日

Lingua::JA::Summarize 0.02

　昨日公開した Lingua::JA::Summarize の 0.02 をリリースします。

~~Lingua-JA-Summarize-0.02.tar.gz~~
(5/2 追記: 0.04 をリリースしました)

　主な変更点は以下のとおりです。

　・O'reilly や mp3 といった英単語を一語として扱えるモードを追加 (デフォルトで有効になります)
　・たつをさんにご指摘いただいたバグ (ありがとうございます!) を修正
　・POD をちゃんと書いた
　・example/keyword.cgi のバグを修正

　モードの指定は、コンストラクタの引数で行います。よく使われるであろう引数としては、 mecab (mecab のパスを指定) や default_cost (未知の単語のコスト値) 等があるでしょうか。また、キーワードを取り出す際に、検出の閾値 (threshold) や最大の語数 (maxwords) を指定することもできます。他のオプションについては、POD をご参照ください。

use Lingua::JA::Summarize;
my $s = Lingua::JA::Summarize->new({
    mecab => '/usr/local/mecab-0.81/bin/mecab', # mecab のパス (デフォルトは "mecab")
    default_cost => 1600, # 未知の単語のコスト値 (デフォルトは 800, 大きいほど珍しい)
});
$s->analyze('この文章を解析します。');
my @keywords = $s->keywords({
    threshold => 1, # キーワードとして扱う閾値 (デフォルトは 5, 大きいほど厳しい)
    numwords => 5, # キーワードとして取り出す最大の語数 (デフォルトは 5)
});
print join(' ', @keywords) . "\n";

　Charsbar さんの Win32 用パッチは、まだ適用していません。現時点ではソースコード中に日本語の文字が EUC でハードコードされているので、make install するだけでは、どのみち Windows 上で動作しないと思うからです。
　ソースコード中に日本語文字を埋め込む方法って、どういうのがお行儀のいい方法なんでしょう？　文字参照で書いて、実行時に Jcode::convert するのが正解？

投稿者 kazuho : 2006年04月27日 14:59

トラックバック

このエントリーのトラックバックURL:
https://labs.cybozu.co.jp/cgi-bin/mt-admin/mt-tbp.cgi/568

このリストは、次のエントリーを参照しています: Lingua::JA::Summarize 0.02:

» Lingua::JA::Summarize ver0.02 from Charsbar::Note
さっそくアップデートされていますね。 https://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/su... [続きを読む]

トラックバック時刻: 2006年04月27日 16:58

» Template::Plugin::Lingua::JA::Summarizeを作ってみた from Clouder::Blogger
Kazuhoさんが作られた Lingua::JA::Summarize を TT から使うためのモジ... [続きを読む]

トラックバック時刻: 2006年04月28日 02:20

» perl - 勝手に添削 - Lingua::JA::Summerize 0.02 from 404 Blog Not Found
突然ですが、勝手に添削の時間です。 Perl Best Practices Damian Conway 今回は、 Kazuho... [続きを読む]

トラックバック時刻: 2006年04月28日 15:28

Kazuho@Cybozu Labs

奥一穂のお仕事ブログ (日本語 | English Version)

2006年04月27日

Lingua::JA::Summarize 0.02

トラックバック

Links

最近のエントリ

カテゴリー

最近のコメント

最近のトラックバック

検索

アーカイブ

Kazuho@Cybozu Labs

奥 一穂のお仕事ブログ (日本語 | English Version)

2006年04月27日

Lingua::JA::Summarize 0.02

トラックバック

Links

最近のエントリ

カテゴリー

最近のコメント

最近のトラックバック

検索

アーカイブ

奥一穂のお仕事ブログ (日本語 | English Version)