内海です。

動詞を検索するときに語幹だけで検索すると
> あげつら  #W5     72      論
> あげつら  #W5     558     あげつら
のときに「あげつら」より「論」のヒット数が多くなるので、
動詞/形容詞は終止形で検索するようにしました。
(いま思うと大泉さんもそのようにされていたような気が)

さらにヒット数から偏差値を得るプログラムを書きました。
http://www.geocities.jp/ep3797/anthy_dict_01.html
get-yahooresults-0.0.1.tar.bz2
に同梱しています。

分析済みのファイルをいくつか同梱しています。
(あ行くらいしか分析していないので辞書としては使えません)

"anthydic" がブログサイトを検索したときのヒット数、
"anthydic.hensachi" がヒット数を偏差値に変換したものです。
(前処理でヒット数が 10 未満の表記を削除し、
上位 0.1 % の表記はヒット数を固定にしました)

"anthydic.hensachi" を見てみると数値の差があまり付いていないので、
そのままでは頻度として使えません。
(計算式が間違っているのかも)
そこで差を付けるために偏差値を2乗して、
20で割って大きさを整えたものが
"anthydic.hensachi.modified" です。

そこそこ使えそうな数字になっていますが、
> あい    #T35    646     愛
> あい    #T35    646     間
のように手修正が必要なものも混じっています。

表記が一文字のものだけを抜き出して、
あとでチェックする必要がありそうです。

--------------------------------------
New Design Yahoo! JAPAN  2008/01/01
http://pr.mail.yahoo.co.jp/newdesign/

_______________________________________________
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

メールによる返信