内海です。 動詞を検索するときに語幹だけで検索すると > あげつら #W5 72 論 > あげつら #W5 558 あげつら のときに「あげつら」より「論」のヒット数が多くなるので、 動詞/形容詞は終止形で検索するようにしました。 (いま思うと大泉さんもそのようにされていたような気が)
さらにヒット数から偏差値を得るプログラムを書きました。 http://www.geocities.jp/ep3797/anthy_dict_01.html get-yahooresults-0.0.1.tar.bz2 に同梱しています。 分析済みのファイルをいくつか同梱しています。 (あ行くらいしか分析していないので辞書としては使えません) "anthydic" がブログサイトを検索したときのヒット数、 "anthydic.hensachi" がヒット数を偏差値に変換したものです。 (前処理でヒット数が 10 未満の表記を削除し、 上位 0.1 % の表記はヒット数を固定にしました) "anthydic.hensachi" を見てみると数値の差があまり付いていないので、 そのままでは頻度として使えません。 (計算式が間違っているのかも) そこで差を付けるために偏差値を2乗して、 20で割って大きさを整えたものが "anthydic.hensachi.modified" です。 そこそこ使えそうな数字になっていますが、 > あい #T35 646 愛 > あい #T35 646 間 のように手修正が必要なものも混じっています。 表記が一文字のものだけを抜き出して、 あとでチェックする必要がありそうです。 -------------------------------------- New Design Yahoo! JAPAN 2008/01/01 http://pr.mail.yahoo.co.jp/newdesign/ _______________________________________________ Anthy-dev mailing list Anthy-dev@lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/anthy-dev