内海です。

--- Hideyuki SHIRAI <shi...@meadowy.org> wrote:
> > -あき #KJ*13 明 #KJ*7 穐 #KJ*5   #KJ*5 龝
>                                  ~~
> いわゆる一つの「全角スペース」(U+3000)なので、一連の話の「ゴミ」
> とは関係ないですね。

--- Jun Oizumi <vagus....@gmail.com> wrote:
> この全角空白は以前登録依頼を頂いたもので、意図的なものです。

あ、「空き」ですね。
まったく気づきませんでした。

//
ついでに複合語の文字数をチェックするツールを作りました。
$ ruby anthy-check-compound.rb g_fname.t を実行すると
g_fname.t.compoundが作られるので、
diffを取ると怪しい単語が分かります。
(UTF8の辞書でしか判別できません)

anthy-utf8-fix-space.rb からは全角スペースのチェックを外しました。

ツールを作ってみて、
"#_4天草_3四郎_4時貞" のように3分割されているものがあることや、
"#_a小中学生_2向け" のように16進数で書かれていることを知りました。


--------------------------------------
Yahoo! JAPAN - Internet safety for children and parents.
http://pr.mail.yahoo.co.jp/security/

Attachment: anthy-fix-dictionaries-utf8.tar.gz
Description: 433960082-anthy-fix-dictionaries-utf8.tar.gz

_______________________________________________
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

メールによる返信