内海です。 --- Hideyuki SHIRAI <shi...@meadowy.org> wrote: > > -あき #KJ*13 明 #KJ*7 穐 #KJ*5 #KJ*5 龝 > ~~ > いわゆる一つの「全角スペース」(U+3000)なので、一連の話の「ゴミ」 > とは関係ないですね。
--- Jun Oizumi <vagus....@gmail.com> wrote: > この全角空白は以前登録依頼を頂いたもので、意図的なものです。 あ、「空き」ですね。 まったく気づきませんでした。 // ついでに複合語の文字数をチェックするツールを作りました。 $ ruby anthy-check-compound.rb g_fname.t を実行すると g_fname.t.compoundが作られるので、 diffを取ると怪しい単語が分かります。 (UTF8の辞書でしか判別できません) anthy-utf8-fix-space.rb からは全角スペースのチェックを外しました。 ツールを作ってみて、 "#_4天草_3四郎_4時貞" のように3分割されているものがあることや、 "#_a小中学生_2向け" のように16進数で書かれていることを知りました。 -------------------------------------- Yahoo! JAPAN - Internet safety for children and parents. http://pr.mail.yahoo.co.jp/security/
anthy-fix-dictionaries-utf8.tar.gz
Description: 433960082-anthy-fix-dictionaries-utf8.tar.gz
_______________________________________________ Anthy-dev mailing list Anthy-dev@lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/anthy-dev