At Wed, 12 Sep 2007 03:30:48 +0900, Tadamasa Teranishi wrote: > > #1 > > kakasi は utf-8 の文字コードの処理はどのようにできますか? > > -i utf8 などは効果がなさそうです。 > > 現在リリースされているバージョンは UTF-8 に対応していません。 > cvs の開発バージョンは UTF-8 に対応しています。
すいません、リリースしようと思いつつまったくできていません。基本的に バグ修正とUTF-8対応のみなので、開発版といっても十分安定して使える状態 にはあると思います。 > しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に > 含まれない文字(UTF-8 から変換できない文字)は処理できません。 確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利 用できる文字集合全てをサポートしていないのはおっしゃる通りです。 > > #2 > > 功利 --> kouri > > 小売 --> kouri > > ローマ字表記が同じだといっても、この二つの単語の発音は違います。 > > ou -->[o:] と ou --> [o.u] のように。 > > あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。 いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で あれば、ChaSen向けの辞書unidicが充実しています。 http://www.tokuteicorpus.jp/dist/ unidicはGalateaの一部である音声合成エンジンGalaTalkで使われています。 http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html -- 野首 貴嗣 E-mail: [メールアドレス保護] [メールアドレス保護] / [メールアドレス保護] _______________________________________________ Kakasi-dev mailing list [email protected] http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev
