At Wed, 12 Sep 2007 03:30:48 +0900,
Tadamasa Teranishi wrote:
> > #1
> > kakasi は utf-8 の文字コードの処理はどのようにできますか?
> > -i utf8 などは効果がなさそうです。
> 
> 現在リリースされているバージョンは UTF-8 に対応していません。
> cvs の開発バージョンは UTF-8 に対応しています。

  すいません、リリースしようと思いつつまったくできていません。基本的に
バグ修正とUTF-8対応のみなので、開発版といっても十分安定して使える状態
にはあると思います。

> しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に
> 含まれない文字(UTF-8 から変換できない文字)は処理できません。

  確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利
用できる文字集合全てをサポートしていないのはおっしゃる通りです。

> > #2
> > 功利 --> kouri
> > 小売   --> kouri
> > ローマ字表記が同じだといっても、この二つの単語の発音は違います。
> > ou -->[o:] と ou --> [o.u] のように。
> 
> あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。

  いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で
あれば、ChaSen向けの辞書unidicが充実しています。
http://www.tokuteicorpus.jp/dist/

  unidicはGalateaの一部である音声合成エンジンGalaTalkで使われています。
http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html
-- 
野首 貴嗣
E-mail: 
[メールアドレス保護]
        
[メールアドレス保護] / 
[メールアドレス保護]
_______________________________________________
Kakasi-dev mailing list
[email protected]
http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev

メールによる返信