[Kakasi-dev 62] Re: はじめまして

NOKUBI Takatsugu Tue, 11 Sep 2007 15:41:20 -0700

At Wed, 12 Sep 2007 03:30:48 +0900,
Tadamasa Teranishi wrote:
> > ＃１
> > kakasi は　utf-8 の文字コードの処理はどのようにできますか？
> > -i utf8 などは効果がなさそうです。
> 
> 現在リリースされているバージョンは UTF-8 に対応していません。
> cvs の開発バージョンは UTF-8 に対応しています。


  すいません、リリースしようと思いつつまったくできていません。基本的に
バグ修正とUTF-8対応のみなので、開発版といっても十分安定して使える状態
にはあると思います。

> しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に
> 含まれない文字(UTF-8 から変換できない文字)は処理できません。

  確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利
用できる文字集合全てをサポートしていないのはおっしゃる通りです。

> > ＃２
> > 功利　--> kouri
> > 小売   --> kouri
> > ローマ字表記が同じだといっても、この二つの単語の発音は違います。
> > ou -->[o:] と ou --> [o.u] のように。
> 
> あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。

  いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で
あれば、ChaSen向けの辞書unidicが充実しています。
http://www.tokuteicorpus.jp/dist/

  unidicはGalateaの一部である音声合成エンジンGalaTalkで使われています。
http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html
-- 
野首 貴嗣
E-mail: 
[&#x30E1;&#x30FC;&#x30EB;&#x30A2;&#x30C9;&#x30EC;&#x30B9;&#x4FDD;&#x8B77;]
        
[&#x30E1;&#x30FC;&#x30EB;&#x30A2;&#x30C9;&#x30EC;&#x30B9;&#x4FDD;&#x8B77;] / 
[&#x30E1;&#x30FC;&#x30EB;&#x30A2;&#x30C9;&#x30EC;&#x30B9;&#x4FDD;&#x8B77;]
_______________________________________________
Kakasi-dev mailing list
[email protected]
http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev

[Kakasi-dev 62] Re: はじめまして

メールによる返信