寺西です。

NOKUBI Takatsugu wrote:
> 
> > しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に
> > 含まれない文字(UTF-8 から変換できない文字)は処理できません。
> 
>   確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利
> 用できる文字集合全てをサポートしていないのはおっしゃる通りです。

確かに内部は区点コード体系なのですが、EUC-JP を基にした区点コード
です。
基にしたという表現は何ですけど...。入力がとでも読み変えてください。

区点コードと言うと、補助漢字や JIS X 0213 の第2面とかの話を出さない
といけなくなるので、複雑になるでエンコードで EUC-JP として話を省こう
としたのですが、正しくはないですね。

もう少し説明すると、JIS X 0208 はサポートしていますが、JIS X 0201 や
JIS X 0212 (補助漢字)や JIS X 0213 の第2面の漢字は KAKASI では
サポートしていません。(面はサポートしていない)

# 無論、いわゆる機種依存文字もサポートしていません。

> > あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。
> 
>   いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で
> あれば、ChaSen向けの辞書unidicが充実しています。

# 話をご理解していただけないのは残念ですが...。

音声合成にとって必要な情報だとしても、KAKASI は音声合成向けに作られ
ているわけではないので、音声合成にとって問題であることは KAKASI の
一般用途にとっては別に問題ではないということです。

つまり
> これを問題とするのは、用途に依存した話です。
なわけです。

> そして、その用途に kakasi は向かないのでしょう。

ゆえに音声合成で使いたいのでしたら KAKASI は向いていないということ
になります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  
[メールアドレス保護]
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E

_______________________________________________
Kakasi-dev mailing list
[email protected]
http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev

メールによる返信