寺西です。 NOKUBI Takatsugu wrote: > > > しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に > > 含まれない文字(UTF-8 から変換できない文字)は処理できません。 > > 確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利 > 用できる文字集合全てをサポートしていないのはおっしゃる通りです。
確かに内部は区点コード体系なのですが、EUC-JP を基にした区点コード です。 基にしたという表現は何ですけど...。入力がとでも読み変えてください。 区点コードと言うと、補助漢字や JIS X 0213 の第2面とかの話を出さない といけなくなるので、複雑になるでエンコードで EUC-JP として話を省こう としたのですが、正しくはないですね。 もう少し説明すると、JIS X 0208 はサポートしていますが、JIS X 0201 や JIS X 0212 (補助漢字)や JIS X 0213 の第2面の漢字は KAKASI では サポートしていません。(面はサポートしていない) # 無論、いわゆる機種依存文字もサポートしていません。 > > あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。 > > いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で > あれば、ChaSen向けの辞書unidicが充実しています。 # 話をご理解していただけないのは残念ですが...。 音声合成にとって必要な情報だとしても、KAKASI は音声合成向けに作られ ているわけではないので、音声合成にとって問題であることは KAKASI の 一般用途にとっては別に問題ではないということです。 つまり > これを問題とするのは、用途に依存した話です。 なわけです。 > そして、その用途に kakasi は向かないのでしょう。 ゆえに音声合成で使いたいのでしたら KAKASI は向いていないということ になります。 -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) [メールアドレス保護] http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E _______________________________________________ Kakasi-dev mailing list [email protected] http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev
