野首です。ご報告ありがとうございます。 On Sun, 08 Dec 2019 23:49:21 +0900, Jeffrey Friedl wrote: > 入力は以下の一行です(UTF-8で): > > <tag k="name" v="麺蔵"/> > > コッマンドは: > > kakasi -iutf8 -Ha -Ka -Ja -Ea -ka -outf8 > > アウトプットは以下の一行です: > > <tag k="name" v="ken> > > 最後の「"」は無くなりました。 > > 二つ目の漢字(蔵)は問題らしい。U+8353(https://glyphwiki.org/wiki/u8535) です。
問題はその前にある「麺」であるように思います。KAKASIのUTF-8対応はかな り強引で、元の設計が古いこともあってEUC-JP, SJISにない文字については考 慮していません。そして、「麺」はEUC-JPには含まれていない文字のようです。 参考: http://charset.7jp.net/euc.html コードレベルまではちゃんと追いかけていないのですが、どちらにしろ kakasidictに含まれていない漢字なので、どう対応したものでしょうね… _______________________________________________ Kakasi-dev mailing list Kakasi-dev@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/kakasi-dev