Re: gb <==> big5 conversion module (32K attached)

shuyong Thu, 25 Jan 2001 09:35:16 -0600

rigel wrote:

> On Wed, Jan 24, 2001 at 10:26:50PM +0800, shuyong wrote:
> >     不知道這個GB2312<=>BIG5模塊的轉換機制是什麼？麻煩email源碼給我。
>
> 源碼已發請查收. 若要編譯的話, 需要有 glibc 源碼.
>
> > [EMAIL PROTECTED]@份）。但是問題多多。主要是
> > 繁體字和簡體字的轉換問題。比如碰到"乾(幹)凈""乾坤"這類詞就很麻煩。我想基于詞
>
> 說得很對, [EMAIL PROTECTED]@ GB2312 和 BIG5 之間的轉換不可能 100% 準確. 但
> 我寫的這個 glibc iconv [EMAIL PROTECTED] 這是因為:
>
> 1. iconv [EMAIL PROTECTED] libc 只能提供基本的支持. 不可能讓 C 函數庫
> 帶上幾十兆的中文辭典. [EMAIL PROTECTED], 如autoconvert,
> [EMAIL PROTECTED] 本模塊的目的並非要取代那些程序.
>
> 2. 近來越來越多的程序開始使用 iconv 來轉碼. 目前的 glibc 不能很好的作
> GB 與 B5 之間的轉換, [EMAIL PROTECTED]
>
> 3. [EMAIL PROTECTED] 根據我目前的轉換表和網上的
> [EMAIL PROTECTED], [EMAIL PROTECTED], GB->B5 轉碼的出錯率小于 0.007, 而 
> B5->GB的
> 出錯率約為 0.001. [EMAIL PROTECTED] 這些數大概比
> 我寫錯別字的概率還底. :)
>
> 4. 無論以什麼方式轉換. [EMAIL PROTECTED]
>
> regards,
> rigel
>


rigel:
    代碼已收到。我沒有想到GB2312=>BIG5的誤差會[EMAIL PROTECTED]
轉換表就行了。不過分詞模塊也沒有你想象的那麼大。源代碼本身大約10KB，關鍵是詞庫。
我在做GB2312/[EMAIL PROTECTED]
[EMAIL PROTECTED]|超過
250KB。
    [EMAIL PROTECTED]
因為xfree86 font討論組明確提到xfree86會提供24bits font的支持，但不會提供
[EMAIL PROTECTED]

-- 
| This message was re-posted from [email protected]
| and converted from gb2312 to big5 by an automatic gateway.

Re: gb <==> big5 conversion module (32K attached)

回复