2009/2/19 Vern Sun <[email protected]>: > on 四, 2009-02-19 at 09:06 +0800, Dongsheng Song wrote: >> 我不明白,为什么还死抱着 GB2312/Big5 不放手,直接使用 UTF-8 不好吗? >> sc <=> tc 应该只转换内容,不应该多此一举的转换到过时的编码。 >> > > 假设一个用户要对 index.wml 文件贡献一些翻译条目,例如 "Debian 是什麼",目前的 > 处理方式由于所提交的 index.wml 是 BIG5 编码的,通过 iconv 可以直接把 "Debian > 是什麼" 转换成 "Debian 是什么",那么简/繁各自的 HTML 文件都能正确显示。 > > 如果把 index.wml 文件由 BIG5 编码转换成 UTF-8 编码,并且假设最终生成的 HTML 文 > 件也使用 UTF-8 编码,问题是如何在简体 HTML 文件中显示 "Debian 是什么",而在繁 > 体 HTML 文件中显示 "Debian 是什麼"。 > > 另外考虑一下 UTF-8 编码格式的 index.wml 文件,如果简繁用户先后贡献了两条翻译条 > 目,并且他们所录入的文字,使用的都是各自习惯的文字系统(简体/繁体)。这时 > index.wml 文件同时保存着简体中文和繁体中文两种系统的文字,如何把 wml 文件向 > html 文件以正确的文字系统对应关系进行转换呢? > > 举例来说,一个简体用户在 index.wml 的第6行贡献了一个翻译条目 "<h2>Debian 是什 > 么</h2>",若干月之后一个繁体用户在 index.wml 的第23行贡献了一个条目 "<h2>現在 > 開始</h2>"。有什么办法可以实现: > > * 将 index.wml 文件转换成 index.zh-cn.html 时, > 把第23行的内容转换成 "<h2>现在开始</h2>"。 > 第6行的内容保持不变 > > * 将 index.wml 文件转换成 index.zh-tw.html/index.zh-hk.html 时, > 把第6行的内容转换成 "<h2>Debian 是什麼</h2>"。 > 第23行的内容保持不变 > > 解决了这个问题,就可以实现 wml 文件格式从 BIG5 向 UTF-8 迁移了。 > -- > Vern > 2009-02-19 >
目前似乎是强迫大家都用繁体(big5)做贡献,怎么又要考虑简体和繁体 混排了呢? 我的意见是,每个*.zh.wml 只用繁体或简体,取决于主要贡献者的选择。 例如 SC 贡献者用简体,TC 贡献者用繁体(不必自动侦测编码,与放置 对应的英文版本信息类似,直接加个标记即可)。如果某个 SC 贡献者 不再维护此 wml 了,由 TC 贡献者接手,那么就由 TC 贡献者自己决定 继续用简体,或者切换到繁体。反之亦然。 简繁体的转换不能简单的用 iconv 来转换,应该考虑使用前面讨论的 MediaWiki 转换方法。当然,目前可以暂时用 iconv 作为权宜之计。 规定统一用繁体相当打击 SC 贡献者的积极性,而且可能在转换后降低简体 的质量(简体与繁体的对应不是线性的),以及丢失字符(gb2312 字符集太小了)。 --- Dongsheng Song

