-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1
2008/5/5 Deng Xiyue : > 在 2008-05-05一的 14:04 +0800,Kov Chai写道: > > > > > > > 2008/5/5 ZhengPeng Hou : > > --12:25:37-- > > > http://mentors.debian.net/debian/pool/main/s/sunpinyin/sunpinyin_1.0.orig.tar.gz > > => `sunpinyin_1.0.orig.tar.gz' > > Resolving mentors.debian.net... 64.79.197.109 > > Connecting to mentors.debian.net| > > 64.79.197.109|:80... > > connected. > > HTTP request sent, awaiting response... 200 OK > > Length: 39,363,185 (38M) [application/x-gzip] > > 38M? 都是什么啊 > > > > 38M 是有点大。主要是 data 目录下的四个文件。 lm_sc.t3g.{sparc,i386} > > > (6727K*2), pydict_sc.bin.{sparc,i386} (23M*2)。前者是线索化后的语言模 > > 型数据[1],目的是加速查找速度和压缩数据,差不多就是建立索引的效果,有 > > > 了它能较快地计算 n-gram 语言模型里一串单字 (S = {W_1,W_2, W_3, ..., > > W_n}) 成为该语言模型里一个句子的概率 P(S)。后者则是词表(lexicon),或 > > 者说是大家常说的输入法的词库,这个词表支持不完全拼音和词到词的转换。由 > > 于要支持 big endian 和 small endian 的体系架构,所以干脆就把两种情况下 > > 的数据文件都弄上来了。 > > 听起来像是应该与架构无关的数据, big endian/small endian 的转换不是在程 > 序中进行而是提供不同的数据?感觉应该可以避免。 我想 big endian 和 small endian 就是架构不同的体现吧? 虽然不是一一对应的关系,而是 n 对 2 的关系。 big endian 和 small endian 的确不是在程序中进行的。我想这是基于性能和易于编程的考虑。可以避免什么呢?避免同时提供两份事实上是同样的数据么? > > > > > > 有没有必要把数据文件单独作为一个 package,放到 sunpinyin-data 里面去 > > 呢?还是有更好的办法呢? > > 如果是与架构无关的话,单独提取到 -data 里可以节约仓库的空间。不过目前看 > 起来并非如此。 放到 -data 里的确可以节约仓库的空间啊,如果 mirror 同时提供同种 endian 的几种架构,那么就可以节省一些空间。而且如果用户同时使用 iiimf-le-sunpinyin-chinese 和 scim-sunpinyin,那么用户没有必要同时保存两份数据。尽管这个可能性不大。 -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.6 (GNU/Linux) iD8DBQFIHw1PC8hyx6EmTc0RApiQAKCl4LqzihlObmuaKXSfv4mmH29nogCghP2x oOvIJJXAJBuIxSArmghbZR8= =bJ0e -----END PGP SIGNATURE-----

