2008/5/5 ZhengPeng Hou <[EMAIL PROTECTED]>: > On Mon, May 05, 2008 at 02:04:31PM +0800, Kov Chai wrote: > > > > > > 2008/5/5 ZhengPeng Hou <[EMAIL PROTECTED]>: > > > > --12:25:37-- > > http://mentors.debian.net/debian/pool/main/s/sunpinyin/ > > sunpinyin_1.0.orig.tar.gz > > => `sunpinyin_1.0.orig.tar.gz' > > Resolving mentors.debian.net... 64.79.197.109 > > Connecting to mentors.debian.net|64.79.197.109|:80... > > connected. > > HTTP request sent, awaiting response... 200 OK > > Length: 39,363,185 (38M) [application/x-gzip] > > 38M? 都是什么啊 > > > > > > 38M 是有点大。主要是 data 目录下的四个文件。 lm_sc.t3g.{sparc,i386} (6727K*2), > > pydict_sc.bin.{sparc,i386} (23M*2)。前者是线索化后的语言模型数据[1],目的是加速 > > > 查找速度和压缩数据,差不多就是建立索引的效果,有了它能较快地计算 n-gram 语言模 > > > 型里一串单字 (S = {W_1,W_2, W_3, ..., W_n}) 成为该语言模型里一个句子的概率 P(S) > > 。后者则是词表(lexicon),或者说是大家常说的输入法的词库,这个词表支持不完全拼 > > 音和词到词的转换。由于要支持 big endian 和 small endian 的体系架构,所以干脆就 > > 把两种情况下的数据文件都弄上来了。 > 这些data也是在LGPL and CDDL下发布的? 是的,这个问题我向 upstream 咨询过。本来很早就想把 SunPinyin 加入到 Debian 里去,就是因为 CDDL 的问题迟迟没有动手。 > > > 有没有必要把数据文件单独作为一个 package,放到 sunpinyin-data 里面去呢?还是有 > > 更好的办法呢? > > > 建议拆分 谢谢你的建议,我周末看看怎么做。这是我第一次做这么复杂的 deb 包。:)
> > 侯正鹏 > > -----BEGIN PGP SIGNATURE----- > Version: GnuPG v1.4.6 (GNU/Linux) > > iD8DBQFIHrAbJrhDLBNiZtwRAjWdAJ4uoJ5Q9K9EJiHE+CL1LCHJmtCMwwCff0K6 > S/nXet9Ad67xjoTmgjrdIXQ= > =wAW/ > -----END PGP SIGNATURE----- > >