2008/5/5 ZhengPeng Hou <[EMAIL PROTECTED]>:
>
> --12:25:37--
>
> http://mentors.debian.net/debian/pool/main/s/sunpinyin/sunpinyin_1.0.orig.tar.gz
>           => `sunpinyin_1.0.orig.tar.gz'
>           Resolving mentors.debian.net... 64.79.197.109
>           Connecting to mentors.debian.net|64.79.197.109|:80...
>           connected.
>           HTTP request sent, awaiting response... 200 OK
>           Length: 39,363,185 (38M) [application/x-gzip]
> 38M? 都是什么啊


38M 是有点大。主要是 data 目录下的四个文件。 lm_sc.t3g.{sparc,i386} (6727K*2),
pydict_sc.bin.{sparc,i386}
(23M*2)。前者是线索化后的语言模型数据[1],目的是加速查找速度和压缩数据,差不多就是建立索引的效果,有了它能较快地计算 n-gram
语言模型里一串单字 (S = {W_1,W_2, W_3, ..., W_n}) 成为该语言模型里一个句子的概率
P(S)。后者则是词表(lexicon),或者说是大家常说的输入法的词库,这个词表支持不完全拼音和词到词的转换。由于要支持 big endian 和
small endian 的体系架构,所以干脆就把两种情况下的数据文件都弄上来了。

有没有必要把数据文件单独作为一个 package,放到 sunpinyin-data 里面去呢?还是有更好的办法呢?

谢谢啦。

-- 
[1]
http://blogs.sun.com/yongsun/entry/sunpinyin%E4%BB%A3%E7%A0%81%E5%AF%BC%E8%AF%BB_%E4%BA%94
[2]
http://blogs.sun.com/yongsun/entry/sunpinyin%E4%BB%A3%E7%A0%81%E5%AF%BC%E8%AF%BB_%E4%B8%83

-- 
Regards
Kov Chai

回复