Re: Bug#478811: ITP: sunpinyin -- An input method engine based on SLM

WANG Yunfeng Sun, 04 May 2008 23:41:26 -0700

Kov Chai 写道:
> 
> 
> 2008/5/5 ZhengPeng Hou <[EMAIL PROTECTED] 
> <mailto:[EMAIL PROTECTED]>>:
> 
>     --12:25:37--
>     
> http://mentors.debian.net/debian/pool/main/s/sunpinyin/sunpinyin_1.0.orig.tar.gz
>               => `sunpinyin_1.0.orig.tar.gz'
>               Resolving mentors.debian.net... 64.79.197.109
>     <http://64.79.197.109>
>               Connecting to mentors.debian.net|64.79.197.109|:80...
>               connected.
>               HTTP request sent, awaiting response... 200 OK
>               Length: 39,363,185 (38M) [application/x-gzip]
>     38M? 都是什么啊
> 
>  
> 38M 是有点大。主要是 data 目录下的四个文件。 lm_sc.t3g.{sparc,i386} 
> (6727K*2), pydict_sc.bin.{sparc,i386} (23M*2)。前者是线索化后的语言模型 
> 数据[1]，目的是加速查找速度和压缩数据，差不多就是建立索引的效果，有了它 
> 能较快地计算 n-gram 语言模型里一串单字 (S = {W_1,W_2, W_3, ..., W_n}) 成 
> 为该语言模型里一个句子的概率 P(S)。后者则是词表（lexicon），或者说是大家 
> 常说的输入法的词库，这个词表支持不完全拼音和词到词的转换。由于要支持 big 
> endian 和 small endian 的体系架构，所以干脆就把两种情况下的数据文件都弄 
> 上来了。
> 
> 有没有必要把数据文件单独作为一个 package，放到 sunpinyin-data 里面去呢？ 
> 还是有更好的办法呢？
既然数据文件是分arch的，那就应该按arch分别打包啊，debian原本就是多arch的
比如
sunpinyin_x.y.z_amd64.deb
sunpinyin_x.y.z_i386.deb


> 
> 谢谢啦。
> 
> -- 
> [1] 
> http://blogs.sun.com/yongsun/entry/sunpinyin%E4%BB%A3%E7%A0%81%E5%AF%BC%E8%AF%BB_%E4%BA%94
> [2] 
> http://blogs.sun.com/yongsun/entry/sunpinyin%E4%BB%A3%E7%A0%81%E5%AF%BC%E8%AF%BB_%E4%B8%83
> 
> -- 
> Regards
> Kov Chai


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]

Re: Bug#478811: ITP: sunpinyin -- An input method engine based on SLM

回复