google 是不允许爬虫去抓取的, 很容易封掉你 要加上随机sleep
2010/9/25 Lin(林兴陆) <[email protected]> > 我习惯用cURL搞定,快、自由。 > > 2010/9/25 zhihua zheng <[email protected]>: > > 有意思, 这个还是比较简单的, > > > 一般搜索引擎没有反爬虫机制的,因为他们自己也是爬虫,放心吧,只有一些比较行业化的网站才会防这个,不过遇到这种网站,我们下手一般会比较狠,因为他们太浪费我们的时间了, > > > > 模块嘛, 简单的话可以用LWP 就可以。 > > 对付狠的可以上,Mechanize。 > > > > > > > > > > 2010/9/24 Weiqiang <[email protected]> > >> > >> 如果没有理解错,这是在建搜索引擎吧。 > >> 现在各大搜索网站应该都有反爬虫机制,爬虫需要伪造Agent信息,而且每次爬信息都要有一定的时间间隔(最好是随机的)。 > >> 需要根据种子的数量估算一下爬信息需要的时间。 > >> > >> > >> 2010/9/24 xuanshi <[email protected]> > >>> > >>> 请教一下各位达人, > >>> > >>> 小女现有一大型文件, 每一行是一个特定的内容, 在每一行的开始,都有8个数字的ID, 用于区别每一行的信息。 > >>> 希望有个程序,每次只是把文件中每行的内容放入网页搜索(比如google),返回的结果要再与之前的ID相对应。请问这样的程序需要那些模 > >>> 块, 命令。 关于程序如何把本地文件跟网页联系起来,又需要什么呢? 大致思路也好 > >>> > >>> 提前感谢了 > >>> > >>> 初学Perl小菜鸟 > >>> > >>> -- > >>> 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers 讨论组"论坛。 > >>> 要向此网上论坛发帖,请发送电子邮件至 [email protected]。 > >>> 要取消订阅此网上论坛,请发送电子邮件至 > >>> [email protected]<perlchina%[email protected]> > 。 > >>> 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。 > >>> > >> > >> -- > >> 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers 讨论组"论坛。 > >> 要向此网上论坛发帖,请发送电子邮件至 [email protected]。 > >> 要取消订阅此网上论坛,请发送电子邮件至 > >> [email protected]<perlchina%[email protected]> > 。 > >> 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。 > > > > -- > > 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers 讨论组"论坛。 > > 要向此网上论坛发帖,请发送电子邮件至 [email protected]。 > > 要取消订阅此网上论坛,请发送电子邮件至 > > [email protected]<perlchina%[email protected]> > 。 > > 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。 > > > > > > -- > /* 110000011101011011010000110010111100001010111101 *\ > Linxinglu(林兴陆) - Mike Lam > Mobile Phone: (+86)13501281365 > E-Mail: [email protected] > QQ: 28888888 > ICQ: 2876829 > MSN: [email protected] > Homepage: http://www.lxl.cn > \* 110000011101011011010000110010111100001010111101 */ > > -- > 您收到此邮件是因为您订阅了 Google 网上论坛的"PerlChina Mongers 讨论组"论坛。 > 要向此网上论坛发帖,请发送电子邮件至 [email protected]。 > 要取消订阅此网上论坛,请发送电子邮件至 > [email protected]<perlchina%[email protected]> > 。 > 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。 > > -- 您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。 要向此网上论坛发帖,请发送电子邮件至 [email protected]。 要取消订阅此网上论坛,请发送电子邮件至 [email protected]。 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
