Re: [Moscow.pm] Web-spider

Ali Ramazanov Sat, 02 Jun 2012 03:09:24 -0700

Как вариант использовать
https://metacpan.org/module/WWW::Mechanize::Firefox и собственно сам
firefox с плагином Mozrepl. Решение рабочее, но не производительное.
Firefox нужно периодически рестартить, из-за отжирания памяти)


2 июня 2012 г., 9:52 пользователь Alessandro Gorohovski
<[email protected]> написал:
> Гнатына Александр <[email protected]> писал(а) в своём письме Fri, 01 Jun 2012
> 23:03:05 +0300:
>
>> wget
>>
>> Огласите требования.
>
>
> Требования, вроде бы, не хитрые --- нужно сохранить всю инфу web-страницы в
> html -файл.
>
> Обычно, поступал так, например:
>
> my $url = 'http://www.адрес';
>
>
> my $agent = LWP::UserAgent->new;
> $agent->agent("Opera");
>
> my $request = HTTP::Request->new( GET => $url );
> $request->header('Accept' => 'text/html');
>
> open(FILE, ">info.html");
> print FILE_S $response->content;
> close FILE;
>
> Но сейчас столкнулся с тем, что для Web-страниц, содержащих JavaScript
> все содержимое не могу получить,
> т.е. то что вижу в броузере (Opera or others) нет в сохранённом файле.
>
> Понимаю, что здесь проблема для меня с отработкой JavaScript, которые
> выполняются в броузере.
>
> Вопрос в том, есть ли какой Perl-модуль или что-то консольное, выполняющее
> все что делает броузер
> с возможностью сохранения этого результата?
>
>
>
>> В Птн, 01/06/2012 в 21:58 +0300, Alessandro Gorohovski пишет:
>>>
>>> Уважаемое сообщество,
>>> Доброго времени суток!
>>>
>>> Посоветуйте модуль (кому реально приходилось пользоваться)
>>> хорошего Web-spider.
>>>
>>> P.s.
>>> На CPAN смотрел, их бескрайнее множество.
>>>
>>> Спасибо
>>
>>
>>
>
>
> --
> Alessandro
>
> --
> Moscow.pm mailing list
> [email protected] | http://moscow.pm.org
-- 
Moscow.pm mailing list
[email protected] | http://moscow.pm.org

Re: [Moscow.pm] Web-spider

Ответить