9 ноября 2011 г. 17:09 пользователь Foxcool <[email protected]> написал:
> On 11/09/2011 05:05 PM, Nikolay Mishin wrote: > >> А зачем такие сложности, можно, например HTML::TableExtract >> использовать для того, чтобы вытащить любую таблицу >> >> https://gist.github.com/**1351359 <https://gist.github.com/1351359> >> >> >> 09.11.2011, 15:34, "Alexey Shrub"<[email protected]>: >> >>> On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote: >>> >>> Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого >>>> нынче вида Перл-джуниоров. >>>> Есть интересный модуль Web::Scraper, документацию которого я не нахожу >>>> избыточной, т.к. не могу разобраться, как его "натравливать" на теги. >>>> Есть некая страница, которая полна таблиц, идущих друг за другом, >>>> разных >>>> и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные >>>> таблицы. И не с определенным id или class, а с значением другого >>>> атрибута. >>>> >>>> <tablewidth="100%"cellspacing=**"0"cellpadding="3"border="0"> >>>> <tablewidth="100%"cellspacing=**"2"cellpadding="1"> >>>> >>>> Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне >>>> указать это скраперу? Кстати, посоветуете другой инструмент, буду >>>> непротив. С небольшим модулем, который парсит регулярками разобрался >>>> быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь >>>> большим и стабильным инструментом для того, чтобы использовать его в >>>> чрезмерно важных задачах. >>>> >>> По мне так самый удобный (правда не самый быстрый), это XPath, только >>> первым делом html нужно привести к xhtml, но это легко сделать с помощью >>> утилиты tidy >>> Тут есть пример >>> https://github.com/worldmind/**simple-livejournal-backuper<https://github.com/worldmind/simple-livejournal-backuper> >>> >>> -- >>> Moscow.pm mailing list >>> [email protected] | http://moscow.pm.org >>> >> -- >> Nikolay Mishin >> > Спасибо, присмотрюсь. С DOM у меня возникала проблема, что многоуровневый > хеш имел слишком длинную и запутанную структуру в т.ч. с циклическими > ссылками, если я хотел работать непосредственно с деревом, как например > если применять на XML XML::LibXML::Simple. То есть работать с деревом, как > с многоуровневым хешем удобно, если это хороший структурированный XML. А > вот если это мутный HTML, возникают проблемы. > > Ковырял в свое время Node.js в целях "пощупать". Прекрасная вещь для работы с HTML (и не только HTML). Подключаешь jQuery и вообще все хорошо. -- С уважением Михаил Шогин.
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
