Re: Что есть для обраб отки html в командной строке?

2009-04-18 Пенетрантность Иван Лох
On Sat, Apr 18, 2009 at 12:52:19PM +0300, Serhiy Storchaka wrote: В Konqueror есть плагин, позволяющий сохранить страницу в war-файле (Web Archive, обычный tar.gz на самом деле). При этом он её как-то преобразовывает, вероятно получается корректный html или xhtml. Возможно удастся как-то

Re: Что есть для обраб отки html в командной строке?

2009-04-15 Пенетрантность Dmitry Nezhevenko
On Wed, Apr 08, 2009 at 09:09:28AM +0300, Тихон Тарнавский wrote: пропустить html через tidy, а дальше работать с xml t:~/tmp/book/tidy$ xml_grep p/span * 2/dev/null | % grep 'error parsing file' | wc -l 99 t:~/tmp/book/tidy$ \ls | wc -l 99 Ещё варианты будут? эээ. это tidy

Re: Что есть для обраб отки html в командной строке?

2009-04-15 Пенетрантность Victor Wagner
On 2009.04.15 at 21:29:55 +0400, Alexey Pechnikov wrote: Hello! On Tuesday 07 April 2009 16:21:09 Mikhail Gusarov wrote: VW Но вот что забавно, многие из распространенных XML-парсеров (gnome VW XML например) имеют специальный режим разбора HTML. Что при этом VW имеется в виду, не

Re: Что есть для обраб отки html в командной строке?

2009-04-07 Пенетрантность Victor Wagner
On 2009.04.07 at 17:48:25 +0700, Mikhail Gusarov wrote: ТТ Да и вообще я маловато видел html-ей, которые были бы корректны с ТТ точки зрения xml-парсеров. Вообще, HTML не является XML-приложением. XHTML является, но это другой разговор. HTML является SGML-приложением. Так что можно

Re: Что есть для обраб отки html в командной строке?

2009-04-07 Пенетрантность Dmitry Nezhevenko
On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote: По описанию похоже, но действительно немного сложновато. Меня в этой сложности настораживает в первую очередь то, как оно себя поведёт с криво оформнленным html-ем -- а ведь такого среди нуждающегося в подобных правках 90%.