Re: Что есть дл я обработки html в командн ой строке?

2009-04-18 Пенетрантность Тихон Тарнавский
On Sat, 18.04.2009 12:52:19 , Serhiy Storchaka wrote: Тихон Тарнавский wrote: On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote: -asxml и добиться, чтобы кодировка была указана правильная (возможно только utf-8). Возможно вручную перекодировать и приклеить ?xml version=1.0

Re: Что есть дл я обработки html в командн ой строке?

2009-04-17 Пенетрантность Тихон Тарнавский
On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote: Тихон Тарнавский wrote: On Wed, 15.04.2009 22:05:16 , Dmitry Nezhevenko wrote: эээ. это tidy ругнулся? Если да, то лучше глянуть, где именно. Хм.. Это ругнулся xml_grep, разве не видно? Ругнулся на файлы, которые tidy по идее

Re: Что есть дл я обработки html в командн ой строке?

2009-04-16 Пенетрантность Тихон Тарнавский
On Wed, 15.04.2009 22:05:16 , Dmitry Nezhevenko wrote: On Wed, Apr 08, 2009 at 09:09:28AM +0300, Тихон Тарнавский wrote: пропустить html через tidy, а дальше работать с xml t:~/tmp/book/tidy$ xml_grep p/span * 2/dev/null | % grep 'error parsing file' | wc -l 99

Re: Что есть дл я обработки html в командн ой строке?

2009-04-08 Пенетрантность Тихон Тарнавский
On Tue, 07.04.2009 20:14:24 , Dmitry Nezhevenko wrote: On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote: По описанию похоже, но действительно немного сложновато. Меня в этой сложности настораживает в первую очередь то, как оно себя поведёт с криво оформнленным html-ем --

Re: Что есть дл я обработки html в командн ой строке?

2009-04-07 Пенетрантность Тихон Тарнавский
On Sat, 04.04.2009 19:09:49 , Тихон Тарнавский wrote: On Sat, 04.04.2009 14:51:01 , Oleg Gashev wrote: 2009/4/4 Тихон Тарнавский tik...@lexpr.ru: Собственно, вопрос в теме. В идеале хочется что-то вроде cat + split/csplit + grep, но не для построчной, а для потеговой обработки (а

Re: Что есть дл я обработки html в командн ой строке?

2009-04-07 Пенетрантность Тихон Тарнавский
On Tue, 07.04.2009 17:48:25 , Mikhail Gusarov wrote: Twas brillig at 13:46:20 07.04.2009 UTC+03 when tik...@lexpr.ru did gyre and gimble: ТТ Да и вообще я маловато видел html-ей, которые были бы корректны с ТТ точки зрения xml-парсеров. Вообще, HTML не является XML-приложением. Я как

Re: Что есть дл я обработки html в командн ой строке?

2009-04-04 Пенетрантность Тихон Тарнавский
On Sat, 04.04.2009 14:51:01 , Oleg Gashev wrote: 2009/4/4 Тихон Тарнавский tik...@lexpr.ru: Собственно, вопрос в теме. В идеале хочется что-то вроде cat + split/csplit + grep, но не для построчной, а для потеговой обработки (а аналог cat должен обрезать на стыках шапку и обрамляющие теги).