On Sat, 18.04.2009 12:52:19 , Serhiy Storchaka wrote:
Тихон Тарнавский wrote:
On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote:
-asxml и добиться, чтобы кодировка была указана правильная (возможно
только utf-8). Возможно вручную перекодировать и приклеить ?xml
version=1.0
On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote:
Тихон Тарнавский wrote:
On Wed, 15.04.2009 22:05:16 , Dmitry Nezhevenko wrote:
эээ. это tidy ругнулся? Если да, то лучше глянуть, где именно.
Хм.. Это ругнулся xml_grep, разве не видно? Ругнулся на файлы, которые
tidy по идее
On Wed, 15.04.2009 22:05:16 , Dmitry Nezhevenko wrote:
On Wed, Apr 08, 2009 at 09:09:28AM +0300, Тихон Тарнавский wrote:
пропустить html через tidy, а дальше работать с xml
t:~/tmp/book/tidy$ xml_grep p/span * 2/dev/null |
% grep 'error parsing file' | wc -l
99
On Tue, 07.04.2009 20:14:24 , Dmitry Nezhevenko wrote:
On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote:
По описанию похоже, но действительно немного сложновато. Меня в этой
сложности настораживает в первую очередь то, как оно себя поведёт с
криво оформнленным html-ем --
On Sat, 04.04.2009 19:09:49 , Тихон Тарнавский wrote:
On Sat, 04.04.2009 14:51:01 , Oleg Gashev wrote:
2009/4/4 Тихон Тарнавский tik...@lexpr.ru:
Собственно, вопрос в теме. В идеале хочется что-то вроде cat +
split/csplit + grep, но не для построчной, а для потеговой обработки
(а
On Tue, 07.04.2009 17:48:25 , Mikhail Gusarov wrote:
Twas brillig at 13:46:20 07.04.2009 UTC+03 when tik...@lexpr.ru did gyre and
gimble:
ТТ Да и вообще я маловато видел html-ей, которые были бы корректны с
ТТ точки зрения xml-парсеров.
Вообще, HTML не является XML-приложением.
Я как
On Sat, 04.04.2009 14:51:01 , Oleg Gashev wrote:
2009/4/4 Тихон Тарнавский tik...@lexpr.ru:
Собственно, вопрос в теме. В идеале хочется что-то вроде cat +
split/csplit + grep, но не для построчной, а для потеговой обработки
(а аналог cat должен обрезать на стыках шапку и обрамляющие теги).
7 matches
Mail list logo