On Sat, Apr 18, 2009 at 12:52:19PM +0300, Serhiy Storchaka wrote:
В Konqueror есть плагин, позволяющий сохранить страницу в war-файле (Web
Archive, обычный tar.gz на самом деле). При этом он её как-то
преобразовывает, вероятно получается корректный html или xhtml. Возможно
удастся как-то
On Wed, Apr 08, 2009 at 09:09:28AM +0300, Тихон Тарнавский wrote:
пропустить html через tidy, а дальше работать с xml
t:~/tmp/book/tidy$ xml_grep p/span * 2/dev/null |
% grep 'error parsing file' | wc -l
99
t:~/tmp/book/tidy$ \ls | wc -l
99
Ещё варианты будут?
эээ. это tidy
On 2009.04.15 at 21:29:55 +0400, Alexey Pechnikov wrote:
Hello!
On Tuesday 07 April 2009 16:21:09 Mikhail Gusarov wrote:
VW Но вот что забавно, многие из распространенных XML-парсеров (gnome
VW XML например) имеют специальный режим разбора HTML. Что при этом
VW имеется в виду, не
On 2009.04.07 at 17:48:25 +0700, Mikhail Gusarov wrote:
ТТ Да и вообще я маловато видел html-ей, которые были бы корректны с
ТТ точки зрения xml-парсеров.
Вообще, HTML не является XML-приложением. XHTML является, но это другой
разговор.
HTML является SGML-приложением. Так что можно
On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote:
По описанию похоже, но действительно немного сложновато. Меня в этой
сложности настораживает в первую очередь то, как оно себя поведёт с
криво оформнленным html-ем -- а ведь такого среди нуждающегося в
подобных правках 90%.
5 matches
Mail list logo