On Wed, 15.04.2009 22:05:16 , Dmitry Nezhevenko wrote: > On Wed, Apr 08, 2009 at 09:09:28AM +0300, Тихон Тарнавский wrote: > > > > > пропустить html через tidy, а дальше работать с xml > > > > > t:~/tmp/book/tidy$ xml_grep p/span * 2>/dev/null | > > % grep 'error parsing file' | wc -l > > 99 > > t:~/tmp/book/tidy$ \ls | wc -l > > 99 > > > > Ещё варианты будут? > > эээ. это tidy ругнулся? Если да, то лучше глянуть, где именно. > Хм.. Это ругнулся xml_grep, разве не видно? Ругнулся на файлы, которые tidy по идее должен был "validate, correct and pretty-print". Судя по количеству ошибочных файлов 99 из 99, xml_grep с ним в корне не согласен. Ключи перебирал в разных комбинациях -- результат тот же.
-- С уважением, Тихон Тарнавский. http://linuxforum.ru http://posix.ru -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected]

