Alexey Pechnikov wrote:
On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
Если хуже — написать собственный парсер, аналог tidy.
Интересуют готовые решения, я вовсе не планирую для сотен различных
форматов обработчики с нуля писать, это нереально и лишено смысла к тому
же. Вопрос в
Hello!
On Friday 12 February 2010 11:40:51 Serhiy Storchaka wrote:
Вот в исходниках эскулайт есть нераспознанные файлы - видимо,
потому, что там в комментариях модуля поддержки юникода есть символы
с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
пока про запас, а
Alexey Pechnikov wrote:
Хм. Мелкое и шустрое, говорите...
Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов.
Достаточно.
$ time echo|dash
$ time echo|/bin/true
А перловой версии случаем нет, раз уж проект fb2-perl-tools?
Нет. Но для вас ведь не составит труда переписать
Hello!
On Friday 12 February 2010 14:59:23 Serhiy Storchaka wrote:
Alexey Pechnikov wrote:
Хм. Мелкое и шустрое, говорите...
Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов.
Достаточно.
У меня раза в два быстрее распаковывается из архивов, преобразуется и
в базу
Hello!
В процессе обработки выяснилось, что библиотеки содержат жуткую смесь валидных
и невалидных документов. Пытаюсь выправить чем-то вроде
exec cat $2 | enconv | sed 's/?xml version=1.0 encoding=.*/?xml
version=1.0 encoding=utf-8?/' | tidy -q -xml -utf8 2/dev/null | xsltproc
$STYLE -
но
Alexey Pechnikov wrote:
В процессе обработки выяснилось, что библиотеки содержат жуткую смесь
валидных и невалидных документов. Пытаюсь выправить чем-то вроде
exec cat $2 | enconv | sed 's/?xml version=1.0 encoding=.*/?xml
version=1.0 encoding=utf-8?/' | tidy -q -xml -utf8 2/dev/null |
Hello!
On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
Если дело только в амперсанде, поможет
sed -e 's//\amp;/g;s/amp;amp;/\amp;/g'
Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше
показывал соответствующую команду.
Если хуже — написать собственный парсер,
7 matches
Mail list logo