Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: Если хуже — написать собственный парсер, аналог tidy. Интересуют готовые решения, я вовсе не планирую для сотен различных форматов обработчики с нуля писать, это нереально и лишено смысла к тому же. Вопрос в

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 11:40:51 Serhiy Storchaka wrote: Вот в исходниках эскулайт есть нераспознанные файлы - видимо, потому, что там в комментариях модуля поддержки юникода есть символы с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите, пока про запас, а

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: Хм. Мелкое и шустрое, говорите... Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов. Достаточно. $ time echo|dash $ time echo|/bin/true А перловой версии случаем нет, раз уж проект fb2-perl-tools? Нет. Но для вас ведь не составит труда переписать

Re: Обработка книг формата fb2

2010-02-12 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 14:59:23 Serhiy Storchaka wrote: Alexey Pechnikov wrote: Хм. Мелкое и шустрое, говорите... Не говорю. Но за три часа прогнало мою библиотеку из 25 тыс. файлов. Достаточно. У меня раза в два быстрее распаковывается из архивов, преобразуется и в базу

Обработка книг формата fb2

2010-02-11 Пенетрантность Alexey Pechnikov
Hello! В процессе обработки выяснилось, что библиотеки содержат жуткую смесь валидных и невалидных документов. Пытаюсь выправить чем-то вроде exec cat $2 | enconv | sed 's/?xml version=1.0 encoding=.*/?xml version=1.0 encoding=utf-8?/' | tidy -q -xml -utf8 2/dev/null | xsltproc $STYLE - но

Re: Обработка книг формата fb2

2010-02-11 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: В процессе обработки выяснилось, что библиотеки содержат жуткую смесь валидных и невалидных документов. Пытаюсь выправить чем-то вроде exec cat $2 | enconv | sed 's/?xml version=1.0 encoding=.*/?xml version=1.0 encoding=utf-8?/' | tidy -q -xml -utf8 2/dev/null |

Re: Обработка книг формата fb2

2010-02-11 Пенетрантность Alexey Pechnikov
Hello! On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: Если дело только в амперсанде, поможет sed -e 's//\amp;/g;s/amp;amp;/\amp;/g' Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше показывал соответствующую команду. Если хуже — написать собственный парсер,