Re: Обработка книг формата fb2

Alexey Pechnikov Thu, 11 Feb 2010 14:30:29 -0800

Hello!

On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
> Если дело только в амперсанде, поможет
> sed -e 's/&/\&amp;/g;s/&amp;amp;/\&amp;/g'


Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше
показывал соответствующую команду.
 
> Если хуже — написать собственный парсер, аналог tidy.

Интересуют готовые решения, я вовсе не планирую для сотен различных
форматов обработчики с нуля писать, это нереально и лишено смысла к тому 
же. Вопрос в том, чтобы собрать существующие утилиты.

> enconv не справится с документами, где текст в latin1, кодировка указана
> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
> подобные ошибки.

Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества 
html-страниц - я их не выкидывал пока, т.к. обработка html задача 
стандартная, пусть себе тестируются) ошибок распознавания кириллицы не 
видно. Вот в исходниках эскулайт есть нераспознанные файлы - видимо,
потому, что там в комментариях модуля поддержки юникода есть символы
с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Re: Обработка книг формата fb2

Ответить