Hello! On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote: > Если дело только в амперсанде, поможет > sed -e 's/&/\&/g;s/&/\&/g'
Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше показывал соответствующую команду. > Если хуже — написать собственный парсер, аналог tidy. Интересуют готовые решения, я вовсе не планирую для сотен различных форматов обработчики с нуля писать, это нереально и лишено смысла к тому же. Вопрос в том, чтобы собрать существующие утилиты. > enconv не справится с документами, где текст в latin1, кодировка указана > windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит > подобные ошибки. Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества html-страниц - я их не выкидывал пока, т.к. обработка html задача стандартная, пусть себе тестируются) ошибок распознавания кириллицы не видно. Вот в исходниках эскулайт есть нераспознанные файлы - видимо, потому, что там в комментариях модуля поддержки юникода есть символы с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите, пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся. Best regards, Alexey Pechnikov. http://pechnikov.tel/

