Victor Wagner wrote: > On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote: >> > А это - можно. Есть ключик -f задающий формат. Формат это в принципе >> > два файла format-name.specchars (символы, которые надо заменять, даже >> > если они считаются поддерживаемыми) и format-name.replchars - >> > последовательности, на которые заменять символы, не отсутствующие в >> > выходной кодировке >> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или > Столько - никогда не будет.
На самом деле 65406. Исключая ещё и 128 ASCII-символов. > Особенно если учесть, что в наше время > использование в html, а тем более в xhtml кодировок, отличных от utf-8 - > недальновидность, граничащая с преступлением, в принципе specchars > бывает всего пять < > & " '. А replchars для html вообще не интересны, > в отличие от plain-текста который надо иногда уметь смотреть на > терминалах с ограниченным числом глифов в шрифте. Иногда нужно изменять страницы, _уже_ написанные в кодировке, отличной от utf-8. Понятно, что при малейшей возможности следует перегонять в utf-8, но не всегда это возможно. >> задание формата для спецтокена в replchars). > > Вообще-то это хорошая мысль. У меня есть там -x, который выводит > отсутствующие в replchars символы как \xNNNN. Можно сделать > -x формат, если getopt на всех поддерживаемых платформах умеет > опциональные аргументы. Или предусмотреть unknown_format в .catdocrc. В .catdocrc ему не место. Это ведь зависит от выходного формата. Где-то нужно "&%d;", где-то "\\u%04x", а где-то достаточно "?". Поэтому в specchars/replchars или отдельный файл, зависящий от формата. Мы уже говорили об этом. >> Разумеется я имел в виду модель абзац ??? строка простого текста. Более >> сложные в catdoc было бы затруднительно реализовать. > > Ну так надо \n в specchars прописать. Правда, не уверен что с текущим > кодом это возможно. Надо будет подправить. Разделять строки "</p>\n<p>" можно, но проблема первой и последней строк. Я тогда лучше уж сразу sed-ом воспользуюсь. -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected]

