On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote: > > А это - можно. Есть ключик -f задающий формат. Формат это в принципе > > два файла format-name.specchars (символы, которые надо заменять, даже > > если они считаются поддерживаемыми) и format-name.replchars - > > последовательности, на которые заменять символы, не отсутствующие в > > выходной кодировке > > Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
Столько - никогда не будет. Особенно если учесть, что в наше время использование в html, а тем более в xhtml кодировок, отличных от utf-8 - недальновидность, граничащая с преступлением, в принципе specchars бывает всего пять < > & " '. А replchars для html вообще не интересны, в отличие от plain-текста который надо иногда уметь смотреть на терминалах с ограниченным числом глифов в шрифте. > задание формата для спецтокена в replchars). Вообще-то это хорошая мысль. У меня есть там -x, который выводит отсутствующие в replchars символы как \xNNNN. Можно сделать -x формат, если getopt на всех поддерживаемых платформах умеет опциональные аргументы. Или предусмотреть unknown_format в .catdocrc. > Разумеется я имел в виду модель абзац ??? строка простого текста. Более > сложные в catdoc было бы затруднительно реализовать. Ну так надо \n в specchars прописать. Правда, не уверен что с текущим кодом это возможно. Надо будет подправить. > > На самом деле в поставку catdoc до сих пор не входят файлы > > html.specchars и html.replchars только потому, что из-за особенностей > > вордового представления таблиц в текущей модели парсинга не удалось > > корректно детектировать начало таблицы. > > А без поддержи таблиц конвертировать в html как-то неинтересно. > > Ну и еще шрифтовые выделения не ловятся. > > Как-то ведь antiword это делает. Так там совсем другая модель парсинга. Мне очень не хочется лишаться ключика -b, который в некоторых случаях является единственным шансом спасти хотя бы часть информации из поврежденного файла. Поэтому я уже десять лет цепляюсь за потоковый парсинг. -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected]

