Victor Wagner wrote: > Если несколько абзацев - то командой глобальной замены в текстовом > редакторе.
Если их совсем несколько — то проще вручную (и клавиша Compose при наборе). Но если понемногу, но по несколько раз в месяц, то после десятого раза таки доходит, что быстрее автоматизировать. >> Большую часть задачи решил бы catdoc, если бы можно было указывать формат >> вывода неподдерживаемых символов > > А это - можно. Есть ключик -f задающий формат. Формат это в принципе > два файла format-name.specchars (символы, которые надо заменять, даже > если они считаются поддерживаемыми) и format-name.replchars - > последовательности, на которые заменять символы, не отсутствующие в > выходной кодировке Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или задание формата для спецтокена в replchars). >> и обрабатывать события начала/конца >> строки. > > А это нельзя. В той модели текста, которой придерживается Word и вокруг > которой написан catdoc, понятие "строки" практически отсутствует. > Минимальной логической единицей текста является абзац. > > Впрочем, в HTML модель текста похожая. Разумеется я имел в виду модель абзац — строка простого текста. Более сложные в catdoc было бы затруднительно реализовать. > На самом деле в поставку catdoc до сих пор не входят файлы > html.specchars и html.replchars только потому, что из-за особенностей > вордового представления таблиц в текущей модели парсинга не удалось > корректно детектировать начало таблицы. > А без поддержи таблиц конвертировать в html как-то неинтересно. > Ну и еще шрифтовые выделения не ловятся. Как-то ведь antiword это делает. -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected]

