Re: Plain text to (x)html

Serhiy Storchaka Fri, 12 Dec 2008 10:48:49 -0800

Victor Wagner wrote:
> Если несколько абзацев - то командой глобальной замены в текстовом
> редакторе.


Если их совсем несколько — то проще вручную (и клавиша Compose при наборе).
Но если понемногу, но по несколько раз в месяц, то после десятого раза таки
доходит, что быстрее автоматизировать.

>> Большую часть задачи решил бы catdoc, если бы можно было указывать формат
>> вывода неподдерживаемых символов
> 
> А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
> два файла format-name.specchars (символы, которые надо заменять, даже
> если они считаются поддерживаемыми) и format-name.replchars -
> последовательности, на которые заменять символы, не отсутствующие в
> выходной кодировке

Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
задание формата для спецтокена в replchars).

>> и обрабатывать события начала/конца
>> строки.
> 
> А это нельзя. В той модели текста, которой придерживается Word и вокруг
> которой написан catdoc, понятие "строки" практически отсутствует.
> Минимальной логической единицей текста является абзац.
> 
> Впрочем, в HTML модель текста похожая.

Разумеется я имел в виду модель абзац — строка простого текста. Более
сложные в catdoc было бы затруднительно реализовать.

> На самом деле в поставку catdoc до сих пор не входят файлы
> html.specchars и html.replchars только потому, что из-за особенностей
> вордового представления таблиц в текущей модели парсинга не удалось
> корректно детектировать начало таблицы.
> А без поддержи таблиц конвертировать в html как-то неинтересно.
> Ну и еще шрифтовые выделения не ловятся.

Как-то ведь antiword это делает.



-- 
To UNSUBSCRIBE, email to [email protected]
with a subject of "unsubscribe". Trouble? Contact [email protected]

Re: Plain text to (x)html

Ответить