subject:"Plain text to \(x\)html"

Re: Plain text to (x)html

2008-12-17 Пенетрантность Stanislav Maslovski

On Tue, Dec 16, 2008 at 08:33:36PM +0200, Serhiy Storchaka wrote:
Stanislav Maslovski wrote:

On Tue, Dec 16, 2008 at 03:36:37PM +0200, Serhiy Storchaka wrote:
Но распространяя его, я либо явно это документирую, либо умолчанием
сделаю
кодировку локали, либо сделаю опцию для явного указания кодировки.

Дык, отмеченное ^^^ и было сделано автором.

Нет, даже это не сделано. Опция -8 отвечает за отключение представления
не-ascii символов Latin-1 как entities. О входной кодировке ни слова.

Не говоря уже о том, что это — худший из вариантов (самый ленивый).

Ну это просто замечательно. Сначала человек сам предлагает этот
вариант (документированная восьмибитная прозрачность), теперь сам же его
критикует!

Проблема в том, что таких решений _много_. Поддержка у них разная, одни
давно заброшены и морально устарели (если ими никто не пользуется),
другие слишком громоздкие для конкретно этой задачи. Мой вопрос как раз и
состоял в том, чтобы узнать, каким инструментом чаще всего пользуются. Он
и будет работающим и поддерживаемым.

На этот вопрос ответы были даны.

И все разные. Из чего я заключаю, что люди предпочитают пользоваться первым
попавшимся подходящим для этого инструментом, а скорее всего — самодельным.
Ну и я буду.

Никто не оспаривает вашего права изобретать велосипеды. Я лишь ставлю
под сомнение полезность этого дела (исключая пользу в смысле
выработки эндорфинов в процессе такого самоудовлетворения).

Он мне не подходит.

Реального обоснования этого момента я так и не увидел.

Почему это я обязан писать
багрепорт? Я просто возьму _другой_ инструмент (благо их существует
несколько десятков). Кто пользуется — тот пусть и пишет багрепорты.

Дык, это только подтверждает мои тезис о потребительском подходе.

Разумеется. Открою вам большую тайну — практически всё свободное программное
обеспечение (и думаю даже большая часть вообще всех программ) написаны
именно с потребительскими целями. Для себя. И в дальнейшем развитии и
сопровождении эта причина тоже достаточно существенна.

Подмена понятий. Потребительский подход, о котором говорю я, это
использование готового без какой-либо отдачи. Вы же говорите о том,
что программы вырастают из практических нужд их авторов. Кто же с этим
поспорит? В этом смысле автор тоже потребитель. Но вы же не станете
утверждать, что он лишь потребляет, никак не способствуя развитию
проекта?

Исправление ошибки в Lenny показывает, что кто-то всё же пользуется.

А также то, что не все неанглоязычные пользователи наплевательски
относятся к качеству пакетов в дистрибутиве (в смысле поддержки
национальных кодировок). Раздолбайство же русскоговорящих в этом плане
меня всегда удивляло. У нас обычно ждут и надеются, что какой-нибудь
более обязательный немец возмет и добавит поддержку русского...

Какой мне интерес исправлять программу, которой я не пользуюсь? Утилита
написана 14 лет назад, я о её существовании узнал несколько дней назад.
Кроме неё существует ещё несколько десятков аналогов в репозитарии. Если до
релиза этча ошибку не обнаружили (и в обновлениях нет) — значит пакет
относится к почти неиспользуемому и необновляемому мусору.
И его ошибки — исключительно проблема тех, кто его использует (я в их число
не вхожу).

Вот вы спешите делать необоснованные и далеко идущие выводы, позвольте
и мне тогда. Я из нашей дискуссии пока могу сделать вывод, что ваш
исходный пост, где вы спрашивали, какой инструмент можно было бы
применить к вашей задаче, изначально не имел никакого смысла, так как все
предложенные варианты были без обсуждения вами отвергнуты. Со мной вы
спорите скорее из желание поспорить, чем из желания извлечь что-то
конструктивное.

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-17 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:
On Tue, Dec 16, 2008 at 08:33:36PM +0200, Serhiy Storchaka wrote:
Нет, даже это не сделано. Опция -8 отвечает за отключение представления
не-ascii символов Latin-1 как entities. О входной кодировке ни слова.

Не говоря уже о том, что это — худший из вариантов (самый ленивый).

Ну а что же в этом удивительного? Предложенные варианты имеют разную степень
качества. И в txt2html ни о какой _прозрачности_ речь не идёт.

На этот вопрос ответы были даны.

И все разные. Из чего я заключаю, что люди предпочитают пользоваться
первым попавшимся подходящим для этого инструментом, а скорее всего —
самодельным. Ну и я буду.

Если бы я не ставил это под сомнение, исходный вопрос вообще не возник бы.
Вопрос поставлен, ответ получен. Я им воспользовался.

К чему ваши наезды — не пойму.

Он мне не подходит.

Реального обоснования этого момента я так и не увидел.

Неработоспособность имеющейся в наличии версии, неудобство умолчаний.
Решение, использующее txt2html, будет длиннее решения, не использующего его
(«велосипеда») и не так гибко. Мне не нужен такой txt2html!

Что вы от меня хотите? Чтобы я вам задаром разрабатывал программы, которые
меня совершенно не интересуют?

Я просто не пойму чего вы ко мне прицепились, за что взъелись? Да,
предложенный _вами_ вариант мне не подходит (я попробовал его ещё перед
тем, как спрашивать). Зачем воспринимать это как личное оскорбление? Сперва
я думал, что вы имеете какое-то отношение к разработке или поддержке
txt2html, что хотите узнать о имеющихся ошибках и недочётах, что именно
этим объясняется ваша несколько нервная реакция. Но теперь вижу (и по этой,
и по нескольким соседним веткам), что ваш хамоватый тон очевидно вызван
совершенно другими причинами.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-17 Пенетрантность Stanislav Maslovski

On Wed, Dec 17, 2008 at 11:53:04AM +0200, Serhiy Storchaka wrote:
Stanislav Maslovski wrote:
On Tue, Dec 16, 2008 at 08:33:36PM +0200, Serhiy Storchaka wrote:
Нет, даже это не сделано. Опция -8 отвечает за отключение представления
не-ascii символов Latin-1 как entities. О входной кодировке ни слова.

Не говоря уже о том, что это — худший из вариантов (самый ленивый).

На этот вопрос ответы были даны.

И все разные. Из чего я заключаю, что люди предпочитают пользоваться
первым попавшимся подходящим для этого инструментом, а скорее всего —
самодельным. Ну и я буду.

К чему ваши наезды — не пойму.

Он мне не подходит.

Реального обоснования этого момента я так и не увидел.

Что вы от меня хотите? Чтобы я вам задаром разрабатывал программы, которые
меня совершенно не интересуют?

Оставим другим подписчикам судить о том, чей тон хамоватый, и кто
весто возражений по существу то и дело переходит на личности. Нет, я
не спорю, я не безгрешен. Но в данном случае, имхо, я проявил
максимум возможного такта, пытаясь убедить вас в очевидной, в
общем-то, вещи: наступил на грабли, разберись, если это баг --
отрепорть, если видишь возможность исправления -- исправь.

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-16 Пенетрантность Stanislav Maslovski

On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
п╬пҐя▀п╣ пҐп╟п╣пЇпЄя▀ п©п╬п╨п╟ п╡я▀пЁп╩я▐пЄя▐я┌.

--eight_bit_clean | -8
disable Latin-1 character entity naming (default: false)

п÷п╬ я┐п╪п╬п╩я┤п╟пҐп╦я▌ я┌п╣п╨я│я┌ пҐп╟ п╡я┘п╬пЄп╣
п©я─п╣пЄп©п╬п╩п╟пЁп╟п╣я┌я│я▐ п╡ п╨п╬пЄп╦я─п╬п╡п╨п╣ Latin-1
(пҐп╣пЇп╟п╡п╦я│п╦п╪п╬
п╬я┌ п╩п╬п╨п╟п╩п╦) п╦ пҐп╟ п╡я▀п╡п╬пЄп╣ п©я─п╣п╬п╠я─п╟пЇп╬п╡я▀п╡п╟п╣я┌я│я▐ п╡
entities.

Мда. Смотрю в envelope:

User-Agent: KNode/0.10.5
Sender: news n...@ger.gmane.org

Content-Type: multipart/mixed; boundary=nextPart4920666.RZbdpiT3WJ
Content-Transfer-Encoding: 7Bit

--nextPart4920666.RZbdpiT3WJ
Content-Type: text/plain; charset=koi8-u
Content-Transfer-Encoding: 8Bit

(и дальше следует текст _в_UTF-8_!)

Теперь по существу дела.

On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
--eight_bit_clean | -8
disable Latin-1 character entity naming (default: false)

По умолчанию текст на входе предполагается в кодировке Latin-1 (независимо
от локали) и на выводе преобразовывается в entities.

Все правильно, только я не вижу здесь _неработающих_ умолчаний.
Имхо, типичный default для html без явного указания charset в
content-type. Тем более, что утилита не прописывает соответствующий
тэг в заголовок html-файла.

Разбор всяких багов txt2html, поиск и портирование версии, где они
исправлены, поддержка этого — это и есть дополнительные телодвижения.

Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
дюжину — решает мою задачу полностью.

Это замечательно и я вас поздравляю с тем, что вы освоили sed на
уровне, достаточном для того, чтобы писать скрипты аж на дюжину строк.
Проблема не в этом. Такого рода самодеятельность тешит самолюбие
скриптописателя, но практически не идет на пользу community. Имхо,
куда полезнее было бы доработать существующий инструмент или хотя бы
высказать свое фи в виде багрепорта. Вы же видите в этом 'дополнительные
телодвижения'. Типично потребительский подход.

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-16 Пенетрантность Stanislav Maslovski

On Tue, Dec 16, 2008 at 03:36:37PM +0200, Serhiy Storchaka wrote:
Stanislav Maslovski wrote:
On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
--eight_bit_clean | -8
disable Latin-1 character entity naming (default: false)

По умолчанию текст на входе предполагается в кодировке Latin-1
(независимо от локали) и на выводе преобразовывается в entities.

Кодировка html — это совсем другое дело. Я говорю о кодировке входного
текста. Он не в Latin-1. Я бы даже сказал, что по нынешним временам текст в
Latin-1 — редкость. Очевидно, что автор изначально делал скрипт для себя,
для работы только с Latin-1 и его такое умолчание устраивало. Я тоже могу в
своих скриптах предполагать В/В только UTF-8 и мне этого будет достаточно.
Но распространяя его, я либо явно это документирую, либо умолчанием сделаю

кодировку локали, либо сделаю опцию для явного указания кодировки.

Дык, отмеченное ^^^ и было сделано автором.

Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
дюжину — решает мою задачу полностью.

Э-э-э, нет. С такого рода задачей сталкивается множество людей со времени
изобретения html, возможно большинство подписчиков. Многие решают её ручной
правкой (если задача разовая) или тривиальной самодельной программкой. Но
Debian содержит десятки тысяч пакетов, очень много таких вот простейших
задач уже решены кем-то и решение распространено. И даже по несколько раз.
Задача _уже_ решена. Решения _уже_ есть. И в большом количестве.

Дык, я о том же.

Проблема в том, что таких решений _много_. Поддержка у них разная, одни
давно заброшены и морально устарели (если ими никто не пользуется), другие
слишком громоздкие для конкретно этой задачи. Мой вопрос как раз и состоял
в том, чтобы узнать, каким инструментом чаще всего пользуются. Он и будет
работающим и поддерживаемым.

На этот вопрос ответы были даны.

Имхо,
куда полезнее было бы доработать существующий инструмент или хотя бы
высказать свое фи в виде багрепорта. Вы же видите в этом 'дополнительные
телодвижения'. Типично потребительский подход.

Я txt2html не пользуюсь.

Я тоже много чем не пользуюсь. Тем не менее, если в процессе пробы
какого-нибудь нового для меня пакета я обнаруживаю баг -- я о нем
сообщаю, даже если моим следующим действием будет aptitude purge blabla.

Он мне не подходит. Почему это я обязан писать
багрепорт? Я просто возьму _другой_ инструмент (благо их существует
несколько десятков). Кто пользуется — тот пусть и пишет багрепорты.

Дык, это только подтверждает мои тезис о потребительском подходе.

Исправление ошибки в Lenny показывает, что кто-то всё же пользуется.

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-16 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:

Дык, отмеченное ^^^ и было сделано автором.

Не говоря уже о том, что это — худший из вариантов (самый ленивый).

На этот вопрос ответы были даны.

Дык, это только подтверждает мои тезис о потребительском подходе.

Исправление ошибки в Lenny показывает, что кто-то всё же пользуется.

Какой мне интерес исправлять программу, которой я не пользуюсь? Утилита
написана 14 лет назад, я о её существовании узнал несколько дней назад.
Кроме неё существует ещё несколько десятков аналогов в репозитарии. Если до
релиза этча ошибку не обнаружили (и в обновлениях нет) — значит пакет
относится к почти неиспользуемому и необновляемому мусору. И его ошибки —
исключительно проблема тех, кто его использует (я в их число не вхожу).

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-16 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:

On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
п╬пҐя▀п╣ пҐп╟п╣пЇпЄя▀ п©п╬п╨п╟ п╡я▀пЁп╩я▐пЄя▐я┌.

Хм… «фигня такая получается…» ;)

Теперь по существу дела.

On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
--eight_bit_clean | -8
disable Latin-1 character entity naming (default: false)

По умолчанию текст на входе предполагается в кодировке Latin-1
(независимо от локали) и на выводе преобразовывается в entities.

Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
дюжину — решает мою задачу полностью.

Понятно, что чем использовать собственный скрипт для решения общей задачи,
лучше воспользоваться уже имеющимся решением. Оно как правило уже
документировано, настраиваемо, ошибкоустойчиво, переносимо, учитывает
детали, которые могут быть пропущены при первом взгляде на проблему.
Проблема в том, что таких решений _много_. Поддержка у них разная, одни
давно заброшены и морально устарели (если ими никто не пользуется), другие
слишком громоздкие для конкретно этой задачи. Мой вопрос как раз и состоял
в том, чтобы узнать, каким инструментом чаще всего пользуются. Он и будет
работающим и поддерживаемым.

Я txt2html не пользуюсь. Он мне не подходит. Почему это я обязан писать
багрепорт? Я просто возьму _другой_ инструмент (благо их существует
несколько десятков). Кто пользуется — тот пусть и пишет багрепорты.
Исправление ошибки в Lenny показывает, что кто-то всё же пользуется.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-15 Пенетрантность Aleksey Cheusov

 А вы сами пробовали им пользоваться? Я пробовал, в результате чего и решил
 спросить здесь.
POD ?
MarkDown ?
http://en.wikipedia.org/wiki/Lightweight_markup_language ?

-- 
Best regards, Aleksey Cheusov.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:
 Вероятно, имеется ввиду, что не работает с русским текстом?
 В мане об опции -8 написано.

Разумеется. Но требование явного указания опции, чтобы отключить некоторые
неработающие умолчания настораживает.

 Какая у вас локаль и в какой кодировке сохранен файл?
 Проверил у себя, в разных вариантах, с текстом именно вашего письма:
 (локаль -- ru_RU.UTF-8)

Локаль у меня en_US.UTF-8. В ru_RU.UTF-8 тоже не работает. Использование
8-битовой кодировки прячет проблему под ковёр. Но это не наш метод — 8 бит
может не хватить, да и сбоит-то на одном из этих кодов (на \x83).

 apt-cache policy txt2html
 txt2html:
   Installed: 2.51-1

У меня в этче 2.44-4.



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Victor Wagner wrote:
On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:
А это - можно. Есть ключик -f задающий формат. Формат это в принципе
два файла format-name.specchars (символы, которые надо заменять, даже
если они считаются поддерживаемыми) и format-name.replchars -
последовательности, на которые заменять символы, не отсутствующие в
выходной кодировке
Это немного напряжно для 65534 символов. -U '%d;' было бы удобнее (или
Столько - никогда не будет.

На самом деле 65406. Исключая ещё и 128 ASCII-символов.

Особенно если учесть, что в наше время
использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
недальновидность, граничащая с преступлением, в принципе specchars
бывает всего пять '. А replchars для html вообще не интересны,
в отличие от plain-текста который надо иногда уметь смотреть на
терминалах с ограниченным числом глифов в шрифте.

Иногда нужно изменять страницы, _уже_ написанные в кодировке, отличной от
utf-8. Понятно, что при малейшей возможности следует перегонять в utf-8, но
не всегда это возможно.

задание формата для спецтокена в replchars).

Вообще-то это хорошая мысль. У меня есть там -x, который выводит
отсутствующие в replchars символы как \x. Можно сделать
-x формат, если getopt на всех поддерживаемых платформах умеет
опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.

В .catdocrc ему не место. Это ведь зависит от выходного формата. Где-то
нужно %d;, где-то \\u%04x, а где-то достаточно ?. Поэтому в
specchars/replchars или отдельный файл, зависящий от формата.

Мы уже говорили об этом.

Разумеется я имел в виду модель абзац ??? строка простого текста. Более
сложные в catdoc было бы затруднительно реализовать.

Ну так надо \n в specchars прописать. Правда, не уверен что с текущим
кодом это возможно. Надо будет подправить.

Разделять строки /p\np можно, но проблема первой и последней строк. Я
тогда лучше уж сразу sed-ом воспользуюсь.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Victor Wagner wrote:
 Не вижу принципиальной разницы между SGML (приложением которого является
 HTML) и XML.

XML легче распарсить. Дело не только в том, что сами движки парсеров XML
проще и распространённее, но использование их удобнее. Мы можем
гарантировать, что абзац не только начинается p, но и заканчивается /p,
а не одним из десятков совершенно посторонних тегов.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Mikhail Gusarov


Twas brillig at 11:08:04 13.12.2008 UTC+02 when storch...@gmail.com did gyre 
and gimble:

 SS Мы можем гарантировать, что абзац не только начинается p, но и
 SS заканчивается /p, а не одним из десятков совершенно посторонних
 SS тегов.

Это проблема парсера - построить дерево, с которым удобно
обращаться. Настоящая же проблема в том, что валидного HTML почти
не существует.

--

Re: Plain text to (x)html

2008-12-13 Пенетрантность Иван Лох

On Sat, Dec 13, 2008 at 03:07:04PM +0600, Mikhail Gusarov wrote:

Twas brillig at 11:08:04 13.12.2008 UTC+02 when storch...@gmail.com did gyre
and gimble:

SS Мы можем гарантировать, что абзац не только начинается p, но и
SS заканчивается /p, а не одним из десятков совершенно посторонних
SS тегов.

Это проблема парсера - построить дерево, с которым удобно
обращаться. Настоящая же проблема в том, что валидного HTML почти
не существует.

Проблемы есть и с валидным (X)HTML. Типичная проблема -- (решенная, кстати,
в XHTML2) разбиение текста на разделы. Что может быть проще -- сгенерировать
оглавление для структурированного языка разметки? Не для HTML... A 101
способ сделать footnote в HTML?

HTML умеренно хорош для того чтобы его бегло прочитать. Он даже как язык
разметки плох, раз до сих пор его распечатать в приличном качестве невозможно.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Mikhail Gusarov wrote:
 Twas brillig at 11:08:04 13.12.2008 UTC+02 when storch...@gmail.com did
 gyre and gimble:
  SS Мы можем гарантировать, что абзац не только начинается p, но и
  SS заканчивается /p, а не одним из десятков совершенно посторонних
  SS тегов.
 
 Это проблема парсера - построить дерево, с которым удобно
 обращаться. Настоящая же проблема в том, что валидного HTML почти
 не существует.

Я имею в виду потоковый SAX-парсер. Как мы будем хранить разбираемую
информацию, и будем ли вообще хранить её всю — это наше дело.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Mikhail Gusarov


Twas brillig at 11:51:57 13.12.2008 UTC+02 when storch...@gmail.com did gyre 
and gimble:

 SS Я имею в виду потоковый SAX-парсер.

Да неважно. Затолкать всю логику об абзацах можно и в SAX. Пусть он не
тэги как есть выдаёт, а некую интерпретацию.

--

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Mikhail Gusarov wrote:
 Twas brillig at 11:51:57 13.12.2008 UTC+02 when storch...@gmail.com did
 gyre and gimble:
  SS Я имею в виду потоковый SAX-парсер.
 Да неважно. Затолкать всю логику об абзацах можно и в SAX. Пусть он не
 тэги как есть выдаёт, а некую интерпретацию.

Ну так я же об этом и говорю. С XML мы имеем событие «конец абзаца» и можем
его обработать. С SGML — нет.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Stanislav Maslovski

On Sat, Dec 13, 2008 at 10:19:29AM +0200, Serhiy Storchaka wrote:
Stanislav Maslovski wrote:
Вероятно, имеется ввиду, что не работает с русским текстом?
В мане об опции -8 написано.

Разумеется. Но требование явного указания опции, чтобы отключить некоторые
неработающие умолчания настораживает.

Можно поподробнее о неработающих умолчаниях? Ибо беспредметно как-то
оные наезды пока выглядят.

Какая у вас локаль и в какой кодировке сохранен файл?
Проверил у себя, в разных вариантах, с текстом именно вашего письма:
(локаль -- ru_RU.UTF-8)

Локаль у меня en_US.UTF-8. В ru_RU.UTF-8 тоже не работает. Использование
8-битовой кодировки прячет проблему под ковёр.

Замечу, что я не предлагал использовать 8-ми битную кодировку, я лишь
убеждался, что в lenny txt2html работает как с текстом в utf-8, так и
в koi8-r.

Но это не наш метод — 8 бит может не хватить, да и сбоит-то на одном
из этих кодов (на \x83).

Не наш.

apt-cache policy txt2html
txt2html:
Installed: 2.51-1

У меня в этче 2.44-4.

Что мешает обновить версию? Сильно подозреваю, что пакет из lenny
встанет на etch безо всяких дополнительных телодвижений
(в зависимостях там perl = 5.6).

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Artem Chuprina

Serhiy Storchaka - debian-russian@lists.debian.org  @ Sat, 13 Dec 2008 
11:00:12 +0200:

   А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
   два файла format-name.specchars (символы, которые надо заменять, даже
   если они считаются поддерживаемыми) и format-name.replchars -
   последовательности, на которые заменять символы, не отсутствующие в
   выходной кодировке
  Это немного напряжно для 65534 символов. -U '%d;' было бы удобнее (или
  Столько - никогда не будет.

 SS На самом деле 65406. Исключая ещё и 128 ASCII-символов.

Если уж на то пошло, то в Unicode ни разу не 65534 символов.  И даже в
UCS-2 их не столько...  В Unicode больше, а в UCS-2 меньше.

-- 
Artem Chuprina
RFC2822: ran{}ran.pp.ru Jabber: r...@jabber.ran.pp.ru

Intel - тоже Сильмарилл. Только сделанный не так...


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:
 On Sat, Dec 13, 2008 at 10:19:29AM +0200, Serhiy Storchaka wrote:
 Stanislav Maslovski wrote:
  п▓п╣я─п╬я▐я┌пҐп╬, п╦п╪п╣п╣я┌я│я▐ п╡п╡п╦пЄя┐, я┤я┌п╬ пҐп╣ я─п╟п╠п╬я┌п╟п╣я┌ 
  я│ я─я┐я│я│п╨п╦п╪ я┌п╣п╨я│я┌п╬п╪?
  п▓ п╪п╟пҐп╣ п╬п╠ п╬п©я├п╦п╦ -8 пҐп╟п©п╦я│п╟пҐп╬.
 п═п╟пЇя┐п╪п╣п╣я┌я│я▐. п²п╬ я┌я─п╣п╠п╬п╡п╟пҐп╦п╣ я▐п╡пҐп╬пЁп╬ 
 я┐п╨п╟пЇп╟пҐп╦я▐ п╬п©я├п╦п╦, я┤я┌п╬п╠я▀ п╬я┌п╨п╩я▌я┤п╦я┌я▄
 пҐп╣п╨п╬я┌п╬я─я▀п╣ пҐп╣я─п╟п╠п╬я┌п╟я▌я┴п╦п╣ я┐п╪п╬п╩я┤п╟пҐп╦я▐ 
 пҐп╟я│я┌п╬я─п╟пІп╦п╡п╟п╣я┌.
 п°п╬пІпҐп╬ п©п╬п©п╬пЄя─п╬п╠пҐп╣п╣ п╬ пҐп╣я─п╟п╠п╬я┌п╟я▌я┴п╦я┘ 
 я┐п╪п╬п╩я┤п╟пҐп╦я▐я┘? п≤п╠п╬ п╠п╣я│п©я─п╣пЄп╪п╣я┌пҐп╬ п╨п╟п╨-я┌п╬
 п╬пҐя▀п╣ пҐп╟п╣пЇпЄя▀ п©п╬п╨п╟ п╡я▀пЁп╩я▐пЄя▐я┌.

   --eight_bit_clean | -8
   disable Latin-1 character entity naming (default: false)

п÷п╬ я┐п╪п╬п╩я┤п╟пҐп╦я▌ я┌п╣п╨я│я┌ пҐп╟ п╡я┘п╬пЄп╣ п©я─п╣пЄп©п╬п╩п╟пЁп╟п╣я┌я│я▐ 
п╡ п╨п╬пЄп╦я─п╬п╡п╨п╣ Latin-1 (пҐп╣пЇп╟п╡п╦я│п╦п╪п╬
п╬я┌ п╩п╬п╨п╟п╩п╦) п╦ пҐп╟ п╡я▀п╡п╬пЄп╣ п©я─п╣п╬п╠я─п╟пЇп╬п╡я▀п╡п╟п╣я┌я│я▐ п╡ 
entities.

  apt-cache policy txt2html
  txt2html:
Installed: 2.51-1
 пё п╪п╣пҐя▐ п╡ я█я┌я┤п╣ 2.44-4.
 пїя┌п╬ п╪п╣я┬п╟п╣я┌ п╬п╠пҐп╬п╡п╦я┌я▄ п╡п╣я─я│п╦я▌? п║п╦п╩я▄пҐп╬ 
 п©п╬пЄп╬пЇя─п╣п╡п╟я▌, я┤я┌п╬ п©п╟п╨п╣я┌ п╦пЇ lenny
 п╡я│я┌п╟пҐп╣я┌ пҐп╟ etch п╠п╣пЇп╬ п╡я│я▐п╨п╦я┘ пЄп╬п©п╬п╩пҐп╦я┌п╣п╩я▄пҐя▀я┘ 
 я┌п╣п╩п╬пЄп╡п╦пІп╣пҐп╦п╧
 (п╡ пЇп╟п╡п╦я│п╦п╪п╬я│я┌я▐я┘ я┌п╟п╪ perl = 5.6).
п═п╟пЇп╠п╬я─ п╡я│я▐п╨п╦я┘ п╠п╟пЁп╬п╡ txt2html, п©п╬п╦я│п╨ п╦ 
п©п╬я─я┌п╦я─п╬п╡п╟пҐп╦п╣ п╡п╣я─я│п╦п╦, пЁпЄп╣ п╬пҐп╦
п╦я│п©я─п╟п╡п╩п╣пҐя▀, п©п╬пЄпЄп╣я─пІп╨п╟ я█я┌п╬пЁп╬б═Б─■ я█я┌п╬ п╦ п╣я│я┌я▄ 
пЄп╬п©п╬п╩пҐп╦я┌п╣п╩я▄пҐя▀п╣ я┌п╣п╩п╬пЄп╡п╦пІп╣пҐп╦я▐.

п║п╨я─п╦п©я┌ пҐп╟ п©п╬п╩пЄя▌пІп╦пҐя┐ я│я┌я─п╬п╨ пЄп╣п╩п╟п╣я┌ п╡я│я▒, я┤я┌п╬ 
п╪пҐп╣ пҐя┐пІпҐп╬ п╬я┌ txt2html, п╟ пҐп╟
пЄя▌пІп╦пҐя┐б═Б─■ я─п╣я┬п╟п╣я┌ п╪п╬я▌ пЇп╟пЄп╟я┤я┐ п©п╬п╩пҐп╬я│я┌я▄я▌.

#!/bin/sed -f
s//\amp;/g
s//\lt;/g
s//\gt;/g
s/ \+$//
s/\(^\| \) \+/\1/g
s/\(^\| \)/\1Â«/g
s/\([ ,.!?]\|$\)/Â»\1/g
s/^\(-\{1,3\}\|â\|â\) /âÂ /
s/ \(-\{1,3\}\|â\|â\)\( \|$\)/Â â\2/g
s/^.*$/p\/p/

Re: Plain text to (x)html

2008-12-13 Пенетрантность Serhiy Storchaka

Artem Chuprina wrote:
 Serhiy Storchaka - debian-russian@lists.debian.org  @ Sat, 13 Dec 2008
 11:00:12 +0200:
   Это немного напряжно для 65534 символов. -U '%d;' было бы удобнее
   (или
   Столько - никогда не будет.
  SS На самом деле 65406. Исключая ещё и 128 ASCII-символов.
 Если уж на то пошло, то в Unicode ни разу не 65534 символов.  И даже в
 UCS-2 их не столько...  В Unicode больше, а в UCS-2 меньше.

65534 — количество символов, поддерживаемых catdoc.



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Victor Wagner

On 2008.12.12 at 13:02:50 +0200, Serhiy Storchaka wrote:

А кто чем пользуется, если нужно оформить несколько абзацов текста в виде
(x)html? Возможно не своего.

Требуемая функциональность ??? замена спецсимволов (, , ,..) и
неподдерживаемых в выходной кодировке символов на соответствующие коды,
оформление абзацев, замена нескольких дефисов на тире, а знаков дюйма на
кавычки, вставка где нужно неразрывных пробелов. Прочее оформление не
обязательно.

Если несколько абзацев - то командой глобальной замены в текстовом
редакторе.

Похоже, что написание скрипта выйдет быстрее, чем испытание нескольких
десятков имеющихся пакетов, декларирующих аналогичные функции (на самом
деле большинство из них неприменимы). Но наверняка эта задача иногда встаёт
перед большинством подписчиков. Кто как её решает?

Большую часть задачи решил бы catdoc, если бы можно было указывать формат
вывода неподдерживаемых символов

А это - можно. Есть ключик -f задающий формат. Формат это в принципе
два файла format-name.specchars (символы, которые надо заменять, даже
если они считаются поддерживаемыми) и format-name.replchars -
последовательности, на которые заменять символы, не отсутствующие в
выходной кодировке

и обрабатывать события начала/конца
строки.

А это нельзя. В той модели текста, которой придерживается Word и вокруг
которой написан catdoc, понятие строки практически отсутствует.
Минимальной логической единицей текста является абзац.

Впрочем, в HTML модель текста похожая.

На самом деле в поставку catdoc до сих пор не входят файлы
html.specchars и html.replchars только потому, что из-за особенностей
вордового представления таблиц в текущей модели парсинга не удалось
корректно детектировать начало таблицы.
А без поддержи таблиц конвертировать в html как-то неинтересно.
Ну и еще шрифтовые выделения не ловятся.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Plain text to (x)html

2008-12-12 Пенетрантность Serhiy Storchaka

А кто чем пользуется, если нужно оформить несколько абзацов текста в виде
(x)html? Возможно не своего.

Требуемая функциональность — замена спецсимволов (, , ,..) и
неподдерживаемых в выходной кодировке символов на соответствующие коды,
оформление абзацев, замена нескольких дефисов на тире, а знаков дюйма на
кавычки, вставка где нужно неразрывных пробелов. Прочее оформление не
обязательно.

Большую часть задачи решил бы catdoc, если бы можно было указывать формат
вывода неподдерживаемых символов и обрабатывать события начала/конца
строки.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Stanislav Maslovski

On Fri, Dec 12, 2008 at 01:02:50PM +0200, Serhiy Storchaka wrote:
А кто чем пользуется, если нужно оформить несколько абзацов текста в виде
(x)html? Возможно не своего.

Мм. Почему бы Вам не взлянуть на txt2html для начала? Весьма настраивается,
написан на perl.

--
Stanislav

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Serhiy Storchaka

Stanislav Maslovski wrote:
 Мм. Почему бы Вам не взлянуть на txt2html для начала? Весьма
 настраивается, написан на perl.

А вы сами пробовали им пользоваться? Я пробовал, в результате чего и решил
спросить здесь. Первая неприятность — что совершенно не работает по
умолчанию, без опций. С помощью опций -8 и -xhtml можно получить нечто
условно читаемое, но не совсем. Моё письмо преобразует к виду:
 pА кто чем польз�emf/emется, если н�emf/emжно оформить несколько
абзацов текста в виде
 (x)html? Возможно не своего.
 /p



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Serhiy Storchaka

Victor Wagner wrote:
Если несколько абзацев - то командой глобальной замены в текстовом
редакторе.

Если их совсем несколько — то проще вручную (и клавиша Compose при наборе).
Но если понемногу, но по несколько раз в месяц, то после десятого раза таки
доходит, что быстрее автоматизировать.

Большую часть задачи решил бы catdoc, если бы можно было указывать формат
вывода неподдерживаемых символов

Это немного напряжно для 65534 символов. -U '%d;' было бы удобнее (или
задание формата для спецтокена в replchars).

и обрабатывать события начала/конца
строки.

Впрочем, в HTML модель текста похожая.

Разумеется я имел в виду модель абзац — строка простого текста. Более
сложные в catdoc было бы затруднительно реализовать.

Как-то ведь antiword это делает.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Victor Wagner

On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:

Это немного напряжно для 65534 символов. -U '%d;' было бы удобнее (или

Столько - никогда не будет. Особенно если учесть, что в наше время
использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
недальновидность, граничащая с преступлением, в принципе specchars
бывает всего пять '. А replchars для html вообще не интересны,
в отличие от plain-текста который надо иногда уметь смотреть на
терминалах с ограниченным числом глифов в шрифте.

задание формата для спецтокена в replchars).

Ну так надо \n в specchars прописать. Правда, не уверен что с текущим кодом это
возможно. Надо будет подправить.

Как-то ведь antiword это делает.

Так там совсем другая модель парсинга. Мне очень не хочется лишаться
ключика -b, который в некоторых случаях является единственным шансом
спасти хотя бы часть информации из поврежденного файла. Поэтому я уже
десять лет цепляюсь за потоковый парсинг.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Mikhail Gusarov


Twas brillig at 22:46:21 12.12.2008 UTC+03 when vi...@wagner.pp.ru did gyre and 
gimble:

 VW если учесть, что в наше время использование в html, а тем более в
 VW xhtml кодировок, отличных от utf-8 - недальновидность, граничащая с
 VW преступлением,

С чего это?

--

Re: Plain text to (x)html

2008-12-12 Пенетрантность Stanislav Maslovski

On Fri, Dec 12, 2008 at 08:39:42PM +0200, Serhiy Storchaka wrote:
 Stanislav Maslovski wrote:
  Мм. Почему бы Вам не взлянуть на txt2html для начала? Весьма
  настраивается, написан на perl.
 
 А вы сами пробовали им пользоваться? Я пробовал, в результате чего и решил
 спросить здесь. Первая неприятность — что совершенно не работает по
 умолчанию, без опций.

Вероятно, имеется ввиду, что не работает с русским текстом?
В мане об опции -8 написано.

 С помощью опций -8 и -xhtml можно получить нечто
 условно читаемое, но не совсем. Моё письмо преобразует к виду:
  pА кто чем польз�emf/emется, если н�emf/emжно оформить несколько
 абзацов текста в виде
  (x)html?

Какая у вас локаль и в какой кодировке сохранен файл?
Проверил у себя, в разных вариантах, с текстом именно вашего письма:
(локаль -- ru_RU.UTF-8)

cat mail | txt2html -8 -xhtml | less
cat mail | iconv -t koi8-r | txt2html -8 -xhtml | iconv -f koi8-r | less
cat mail | txt2html -8 | w3m -T text/html
cat mail | iconv -t koi8-r | txt2html -8 | iconv -f koi8-r | w3m -T text/html

Проблем не вижу.

apt-cache policy txt2html
txt2html:
  Installed: 2.51-1
  Candidate: 2.51-1
  Version table:
 *** 2.51-1 0
900 http://ftp.fi.debian.org lenny/main Packages
100 http://ftp.fi.debian.org unstable/main Packages
100 /var/lib/dpkg/status   

-- 
Stanislav


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Иван Лох

Twas brillig at 22:46:21 12.12.2008 UTC+03 when vi...@wagner.pp.ru did gyre and 
gimble:

 если учесть, что в наше время использование в html, а тем более в
 xhtml кодировок, отличных от utf-8 - недальновидность, граничащая с
 преступлением,
 

Мне кажется Вы не вполне правы. Мне, например, кажется, что преступление
использовать html для хранения информации. А если это лишь представление -- то
оно может быть любым.

Насчет XML согласился бы на 200%


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Victor Wagner

On 2008.12.12 at 22:58:34 +0300, Иван Лох wrote:

Twas brillig at 22:46:21 12.12.2008 UTC+03 when vi...@wagner.pp.ru did gyre
and gimble:

если учесть, что в наше время использование в html, а тем более в
xhtml кодировок, отличных от utf-8 - недальновидность, граничащая с
преступлением,

Мне кажется Вы не вполне правы. Мне, например, кажется, что преступление
использовать html для хранения информации. А если это лишь представление -- то

Я вот как раз считаю, что хранение информации в html имеет уйму
преимуществ перед рядом других способов. Во всяком случае, мы можем быть
уверены, что прочитать эту информацию можно под любой операционной
системой. См соображения по выбору формата в проекте Гуттенберг. Там
остановились на plain ascii text. Но html представляет собой крайне
полезное расширение plain text, позволяющее
1. Явно указать кодировку (хотя XML тут лучше)
2. Хранить кучу информации форматировании (а вот тут XML не помошник.
Точнее, нужен не просто XML, а некая конкретная схема - XHTML,
FictionBook, DocBook), метаинформации и т.д..

Во всяком случае, это явно лучше, чем хранить информацию в бинарных
файлах БД, формат которых может измениться даже в следующей
minor-версии, и ничем кроме соответствющей версии соотвествующего
сервера БД её не прочитаешь.

Понятно, что есть случаи, когда БД нужна для ОБРАБОТКИ данных. Но тогда
где-то рядом должен регулярно делаться бэкап в более удобочитемом
формате. Хотя бы в виде набора SQL-ных insert-ов.

оно может быть любым.

Насчет XML согласился бы на 200%

Не вижу принципиальной разницы между SGML (приложением которого является
HTML) и XML.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Иван Лох

On Fri, Dec 12, 2008 at 11:59:40PM +0300, Victor Wagner wrote:
On 2008.12.12 at 22:58:34 +0300, Иван Лох wrote:
использовать html для хранения информации. А если это лишь представление --
то

Насчет XML согласился бы на 200%

Не вижу принципиальной разницы между SGML (приложением которого является
HTML) и XML.

XML в отличии от HTML можно распарсить. Адекватных парсеров HTML я не видел.
Поэтому, в сочетании с разумной схемой, XML позволяет не только хранить кучу
метаинформации (для этого и в HTML есть костыль), но и упрощает валидацию и
позволяет простую трансформацию в произвольный формат посредством XSLT.

XHTML это _неразумная_ для хранения данных схема. (XHTML2 лучше, кстати)

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Victor Wagner

On 2008.12.13 at 00:14:40 +0300, Иван Лох wrote:

XML в отличии от HTML можно распарсить. Адекватных парсеров HTML я не видел.

Вообще-то адекватных парсеров SGML сколько угодно. И корректный HTML они
прекрасно парсят. Монстрообразность браузерных движков объясняется в
основном тем, что большая часть HTML, существующего в природе, является
некорректным.

Поэтому, в сочетании с разумной схемой, XML позволяет не только хранить кучу
метаинформации (для этого и в HTML есть костыль), но и упрощает валидацию и
позволяет простую трансформацию в произвольный формат посредством XSLT.

XHTML это _неразумная_ для хранения данных схема. (XHTML2 лучше, кстати)

Разумность схемы, вещь, конечно хорошая. Но глубоко не обязательная.
Большая часть существующих вокруг нас языков отнюдь не дизайнились по
разумным схемам, а складывались исторически. HTML - в том числе.

Его неразумность компенсируется распространенностью и широкоизвстность.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org

Re: Plain text to (x)html

2008-12-12 Пенетрантность Mikhail Gusarov


Twas brillig at 00:19:44 13.12.2008 UTC+03 when vi...@wagner.pp.ru did gyre and 
gimble:

 VW Его неразумность компенсируется распространенностью и
 VW широкоизвстность.

И нивелируется некорректностью около 100% существующих документов на
этом языке.

--

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

Re: Plain text to (x)html

33 matches

Site Navigation

Mail list logo

Footer information