On Sat, 19 Nov 2016 18:13:18 +0100
Agnès Simonet <[email protected]> wrote:

> Bonjour,
> 
> Je suis en train de taper un texte à partir d'un livre du site
> Gallica, qui contient beaucoup de dialogues. Je dispose de la version
> scannée, qui me sert de référence, et du document txt que je corrige
> et mets en forme.
> Dans le scan original, les noms des intervenants contiennent des 
> majuscules et des petites majuscules. Par exemple ACHILE TALON : le A
> de ACHILE et le T de TALON sont en majuscules et le reste (CHILE et
> ALON) en petites minuscules.
> Pour la mise en forme avec Writer j'utilise le style de caractères
> par défaut pour le A et T en majuscule et un style de caractère avec
> une police de taille 80% pour simuler les petites majuscules. [ce
> document sera ensuite converti en epub et la plupart des liseuses ne
> gèrent pas les petites majuscules, d'où ma technique]. J'ai
> enregistré cet ACHILLE TALON correctement formaté en auto-texte. Idem
> pour les autres intervenants des dialogues.
> 
> Evidemment,dans le document texte,tout est en majuscules.
> Donc je sélectionne ACHILE TALON, ou ses compères, et fait ma mise en 
> forme en utilisant des autotextes enregistrés avec les bons styles.
> C'est très long (il y en a des milliers).
> 
> Je cherche à automatiser cette opération.
> Je ne vois pas de méthode par rechercher/remplacer, les précisions
> sur les formats de caractères n'étant pas utilisables.
> Quelqu'un aurait-il une idée ?
> 
> Agnès S.

bonjour,

    puisque vous êtes sous linux pourquoi ne pas employer tesseract ocr
    et sed ?

    slt
    bernard

--
bernard schoenacker <[email protected]>

-- 
Envoyez un mail à [email protected] pour savoir comment vous 
désinscrire
Les archives de la liste sont disponibles à 
http://listarchives.libreoffice.org/fr/users/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne 
pourront pas être supprimés

Répondre à