Le Sat, 20 Aug 2011 18:19:02 +0200,
jdd <[email protected]> a écrit :
> est-ce que vous connaissez un bon programme d'ocr en français?
>
> pour l'instant j'ai gocr et le résultat n'est pas terrible. Je ne
> vois nulle part où le configurer.
>
> Notez que ce que je lui demande est très difficile (original ancien
> tapé à la machine), mais mes résulats ressemblent quand même à un
> décalage iso-utf8
>
> merci
> jdd
Bonjour,
en premier essaye d'employer tesseract ...
paquets :
apt-cache search tesseract
tesseract-ocr - Command line OCR tool
tesseract-ocr-fra - tesseract-ocr language files for French text
remarque :
suivant l'état des documents une passe s'avère nécessaire et la
solution se nomme :
-a) imagemagick
-b) gimp ( gimp-console & script Fu )
lien pour les différentes phases :
http://www.imagemagick.org/script/convert.php
http://docs.gimp.org/en/gimp-using-script-fu-tutorial.html
http://fr.wikipedia.org/wiki/Tesseract_(logiciel)
script pour reprendre les images :
for img in ` tree |grep jpg |awk '{print $2}' |xargs`
do
convert -density 300 $img small-$img
done
conclusion (reprise du post) :
rechercher un post sur debian user french ayant trait à un sujet
similaire ....
date : Fri, 1 Jul 2011 20:20:50 +0200
sujet : convert et noms des fichiers
liste : debian user french
répondu également à Patrick carabin pour ce sujet ...
slt
bernard
-----------------------------------------------------------------
Les listes de diffusion du CULTe - Pour une informatique libre
http://www.CULTe.org/listes/
Pour se desabonner:
mailto:[email protected]?subject=Cliquez_sur_ENVOYER