gscan2pdf permet de scanner un document, de reconnaître les caractères grâce à tesseract et finalement de sauvegarder un PDF. Je n'ai par contre pas compris si tu comptes convertir des pdfs existants en PDF indexés ou seulement des numérisations "fraîches". Dans le premier cas, la solution pourrait être de convertir le PDF original en image, de lancer tesseract dessus et de sauvegarder en PDF.
Peut être que ça peut t'aider dans tes recherches. On 3 Feb 2014 21:07, "Yann Lehmann" <[email protected]> wrote: > > On 02. 02. 14 23:15, Thibault North wrote: > >> Hello, >> >> 2014-02-02 Cédric BRINER <[email protected]>: >> >>> Salut, >>> >>> Je souhaite trouver une solution me permettant de faire une >>> reconnaissance >>> de caractère sur des documents PDF issue d'une numérisation. >>> >>> > Au risque de répondre à côté de la plaque, il me semble que 'pdfocr' > permet de numériser des documents au format pdf, d'effectuer une > reconnaissance de caractère, puis de "fusionner" le texte reconnu avec le > pdf original, pour un faire un pdf indexable: > > http://ubuntuforums.org/showthread.php?t=1456756 > > Il me semblait avoir vu un autre script faisant la même chose, > malheureusement, je n'arrive pas à retrouver ma note. > > Je n'ai pas encore eu l'occasion d'essayer un ou l'autre de ces outils, > aussi, je ne sais pas ce qu'ils valent. > _______________________________________________ > gull mailing list > [email protected] > http://forum.linux-gull.ch/mailman/listinfo/gull >
_______________________________________________ gull mailing list [email protected] http://forum.linux-gull.ch/mailman/listinfo/gull
