Hello,

2014-02-02 Cédric BRINER <[email protected]>:
> Salut,
>
> Je souhaite trouver une solution me permettant de faire une reconnaissance
> de caractère sur des documents PDF issue d'une numérisation.
>
> Mon but ultime étant de pouvoir me débarrasser de mes dossiers suspendus et
> de passer à une situation entièrement numérique.
>
> J'ai fait une partie de mes devoirs en regardant ce qu'il y avait sur le
> net. J'ai trouvé:
> [...]
> scan-archive.sh: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
> ce petit script paraît pas mal du tout. Le seul hic, c'est qu'il fonctionne
> seulement avec un pdf issue d'une numérisation d'une seule page. Mais au vu 
> de la taille du script 26 ligne, je me dis que ça ne devrait pas être super 
> compliqué à modifier.

Vite fait (mal fait), il suffirait de lancer ce script sur tous les
fichiers résultants d'un pdftk mon_doc.pdf burst; et de finir par un
pdftk *.pdf cat output mon_sdoc.pdf pour les remettre ensemble.

> Mais je n'ai toujours pas trouvé une solution qui tourne bien.
>
> Est-ce que l'un de vous dans sa grande générosité aurait un lien, un script,
> un truc qui fonctionne et qui soit éprouvé.

Si le but est de gérer de la paperasse, il y a Paperwork qui scanne et
effectue une reconnaissance de charactères sur les documents numérisés
:
https://github.com/jflesch/paperwork#readme

Il permet d'importer des PDFs existants, mais je ne crois pas qu'il
génère de fichiers SPDF directement à partir de ces derniers. L'idée
est plus de pouvoir directement effectuer des recherches dans un
ensemble de fichiers indexés.

Bonne chance,
Thibault
_______________________________________________
gull mailing list
[email protected]
http://forum.linux-gull.ch/mailman/listinfo/gull

Répondre à