Hello, 2014-02-02 Cédric BRINER <[email protected]>: > Salut, > > Je souhaite trouver une solution me permettant de faire une reconnaissance > de caractère sur des documents PDF issue d'une numérisation. > > Mon but ultime étant de pouvoir me débarrasser de mes dossiers suspendus et > de passer à une situation entièrement numérique. > > J'ai fait une partie de mes devoirs en regardant ce qu'il y avait sur le > net. J'ai trouvé: > [...] > scan-archive.sh: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/ > ce petit script paraît pas mal du tout. Le seul hic, c'est qu'il fonctionne > seulement avec un pdf issue d'une numérisation d'une seule page. Mais au vu > de la taille du script 26 ligne, je me dis que ça ne devrait pas être super > compliqué à modifier.
Vite fait (mal fait), il suffirait de lancer ce script sur tous les fichiers résultants d'un pdftk mon_doc.pdf burst; et de finir par un pdftk *.pdf cat output mon_sdoc.pdf pour les remettre ensemble. > Mais je n'ai toujours pas trouvé une solution qui tourne bien. > > Est-ce que l'un de vous dans sa grande générosité aurait un lien, un script, > un truc qui fonctionne et qui soit éprouvé. Si le but est de gérer de la paperasse, il y a Paperwork qui scanne et effectue une reconnaissance de charactères sur les documents numérisés : https://github.com/jflesch/paperwork#readme Il permet d'importer des PDFs existants, mais je ne crois pas qu'il génère de fichiers SPDF directement à partir de ces derniers. L'idée est plus de pouvoir directement effectuer des recherches dans un ensemble de fichiers indexés. Bonne chance, Thibault _______________________________________________ gull mailing list [email protected] http://forum.linux-gull.ch/mailman/listinfo/gull
