Con qualche software ed un po' di scripting riesci a fare quello che cerchi. Io seguirei un procedimento del genere usando il formato DJVU[1]
- Scansionare i documenti o ricavarli da qualche altra fonte - Usare imagemagick[2] per sistemare le immagini, regolando un po' il contrasto ed eventualmente rendere il tutto in bianco e nero puro (2 colori, non in scala grigi) - Con la suite djvulibre[3] convertire le immagini in file DJVU ottenendo così dei documenti di piccolissime dimensioni ottimi (secondo me) per essere archiviati - Con tesseract[4] eseguire un riconoscimento OCR e nuovamente djvulibre per unire il tutto con i file DJVU. Se vuoi lavorare con file PDF esiste un tool (che non ho mai usato) di nome pdfsandwich che appoggiandosi a tesseract, esegue e crea dei file PDF con testo ricavato tramite OCR. Non ho comandi già pronti da dare, dipende tutto dal tipo di file in tuo possesso. Dovrai perdere un po' di tempo nel cercare le opzioni migliori, la documentazione di djvulibre ed imagemagik[5] è molto buona, non aver paura. Imagemagik crea anche file PDF partendo dalle immagini, devi regolare però tutte le opzioni del caso per evitare di ritrovarti con file di dimensioni mostruose. link utili http://www.tobias-elze.de/pdfsandwich/index.html http://en.wikisource.org/wiki/Help:DjVu_files http://en.wikisource.org/wiki/Help:DjVu_files/OCR_with_Tesseract http://infrid.com/blog/2011/04/02/appunti-sullo-scanrip.html [1] http://it.wikipedia.org/wiki/DjVu [2] https://packages.debian.org/wheezy/imagemagick [3] https://packages.debian.org/wheezy/djvulibre-bin [4] https://packages.debian.org/wheezy/tesseract-ocr [5] http://www.imagemagick.org/Usage/ Infrid -- Per REVOCARE l'iscrizione alla lista, inviare un email a [email protected] con oggetto "unsubscribe". Per problemi inviare un email in INGLESE a [email protected] To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected] Archive: https://lists.debian.org/[email protected]

