On Mon, 2009-04-20 22:00:13 +0200, Martin Heggemann <[email protected]> wrote: > Am Wed, 15 Apr 2009 19:19:37 +0200 schrieb Jan-Benedict Glaw > <[email protected]>: > in einer anderen Mail hast Du geschrieben: > Zitat: "Ich hab' mittlerweile auch aus zwei großen Scan-Serien > tolle PDFs erzeugt, mitsamt dahinterliegendem Text, der such- und > cut'n'paste-bar ist." Zitatende > > Beschreib' doch mal bitte, wie du's nun gelöst hast!
Ich habe /n/ multi-page TIFFs im A4-Portrait-Format, 600dpi. Jede Seite enthält zwei A5-Seiten, dementsprechend sind die um 90° gedreht. Der Workflow ist also: multi-page TIFFs -> single-page TIFFs (via tiffsplit) single-page TIFF -> PBM (via convert) PBM drehen und in Einzelseiten zerschneiden (via unpaper) Einzelseiten OCRen (via ocroscript rec-tess) Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via convert, tiffset) OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py) Einzelseiten-PDFs zum Buch machen (pdftk) Bis auf HocrConverter.py gibts alles fertig im Debian-Repo; das HocrConverter.py-Script gibts hier: http://xplus3.net/2009/04/02/convert-hocr-to-pdf/#more-207 > > Jetzt wärs noch schön, wenn das alles schon als Debian-Pakete > > vorhanden wär'... > > Hast Du u.U. vom OCR-Programm ein *.deb gebaut, das Du zur Verfügung > stellen könntest? ocropus und tesseract gibts beide apt-get install'ierbar als DEBs. Im Anhang ist mal das Script, das den obrigen Workflow implementiert. Erwartet *.tiff im aktuellen Verzeichnis und braucht im Moment noch ein paar Anpassungen oben (Sprache, Auflösung und Position von HocrConverter.py . Auflösung könnte man auch direkt aus den initialen TIFFs holen.) MfG, JBG -- Jan-Benedict Glaw [email protected] +49-172-7608481 Signature of: The course of history shows that as a government grows, liberty the second : decreases." (Thomas Jefferson)
2_landscape_a5_pages_per_portrait_a4_page.sh
Description: Bourne shell script
signature.asc
Description: Digital signature
-- Linux mailing list [email protected] subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
