On Mon, 2009-04-20 22:00:13 +0200, Martin Heggemann <[email protected]> wrote:
> Am Wed, 15 Apr 2009 19:19:37 +0200 schrieb Jan-Benedict Glaw 
> <[email protected]>:
> in einer anderen Mail hast Du geschrieben:
> Zitat:   "Ich hab' mittlerweile auch aus zwei großen Scan-Serien 
> tolle PDFs erzeugt, mitsamt dahinterliegendem Text, der such- und 
> cut'n'paste-bar ist."   Zitatende
> 
> Beschreib' doch mal bitte, wie du's nun gelöst hast!

Ich habe /n/ multi-page TIFFs im A4-Portrait-Format, 600dpi. Jede
Seite enthält zwei A5-Seiten, dementsprechend sind die um 90° gedreht.

Der Workflow ist also:

multi-page TIFFs -> single-page TIFFs (via tiffsplit)
single-page TIFF -> PBM (via convert)
PBM drehen und in Einzelseiten zerschneiden (via unpaper)
Einzelseiten OCRen (via ocroscript rec-tess)
Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via 
convert, tiffset)
OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py)
Einzelseiten-PDFs zum Buch machen (pdftk)

Bis auf HocrConverter.py gibts alles fertig im Debian-Repo; das
HocrConverter.py-Script gibts hier:
http://xplus3.net/2009/04/02/convert-hocr-to-pdf/#more-207

> > Jetzt wärs noch schön, wenn das alles schon als Debian-Pakete
> > vorhanden wär'...
> 
> Hast Du u.U. vom OCR-Programm ein *.deb gebaut, das Du zur Verfügung 
> stellen könntest?

ocropus und tesseract gibts beide apt-get install'ierbar als DEBs.

Im Anhang ist mal das Script, das den obrigen Workflow implementiert.
Erwartet *.tiff im aktuellen Verzeichnis und braucht im Moment noch
ein paar Anpassungen oben (Sprache, Auflösung und Position von
HocrConverter.py .  Auflösung könnte man auch direkt aus den initialen
TIFFs holen.)

MfG, JBG

-- 
      Jan-Benedict Glaw      [email protected]              +49-172-7608481
Signature of:  The course of history shows that as a government grows, liberty
the second  : decreases."  (Thomas Jefferson)

Attachment: 2_landscape_a5_pages_per_portrait_a4_page.sh
Description: Bourne shell script

Attachment: signature.asc
Description: Digital signature

--
Linux mailing list [email protected]
subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux
Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo

Antwort per Email an