On Tue, 2009-04-21 10:40:45 +0200, Jan-Benedict Glaw <[email protected]> wrote: > Der Workflow ist also: > > multi-page TIFFs -> single-page TIFFs (via tiffsplit) > single-page TIFF -> PBM (via convert) > PBM drehen und in Einzelseiten zerschneiden (via unpaper) > Einzelseiten OCRen (via ocroscript rec-tess)
Hier brauchts einen Trick. Ich hab' zugeflüstert bekommen, daß da ein
Bug ist, der dazu führt, daß ocroscript die gewählte Sprache nicht
richtig an tesseract durchreicht.
Das schlechte OCR-Ergebnis (im Vergleich zu per-hand aufgerufen) war
mir schon aufgefallen, aber ich hatte keine Erklärung dafür... Wie
auch immer, da ist ein Bug und man sollte sich nicht darauf verlassen,
daß `ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" >
"${OUTDIR}/hocr/${PNMNAME}.hocr"'
das mit der Sprache so hinbekommt, wie das sein sollte. Stattdessen:
tesslanguage="${TESSLANG}"
export tesslanguage
ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" >
"${OUTDIR}/hocr/${PNMNAME}.hocr"
...export'iert man "tesslanguage", dann klappts auch echt gut mit der
OCR.
> Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via
> convert, tiffset)
> OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py)
> Einzelseiten-PDFs zum Buch machen (pdftk)
MfG, JBG
--
Jan-Benedict Glaw [email protected] +49-172-7608481
Signature of: Eine Freie Meinung in einem Freien Kopf
the second : für einen Freien Staat voll Freier Bürger.
signature.asc
Description: Digital signature
-- Linux mailing list [email protected] subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
