On Tue, 2009-04-21 10:40:45 +0200, Jan-Benedict Glaw <[email protected]> wrote:
> Der Workflow ist also:
> 
> multi-page TIFFs -> single-page TIFFs (via tiffsplit)
> single-page TIFF -> PBM (via convert)
> PBM drehen und in Einzelseiten zerschneiden (via unpaper)
> Einzelseiten OCRen (via ocroscript rec-tess)

Hier brauchts einen Trick. Ich hab' zugeflüstert bekommen, daß da ein
Bug ist, der dazu führt, daß ocroscript die gewählte Sprache nicht
richtig an tesseract durchreicht.

Das schlechte OCR-Ergebnis (im Vergleich zu per-hand aufgerufen) war
mir schon aufgefallen, aber ich hatte keine Erklärung dafür... Wie
auch immer, da ist ein Bug und man sollte sich nicht darauf verlassen,
daß `ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > 
"${OUTDIR}/hocr/${PNMNAME}.hocr"'
das mit der Sprache so hinbekommt, wie das sein sollte. Stattdessen:

tesslanguage="${TESSLANG}"
export tesslanguage
ocroscript rec-tess --tesslanguage="${TESSLANG}" "${i}" > 
"${OUTDIR}/hocr/${PNMNAME}.hocr"

...export'iert man "tesslanguage", dann klappts auch echt gut mit der
OCR.

> Einzelseiten wieder nach TIFF konvertieren, Auflösung manuell setzen (via 
> convert, tiffset)
> OCR-Ergebnis mit der Einzel-TIFF-Seite nach PDF (via HocrConverter.py)
> Einzelseiten-PDFs zum Buch machen (pdftk)

MfG, JBG

-- 
      Jan-Benedict Glaw      [email protected]              +49-172-7608481
Signature of:                     Eine Freie Meinung in einem Freien Kopf
the second  :                   für einen Freien Staat voll Freier Bürger.

Attachment: signature.asc
Description: Digital signature

--
Linux mailing list [email protected]
subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux
Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo

Antwort per Email an