Hi! Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten, sondern eher um etliche Regalmeter an Akten...
Was mir bisher über den Weg gekommen ist, sind letztlich Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB pro Seite im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi, macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden ist. Suboptimal... Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern auftrumpfen kann? MfG, JBG --
signature.asc
Description: PGP signature
-- Linux mailing list [email protected] subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
