Scan / OCR -> PDF

Jan-Benedict Glaw Thu, 18 Jul 2024 12:40:42 -0700

Hi!

Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR
darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in
PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten,
sondern eher um etliche Regalmeter an Akten...


  Was mir bisher über den Weg gekommen ist, sind letztlich
Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche
Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das
ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber
gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB  pro Seite
im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi,
macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro
Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis
da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den
Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden
ist. Suboptimal...

  Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF
kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern
auftrumpfen kann?

MfG, JBG

--

signature.asc
Description: PGP signature

-- 
Linux mailing list [email protected]
subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux
Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo

Scan / OCR -> PDF

Antwort per Email an