Hi Benedict, vielleicht ist https://www.naps2.com/ einen Blick wert.
Macht mit GUI unterschiedliche Schritte vom Bild-Scan bis PDF mit OCR Text auch als Batch und auf verschiedenen Plattformen notfalls auch mal portabel. Grüße Rolf Am 19. Juli 2024 21:33:51 MESZ schrieb Johannes Goecke <[email protected]>: >Hi, > >> Hi! >> >> Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR >> darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in >> PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten, >> sondern eher um etliche Regalmeter an Akten... >> >> Was mir bisher über den Weg gekommen ist, sind letztlich >> Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche >> Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das >> ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber >> gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB pro Seite >> im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi, >> macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro >> Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis >> da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den >> Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden >> ist. Suboptimal... >> >> Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF >> kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern >> auftrumpfen kann? >> > >hast du Dir schon mal "ocrmypdf" angeschaut? >Das gibts als Paket in debian, ich habe das mal bei ein paar PDFs die >mein MuFu (der macht selst kein OCR) auf dem Netz ablegt gemacht, aber >nicht "großflächig" im Einsatz. > >Wie der Name andeutet ist es ein Postprocessing-Tool für PDF-Dateien >und legt da ein OCR-Layer zu. >Wenn ich die optimize Option richtig verstehe geht 0 oder 1 in die >gewünschte Richtung. > >----- >Optimization options: > Control how the PDF is optimized after OCR > > -O {0,1,2,3}, --optimize {0,1,2,3} > Control how PDF is optimized after processing:0 - do > not optimize; 1 - do safe, lossless optimizations > (default); 2 - do lossy JPEG and JPEG2000 > optimizations; 3 - do more aggressive lossy JPEG and > JPEG2000 optimizations. To enable lossy JBIG2, see > --jbig2-lossy. > >---- > >> MfG, JBG >> >> -- > >Gruß >Johannes > > > >> > -- >> > Linux mailing list [email protected] >> > subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux >> > Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo >> >-- >Linux mailing list [email protected] >subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux >Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo -- Linux mailing list [email protected] subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
