Hola, On Thu, Jul 18, 2024 at 09:40:31PM +0200, Jan-Benedict Glaw wrote: > Hi! > > Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR > darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in > PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten, > sondern eher um etliche Regalmeter an Akten...
> Was mir bisher über den Weg gekommen ist, sind letztlich > Abwandlungen von tesseract mit PDF-Output oder hOCR und irgendwelche > Kombinations-Tools. Allen gemein scheint aber zu sein, daß sie das > ursprüngliche Scan-Bild in JPEG (lossy) bringen wollen. Ich würde aber > gerne lossless arbeiten, auch wenn das dann vermutlich 2 MB pro Seite > im PDF bedeutet. (Ich starte hier mit RGB TIFFs mit 8bit bei 300dpi, > macht ~ 26 MB. Lossless mit img2pdf kommt man bei groben 2 MB pro > Seite heraus.) Allerdings fehlt mir eine Möglichkeit, das OCR-Ergebnis > da einzubauen. Alles, was ich gefunden hab', bastelt nochmal an den > Bildern herum und `pdfimages -list` verrät dann, daß es JPEG geworden > ist. Suboptimal... Also ich hab mit tesseract eher schlechte Erfahrung - Da kommt hauptsächlich Schrott raus. Es gab aber irgendeine "Gui" wo lauter zeugs mit drin war - der hat so PDFs zusammengebaut. > Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF > kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern > auftrumpfen kann? Mit Open Source kenne ich nichts. Wenn du das scannst ist "unpaper" noch spannend. Scans sind ja nie gerade und haben auch gerne mal den knick des Buches in der mitte. Sowas bekommt unpaper alles weg. Also für die gesamtpipeline. Ich habe mal irgendwo mit "Abbyy Server" rumgespielt - das war ein Linux Binary - musste man nach Seiten Lizensieren wenn ich mich richtig entsinne. Wenn du da was rein steckst dann kommt das als PDF und/oder als .xlsx/.docx/.pptx raus. Und da sind Bilder als Bilder drin, Tabellen als Tabellen, Fußnoten als Fußnoten. Das ist schon sehr beeindruckend. Und der kann halt auch "mixed mode PDF" - D.h. du SIEHST das Bild des Scans, aber der Text liegt da unsichtbar drüber. Das ist bei komplexem Layout ziemlich cool weil das am ende ein durchsuchbares PDF ist, aber die Ansicht ist die des scans. Wobei die normale variante alles was er sauber layouten kann wirklich als Text drin zu haben und dann eben nur partielle Grafiken meist viel besser aussieht. Alternativ könnte man mal mit textract rumspielen oder anderen API basierten dingern. https://aws.amazon.com/textract/ Dann scannt man den ramsch - und schiebt das dann mal in so einem "Monthly Plan" da durch Aber gibt ja Zig solche Dienste: https://ocr.space/ocrapi https://www.convertapi.com/pdf-to-ocr https://developer.adobe.com/document-services/docs/overview/pdf-services-api/howtos/ocr-pdf/ Flo -- Florian Lohoff [email protected] Any sufficiently advanced technology is indistinguishable from magic.
signature.asc
Description: PGP signature
-- Linux mailing list [email protected] subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
