Hi Flo, On Mon, 2024-07-22 16:05:05 +0200, Florian Lohoff <[email protected]> wrote: > On Thu, Jul 18, 2024 at 09:40:31PM +0200, Jan-Benedict Glaw wrote: > > Ich guck' gerade, welche Möglichkeiten es gibt, Text zu scannen, OCR > > darüber zu machen und das dann (Bild+Text) möglichst verlustfrei in > > PDFs zu packen. Hier geht's mir aktuell nicht um ein paar Seiten, > > sondern eher um etliche Regalmeter an Akten... > > Also ich hab mit tesseract eher schlechte Erfahrung - Da kommt > hauptsächlich Schrott raus. Es gab aber irgendeine "Gui" wo lauter > zeugs mit drin war - der hat so PDFs zusammengebaut.
Das kann ich bisher nicht bestätigen. Das `apt-get install`ierte tesseract (zusammen mit den deutschen Schrift-/Sprachdaten) liefert echt ganz passable Ergebnisse. Klar, das sind mal Fehler drin, aber ganz grundsätzlich tut das hinreichend gut. > > Irendwelche Tips, über welchen Weg ich von Bildern zu einem PDF > > kommt, das mit Scan-Text und verlustfrei eingebetteten Bildern > > auftrumpfen kann? > > Mit Open Source kenne ich nichts. Schade. Ich bin jetzt dazu übergegangen, erst zu scannen und die TIFFs dann einmal mit `tiffcp -c zip` intern zu komprimieren. Separat davon laß' ich dann ein PDF-Script laufen, das die TIFFs durch Tesseract schiebt und in einem Rutsch (pro Seite) ein PDF (Bild+Text), TXT und hOCR erzeugt. Die PDF-Seiten montier' ich dann mit `pdftk` zu einem PDF und lösch' die Einzelseiten-PDFs. > Wenn du das scannst ist "unpaper" noch spannend. Scans sind ja nie > gerade und haben auch gerne mal den knick des Buches in der mitte. Sowas > bekommt unpaper alles weg. Also für die gesamtpipeline. Ich lasse also erstmal die Original-Scans komprimiert liegen. Sind zwar 2 MB pro Seite, aber who cares. ^^ `unpaper` guck' ich mir mal noch an, aber da ich wirklich "nur" Ordner voller Rechnungen, Verträge, etc. habe, sind's typischerweise nur zwei waagerechte Knicke vom Versandt in DL-Umschlägen. Aber vielleicht bekommt man die auf dem Wege auch noch weg. > Ich habe mal irgendwo mit "Abbyy Server" rumgespielt - das war ein > Linux Binary - musste man nach Seiten Lizensieren wenn ich mich > richtig entsinne. > > Wenn du da was rein steckst dann kommt das als PDF und/oder als > .xlsx/.docx/.pptx raus. Und da sind Bilder als Bilder drin, Tabellen > als Tabellen, Fußnoten als Fußnoten. Das ist schon sehr beeindruckend. Mein Anwendungsfall ist letztlich, die Briefe zu finden, wo z.B. dieselbe Kundennummer vorkommt. Oder derselbe Firmenname. Ist also ein wenig data mining, um einen Überblick über Vertragspartner, Rente, Versicherungen etc. zu bekommen. MfG, JBG --
signature.asc
Description: PGP signature
-- Linux mailing list [email protected] subscribe/unsubscribe: https://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
