Gib ocrmypdf einen Test: https://github.com/jbarlow83/OCRmyPDF
Wenn man docker am laufen hat: leicht zu installieren mit https://hub.docker.com/r/paulstaab/ocrmypdf/ Ich verwende es mit MacOSX und boot2docker. Erfahrungen habe ich weniger weil ich auch eine Acrobat Vollversion verwende. Aber ich suche immer nach Alternative um Adobe zu kicken. Vorteil gegenüber z.B. Tesseract: - Es wird echter markierbarer Text exakt hinter den Scan gelegt (wie bei Acrobat). - Man kann suchen, aber wenn die OCR mal versagt kann man das Original lesen. - Beim Suchen daher immer die minimalen Stems verwenden um nicht über OCR Fehler zu stolpern. Beispiel: Ich suche "Blödmannsgehilfe" -> Sucheingabe: *mannsgeh* (ö Pünktchen und andere Fehlinterpretationen von Buchstabenpaaren lernt man mit der Zeit. Das schreit nach besserer Software, ist aber nur bedingt implementierbar) LG Armin Am 02.10.2015 um 10:08 schrieb [email protected]: > Hallo zusammen, > > ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium > gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne > den Text in den PDF's erkennen und als reinen Text mit in die PDF's > schreiben. Ziel der Aktion soll es sein, die PDF's durchsuchbar zu machen, > damit ich nach Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien > liegen in verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, > d. h. Bibliothek, z. B. Bibliothek/Programmierung/C, > Bibliothek/Programmierung/Cpp, usw. Ich denke es sind max. 3 > Verzeichnisebenen. > > Ich suche jetzt noch einer Open Source Software, die die Indexierung > durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu > durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein > kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert. > > Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software > gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe > aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die > PDF's selbst aufbereitet werden sollen. > > Könnt Ihr mir einen Hinweis geben, wo ich suchen kann? > > Viele Grüße > > Georg > _______________________________________________ > Trolug_trolug.de mailing list > [email protected] > https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de -- Armin Carl Stroß-Radschinski | [email protected] | Twitter: @syncmitter Dipl. Designer FH | project-consultant | fon +49 171 21 94699 | IRC: acsr | Skype: astrossradschinski ACSR industrialdesign | Armin Stroß-Radschinski Landgrafenstraße 32 · 53842 Troisdorf · Germany | UST. ID Nr: DE154092803 (EU VAT ID) [email protected] | www.acsr.de | phone +49 2241 946994 · fax +49 2241 946996
signature.asc
Description: Message signed with OpenPGP using GPGMail
_______________________________________________ Trolug_trolug.de mailing list [email protected] https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
