Hallo Armin (und alle anderen), vielen Dank für Deine Rückmeldung. Verstehe ich Dich richtig, dass die derzeit beste Lösung im Markt Adobe Acrobat ist?
Viele Grüße Georg > Gesendet: Freitag, 02. Oktober 2015 um 11:25 Uhr > Von: "Armin Stroß-Radschinski" <[email protected]> > An: [email protected] > Betreff: Re: [Trolug] PDF Indexing | Try ocrmypdf > > Gib ocrmypdf einen Test: > > https://github.com/jbarlow83/OCRmyPDF > > Wenn man docker am laufen hat: leicht zu installieren mit > https://hub.docker.com/r/paulstaab/ocrmypdf/ > > Ich verwende es mit MacOSX und boot2docker. > Erfahrungen habe ich weniger weil ich auch eine Acrobat Vollversion verwende. > Aber ich suche immer nach Alternative um Adobe zu kicken. > > Vorteil gegenüber z.B. Tesseract: > - Es wird echter markierbarer Text exakt hinter den Scan gelegt (wie bei > Acrobat). > - Man kann suchen, aber wenn die OCR mal versagt kann man das Original lesen. > - Beim Suchen daher immer die minimalen Stems verwenden um nicht über OCR > Fehler zu stolpern. > > Beispiel: Ich suche "Blödmannsgehilfe" -> Sucheingabe: *mannsgeh* (ö > Pünktchen und andere Fehlinterpretationen von Buchstabenpaaren lernt man mit > der Zeit. Das schreit nach besserer Software, ist aber nur bedingt > implementierbar) > > LG Armin > > > Am 02.10.2015 um 10:08 schrieb [email protected]: > > > Hallo zusammen, > > > > ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium > > gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne > > den Text in den PDF's erkennen und als reinen Text mit in die PDF's > > schreiben. Ziel der Aktion soll es sein, die PDF's durchsuchbar zu machen, > > damit ich nach Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien > > liegen in verschiedenen Verzeichnissen unterhalb eines > > Wurzelverzeichnisses, d. h. Bibliothek, z. B. Bibliothek/Programmierung/C, > > Bibliothek/Programmierung/Cpp, usw. Ich denke es sind max. 3 > > Verzeichnisebenen. > > > > Ich suche jetzt noch einer Open Source Software, die die Indexierung > > durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum > > zu durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe > > ich ein kleiners Skript in Python, dass den Baum durchsucht und die Dateien > > zuliefert. > > > > Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software > > gefunden, die auf die fertigen PDF's zugreift und daraus neue externe > > Indexe aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, > > indem die PDF's selbst aufbereitet werden sollen. > > > > Könnt Ihr mir einen Hinweis geben, wo ich suchen kann? > > > > Viele Grüße > > > > Georg > > _______________________________________________ > > Trolug_trolug.de mailing list > > [email protected] > > https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de > > > > -- > Armin Carl Stroß-Radschinski | [email protected] | Twitter: @syncmitter > Dipl. Designer FH | project-consultant | fon +49 171 21 94699 | IRC: acsr | > Skype: astrossradschinski > > ACSR industrialdesign | Armin Stroß-Radschinski > Landgrafenstraße 32 · 53842 Troisdorf · Germany | UST. ID Nr: DE154092803 (EU > VAT ID) > [email protected] | www.acsr.de | phone +49 2241 946994 · fax +49 2241 946996 > > _______________________________________________ > Trolug_trolug.de mailing list > [email protected] > https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de > _______________________________________________ Trolug_trolug.de mailing list [email protected] https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
