Hallo zusammen, ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne den Text in den PDF's erkennen und als reinen Text mit in die PDF's schreiben. Ziel der Aktion soll es sein, die PDF's durchsuchbar zu machen, damit ich nach Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien liegen in verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, d. h. Bibliothek, z. B. Bibliothek/Programmierung/C, Bibliothek/Programmierung/Cpp, usw. Ich denke es sind max. 3 Verzeichnisebenen.
Ich suche jetzt noch einer Open Source Software, die die Indexierung durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert. Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die PDF's selbst aufbereitet werden sollen. Könnt Ihr mir einen Hinweis geben, wo ich suchen kann? Viele Grüße Georg _______________________________________________ Trolug_trolug.de mailing list [email protected] https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
