[Trolug] PDF Indexing

G . Maubach Fri, 02 Oct 2015 01:09:12 -0700

Hallo zusammen,

ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium 
gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne den 
Text in den PDF's erkennen und als reinen Text mit in die PDF's schreiben. Ziel 
der Aktion soll es sein, die PDF's durchsuchbar zu machen, damit ich nach 
Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien liegen in 
verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, d. h. 
Bibliothek, z. B. Bibliothek/Programmierung/C, Bibliothek/Programmierung/Cpp, 
usw. Ich denke es sind max. 3 Verzeichnisebenen.


Ich suche jetzt noch einer Open Source Software, die die Indexierung 
durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu 
durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein 
kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert.

Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software 
gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe 
aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die 
PDF's selbst aufbereitet werden sollen.

Könnt Ihr mir einen Hinweis geben, wo ich suchen kann?

Viele Grüße

Georg
_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de

[Trolug] PDF Indexing

Antwort per Email an