Hallo Georg,
also ich habe dazu 2 Ansätze
No1 für den Einzelfall:
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename
--label="{}" --color "your pattern"' \;
oder No2 für viele Anfragen:
http://trac.xapian.org/wiki/OmegaExample
/usr/local/bin/omindex --db /var/lib/omega/data/default --url /book
/var/www/book
Habe ca. 200GB Bücher als PDF und ich finde, das wenn man häufiger was sucht es
mit omindex am besten ist.
Bei den PDF's sind aber auch einige Bildbände/Bastelanleitungen bei, die über
200MB haben.
Omindex kann alles was HTML/Text ist auch einlesen!
Es dauert aber auch lange!!!
Viele Grüße,
Jörg Neikes
-------- Weitergeleitete Nachricht --------
Von: [email protected]
Reply-to: [email protected]
An: [email protected]
Betreff: [Trolug] PDF Indexing
Datum: Fri, 2 Oct 2015 10:08:37 +0200
Hallo zusammen,
ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium
gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne den
Text in den PDF's erkennen und als reinen Text mit in die PDF's schreiben. Ziel
der Aktion soll es sein, die PDF's durchsuchbar zu machen, damit ich nach
Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien liegen in
verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, d. h.
Bibliothek, z. B. Bibliothek/Programmierung/C, Bibliothek/Programmierung/Cpp,
usw. Ich denke es sind max. 3 Verzeichnisebenen.
Ich suche jetzt noch einer Open Source Software, die die Indexierung
durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu
durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein
kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert.
Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software
gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe
aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die
PDF's selbst aufbereitet werden sollen.
Könnt Ihr mir einen Hinweis geben, wo ich suchen kann?
Viele Grüße
Georg
_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de