Hallo Georg,

also ich habe dazu 2 Ansätze

No1 für den Einzelfall:

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename 
--label="{}" --color "your pattern"' \;

oder No2 für viele Anfragen:

http://trac.xapian.org/wiki/OmegaExample

/usr/local/bin/omindex --db /var/lib/omega/data/default --url /book 
/var/www/book

Habe ca. 200GB Bücher als PDF und ich finde, das wenn man häufiger was sucht es 
mit omindex am besten ist.
Bei den PDF's sind aber auch einige Bildbände/Bastelanleitungen bei, die über 
200MB haben.

Omindex kann alles was HTML/Text ist auch einlesen!

Es dauert aber auch lange!!!


Viele Grüße,

Jörg Neikes

-------- Weitergeleitete Nachricht --------
Von: [email protected]
Reply-to: [email protected]
An: [email protected]
Betreff: [Trolug] PDF Indexing
Datum: Fri, 2 Oct 2015 10:08:37 +0200

Hallo zusammen,

ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium 
gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne den 
Text in den PDF's erkennen und als reinen Text mit in die PDF's schreiben. Ziel 
der Aktion soll es sein, die PDF's durchsuchbar zu machen, damit ich nach 
Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien liegen in 
verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, d. h. 
Bibliothek, z. B. Bibliothek/Programmierung/C, Bibliothek/Programmierung/Cpp, 
usw. Ich denke es sind max. 3 Verzeichnisebenen.

Ich suche jetzt noch einer Open Source Software, die die Indexierung 
durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu 
durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein 
kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert.

Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software 
gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe 
aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die 
PDF's selbst aufbereitet werden sollen.

Könnt Ihr mir einen Hinweis geben, wo ich suchen kann?

Viele Grüße

Georg
_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de



_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de

Antwort per Email an