Ich bin mittlerweile schon etwas weiter. Es gibt wohl ein Programm, das bei xpdf
dabei ist und pdf2txt heißt. Das braucht zwar die ganze X-Umgebung, läuft dafür
aber nativ. Das werd' ich jetzt mal antesten.
Viele Grüße
Michael Kastner
Stefan Frank schrieb:
na, womit wir wieder zurück auf Feld 1 wären. Wie wär's denn mit einem
cron-job, der pdf-box aufruft (das gibt's zur Not auch als
command-line...), den text extrahiert und das ganze dann mit irgendwas
anderem indizieren lässt (sphinx...)? Damit hätte man dann zumindest
schon mal den Wirkungskreis von java auf das Notwendigste eingeschränkt:
Und einen Background-Job für die Indexierung muss es ja eh geben, dann
kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader
rauskommt....
Grüße
stf
Am 11.11.2008 um 17:19 schrieb Michael Kastner:
Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine
Möglichkeit, um den Text zu extrahieren gibt's nicht. Deshalb auch
meine Frage. Aber beim Generieren ist es um einiges flotter als
pdf::writer.
Viele Grüße
Michael Kastner
Stefan Frank schrieb:
hmm, ja, prawn sieht nett aus: Aber gibt's da auch ein extract für
den Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da
seh ich auch nix, um den Text da wieder raus zu kriegen - oder hab
ich da Tomaten auf den Augen?!
Grüße
Stefan
Am 11.11.2008 um 14:18 schrieb Michael Kastner:
Hallo Frank,
gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu
tun. BTW, ich mache im Moment gute Erfahrungen mit prawn, was die
Generierung von PDFs angeht.
Viele Grüße
Michael Kastner
Stefan Frank schrieb:
Hallo Michael,
hachja, so sind sie halt, die vom einen einzigen wahren
Glauben(nämlich Java) abgefallen sind und jetzt dem anderen
einzigen wahren Glauben anhängen (nämlich ruby) :) - ich kenn das,
mir geht das auch so, dass ich um alle Worte, die mit J anfangen
einen Bogen mache.... Aber ein bisschen nüchterner betrachtet, ist
ferret nur ein müder (dazu instabiler...) Abklatsch von lucene ist,
und PDF:Writer funktional in den kleinen Finger von itext
reinpasst.... Na, aber am Ende braucht man vielleicht das ja auch
wirklich nicht alles, sondern kommt mit einer Lösung aus
sphinx/ultrasphinx (mit ultrasphinx kommt man direkter an die
sphinx-api ran - ob das mit thinking-sphinx auch geht, weiß ich
nicht) und pdf::writer zum Extrahieren aus? Und dann noch irgendein
messaging/cron-job, um das indexieren irgendwie auszulagern? Sollte
man also auch irgendwie java-frei hinkriegen, braucht aber mehr
Handarbeit...
Grüße
Stefan
Am 11.11.2008 um 12:53 schrieb Michael Kastner:
Hallo Frank,
vielen Dank für die Infos. Ich bin gerade dabei, meine letzten
Java-Apps von den Servern zu werfen und dann auch den Tomcat. Java
ist eigentlich keine Option im Moment. Hätte ich vielleicht gleich
dazuschreiben sollen.
Ich schau mich mal weiter um.
Vielen Dank und viele Grüße
Michael Kastner
Stefan Frank schrieb:
lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder solr,
wenn's ein eigener Server für's Suchen sein darf. Solr hat
REST&JSON-Interfaces, ist also nicht so schwer in rails einzubinden.
Grüße
Stefan
Am 11.11.2008 um 10:42 schrieb Michael Kastner:
Hallo,
kennt jemand serverseitige OS-Lösungen, mit denen man PDFs
indizieren und durchsuchen kann?
Viele Grüße
Michael Kastner
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug