na, womit wir wieder zurück auf Feld 1 wären. Wie wär's denn mit einem
cron-job, der pdf-box aufruft (das gibt's zur Not auch als command-
line...), den text extrahiert und das ganze dann mit irgendwas anderem
indizieren lässt (sphinx...)? Damit hätte man dann zumindest schon mal
den Wirkungskreis von java auf das Notwendigste eingeschränkt: Und
einen Background-Job für die Indexierung muss es ja eh geben, dann
kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader
rauskommt....
Grüße
stf
Am 11.11.2008 um 17:19 schrieb Michael Kastner:
Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine
Möglichkeit, um den Text zu extrahieren gibt's nicht. Deshalb auch
meine Frage. Aber beim Generieren ist es um einiges flotter als
pdf::writer.
Viele Grüße
Michael Kastner
Stefan Frank schrieb:
hmm, ja, prawn sieht nett aus: Aber gibt's da auch ein extract für
den Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig -
da seh ich auch nix, um den Text da wieder raus zu kriegen - oder
hab ich da Tomaten auf den Augen?!
Grüße
Stefan
Am 11.11.2008 um 14:18 schrieb Michael Kastner:
Hallo Frank,
gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu
tun. BTW, ich mache im Moment gute Erfahrungen mit prawn, was die
Generierung von PDFs angeht.
Viele Grüße
Michael Kastner
Stefan Frank schrieb:
Hallo Michael,
hachja, so sind sie halt, die vom einen einzigen wahren
Glauben(nämlich Java) abgefallen sind und jetzt dem anderen
einzigen wahren Glauben anhängen (nämlich ruby) :) - ich kenn
das, mir geht das auch so, dass ich um alle Worte, die mit J
anfangen einen Bogen mache.... Aber ein bisschen nüchterner
betrachtet, ist ferret nur ein müder (dazu instabiler...)
Abklatsch von lucene ist, und PDF:Writer funktional in den
kleinen Finger von itext reinpasst.... Na, aber am Ende braucht
man vielleicht das ja auch wirklich nicht alles, sondern kommt
mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommt
man direkter an die sphinx-api ran - ob das mit thinking-sphinx
auch geht, weiß ich nicht) und pdf::writer zum Extrahieren aus?
Und dann noch irgendein messaging/cron-job, um das indexieren
irgendwie auszulagern? Sollte man also auch irgendwie java-frei
hinkriegen, braucht aber mehr Handarbeit...
Grüße
Stefan
Am 11.11.2008 um 12:53 schrieb Michael Kastner:
Hallo Frank,
vielen Dank für die Infos. Ich bin gerade dabei, meine letzten
Java-Apps von den Servern zu werfen und dann auch den Tomcat.
Java ist eigentlich keine Option im Moment. Hätte ich vielleicht
gleich dazuschreiben sollen.
Ich schau mich mal weiter um.
Vielen Dank und viele Grüße
Michael Kastner
Stefan Frank schrieb:
lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder
solr, wenn's ein eigener Server für's Suchen sein darf. Solr
hat REST&JSON-Interfaces, ist also nicht so schwer in rails
einzubinden.
Grüße
Stefan
Am 11.11.2008 um 10:42 schrieb Michael Kastner:
Hallo,
kennt jemand serverseitige OS-Lösungen, mit denen man PDFs
indizieren und durchsuchen kann?
Viele Grüße
Michael Kastner
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug