na, womit wir wieder zurück auf Feld 1 wären. Wie wär's denn mit einem cron-job, der pdf-box aufruft (das gibt's zur Not auch als command- line...), den text extrahiert und das ganze dann mit irgendwas anderem indizieren lässt (sphinx...)? Damit hätte man dann zumindest schon mal den Wirkungskreis von java auf das Notwendigste eingeschränkt: Und einen Background-Job für die Indexierung muss es ja eh geben, dann kann man die Box ja auch wieder rausschmeißen, wenn pdf::reader rauskommt....

Grüße
stf


Am 11.11.2008 um 17:19 schrieb Michael Kastner:

Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine Möglichkeit, um den Text zu extrahieren gibt's nicht. Deshalb auch meine Frage. Aber beim Generieren ist es um einiges flotter als pdf::writer.

Viele Grüße

Michael Kastner

Stefan Frank schrieb:
hmm, ja, prawn sieht nett aus: Aber gibt's da auch ein extract für den Text?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da seh ich auch nix, um den Text da wieder raus zu kriegen - oder hab ich da Tomaten auf den Augen?!
Grüße
Stefan
Am 11.11.2008 um 14:18 schrieb Michael Kastner:
Hallo Frank,

gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu tun. BTW, ich mache im Moment gute Erfahrungen mit prawn, was die Generierung von PDFs angeht.

Viele Grüße

Michael Kastner

Stefan Frank schrieb:
Hallo Michael,
hachja, so sind sie halt, die vom einen einzigen wahren Glauben(nämlich Java) abgefallen sind und jetzt dem anderen einzigen wahren Glauben anhängen (nämlich ruby) :) - ich kenn das, mir geht das auch so, dass ich um alle Worte, die mit J anfangen einen Bogen mache.... Aber ein bisschen nüchterner betrachtet, ist ferret nur ein müder (dazu instabiler...) Abklatsch von lucene ist, und PDF:Writer funktional in den kleinen Finger von itext reinpasst.... Na, aber am Ende braucht man vielleicht das ja auch wirklich nicht alles, sondern kommt mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommt man direkter an die sphinx-api ran - ob das mit thinking-sphinx auch geht, weiß ich nicht) und pdf::writer zum Extrahieren aus? Und dann noch irgendein messaging/cron-job, um das indexieren irgendwie auszulagern? Sollte man also auch irgendwie java-frei hinkriegen, braucht aber mehr Handarbeit...
Grüße
Stefan
Am 11.11.2008 um 12:53 schrieb Michael Kastner:
Hallo Frank,

vielen Dank für die Infos. Ich bin gerade dabei, meine letzten Java-Apps von den Servern zu werfen und dann auch den Tomcat. Java ist eigentlich keine Option im Moment. Hätte ich vielleicht gleich dazuschreiben sollen.

Ich schau mich mal weiter um.

Vielen Dank und viele Grüße

Michael Kastner

Stefan Frank schrieb:
lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder solr, wenn's ein eigener Server für's Suchen sein darf. Solr hat REST&JSON-Interfaces, ist also nicht so schwer in rails einzubinden.
Grüße
Stefan
Am 11.11.2008 um 10:42 schrieb Michael Kastner:
Hallo,

kennt jemand serverseitige OS-Lösungen, mit denen man PDFs indizieren und durchsuchen kann?

Viele Grüße

Michael Kastner
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de



_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

Antwort per Email an