Re: [Rubyonrails-ug] PDFs indizieren und durchsuchen

Michael Kastner Tue, 11 Nov 2008 08:19:16 -0800

Ich verwende Prawn zum generieren (hatte ich ja geschrieben). Eine Möglichkeit,um den Text zu extrahieren gibt's nicht. Deshalb auch meine Frage. Aber beimGenerieren ist es um einiges flotter als pdf::writer.


Viele Grüße


Michael Kastner

Stefan Frank schrieb:

hmm, ja, prawn sieht nett aus: Aber gibt's da auch ein extract für denText?! Aber ich war da auch mit dem pdf::writer zu voreiliig - da sehich auch nix, um den Text da wieder raus zu kriegen - oder hab ich daTomaten auf den Augen?!
Grüße
Stefan

Am 11.11.2008 um 14:18 schrieb Michael Kastner:
Hallo Frank,
gut, klingt etwas dogmatisch, hat aber eher etwas mit Faulheit zu tun.BTW, ich mache im Moment gute Erfahrungen mit prawn, was dieGenerierung von PDFs angeht.
Viele Grüße

Michael Kastner

Stefan Frank schrieb:
Hallo Michael,
hachja, so sind sie halt, die vom einen einzigen wahrenGlauben(nämlich Java) abgefallen sind und jetzt dem anderen einzigenwahren Glauben anhängen (nämlich ruby) :) - ich kenn das, mir gehtdas auch so, dass ich um alle Worte, die mit J anfangen einen Bogenmache.... Aber ein bisschen nüchterner betrachtet, ist ferret nur einmüder (dazu instabiler...) Abklatsch von lucene ist, und PDF:Writerfunktional in den kleinen Finger von itext reinpasst.... Na, aber amEnde braucht man vielleicht das ja auch wirklich nicht alles, sondernkommt mit einer Lösung aus sphinx/ultrasphinx (mit ultrasphinx kommtman direkter an die sphinx-api ran - ob das mit thinking-sphinx auchgeht, weiß ich nicht) und pdf::writer zum Extrahieren aus? Und dannnoch irgendein messaging/cron-job, um das indexieren irgendwieauszulagern? Sollte man also auch irgendwie java-frei hinkriegen,braucht aber mehr Handarbeit...
Grüße
Stefan
Am 11.11.2008 um 12:53 schrieb Michael Kastner:
Hallo Frank,
vielen Dank für die Infos. Ich bin gerade dabei, meine letztenJava-Apps von den Servern zu werfen und dann auch den Tomcat. Javaist eigentlich keine Option im Moment. Hätte ich vielleicht gleichdazuschreiben sollen.
Ich schau mich mal weiter um.

Vielen Dank und viele Grüße

Michael Kastner

Stefan Frank schrieb:
lucene+pdfbox oder itext, wenn's auch jruby sein darf. Oder solr,wenn's ein eigener Server für's Suchen sein darf. Solr hatREST&JSON-Interfaces, ist also nicht so schwer in rails einzubinden.
Grüße
Stefan
Am 11.11.2008 um 10:42 schrieb Michael Kastner:
Hallo,
kennt jemand serverseitige OS-Lösungen, mit denen man PDFsindizieren und durchsuchen kann?
Viele Grüße

Michael Kastner
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug
----
stefan frank
vierundsechzig.de
software&service
weberstr. 10
69120 heidelberg
tel. +49 (0) 6221 7277049
mobil +40 (0) 173 2383390
mail [EMAIL PROTECTED]
www.vierundsechzig.de



_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

_______________________________________________
rubyonrails-ug mailing list
[email protected]
http://mailman.headflash.com/mailman/listinfo/rubyonrails-ug

Re: [Rubyonrails-ug] PDFs indizieren und durchsuchen

Antwort per Email an