Hello, I am looking for a text extractor (tool set) which could be used, to get text data out of several file formats like office documents and so on. The text data (extract) could then be used to index with lucene. Best would be a java api, but not required. Does any one have knowledge of such a tool set or project?
Best Regards Stefan Stefan Schuh Senior SW-Engineer -------------------------------------------------------------------------------------------- COI GmbH Erlanger Straße 62 Phone +49 9132 73 83 4775 91074 Herzogenaurach Fax +49 9132 73 83 4959 http://www.coi.de mailto:[EMAIL PROTECTED] -------------------------------------------------------------------------------------------- C O I - S o l u t i o n s f o r D o c u m e n t s -------------------------------------------------------------------------------------------- COI Consulting für Office und Information Management GmbH Sitz Herzogenaurach Registergericht: AG Fürth HRB 3692, USt-IdNr: DE 811159097 Geschäftsführer: Giovanni Santamaria, Andreas Schwarze Diese Information ist für den Gebrauch durch die Person oder die Firma/Organisation bestimmt, die in der Empfängeradresse benannt ist und unterliegt u. U. dem Betriebsgeheimnis, dem Schutz von Arbeitsergebnissen oder anderweitigem rechtlichen Schutz. Wenn Sie nicht der angegebene Empfänger sind, nehmen Sie bitte zur Kenntnis, dass Weitergabe, Kopieren, Verteilung oder Nutzung des Inhalts dieser E-Mail-Übertragung unzulässig ist. Falls Sie diese E-Mail irrtümlich erhalten haben, benachrichtigen Sie den Absender bitte unverzüglich telefonisch oder durch E-Mail und löschen Sie diese Information aus Ihrem EDV-System. This e-mail message is intended only for the use of the named recipient(s) and contains information which may be confidential or privileged. If you are not the intended recipient, be aware that any distribution, or use of the contents of this information is prohibited. If you have received this electronic transmission in error, please notify the sender and delete the material from the computer.
