I'm not sure if it will work better than what you've got, but you can try the code from section 7.5 in Lucene in Action: http://www.lucenebook.com/search?query=word+document+microsoft
The code is free, even if you don't have the book. Otis ----- Original Message ---- From: [EMAIL PROTECTED] To: java-user@lucene.apache.org Sent: Thu 09 Feb 2006 01:36:47 PM EST Subject: Word files Hello, I use the Poi Api to parse MSword files in order to index the content to enable lucene search. For that I download the last jars from Poi (including the scratchdpad one) and use the parser from lucenebook called POIWordDocHandler. It works quiet good, but for some files the parser does not return the all content but just a piece, for example just the 2 first lines. Does anyone know the reason and can help me? - Here is the parser java code: public String getDocument(InputStream is) throws DocumentHandlerException { String bodyText = null; try { WordDocument wd = new WordDocument(is); StringWriter docTextWriter = new StringWriter(); wd.writeAllText(new PrintWriter(docTextWriter)); docTextWriter.close(); bodyText = docTextWriter.toString(); } . return bodyText; - Here is an example of text from word doc file for witch the bodyText variable return from the parser just return the first 14 words 'yılından' (the text is in Turkish): yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından yılından Thanks for your help, best regards A. --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]