I'm not sure if it will work better than what you've got, but you can try the 
code from section 7.5 in Lucene in Action: 
http://www.lucenebook.com/search?query=word+document+microsoft

The code is free, even if you don't have the book.

Otis

----- Original Message ----
From: [EMAIL PROTECTED]
To: java-user@lucene.apache.org
Sent: Thu 09 Feb 2006 01:36:47 PM EST
Subject: Word files

Hello,
 
I use the Poi Api to parse MSword files in order to index the content to
enable lucene search.
 
For that I download the last jars from Poi (including the scratchdpad
one) and use the parser from lucenebook called POIWordDocHandler. 
It works quiet good, but for some files the parser does not return the
all content but just a piece, for example just the 2 first lines. Does
anyone know the reason and can help me? 
 
- Here is the parser java code:
 
  public String getDocument(InputStream is) throws
DocumentHandlerException {
 
    String bodyText = null;
    try {
      WordDocument wd = new WordDocument(is);
      StringWriter docTextWriter = new StringWriter();      
      wd.writeAllText(new PrintWriter(docTextWriter));
      docTextWriter.close();
      bodyText = docTextWriter.toString();
       }
       .
  return bodyText;
 
- Here is an example of text from word doc file for witch the bodyText
variable return from the parser just return the first 14 words
'yılından' (the text is in Turkish):
 
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından yılından yılından yılından yılından yılından yılından yılından
yılından
 
Thanks for your help, best regards
 
A.
 




---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Reply via email to