[jira] [Updated] (TIKA-3823) OutOfMemoryError occurs while parsing a doc file

earl (Jira) Tue, 26 Jul 2022 03:10:14 -0700


     [ 
https://issues.apache.org/jira/browse/TIKA-3823?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]


earl updated TIKA-3823:
-----------------------
    Description: 
OutOfMemoryError occurs while parsing a doc file of size 450 MB, not sure about 
the uncompressed size. While analyzing the heap dump, the thread that parses 
that file has a byte array of size around 450 MB. The heap size is set to 2 GB 
still this issue persists.

Stacktrace
{code:java}
  at java.lang.OutOfMemoryError.<init>()V (OutOfMemoryError.java:48)
  at java.util.Arrays.copyOf([BI)[B (Arrays.java:3236)
  at java.io.ByteArrayOutputStream.toByteArray()[B 
(ByteArrayOutputStream.java:191)
  at 
org.apache.poi.hwpf.HWPFDocumentCore.getDocumentEntryBytes(Ljava/lang/String;II)[B
 (HWPFDocumentCore.java:353)
  at 
org.apache.poi.hwpf.HWPFDocument.<init>(Lorg/apache/poi/poifs/filesystem/DirectoryNode;)V
 (HWPFDocument.java:214)
  at 
org.apache.tika.parser.microsoft.WordExtractor.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/sax/XHTMLContentHandler;)V
 (WordExtractor.java:156)
  at 
org.apache.tika.parser.microsoft.OfficeParser.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/parser/ParseContext;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/sax/XHTMLContentHandler;)V
 (OfficeParser.java:175)
  at 
org.apache.tika.parser.microsoft.OfficeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (OfficeParser.java:131)
  at 
org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (CompositeParser.java:280)
  at 
org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (CompositeParser.java:280)
  at 
org.apache.tika.parser.AutoDetectParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (AutoDetectParser.java:143)
{code}
The byte array contains something like 
"....D.d.....................|...L.P.....................................h.." 
followed by some xml data. Please let me know the issue and what this means.

  was:
OutOfMemoryError occurs while parsing a doc file of size 450 MB, not sure about 
the uncompressed size. While analyzing the heap dump, the thread that parses 
that file has a byte array of size around 450 MB. The heap size is set to 2 GB 
still this issue persists. 

Stacktrace
{code:java}
  at java.lang.OutOfMemoryError.<init>()V (OutOfMemoryError.java:48)
  at java.util.Arrays.copyOf([BI)[B (Arrays.java:3236)
  at java.io.ByteArrayOutputStream.toByteArray()[B 
(ByteArrayOutputStream.java:191)
  at 
org.apache.poi.hwpf.HWPFDocumentCore.getDocumentEntryBytes(Ljava/lang/String;II)[B
 (HWPFDocumentCore.java:353)
  at 
org.apache.poi.hwpf.HWPFDocument.<init>(Lorg/apache/poi/poifs/filesystem/DirectoryNode;)V
 (HWPFDocument.java:214)
  at 
org.apache.tika.parser.microsoft.WordExtractor.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/sax/XHTMLContentHandler;)V
 (WordExtractor.java:156)
  at 
org.apache.tika.parser.microsoft.OfficeParser.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/parser/ParseContext;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/sax/XHTMLContentHandler;)V
 (OfficeParser.java:175)
  at 
org.apache.tika.parser.microsoft.OfficeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (OfficeParser.java:131)
  at 
org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (CompositeParser.java:280)
  at 
org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (CompositeParser.java:280)
  at 
org.apache.tika.parser.AutoDetectParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
 (AutoDetectParser.java:143)
  at 
com.manageengine.fap.common.server.datasearch.FileSearchTask.initiateTikaProcess()V
 (FileSearchTask.java:311)
  at 
com.manageengine.fap.common.server.datasearch.FileSearchTask.doDataSearch()V 
(FileSearchTask.java:173)
  at 
com.manageengine.fap.common.server.ADHandler.ImpersonateAndCallFileSearchHandler(Ljava/util/Properties;Lcom/manageengine/fap/common/server/datasearch/FileSearchTask;Lcom/manageengine/fap/common/server/NativeError;)Ljava/util/Properties;
 (Native Method)
  at 
com.manageengine.fap.common.server.ADHandler.impersonateForFileSearch(Ljava/lang/Long;Lcom/manageengine/fap/common/server/datasearch/FileSearchTask;)V
 (ADHandler.java:202)
  at com.manageengine.fap.common.server.datasearch.FileSearchTask.run()V 
(FileSearchTask.java:105)
  at 
java.util.concurrent.ThreadPoolExecutor.runWorker(Ljava/util/concurrent/ThreadPoolExecutor$Worker;)V
 (ThreadPoolExecutor.java:1149)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run()V 
(ThreadPoolExecutor.java:624)
  at java.lang.Thread.run()V (Thread.java:748)// code placeholder
{code}
The byte array contains something like 
"....D.d.....................|...L.P.....................................h.." 
followed by some xml data. Please let me know the issue and what this means.


> OutOfMemoryError occurs while parsing a doc file
> ------------------------------------------------
>
>                 Key: TIKA-3823
>                 URL: https://issues.apache.org/jira/browse/TIKA-3823
>             Project: Tika
>          Issue Type: Bug
>    Affects Versions: 1.23
>            Reporter: earl
>            Priority: Blocker
>
> OutOfMemoryError occurs while parsing a doc file of size 450 MB, not sure 
> about the uncompressed size. While analyzing the heap dump, the thread that 
> parses that file has a byte array of size around 450 MB. The heap size is set 
> to 2 GB still this issue persists.
> Stacktrace
> {code:java}
>   at java.lang.OutOfMemoryError.<init>()V (OutOfMemoryError.java:48)
>   at java.util.Arrays.copyOf([BI)[B (Arrays.java:3236)
>   at java.io.ByteArrayOutputStream.toByteArray()[B 
> (ByteArrayOutputStream.java:191)
>   at 
> org.apache.poi.hwpf.HWPFDocumentCore.getDocumentEntryBytes(Ljava/lang/String;II)[B
>  (HWPFDocumentCore.java:353)
>   at 
> org.apache.poi.hwpf.HWPFDocument.<init>(Lorg/apache/poi/poifs/filesystem/DirectoryNode;)V
>  (HWPFDocument.java:214)
>   at 
> org.apache.tika.parser.microsoft.WordExtractor.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/sax/XHTMLContentHandler;)V
>  (WordExtractor.java:156)
>   at 
> org.apache.tika.parser.microsoft.OfficeParser.parse(Lorg/apache/poi/poifs/filesystem/DirectoryNode;Lorg/apache/tika/parser/ParseContext;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/sax/XHTMLContentHandler;)V
>  (OfficeParser.java:175)
>   at 
> org.apache.tika.parser.microsoft.OfficeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
>  (OfficeParser.java:131)
>   at 
> org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
>  (CompositeParser.java:280)
>   at 
> org.apache.tika.parser.CompositeParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
>  (CompositeParser.java:280)
>   at 
> org.apache.tika.parser.AutoDetectParser.parse(Ljava/io/InputStream;Lorg/xml/sax/ContentHandler;Lorg/apache/tika/metadata/Metadata;Lorg/apache/tika/parser/ParseContext;)V
>  (AutoDetectParser.java:143)
> {code}
> The byte array contains something like 
> "....D.d.....................|...L.P.....................................h.." 
> followed by some xml data. Please let me know the issue and what this means.



--
This message was sent by Atlassian Jira
(v8.20.10#820010)

[jira] [Updated] (TIKA-3823) OutOfMemoryError occurs while parsing a doc file

Reply via email to