[jira] [Commented] (TIKA-3657) Microsoft documents are not text parsed when running under Docker

Tim Barrett (Jira) Tue, 25 Jan 2022 07:26:37 -0800


    [ 
https://issues.apache.org/jira/browse/TIKA-3657?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=17481892#comment-17481892
 ]


Tim Barrett commented on TIKA-3657:
-----------------------------------

version is: 2.2.2-SNAPSHOT

 

this all gives me a clean compile/build. However now I see a new problem; when 
I run our app in the dev env (before I even get to the Maven deployment), I get 
this error when I call the parse method on the parser:

java.lang.IncompatibleClassChangeError: class 
org.apache.poi.ooxml.extractor.POIXMLTextExtractor can not implement 
org.apache.poi.extractor.POITextExtractor, because it is not an interface 
(org.apache.poi.extractor.POITextExtractor is in unnamed module of loader 
org.apache.catalina.loader.Paral

at java.lang.ClassLoader.defineClass1(Native Method) ~[?:?]

at java.lang.ClassLoader._jr$defineClass(ClassLoader.java:1017) ~[?:?]

at java.lang.ClassLoader.defineClass(ClassLoader.java:43016) ~[?:?]

at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:174) 
~[?:?]

at 
org.apache.catalina.loader.WebappClassLoaderBase.findClassInternal(WebappClassLoaderBase.java:2352)
 ~[catalina.jar:9.0.10]

at 
org.apache.catalina.loader.WebappClassLoaderBase.findClass(WebappClassLoaderBase.java:833)
 ~[catalina.jar:9.0.10]

at 
org.apache.catalina.loader.WebappClassLoaderBase.loadClass(WebappClassLoaderBase.java:1278)
 ~[catalina.jar:9.0.10]

at 
org.apache.catalina.loader.WebappClassLoaderBase.loadClass(WebappClassLoaderBase.java:1138)
 ~[catalina.jar:9.0.10]

at 
org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:115) 
~[tika-parsers-standard-package-2.2.2-SNAPSHOT.jar:2.2.2-SNAPSHOT]

at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:289) 
~[tika-core-2.2.2-SNAPSHOT.jar:2.2.2-SNAPSHOT]

at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:289) 
~[tika-core-2.2.2-SNAPSHOT.jar:2.2.2-SNAPSHOT]

at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:185) 
~[tika-core-2.2.2-SNAPSHOT.jar:2.2.2-SNAPSHOT]

at 
com.nalanda.resource.NalandaResourceHandler.impParseGenericResource(NalandaResourceHandler.java:5590)
 ~[nalanda-core-RC_1.260.03.jar:?]

 

> Microsoft documents are not text parsed when running under Docker
> -----------------------------------------------------------------
>
>                 Key: TIKA-3657
>                 URL: https://issues.apache.org/jira/browse/TIKA-3657
>             Project: Tika
>          Issue Type: Bug
>          Components: config, core, depedency
>    Affects Versions: 2.2.0, 2.2.1
>            Reporter: Tim Barrett
>            Priority: Major
>             Fix For: 2.2.2
>
>         Attachments: tika-config.xml
>
>
> We use EmbeddedDocumentExtractor, with this code:
> NalyticsEmbeddedDocumentExtractor nalyticsEmbeddedDocumentExtractor = *new* 
> NalyticsEmbeddedDocumentExtractor(*this*);
> *this*.context.set(EmbeddedDocumentExtractor.*class*, 
> nalyticsEmbeddedDocumentExtractor);
> This all works fine for us, and has been used in production for a few years. 
> This also works under Tika 2.2.0 when running in development environments 
> (Eclipse, Apache Tomcat). However when running under Docker the text 
> withinMicrosoft documents (Word etc) is not parsed. Under Tika 2.1.0, under 
> Docker, the Microsoft documents are fully parsed, so this problem was 
> introduced in 2.2.0
> Interestingly, I found that if *anything at all* is added to the context via 
> context.set the same problem occurs. Also, if the standard Tika Embedded 
> Document Extractor is used the same problem occurs. Our Docker image contains 
> our application's code which uses Tika, as well as Apache DS. The problem 
> occurs running Docker on Ubuntu, Mac OS and Windows.
>  



--
This message was sent by Atlassian Jira
(v8.20.1#820001)

[jira] [Commented] (TIKA-3657) Microsoft documents are not text parsed when running under Docker

Reply via email to