[
https://issues.apache.org/jira/browse/TIKA-2211?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15766504#comment-15766504
]
Adam Carroll commented on TIKA-2211:
------------------------------------
That certainly sounds like the cause of the problem! Looking inside the file
it appears to be just a container for HTML pages. I don't know how Tika works
internally but presumably the existing HTML parser already deals with this
problem. Could using that help?
If that makes no sense, sorry. Like I say, I don't know how Tika works
internally...
> ePub formatting instructions appear in plain text output
> --------------------------------------------------------
>
> Key: TIKA-2211
> URL: https://issues.apache.org/jira/browse/TIKA-2211
> Project: Tika
> Issue Type: Bug
> Affects Versions: 1.14
> Environment: I tested this on on Mac OSX 10.11.6 with Oracle JDK
> 1.8.0_112. The Tika stand-alone application was launched as follows:
> {code}
> java -jar tika-app-1.14.jar
> {code}
> Reporter: Adam Carroll
>
> For some ePub files, format information appears in the plain text output
> produced by Apache Tika. For example the Tika stand-alone application shows
> the following text for the file “Don Quijote de la Mancha - Miguel de
> Cervantes.epub” (dowloaded
> [here|http://www.literanda.com/don-quijote-de-la-mancha--miguel-de-cervantes--epub]):
> {code}
> /**/
> p.sgc-2 {font-style: italic; text-align: right}
> p.sgc-1 {text-align: justify;}
> h3.sgc-3 {text-align: center;}
> /**/
> Al duque de Béjar
> Marqués de Gibraleón, conde de Benalcázar y Bañares, vizconde de La Puebla de
> Alcocer, señor de las villas de Capilla, Curiel y Burguillos
> En fe del buen acogimiento y honra que hace Vuestra Excelencia a toda suerte
> de libros, como príncipe tan inclinado a favorecer las buenas artes,
> mayormente las que por su nobleza no se abaten al servicio y granjerías del
> vulgo, he determinado de sacar a luz El ingenioso hidalgo don Quijote de la
> Mancha, al abrigo del clarísimo nombre de Vuestra Excelencia, a quien, con el
> acatamiento que debo a tanta grandeza, suplico le reciba agradablemente en su
> protección, para que a su sombra, aunque desnudo de aquel precioso ornamento
> de elegancia y erudición de que suelen andar vestidas las obras que se
> componen en las casas de los hombres que saben, ose parecer seguramente en el
> juicio de algunos que, conteniéndose en los límites de su ignorancia, suelen
> condenar con más rigor y menos justicia los trabajos ajenos; que, poniendo
> los ojos la prudencia de Vuestra Excelencia en mi buen deseo, fío que no
> desdeñará la cortedad de tan humilde servicio.
> {code}
> To reproduce this problem run the stand-alone version of Tika and open an
> affected ePub file such as the one mentioned above. Then go to View -> Plain
> Text. You should see the problem there.
> By the way, thanks for making Apache Tika a really useful library. Keep up
> the good work!
--
This message was sent by Atlassian JIRA
(v6.3.4#6332)