[jira] [Commented] (TIKA-4466) OPFParser: Only the last dc:identifier is parsed, while multiple are valid.

Hudson (Jira) Wed, 20 Aug 2025 07:40:06 -0700


    [ 
https://issues.apache.org/jira/browse/TIKA-4466?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=18015199#comment-18015199
 ]


Hudson commented on TIKA-4466:
------------------------------

SUCCESS: Integrated in Jenkins build Tika » tika-branch_3x-jdk11 #2170 (See 
[https://ci-builds.apache.org/job/Tika/job/tika-branch_3x-jdk11/2170/])
TIKA-4466 -- allow multiple values for many DublinCore values (#2308) 
(tallison: 
[https://github.com/apache/tika/commit/79500639ff9b495091a11b0e8777bcb1b6aad915])
* (edit) tika-xmp/src/test/java/org/apache/tika/xmp/TikaToXMPTest.java
* (add) 
tika-parsers/tika-parsers-standard/tika-parsers-standard-modules/tika-parser-miscoffice-module/src/test/resources/test-documents/testEPUB_multi-metadata-vals.epub
* (edit) 
tika-parsers/tika-parsers-standard/tika-parsers-standard-modules/tika-parser-miscoffice-module/src/test/java/org/apache/tika/parser/epub/EpubParserTest.java
* (edit) 
tika-parsers/tika-parsers-standard/tika-parsers-standard-modules/tika-parser-pdf-module/src/main/java/org/apache/tika/parser/pdf/PDMetadataExtractor.java
* (edit) 
tika-parsers/tika-parsers-standard/tika-parsers-standard-modules/tika-parser-pdf-module/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
* (edit) CHANGES.txt
* (edit) 
tika-parsers/tika-parsers-standard/tika-parsers-standard-modules/tika-parser-xml-module/src/main/java/org/apache/tika/parser/xml/DcXMLParser.java
* (edit) tika-core/src/main/java/org/apache/tika/metadata/DublinCore.java
* (edit) 
tika-xmp/src/main/java/org/apache/tika/xmp/convert/AbstractConverter.java


> OPFParser: Only the last dc:identifier is parsed, while multiple are valid.
> ---------------------------------------------------------------------------
>
>                 Key: TIKA-4466
>                 URL: https://issues.apache.org/jira/browse/TIKA-4466
>             Project: Tika
>          Issue Type: Bug
>          Components: parser
>    Affects Versions: 3.2.2
>            Reporter: Grigorii Ioffe
>            Priority: Major
>             Fix For: 4.0.0, 3.3.0
>
>         Attachments: image-2025-08-15-10-35-10-476.png, test_file.epub
>
>
> I have an ePub file with metadata stored in an OPF file with multiple 
> dc:identifier fields. But during its parsing OPFParser extracts only the last 
> one. 
> For example, if a OPF file inside ePub contains such entries of dc:identifier:
> {code:java}
>     <dc:identifier>isbn:9780765350381</dc:identifier>
>     <dc:identifier>mobi-asin:JD4PTHPBGIAQYZUBFUU3VFPVEUKY7S3U</dc:identifier>
>     <dc:identifier>amazon:0765350386</dc:identifier>
>     <dc:identifier>goodreads:243272</dc:identifier>
>     <dc:identifier>calibre:55</dc:identifier>
>     <dc:identifier>uuid:7dcb83b5-7364-4e29-9e5c-1d7b966a3595</dc:identifier>
>     <dc:identifier 
> id="uuid_id">uuid:7dcb83b5-7364-4e29-9e5c-1d7b966a3595</dc:identifier> {code}
> only uuid:7dcb83b5-7364-4e29-9e5c-1d7b966a3595 will be in parsed metadata.
> According to the Dublin Core spec it is a valid situation as identifier 
> marked as repeatable:
> [https://www.w3.org/TR/epub-33/#sec-opf-dcidentifier]
> My investigation showed that the field is created with PropertyType.SIMPLE 
> here:
> `org.apache.tika.metadata/DublinCore.class:60`
> as a result, 
> `org.apache.tika.metadata/Property.class:272`
> returns false and therefore each entry overrides a value stored before 
> instead of adding to an array.
>  
> Also, this is not the only field with incorrect type definition. Looks like 
> that Title, language, description and some others fields are also defined 
> incorrectly (or at least parsed in OPFParser and DCXmlParcer incorrectly)
>  



--
This message was sent by Atlassian Jira
(v8.20.10#820010)

[jira] [Commented] (TIKA-4466) OPFParser: Only the last dc:identifier is parsed, while multiple are valid.

Reply via email to