Bonjour à tous,

Pour un travail d’analyse et de vérification 
documentaire, je souhaite explorer les méthodes 
permettant de parser en bas niveau le XML 
interne des formats modernes :

– ODT / ODS (OpenDocument)
– DOCX / XLSX (Office Open XML)

Plus précisément :

Quelles approches recommandez-vous pour l’extraction brute des fichiers XML à 
partir des conteneurs ZIP (scripts, outils, bibliothèques) ?

Quels parseurs XML utilisent-vous dans un contexte de gros documents : DOM, 
SAX, StAX / pull-parser, autre ?

Comment gérez-vous les contraintes propres à OOXML, notamment :
– sharedStrings.xml
– relationships (.rels)
– typage des cellules (t="s", t="n", etc.)

Existe-t-il des retours d’expérience sur la reconstruction “manuelle” (hors 
API) :
– d’un tableau ODS à partir de content.xml
– d’une feuille XLSX à partir de sheet1.xml + sharedStrings.xml

Objectif : disposer d’une méthode de vérification indépendante de toute macro 
ou API externe.

Merci pour vos retours techniques.

Bernard


-- 
Envoyez un mail à [email protected] pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Répondre à