Bonjour,
Pas sûr que je réponde à la question pointue...
Mais à une époque , pas récente, ou je développais , j'avais cherché à
développer des compatibilités d'agenda à travers les fichiers
d'entrée/sorties au format ICS. Pour ce faire, j'utilisais les
analyseurs lexico-graphiques Lex-Yacc / Flex-Bisons (en langage
C/C++). C'est puissant mais un peu ardu à maitriser au démarrage. Je
suis persuadé que cela répond à votre besoin ; il y a sans doute mieux
et plus facile maintenant et cela fait 25 ans que je n'ai plus touché à
ces outils...
My Two cent's.
Cordialement.
Pierre
Le 15/11/2025 à 22:30, Bernard Schoenacker a écrit :
Bonjour à tous,
Pour un travail d’analyse et de vérification
documentaire, je souhaite explorer les méthodes
permettant de parser en bas niveau le XML
interne des formats modernes :
– ODT / ODS (OpenDocument)
– DOCX / XLSX (Office Open XML)
Plus précisément :
Quelles approches recommandez-vous pour l’extraction brute des fichiers XML à
partir des conteneurs ZIP (scripts, outils, bibliothèques) ?
Quels parseurs XML utilisent-vous dans un contexte de gros documents : DOM,
SAX, StAX / pull-parser, autre ?
Comment gérez-vous les contraintes propres à OOXML, notamment :
– sharedStrings.xml
– relationships (.rels)
– typage des cellules (t="s", t="n", etc.)
Existe-t-il des retours d’expérience sur la reconstruction “manuelle” (hors
API) :
– d’un tableau ODS à partir de content.xml
– d’une feuille XLSX à partir de sheet1.xml + sharedStrings.xml
Objectif : disposer d’une méthode de vérification indépendante de toute macro
ou API externe.
Merci pour vos retours techniques.
Bernard
--
Envoyez un mail à [email protected] pour vous désinscrire
Les archives de la liste sont disponibles à
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy