>
> Pour un travail d’analyse et de vérification
> documentaire, je souhaite explorer les méthodes
> permettant de parser en bas niveau le XML
> interne des formats modernes :
>
> – ODT / ODS (OpenDocument)
> – DOCX / XLSX (Office Open XML)
>
> Plus précisément :
>
> Quelles approches recommandez-vous pour l’extraction brute des fichiers XML à 
> partir des conteneurs ZIP (scripts, outils, bibliothèques) ?
>
> Quels parseurs XML utilisent-vous dans un contexte de gros documents : DOM, 
> SAX, StAX / pull-parser, autre ?
>
> Comment gérez-vous les contraintes propres à OOXML, notamment :
> – sharedStrings.xml
> – relationships (.rels)
> – typage des cellules (t="s", t="n", etc.)
>
> Existe-t-il des retours d’expérience sur la reconstruction “manuelle” (hors 
> API) :
> – d’un tableau ODS à partir de content.xml
> – d’une feuille XLSX à partir de sheet1.xml + sharedStrings.xml
>
> Objectif : disposer d’une méthode de vérification indépendante de toute macro 
> ou API externe.
>
> Merci pour vos retours techniques.
>
> Bernard

Répondre à