> > Pour un travail d’analyse et de vérification > documentaire, je souhaite explorer les méthodes > permettant de parser en bas niveau le XML > interne des formats modernes : > > – ODT / ODS (OpenDocument) > – DOCX / XLSX (Office Open XML) > > Plus précisément : > > Quelles approches recommandez-vous pour l’extraction brute des fichiers XML à > partir des conteneurs ZIP (scripts, outils, bibliothèques) ? > > Quels parseurs XML utilisent-vous dans un contexte de gros documents : DOM, > SAX, StAX / pull-parser, autre ? > > Comment gérez-vous les contraintes propres à OOXML, notamment : > – sharedStrings.xml > – relationships (.rels) > – typage des cellules (t="s", t="n", etc.) > > Existe-t-il des retours d’expérience sur la reconstruction “manuelle” (hors > API) : > – d’un tableau ODS à partir de content.xml > – d’une feuille XLSX à partir de sheet1.xml + sharedStrings.xml > > Objectif : disposer d’une méthode de vérification indépendante de toute macro > ou API externe. > > Merci pour vos retours techniques. > > Bernard

