Salut Aldo,

Dans le répertoire word obtenu après unzip, tu trouveras un fichier nommé document.xml. C'est ce fichier qui contient les données utiles du document structuré en XML. Tu ouvres ce fichier avec l'éditeur vi et tu exécutes les deux commandes suivantes :

:1,$s/<[^>]*>/\r/g
:1,$g/^$/d

La première commande vi remplace toutes les balises XML par un retour chariot, histoire de se débarasser de toutes les balises de strcuture ou de mise en forme pour ne laisser que le texte utile.

Comme on obtient une tonne de lignes blanches, la seconde commande vi permet de s'en débarasser.

Au final tu obtient un texte brut dont la mise en page est un peu chaotique mais on peut y déchiffrer des informations utiles. Une meilleure connaissance de la nature des balises XML utlisées permettrait de faire un traitement plus intelligent et d'obtenir un texte mieux structuré, mais je ne connais pas le schéma XML d'Office et je n'ai pas le temps de m'y pencher.

Avec un peu de travail on pourrait faire un script propre nommé docx2txt.

Cordialement
Tarik

----- Original Message ----- From: "Aldo" <[EMAIL PROTECTED]>
To: "CBLX" <[email protected]>
Sent: Saturday, February 02, 2008 8:40 AM
Subject: [CBLX] docx: impossibilité de lire...


Hello,

qq'un m'envoit une pj en .docx, et apparement ce n'est ni un doc Word ni un odt, mais un fichier openxml dont je ne vois pas que faire avec pour pouvoir
le lire: j'ai tenté de l'unziper, ça ça va, et j'obtiens un repo word/
contenant pleins de fichiers xml, mais lequel est le contenant dud contenu,
ça ?!
Et je paries en plus qu'il s'agit d'un document sorti tout droit des usines
de MSOffice11 /version Vista si vous préférez...

Qq'n a une idée de ce qu'il faut faire avec?

Aldo.


--
https://bugs.launchpad.net/ubuntu/+bug/1 :
Micro$oft has a majority market share in the new desktop PC marketplace.
This is a bug, which Ubuntu is designed to fix !
http://www.ubuntu.com/
_______________________________________________
Liste de diffusion CarrefourBLinuX
   [email protected]
   http://lists.freearchive.org/mailman/listinfo/carrefourblinux
Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
Archives : http://lists.freearchive.org/pipermail//carrefourblinux
Anciennes archives (Yahoogroupes) :
   http://fr.groups.yahoo.com/group/carrefourblinux/messages
Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
Pour s'inscire par courriel :

'mailto:[EMAIL PROTECTED]'
Pour se desinscrire par courriel :

'mailto:[EMAIL PROTECTED]'


_______________________________________________
Liste de diffusion CarrefourBLinuX [email protected]
   http://lists.freearchive.org/mailman/listinfo/carrefourblinux
Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
Archives : http://lists.freearchive.org/pipermail//carrefourblinux
Anciennes archives (Yahoogroupes) :
   http://fr.groups.yahoo.com/group/carrefourblinux/messages
Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
Pour s'inscire par courriel : 'mailto:[EMAIL PROTECTED]' Pour se desinscrire par courriel : 'mailto:[EMAIL PROTECTED]'

Répondre à