Salut Aldo,
Dans le répertoire word obtenu après unzip, tu trouveras un fichier nommé
document.xml. C'est ce fichier qui contient les données utiles du document
structuré en XML. Tu ouvres ce fichier avec l'éditeur vi et tu exécutes les
deux commandes suivantes :
:1,$s/<[^>]*>/\r/g
:1,$g/^$/d
La première commande vi remplace toutes les balises XML par un retour
chariot, histoire de se débarasser de toutes les balises de strcuture ou de
mise en forme pour ne laisser que le texte utile.
Comme on obtient une tonne de lignes blanches, la seconde commande vi permet
de s'en débarasser.
Au final tu obtient un texte brut dont la mise en page est un peu chaotique
mais on peut y déchiffrer des informations utiles. Une meilleure
connaissance de la nature des balises XML utlisées permettrait de faire un
traitement plus intelligent et d'obtenir un texte mieux structuré, mais je
ne connais pas le schéma XML d'Office et je n'ai pas le temps de m'y
pencher.
Avec un peu de travail on pourrait faire un script propre nommé docx2txt.
Cordialement
Tarik
----- Original Message -----
From: "Aldo" <[EMAIL PROTECTED]>
To: "CBLX" <[email protected]>
Sent: Saturday, February 02, 2008 8:40 AM
Subject: [CBLX] docx: impossibilité de lire...
Hello,
qq'un m'envoit une pj en .docx, et apparement ce n'est ni un doc Word ni
un
odt, mais un fichier openxml dont je ne vois pas que faire avec pour
pouvoir
le lire: j'ai tenté de l'unziper, ça ça va, et j'obtiens un repo word/
contenant pleins de fichiers xml, mais lequel est le contenant dud
contenu,
ça ?!
Et je paries en plus qu'il s'agit d'un document sorti tout droit des
usines
de MSOffice11 /version Vista si vous préférez...
Qq'n a une idée de ce qu'il faut faire avec?
Aldo.
--
https://bugs.launchpad.net/ubuntu/+bug/1 :
Micro$oft has a majority market share in the new desktop PC marketplace.
This is a bug, which Ubuntu is designed to fix !
http://www.ubuntu.com/
_______________________________________________
Liste de diffusion CarrefourBLinuX
[email protected]
http://lists.freearchive.org/mailman/listinfo/carrefourblinux
Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
Archives : http://lists.freearchive.org/pipermail//carrefourblinux
Anciennes archives (Yahoogroupes) :
http://fr.groups.yahoo.com/group/carrefourblinux/messages
Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
Pour s'inscire par courriel :
'mailto:[EMAIL PROTECTED]'
Pour se desinscrire par courriel :
'mailto:[EMAIL PROTECTED]'
_______________________________________________
Liste de diffusion CarrefourBLinuX
[email protected]
http://lists.freearchive.org/mailman/listinfo/carrefourblinux
Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
Archives : http://lists.freearchive.org/pipermail//carrefourblinux
Anciennes archives (Yahoogroupes) :
http://fr.groups.yahoo.com/group/carrefourblinux/messages
Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
Pour s'inscire par courriel :
'mailto:[EMAIL PROTECTED]'
Pour se desinscrire par courriel :
'mailto:[EMAIL PROTECTED]'