Salut Aldo,
Voici un script qui fait le travail de manière automatique :
vi -E $1 << FIN
1,\$s/<[^>]*>/\r/g
1,\$g/^$/d
w
q
FIN
echo fichier docx conerti
Tu lui passes le nom du fichier docx en paramètre. Le script appelle vi avec
l'option -E pour qu'il passe automatiquement en mode commande. On redirige
l'entrée standard de vi vers le script en cours.
Pour ce qui est des phrases collées les unes aux autres, oui car tu utilises
lynx en forçant le html. Or le html ne connaît pas les retours chariot (\r)
que j'ai mis dans le script. Donc il colle toutes les lignes. Donc soit tu
enlèves l'option --force de lynx soit dans le script tu transformes le \r en
<br>, le retour chariot de html.
Cordialement
Tarik
Le mercredi 6 février 2008 07:06, vous avez écrit :
> ----- Original Message -----
> From: "Osvaldo La Rosa" <[EMAIL PROTECTED]>
> To: "Carrefour BLinux francophone, pour les non- et mal-voyants."
> <[email protected]>
> Sent: Tuesday, February 05, 2008 8:26 PM
> Subject: Re: [CBLX] docx: impossibilité de lire...
>
> > Bonsoir Tarik,
> >
> > On Sat, Feb 02, 2008 at 09:51:51AM -0000, Tarik Fdil wrote:
> >> Salut Aldo,
> >>
> >> Dans le répertoire word obtenu après unzip, tu trouveras un fichier
> >> nommé document.xml. C'est ce fichier qui contient les données utiles du
> >> document
> >> structuré en XML. Tu ouvres ce fichier avec l'éditeur vi
> >
> > C'est ce que j'ai fait.
> >
> >>et tu exécutes les
> >>
> >> deux commandes suivantes :
> >> :1,$s/<[^>]*>/\r/g
> >> :1,$g/^$/d
> >
> > C'est ce que j'ai fait également.
> >
> > Puis j'ai sauvé; et si je lance par ex. lynx -force_html document.xml j'y
> > lis un texte sans codes mais dont les paragraphes sont liés, genre:
> >
> > Ceci est une première phraseVoici la secondeEt je poursuis par la
> > troisièmeJe termine enfin par une quatrième phrase.
> >
> > Plus étonnant est que si je veux un peu automatiser cela, avec les
> > commandes suivantes j'obtiens un résultat identique:
> > unzip -p src.docx word/document.xml |o3totxt >out.txt && lynx out.txt
> >
> > Y a-t-il sinon moyen avec vi de faire l'operation d'un seul trait depuis
> > la ligne de commande ? serait-ce via l'option -c ou --cmd ?
> >
> > Aldo.
> >
> > _______________________________________________
> > Liste de diffusion CarrefourBLinuX
> > [email protected]
> > http://lists.freearchive.org/mailman/listinfo/carrefourblinux
> > Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
> > Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
> > Archives : http://lists.freearchive.org/pipermail//carrefourblinux
> > Anciennes archives (Yahoogroupes) :
> > http://fr.groups.yahoo.com/group/carrefourblinux/messages
> > Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
> > Pour s'inscire par courriel :
> >
> > 'mailto:[EMAIL PROTECTED]'
> > Pour se desinscrire par courriel :
> >
> > 'mailto:[EMAIL PROTECTED]
> >'
vi -E $1 << FIN
1,\$s/<[^>]*>/\r/g
1,\$g/^$/d
w
q
FIN
echo fichier docx conerti
_______________________________________________
Liste de diffusion CarrefourBLinuX
[email protected]
http://lists.freearchive.org/mailman/listinfo/carrefourblinux
Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
Archives : http://lists.freearchive.org/pipermail//carrefourblinux
Anciennes archives (Yahoogroupes) :
http://fr.groups.yahoo.com/group/carrefourblinux/messages
Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
Pour s'inscire par courriel :
'mailto:[EMAIL PROTECTED]'
Pour se desinscrire par courriel :
'mailto:[EMAIL PROTECTED]'