[progliste] Re: DÃ©-HTML-iiser du texte

Jean-FranÃ§ois Colas Fri, 07 Apr 2017 12:12:41 -0700

Hello Abdel et tous,

Merci bien, je suis content que tu te sois senti inspirÃ©. En relisantton mail, il me semble que tu as bien pigÃ© mon besoin. Il fautabsolument que je parvienne Ã tester Ã§a dans les deux premiers jours dela semaine prochaine, sur un poste Ã braille, avant mes holidays... Enfait, ma "cible" principale, c'est le texte de mails Ã©crits en html etque je prÃ©fÃ¨re, Ã des fins d'archivage, convertir et garder en texte.c'est pourquoi il ne s'agit pas(ou trÃ¨s rarement) de fichier entier.


Je te redonne des news dÃ¨s que possible.

J.-F.

Le 06/04/2017 22:47, Abdel a Ã©crit :

Coucou JF,
En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r bien compris tademande, je te suggÃ¨re une solution.
Tu dis :
Je me souviens bien d'un message qui me nargue, et qui parle de Pandocpour dÃ©-html-iser simplement un document... Je ne suis pas certainmalgrÃ© tout que ce soit tout Ã fait ce dont j'aurais besoin.
Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?
En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre2 chose sur du HTML :
   1. Convertir le document en un autre format;
   2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc, retrouver le code
      du fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'as envoyÃ©.



Remarque :
Pour la seconde conversion, tu peux mÃªme la faire sur des fichiershtml qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, mais le rÃ©sultat sur lefichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement ledocument html de base.
Mais en lisant et relisant ton mail, sauf erreur de ma part, on diraitque ces conversions ne sont pas vraiment ce que tu souhaites.
Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balisesdoubles, comme (p, h1, etc.), ou des balises uniques comme (<br />).
Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªmequelles seraient les balises que tu souhaiterais enlever, mais garderle texte qu'elles contiennent, dans le cas des balises doubles.
Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?
Si c'est bien cela, au lieu d'utiliser des modules externes Ã Python,comme le cÃ©lÃ¨bre BeautifulSoup<https://docs.python.org/3/library/html.parser.html>, html.parser<http://apprendre-python.com/page-beautifulsoup-html-parser-python-library-xml>, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bien cetravail.
Tu trouveras en PJ, un petit module 6pad++.py, avec une fonctionfilterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.
AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoire oÃ¹ se situel'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres unfichier html que tu souhaiterais modifier.
La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, unfichier filterHtml.html, avec les balises <p>, les balises de <h1> Ã <h6>, ainsi que les balises <br /> qui auront Ã©tÃ© effacÃ©es, enconservant le texte contenu dans les balises doubles bien entendu.
Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce auxregexp, tout est faisable, lol !
La regexp compilÃ©e rg capture les balises p et h1 Ã 6 ouvrante etfermantes, mais tu pourras en ajouter si tu veux, selon les besoins,en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rence arriÃ¨re.
rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)(</\1>))', re.S)

La regexp rg1 matche les balises <br />.

rg1 = re.compile('<br.*>')
La regexp rg2 matche toutes les balises html, sans exception, au casoÃ¹ on en aurait besoin.
Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)
Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter lesremplacements...
Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :
Hello la ML,
Je me souviens bien d'un message qui me nargue, et qui parle dePandoc pour dÃ©-html-iser simplement un document... Je ne suis pascertain malgrÃ© tout que ce soit tout Ã fait ce dont j'aurais besoin.Il me faudrait quelque chose capable de traiter tout, OU PARTIE, d'undocument.
Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait mepermettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout enme dÃ©barrassant des balises elles-mÃªmes, afin de faire undÃ©-html-iseur sans prÃ©tention, hormis celle de se glisser dans desutilitaires personnels pour 6Pad? Si malgrÃ© tout je pouvaisdiscriminer certaines balises, pour autant que j'y songe rapidement,<br> ou <p> ou peut-Ãªtre les <h1> Ã <h6>, mais pas Ã©normÃ©ment au-delÃ .
Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste :mailto:progliste-requ...@ml.free.fr?subject=unsubscribe
Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/
Je vous rappelle que les piï¿½ces jointe sont activï¿½s leur taille estlimitï¿½ ï¿½ 2 MO
Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou enprivï¿½, je vous rï¿½pondrez en privï¿½.


Progliste :
Pour se dï¿½sinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les pièces jointe sont activés leur taille est limité à 2 MO

Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privï¿½, je 
vous rï¿½pondrez en privï¿½.

[progliste] Re: DÃ©-HTML-iiser du texte

Répondre à