subject:"\[progliste\] Re\: Dé\-HTML\-iiser du texte"

[progliste] Re: Dé-HTML-iiser du texte

2017-04-15 Par sujet Jean-François Colas


Hello Matt et tous,

De fait je ne l'ai pas encore essayÃ© dans ce sens-lÃ . LÃ  oÃ¹ je suis un 
peu rÃ©ticent Ã  cette solution, c'est que Ã§a nÃ©cessite... d'installer 
Pandoc. Or, si c'est bien le cas sur l'un des ordis oÃ¹ j'utilise 
rÃ©guliÃ¨rement 6Pad++, ce n'est pas le cas de l'autre. Bon, pour 
l'instant, je dirais que lÃ  oÃ¹ j'aurais le plus besoin de faire des 
conversions serait justement l'ordi sur lequel Pandoc est installÃ©. Donc 
Ã§a tombe plutÃ´t bien. Mais bon, bien qu'on doive tout faire selon le 
principe du 80-20... j'ai parfois du mal Ã  m'y rÃ©soudre.


J.-F.


Le 14/04/2017 23:13, Mathieu Barbe a Ã©crit :

Coucou JF,

as tu essayer pandoc?

Bon week-end

++ Math



Le 10/04/2017 Ã  20:41, Jean-FranÃ§ois Colas a Ã©crit :

Hello Abdel,

J'ai pu faire un petit essai. C'est pour moi une trÃ¨s bonne base de 
dÃ©part. Je n'ai pas le temps de l'affiner d'ici demain soir, Ã§a 
repousse la suite de l'histoire au moment de ma reprise du boulot la 
semaine prochaine. Entre autres choses que je devrai me faire:
- Supprimer toute partie entre  et , ainsi que les 
Ã©lÃ©ments de CSS ou je ne sais quoi, faut que je voie Ã§a de plus prÃ¨s.
- Remplacer les entitÃ©s caractÃ¨res, en tout cas un certain nombre 
comme  pour l'apostrophe, Ã©galement le  incontournable, 
etc.


Mais tout Ã§a me semble Ã  ma portÃ©e, si je parviens Ã  revenir en forme 
au boulot lol.


Encore un grand merci pour ce coup de pouce.

J.-F.


Le 06/04/2017 22:47, Abdel a Ã©crit :


Coucou JF,

En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r biencompris ta
demande, je te suggÃ¨re une solution.

Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc
pour dÃ©-html-iser simplement un document... Je ne suis pas certain
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.

Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?

En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre
2 chose sur du HTML :

 1. Convertir le document en un autre format;
 2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc,retrouver le code du
fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'asenvoyÃ©.



Remarque :

Pour la seconde conversion, tu peux mÃªme la faire sur des fichiers
html qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, maisle rÃ©sultat sur le
fichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement le
document html de base.

Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait
que ces conversions ne sont pas vraiment ce que tu souhaites.

Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises
doubles, comme (p, h1, etc.), ou des balises uniques comme ().

Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªme
quelles seraient les balises que tu souhaiterais enlever, mais garder
le texte qu'elles contiennent, dans le cas des balises doubles.

Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes Ã  Python,
comme le cÃ©lÃ¨bre BeautifulSoup
, html.parser
 


, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bience
travail.

Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction
filterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.

AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoireoÃ¹ se situe
l'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un
fichier html que tu souhaiterais modifier.

La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, un
fichier filterHtml.html, avec les balises , les balises de  Ã 
, ainsi que les balises  qui auront Ã©tÃ© effacÃ©es, en
conservant le texte contenu dans les balises doubles bien entendu.

Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce aux
regexp, tout est faisable, lol !

La regexp compilÃ©e rg capture les balises p et h1 Ã  6 ouvrante et
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins,
en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rencearriÃ¨re.

rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)())', re.S)

La regexp rg1 matche les balises .

rg1 = re.compile('')

La regexp rg2 matche toutes les balises html, sans exception, au cas
oÃ¹ on en aurait besoin.

Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter les
remplacements...

Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de
Pandoc pour dÃ©-html-iser simplement un document... Je ne suis pas
certain malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.
Il me faudrait

[progliste] Re: Dé-HTML-iiser du texte

2017-04-14 Par sujet Mathieu Barbe


Coucou JF,

as tu essayer pandoc?

Bon week-end

++ Math



Le 10/04/2017 Ã  20:41, Jean-FranÃ§ois Colas a Ã©crit :

Hello Abdel,

J'ai pu faire un petit essai. C'est pour moi une trÃ¨s bonne base de 
dÃ©part. Je n'ai pas le temps de l'affiner d'ici demain soir, Ã§a 
repousse la suite de l'histoire au moment de ma reprise du boulot la 
semaine prochaine. Entre autres choses que je devrai me faire:
- Supprimer toute partie entre  et , ainsi que les 
Ã©lÃ©ments de CSS ou je ne sais quoi, faut que je voie Ã§a de plus prÃ¨s.
- Remplacer les entitÃ©s caractÃ¨res, en tout cas un certain nombre 
comme  pour l'apostrophe, Ã©galement le  incontournable, etc.


Mais tout Ã§a me semble Ã  ma portÃ©e, si je parviens Ã  revenir en forme 
au boulot lol.


Encore un grand merci pour ce coup de pouce.

J.-F.


Le 06/04/2017 22:47, Abdel a Ã©crit :


Coucou JF,

En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r biencompris ta
demande, je te suggÃ¨re une solution.

Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc
pour dÃ©-html-iser simplement un document... Je ne suis pas certain
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.

Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?

En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre
2 chose sur du HTML :

 1. Convertir le document en un autre format;
 2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc,retrouver le code du
fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'asenvoyÃ©.



Remarque :

Pour la seconde conversion, tu peux mÃªme la faire sur des fichiers
html qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, maisle rÃ©sultat sur le
fichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement le
document html de base.

Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait
que ces conversions ne sont pas vraiment ce que tu souhaites.

Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises
doubles, comme (p, h1, etc.), ou des balises uniques comme ().

Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªme
quelles seraient les balises que tu souhaiterais enlever, mais garder
le texte qu'elles contiennent, dans le cas des balises doubles.

Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes Ã  Python,
comme le cÃ©lÃ¨bre BeautifulSoup
, html.parser
 


, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bience
travail.

Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction
filterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.

AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoireoÃ¹ se situe
l'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un
fichier html que tu souhaiterais modifier.

La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, un
fichier filterHtml.html, avec les balises , les balises de  Ã 
, ainsi que les balises  qui auront Ã©tÃ© effacÃ©es, en
conservant le texte contenu dans les balises doubles bien entendu.

Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce aux
regexp, tout est faisable, lol !

La regexp compilÃ©e rg capture les balises p et h1 Ã  6 ouvrante et
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins,
en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rencearriÃ¨re.

rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)())', re.S)

La regexp rg1 matche les balises .

rg1 = re.compile('')

La regexp rg2 matche toutes les balises html, sans exception, au cas
oÃ¹ on en aurait besoin.

Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter les
remplacements...

Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de
Pandoc pour dÃ©-html-iser simplement un document... Je ne suis pas
certain malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.
Il me faudrait quelque chose capable de traiter tout, OU PARTIE, d'un
document.

Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait me
permettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout en
me dÃ©barrassant des balises elles-mÃªmes, afin de faire un
dÃ©-html-iseur sans prÃ©tention, hormis celle de se glisser dansdes
utilitaires personnels pour 6Pad? Si malgrÃ© tout je pouvais
discriminer certaines balises, pour autant que j'y songe rapidement,
 ou  ou peut-Ãªtre les  Ã  , mais pas Ã©normÃ©ment au-delÃ .

Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste :

[progliste] Re: Dé-HTML-iiser du texte

2017-04-10 Par sujet Jean-François Colas


Hello Abdel,

J'ai pu faire un petit essai. C'est pour moi une trÃ¨s bonne base de 
dÃ©part. Je n'ai pas le temps de l'affiner d'ici demain soir, Ã§a repousse 
la suite de l'histoire au moment de ma reprise du boulot la semaine 
prochaine. Entre autres choses que je devrai me faire:
- Supprimer toute partie entre  et , ainsi que les Ã©lÃ©ments 
de CSS ou je ne sais quoi, faut que je voie Ã§a de plus prÃ¨s.
- Remplacer les entitÃ©s caractÃ¨res, en tout cas un certain nombre comme 
 pour l'apostrophe, Ã©galement le  incontournable, etc.


Mais tout Ã§a me semble Ã  ma portÃ©e, si je parviens Ã  revenir en forme au 
boulot lol.


Encore un grand merci pour ce coup de pouce.

J.-F.


Le 06/04/2017 22:47, Abdel a Ã©crit :


Coucou JF,

En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r biencompris ta
demande, je te suggÃ¨re une solution.

Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc
pour dÃ©-html-iser simplement un document... Je ne suis pas certain
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.

Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?

En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre
2 chose sur du HTML :

 1. Convertir le document en un autre format;
 2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc,retrouver le code du
fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'asenvoyÃ©.



Remarque :

Pour la seconde conversion, tu peux mÃªme la faire sur des fichiers
html qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, maisle rÃ©sultat sur le
fichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement le
document html de base.

Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait
que ces conversions ne sont pas vraiment ce que tu souhaites.

Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises
doubles, comme (p, h1, etc.), ou des balises uniques comme ().

Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªme
quelles seraient les balises que tu souhaiterais enlever, mais garder
le texte qu'elles contiennent, dans le cas des balises doubles.

Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes Ã  Python,
comme le cÃ©lÃ¨bre BeautifulSoup
, html.parser

, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bience
travail.

Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction
filterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.

AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoireoÃ¹ se situe
l'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un
fichier html que tu souhaiterais modifier.

La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, un
fichier filterHtml.html, avec les balises , les balises de  Ã 
, ainsi que les balises  qui auront Ã©tÃ© effacÃ©es, en
conservant le texte contenu dans les balises doubles bien entendu.

Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce aux
regexp, tout est faisable, lol !

La regexp compilÃ©e rg capture les balises p et h1 Ã  6 ouvrante et
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins,
en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rencearriÃ¨re.

rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)())', re.S)

La regexp rg1 matche les balises .

rg1 = re.compile('')

La regexp rg2 matche toutes les balises html, sans exception, au cas
oÃ¹ on en aurait besoin.

Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter les
remplacements...

Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de
Pandoc pour dÃ©-html-iser simplement un document... Je ne suis pas
certain malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.
Il me faudrait quelque chose capable de traiter tout, OU PARTIE, d'un
document.

Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait me
permettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout en
me dÃ©barrassant des balises elles-mÃªmes, afin de faire un
dÃ©-html-iseur sans prÃ©tention, hormis celle de se glisser dansdes
utilitaires personnels pour 6Pad? Si malgrÃ© tout je pouvais
discriminer certaines balises, pour autant que j'y songe rapidement,
 ou  ou peut-Ãªtre les  Ã  , mais pas Ã©normÃ©ment au-delÃ .

Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste :
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les

[progliste] Re: Dé-HTML-iiser du texte

2017-04-07 Par sujet Jean-François Colas


Hello Abdel et tous,

Merci bien, je suis content que tu te sois senti inspirÃ©. En relisant 
ton mail, il me semble que tu as bien pigÃ© mon besoin. Il faut 
absolument que je parvienne Ã  tester Ã§a dans les deux premiers jours de 
la semaine prochaine, sur un poste Ã  braille, avant mes holidays... En 
fait, ma "cible" principale, c'est le texte de mails Ã©crits en html et 
que je prÃ©fÃ¨re, Ã  des fins d'archivage, convertir et garder en texte. 
c'est pourquoi il ne s'agit pas(ou trÃ¨s rarement)  de fichier entier.


Je te redonne des news dÃ¨s que possible.

J.-F.

Le 06/04/2017 22:47, Abdel a Ã©crit :


Coucou JF,

En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r bien compris ta 
demande, je te suggÃ¨re une solution.


Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc 
pour dÃ©-html-iser simplement un document... Je ne suis pas certain 
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.


Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?

En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre 
2 chose sur du HTML :


   1. Convertir le document en un autre format;
   2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc, retrouver le code
  du fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'as envoyÃ©.



Remarque :

Pour la seconde conversion, tu peux mÃªme la faire sur des fichiers 
html qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, mais le rÃ©sultat sur le 
fichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement le 
document html de base.


Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait 
que ces conversions ne sont pas vraiment ce que tu souhaites.


Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises 
doubles, comme (p, h1, etc.), ou des balises uniques comme ().


Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªme 
quelles seraient les balises que tu souhaiterais enlever, mais garder 
le texte qu'elles contiennent, dans le cas des balises doubles.


Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes Ã  Python, 
comme le cÃ©lÃ¨bre BeautifulSoup 
, html.parser 
 
, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bien ce 
travail.


Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction 
filterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.


AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoire oÃ¹ se situe 
l'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un 
fichier html que tu souhaiterais modifier.


La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, un 
fichier filterHtml.html, avec les balises , les balises de  Ã  
, ainsi que les balises  qui auront Ã©tÃ© effacÃ©es, en 
conservant le texte contenu dans les balises doubles bien entendu.


Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce aux 
regexp, tout est faisable, lol !


La regexp compilÃ©e rg capture les balises p et h1 Ã  6 ouvrante et 
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins, 
en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rence arriÃ¨re.


rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)())', re.S)

La regexp rg1 matche les balises .

rg1 = re.compile('')

La regexp rg2 matche toutes les balises html, sans exception, au cas 
oÃ¹ on en aurait besoin.


Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter les 
remplacements...


Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de 
Pandoc pour dÃ©-html-iser simplement un document... Je ne suis pas 
certain malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin. 
Il me faudrait quelque chose capable de traiter tout, OU PARTIE, d'un 
document.


Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait me 
permettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout en 
me dÃ©barrassant des balises elles-mÃªmes, afin de faire un 
dÃ©-html-iseur sans prÃ©tention, hormis celle de se glisser dans des 
utilitaires personnels pour 6Pad? Si malgrÃ© tout je pouvais 
discriminer certaines balises, pour autant que j'y songe rapidement, 
 ou  ou peut-Ãªtre les  Ã  , mais pas Ã©normÃ©ment au-delÃ .


Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe


Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les piï¿½ces jointe sont activï¿½s leur taille

[progliste] Re: Dé-HTML-iiser du texte

2017-04-06 Par sujet Abdel


Coucou JF,

En complément de la réponse de Math, si j'ai bien sûr bien compris ta 
demande, je te suggère une solution.


Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc 
pour dé-html-iser simplement un document... Je ne suis pas certain 
malgré tout que ce soit tout à fait ce dont j'aurais besoin.


Ma réponse :

Pandoc pour dé-html-iser un document?

En fait, en matière de conversion de format, pandoc peut te permettre 2 
chose sur du HTML :


1. Convertir le document en un autre format;
2. Si le fichier html a été généré avec Pandoc, retrouver le code du
   fichier md qui l'a généré, c'est le code que Math t'as envoyé.



Remarque :

Pour la seconde conversion, tu peux même la faire sur des fichiers html 
qui n'ont pas été générés avec Pandoc, mais le résultat sur le fichier 
md généré ne permettra pas de reconstruire exactement le document html 
de base.


Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait 
que ces conversions ne sont pas vraiment ce que tu souhaites.


Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises 
doubles, comme (p, h1, etc.), ou des balises uniques comme ().


Tu souhaiterais avoir la possibilité de pouvoir décider toi-même quelles 
seraient les balises que tu souhaiterais enlever, mais garder le texte 
qu'elles contiennent, dans le cas des balises doubles.


Est-ce bien cela, où suis-je à côté des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes à Python, 
comme le célèbre BeautifulSoup 
, html.parser 
 
, etc., je t'oriente plutôt vers les regexp, qui font très bien ce travail.


Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction 
filterHTML, qui s'exécute par le raccourci-clavier CTRL+F10.


Après avoir collé le fichier 6pad++.py dans ton répertoire où se situe 
l'exécutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un 
fichier html que tu souhaiterais modifier.


La commande CTRL+F10 génèrera alors, dans le même répertoire, un fichier 
filterHtml.html, avec les balises , les balises de  à , ainsi 
que les balises  qui auront été effacées, en conservant le texte 
contenu dans les balises doubles bien entendu.


Je t'ai commenté le code, pour que tu puisses voir que grâce aux regexp, 
tout est faisable, lol !


La regexp compilée rg capture les balises p et h1 à 6 ouvrante et 
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins, en 
les mettant dans la ccapture \1, qui est aussi une référence arrière.


rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)())', re.S)

La regexp rg1 matche les balises .

rg1 = re.compile('')

La regexp rg2 matche toutes les balises html, sans exception, au cas où 
on en aurait besoin.


Elle a été mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas où.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exécuter les 
remplacements...


Teste et dis-moi si c'est bien ce que tu voulais...

Merci à toi.

Bien amicalement,
Abdel.


Le 05/04/2017 à 22:20, Jean-François Colas a écrit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc 
pour dé-html-iser simplement un document... Je ne suis pas certain 
malgré tout que ce soit tout à fait ce dont j'aurais besoin. Il me 
faudrait quelque chose capable de traiter tout, OU PARTIE, d'un document.


Existerait-il alors peut-être quelque chose en Python qui pourrait me 
permettre d'envisager la récupération du contenu des balises, tout en 
me débarrassant des balises elles-mêmes, afin de faire un 
dé-html-iseur sans prétention, hormis celle de se glisser dans des 
utilitaires personnels pour 6Pad? Si malgré tout je pouvais 
discriminer certaines balises, pour autant que j'y songe rapidement, 
 ou  ou peut-être les  à , mais pas énormément au-delà.


Merci,
J.-F.


Progliste :
Pour se d�sinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe


Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les pi�ces jointe sont activ�s leur taille est 
limit� � 2 MO

Pour acc�der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en 
priv�, je vous r�pondrez en priv�.






import sixpad as sp # importation du module sixpad.

def filterHTML():
"""Fonction permettant de filtrer le code html selon les besoins."""
text = sp.window.curPage.text # On sauvegarde le texte du fichier html 
courant.
path=sp.window.curPage.file # on stocke son chemin.
name = sp.window.curPage.name # On stocke son nom.
ext =

[progliste] Re: Dé-HTML-iiser du texte

2017-04-06 Par sujet Mathieu Barbe


Salut,
je penses que Pandoc pourrait faire ton affaire.

exemple de commande :

pandoc -o out.md index.html

avec mardown je te conseil l'option "--atx-headers" Ã  ajouter pour avoir 
les titres du niveau 1 et 2 sous forme classique avec les # en dÃ©but de 
ligne.


Bonne essai.
Mathieu

Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc
pour dÃ©-html-iser simplement un document... Je ne suis pas certain
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin. Il me
faudrait quelque chose capable de traiter tout, OU PARTIE, d'un document.

Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait me
permettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout en me
dÃ©barrassant des balises elles-mÃªmes, afin de faire un dÃ©-html-iseur
sans prÃ©tention, hormis celle de se glisser dans des utilitaires
personnels pour 6Pad? Si malgrÃ© tout je pouvais discriminer certaines
balises, pour autant que j'y songe rapidement,  ou  ou peut-Ãªtre
les  Ã  , mais pas Ã©normÃ©ment au-delÃ .

Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste :
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les piï¿½ces jointe sont activï¿½s leur taille est
limitï¿½ ï¿½ 2 MO
Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privï¿½,
je vous rï¿½pondrez en privï¿½.



Progliste :
Pour se dï¿½sinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/   

Je vous rappelle que les pièces jointe sont activés leur taille est limité à 2 MO 


Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privï¿½, je 
vous rï¿½pondrez en privï¿½.

[progliste] Re: Dé-HTML-iiser du texte

[progliste] Re: Dé-HTML-iiser du texte

[progliste] Re: Dé-HTML-iiser du texte

[progliste] Re: Dé-HTML-iiser du texte

[progliste] Re: Dé-HTML-iiser du texte

[progliste] Re: Dé-HTML-iiser du texte

6 matches

Site Navigation

Mail list logo

Footer information