En fait après avoir bien regardé, ce txt est irrécupérable. IL faut passer le PDF à l'OCR, c'est la seule solution.
LE PDF d'origine a probablement été généré avec LaTeX... le langage LaTeX est formidable, mais les PDF qu'il génère sont absolument inutilisables pour nous (ce qui est vraiment dommage, parce que LaTeX est d'une richesse sémantique incomparable) et d'une puissance inouïe... Le pire c'est que passer un PDF généré de cette façon dans une moulinette comme PDF2TXT produit des txt complètement inutilisables comme celui-ci. ON ne peut pas systématiquement remplacer chaque séquence ´e ou e´ par é, car de un c'est tantôt l'un tantôt l'autre, de 2 les accents éseulés sont parfois plus éloignés, de 3 il y a des caractères de bruit qui ne servent strictement à rien, et de 4 certains mots sont collés entre eux. Bref, c'est le bordel. Donc la seule solution c'est l'OCR. Ou mieux, récupérer la source LaTeX si elle est disponible, pour la débaliser après. Progliste : Pour se désinscrire de la liste : mailto:progliste-requ...@ml.free.fr?subject=unsubscribe Pour voir les archives de la liste : http://www.mail-archive.com/progliste@ml.free.fr/ Pour accéder aux fichiers de la liste http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privé, je vous répondrez en privé.