[progliste] Re: manuel script lua

QuentinC Thu, 03 Mar 2011 02:07:46 -0800

En fait après avoir bien regardé, ce txt est irrécupérable.
IL faut passer le PDF à l'OCR, c'est la seule solution.


LE PDF d'origine a probablement  été généré avec LaTeX... le langage LaTeX 
est formidable, mais les PDF qu'il génère sont absolument inutilisables pour 
nous (ce qui est vraiment dommage, parce que LaTeX est d'une richesse 
sémantique incomparable) et d'une puissance inouïe... Le pire c'est que 
passer un PDF généré de cette façon dans une moulinette comme PDF2TXT 
produit des txt complètement inutilisables comme celui-ci.

ON ne peut pas systématiquement remplacer chaque séquence ´e ou e´ par é, 
car de un c'est tantôt l'un tantôt l'autre, de 2 les accents éseulés sont 
parfois plus éloignés, de 3 il y a des caractères de bruit qui ne servent 
strictement à rien, et de 4 certains mots sont collés entre eux. Bref, c'est 
le bordel.

Donc la seule solution c'est l'OCR.
Ou mieux, récupérer la source LaTeX si elle est disponible, pour la 
débaliser après.


Progliste :
Pour se désinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/       

Pour accéder aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privé, je 
vous répondrez en privé.

[progliste] Re: manuel script lua

Répondre à