"claude MÜLLER" <[EMAIL PROTECTED]> a tapoté :

> Bonjour,
> je télécharge sur le site inlibroveritas.net des fichiers pdf.
> je les converti en txt à l'aide de la commande pdftotext ou en html
> (pdftohtml).
> le résultat est que les caractéres accentués sont devenus bizarres.
> exemple à devient A majuscule tilde, é devient A majuscule copyright, etc
> ...
> une idée ?
> merci d'avance

J'ai envie de dire que ton fichier  html est encodé en utf-8, et que tu
essaies de le lire comme s'il était encodé en ISO-8859-15

Mal à la tête ?
 http://fr.wikipedia.org/wiki/Encodage_de_caract%C3%A8res

Essaie de  voir si grâce aux  options de pdftohtml tu  peux écrire ton
fichier html en ISO-8859-15 (avec '-enc', par exemple)


Sinon au pire des cas: 

      iconv -f UTF-8 -t ISO-8859-15 inputfile > outputfile



-- 
Antoine DG
PS: Caractère s'orthographie avec un accent grave

Attachment: pgppKeYMUHXkA.pgp
Description: PGP signature

-- 
ubuntu-fr mailing list
[email protected]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr

Répondre à