"claude MÜLLER" <[EMAIL PROTECTED]> a tapoté : > Bonjour, > je télécharge sur le site inlibroveritas.net des fichiers pdf. > je les converti en txt à l'aide de la commande pdftotext ou en html > (pdftohtml). > le résultat est que les caractéres accentués sont devenus bizarres. > exemple à devient A majuscule tilde, é devient A majuscule copyright, etc > ... > une idée ? > merci d'avance
J'ai envie de dire que ton fichier html est encodé en utf-8, et que tu essaies de le lire comme s'il était encodé en ISO-8859-15 Mal à la tête ? http://fr.wikipedia.org/wiki/Encodage_de_caract%C3%A8res Essaie de voir si grâce aux options de pdftohtml tu peux écrire ton fichier html en ISO-8859-15 (avec '-enc', par exemple) Sinon au pire des cas: iconv -f UTF-8 -t ISO-8859-15 inputfile > outputfile -- Antoine DG PS: Caractère s'orthographie avec un accent grave
pgppKeYMUHXkA.pgp
Description: PGP signature
-- ubuntu-fr mailing list [email protected] https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
