claude MÜLLER wrote: > Bonjour, > je télécharge sur le site inlibroveritas.net <http://inlibroveritas.net> > des fichiers pdf. > je les converti en txt à l'aide de la commande pdftotext ou en html > (pdftohtml). > le résultat est que les caractéres accentués sont devenus bizarres. > exemple à devient A majuscule tilde, é devient A majuscule copyright, > etc ... > une idée ? > merci d'avance >
Bonjour, Bienvenue dans le monde merveilleux du codage des caractères. Pour plus d'info, voici un point de départ: http://fr.wikipedia.org/wiki/Codage_de_caract%C3%A8res Pour aborder la question de manière pratique les caractères accentués ne sont pas devenus "bizarres", c'est le logiciel de visualisation utilisé qui n'interprète pas les données de la même manière que le logiciel qui les a enregistrées. J'ai fait quelques tests rapides à partir du fichier suivant: http://www.ilv-edition.com/pdf_ebook_gratuit/code_source.pdf (il y avait un lien sur la 1ere page de inlibroveritas) ... il serait d'ailleurs bon de vérifier si la licence creative-commons autorise par défaut la conversion de format ... en effet celle-ci interdit toute modification. 1ere manip: pdftotext code_source.pdf a.txt gedit a.txt ---> j'obtiens un fichier encodé en utf-8 (encodage par défaut sous ubuntu) qui est correctement reconnu par gedit qui affiche tous les caractères accentués 2eme manip: pdftohtml code_source.pdf a.html ---> j'ouvre le fichier a.html sous firefox, ce fichier est également encodé en utf-8. Dans ce cas, firefox n'a pas repéré l'encodage (il ne doit pas être correctement signalé dans le fichier html) et les accents aigus appraissent comme des A©, il suffit alors de forcer l'affichage en utf-8 pour pouvoir voir correctement le fichier (désolé, je n'ai pas de firefox en français sous la main: il faut aller dans View->Character Encoding->Unicode (utf-8) ) 3eme manip: pdftohtml -c code_source.pdf a.html ---> cette commande crée un fichier html plus "complexe" (cf man) dont l'encodage est correctement interprété par firefox voila mes 2 centimes Bonne soirée Julien -- Getting the job done is no excuse for not following the rules. Corollary: Following the rules will not get the job done. -- ubuntu-fr mailing list [email protected] https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
