jipe, jeudi 12 mars 2009, 16:48:02 CET > > Klaus Becker a écrit : >[…] > >>> Je crée avec OOo un petit fichier avec des accents français, et j'en fais > >>> ensuite un fichier pdf. Problème : les lettres comme é,à,ç etc sont > >>> affichées comme ���. >[…] > >>> Est-ce que le problème vient de pdftotext ? Que puis-je faire ? >[…] > > le problème n'est pas OO. Le fichier pdf est bon, c'est le fichier *txt > > résultant de pdftote où je trouve les ���. >[…] > ok, capito; mais pourquoi pas faire un fichier .txt directement à partir > du fichier .ods, dans ce cas ?
Oui, hein, déjà ;o) Au passage, générer plusieurs locales ne change strictement rien : pour qu’un terminal affiche correctement des caractères, il faut qu’il soit dans le même charset que ces caractères (ou alors le terminal est très malin) ; les locales correspondent aux messages (discutailles, erreurs…) des programmes, pas aux charsets, pas aux capacités du terminal. Bon, donc, tu es en utf-8 (sinon tu ne te plaindrais d’avoir des ��� mais des é), et le texte généré par pdftotext est en latin9 (ou pas loin). Je vois deux possibilités : 1. le PDF lui-même ne contient que du latin9 (parce que c’est plus simple que de l’unicode, parce que le texte ne contient aucun autre caractère donc il colle au plus juste…), et pdftotext ne donne que ce qu’il voit ; 2. pdftotext fait tout seul la conversion des caractères dans un charset qui n’est même pas le charset de la locale. Franchement, pour paraphraser Desproges, le 1. m’étonnerait un peu, le 2. m’étonnerait quand même beaucoup (surtout que, chez moi, pdftotext me sort bien de l’utf-8, en partant pourtant d’un .tex en latin9). Quelqu’un a un 3 ? -- Sylvain Sauvage -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et "Reply-To:" To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected]

