On Saturday 10 November 2007 14:14:46 Lionel Porcheron wrote:
> La commande "file" te permet d'avoir ce genre de renseignements : file
> ton_fichier.

Surprenant, je n'aurais pas cru ça vraiment possible. Car sinon, on n'aurait 
pas ce problème de caractères mal gérés... Mais c'est vrai que 
statistiquement, si on voit apparaître certains types de séquences, c'est 
qu'on est en UTF-8 et avec d'autres en ISO-8859-15. 

En fait seule une analyse du contenu permet vraiment de savoir - c'est ce que 
fait notre cerveau quand il voit plein de carrés à la place des accents. Il 
se dit qu'il doit y avoir un pb, que la personne n'a pas vraiment voulu 
écrire ceci ;-)

Ça serait une extension intéressante : pouvoir indiquer au système quels sont 
les formats les plus susceptibles d'être utilisés selon sa langue. Par 
exemple, moi qui ne lit que de l'anglais et du français (plus parfois 
d'autres langues européennes quand je n'ai vraiment rien trouvé d'autre avec 
google), je peux me limiter à UTF-8 et iso-8859-15. Et je ne veux surtout pas 
entendre parler des formats windows-1252 et cp-850 : si le fichier est codé 
dans un de ces formats, c'est que son contenu est de peu de valeur :-P
-- 
Michel

Attachment: pgpVsxCjh9mKb.pgp
Description: PGP signature

-- 
ubuntu-fr mailing list
[email protected]
https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr

Répondre à