Paul van der Vlis schreef op zo 09-11-2014 om 11:17 [+0100]:
> Na enig zoeken ben ik er achter gekomen wat dit nu is en hoe je het
> toch kunt converteren naar UTF8. Het blijkt om "cp850" te gaan, wat
> bijvoorbeeld nog gebruikt werd in de Nederlandse Windows 98. [1]
> Nooit eerder van gehoord, en echt wat anders dan Windows-1252 of
> ISO-8859-1.

cp850 wordt vziw nog steeds gebruikt in veel recentere Windows'en, als
default codepage (stdin/stdout) voor de commandline.  :)


> Het probleem is eigenlijk dat er vaak oude en nieuwe bestanden door
> elkaar staan in een archief, waarbij die enkele bestanden met speciale
> tekens in de bestandsnaam niet zo opvallen. Wat je eigenlijk zou willen
> is een test met bijvoorbeeld find of het zo'n oud bestand is, en zo ja
> daar een conversie op loslaten.
> Dat is misschien iets voor een volgende keer...

Dit lijkt me nuttig als je ooit daartoe komt:

https://code.google.com/p/uchardet/

(Packages beschikbaar in Debian/Ubuntu, ook voor de Python, Ruby & Java
bindings of ports.)


-- 
Jan Claeys


-- 
To UNSUBSCRIBE, email to [email protected]
with a subject of "unsubscribe". Trouble? Contact [email protected]
Archive: https://lists.debian.org/1415573633.21369.116.camel@malala

Antwoord per e-mail aan