Здравейте LUG-BG,
Тъй като наскоро имаше дискусия относно едно писмо в UTF-8, бих искал да
попитам верни ли са следните извършени от мен наблюдения, или се отнасят само
за моята машина:
1) Текст, записан като UTF-16, може да бъде прочетен без загуба на кирилските
символи, и когато бъде отворен като CP-1251. Настъпва, обаче загуба поне на
някои западноевропейски символи като немските умлаути, например.
2) Текст, записан като UTF-8, може да бъде отворен само като UTF-8, или
UTF-16, в противен случай, могат да бъдат възстановени, единствено
американските символи. Всичко друго се губи (напр. при отваряне като CP-1251).
Освен това искам да попитам, различава ли се ISO-10646-1 кодирането от
UTF-16, или представляват едно и съшо? Склонен съм да вярвам, че са едно и
съшо, т.к. текст, записан като ISO-10646-1 проявява сходни свойства с тези,
които са записани като UTF-16. Защо, обаче, файловете, записани на
ISO-10646-1 и CP-1251 имат един и същи размер? Опитът съм извършил с kwrite.
Мислех си, че уникод заема 2 байта, а не един.
Някои данни за моята инсталация: RH 7.2, KDE 2.2-1, bglinux4.0, инсталиран
rpm с български менюта, KDE настроено на CP-1251, използвам вградената
щракалка + хирургия на .../symbols/bg, за да сменям на фонетична, пакетът
bglinux e настроен посредством set-bg-env на CP-1251, първите две наблюдения
извърших в kmail, а вторите два въпроса се базиран на опити в kwrite.
Поздрави,
Виктор
===========================================================================
A mail-list of Linux Users Group - Bulgaria (bulgarian linuxers)
http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd. - Stara Zagora