[Python-de] Codepage-Methode vs. UTF8

Wolli Buechel über python-de Thu, 15 Aug 2024 14:59:07 -0700

Hallo Herr Schnoor,

wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes 
eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als 
zusammengehörige Bytes eines Mehr-Byte-Zeichens.


Hier noch mal zur Erinnerung:

> In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 
> Bytes 
> sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. 
> https://en.wikipedia.org/wiki/UTF-8#Encoding ):
> 
> Code point ↔ UTF-8 conversion
> First code point              Last code point         Byte 1          Byte 2  
>         Byte 3          Byte 4
> U+0000                U+007F          0xxxxxxx
> U+0080                U+07FF          110xxxxx        10xxxxxx
> U+0800                U+FFFF          1110xxxx        10xxxxxx        10xxxxxx
> U+010000              U+10FFFF                11110xxx        10xxxxxx        
> 10xxxxxx        10xxxxxx

> Dieser Geheimcode ist doch clever gemacht von den Entwicklern der 
> UTF8-Codierung der Unicode-Zeichen, oder?

Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM):

Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein 
Solo-Zeichen ist oder ob zwei  (oder mehr ?) Zeichen zusammengehören als 
Codierung einer Systemzahl.

Ein konkretes Beispiel:

Angenommen, der Ziffernstring für das 4096-er System lautet schlicht

ziffern = ''.join( [ chr(x) for x in range(1,4097) ] )

und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige 
Zahlzeichen sein oder eine zweiziffrige Systemzahl.

Wie löst Ihr CPM-Programm dieses Problem?

W. Büchel
_______________________________________________
python-de Mailingliste -- [email protected]
Zur Abmeldung von dieser Mailingliste senden Sie eine Nachricht an 
[email protected]
https://mail.python.org/mailman3/lists/python-de.python.org/
Mitgliedsadresse: [email protected]

[Python-de] Codepage-Methode vs. UTF8

Reply via email to