Hallo Herr Schnoor, wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens.
Hier noch mal zur Erinnerung: > In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 > Bytes > sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. > https://en.wikipedia.org/wiki/UTF-8#Encoding ): > > Code point ↔ UTF-8 conversion > First code point Last code point Byte 1 Byte 2 > Byte 3 Byte 4 > U+0000 U+007F 0xxxxxxx > U+0080 U+07FF 110xxxxx 10xxxxxx > U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx > U+010000 U+10FFFF 11110xxx 10xxxxxx > 10xxxxxx 10xxxxxx > Dieser Geheimcode ist doch clever gemacht von den Entwicklern der > UTF8-Codierung der Unicode-Zeichen, oder? Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM): Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl. Ein konkretes Beispiel: Angenommen, der Ziffernstring für das 4096-er System lautet schlicht ziffern = ''.join( [ chr(x) for x in range(1,4097) ] ) und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl. Wie löst Ihr CPM-Programm dieses Problem? W. Büchel _______________________________________________ python-de Mailingliste -- python-de@python.org Zur Abmeldung von dieser Mailingliste senden Sie eine Nachricht an python-de-le...@python.org https://mail.python.org/mailman3/lists/python-de.python.org/ Mitgliedsadresse: arch...@mail-archive.com