Andreas Pakulat <[EMAIL PROTECTED]> writes: > Also da waere ich jetzt mal interessiert. Ich musste mich mal ein > wenig mit UTF16/UTF8 fuer meine Arbeit beschaeftigen (wie erfolgt > die Kodierung und sowas). Ich hab mich da nicht weiter in den ganzen > Unicodekram eingearbeitet von wegen Ebenen und so... Aber ich habe > in der Doku zu UTF-8 von www.unicode.org nichts von 6 Byte gelesen, > 4 waren da das Maximum.
Ohne dass ich den konkreten Kodieralgorithmus im Kopf (oder ihn mir auch nur jemals im Detail angeschaut ;-) hÃtte, vermute ich, dass es an dem Unterschied zwischen Unicode und ISO 10646. Unicode definiert nur Zeichen deren Codepoint maximal 21 Bit hat; dafÃr reichen bei UTF-8 Kodierung dann max. 4 Bytes. ISO hat sich zwar meines Wissens mit Unicode verstÃndigt, keine Codepoints mit mehr als 21 Bits Breite tatsÃchlich zu vergeben, theoretisch aber kÃnnte ISO 10646 bis zu 31 oder 32 Bits Breite vergeben. Da UTF-8 von ISO definiert ist, brauchen die also max. 6 Bytes. Die letzten beiden Bytes haben aber wohl auf absehbare Zeit nur theoretische Bedeutung. Insofern hast du recht. http://www.cl.cam.ac.uk/~mgk25/unicode.html finde ich ziemlich informativ und wird recht oft zitiert. cheers, andreas

