Hallo *,

On Sun, Aug 21, 2005 at 10:14:17PM +0200, Guido Pinkernell wrote:
> Am Sonntag, 21. August 2005 16:25 schrieb Sigrid Kronenberger:
> > Guido Pinkernell <[EMAIL PROTECTED]> schrieb am Sun, 21 Aug 2005
> > > Am Sonntag, 21. August 2005 13:55 schrieb Franz Seidl:
> > > > Sigrid Kronenberger schrieb:
> > > > >gibt es eigentlich irgendwo eine Liste, wie die verschiedenen
> > > > >Sonderzeichen / Umlaute in UTF-8 codiert werden?
> > > >
> > > > Nein, habe leider auch keine gefunden...
> [...] 
> Wie dem auch sei. Vielleicht hilft auch das hier:
> http://www.atm.ox.ac.uk/user/iwi/charmap.html

Die bringt nur was für HTML und gibt nicht die UTF-8 codes...

http://people.w3.org/rishida/scripts/uniview/conversion.htm

echo -n "ä" |recode ..u8/x

"-n": Keinen Zeilenvorschub mit ausgeben

"..u8": Vom aktuellen Zeichensatz (keine Angabe vor dem .. = aktueller
Zeichensatz) nach utf-8 konvertieren 

"/x": Und war als einzelne hexadezimalwerte. (/x2 /x4 sind auch möglich)
      Dasselbe geht auch mit /d für Dezimalwerte)

$ echo -n "ä" |recode ..u8/x
0xC3, 0xA4

$ echo -n "ä" |recode ..unicode/x2
0xFEFF, 0x00E4
^^^^^^
Das ist das Byte-Order-Mark (BOM) (FE FF ist "Big endian", FF FE wäre
"Little endian"), E4 ist der Hexadezimalwert unter dem man das Zeichen
in den Tabellen findet und auch der Wert den man in der hexadezimalen
HTML-Entität verwenden würde ("&#xE4;")

$ echo -n "ä" |recode ..unicode/d2
65279,   228
^^^^^
Das ist wieder das BOM, 228 ist der Wert der in der dezimalen
HTML-Entität verwendet werden würde. ("&#228;")

Man kann auch explizit angeben was man haben will:
$ echo -n "ä" |recode ..unicodelittle/x2
0xE400
$ echo -n "ä" |recode ..unicodebig/x2
0x00E4

ciao
Christian
-- 
NP: 4Lyn - Feel Me

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Antwort per Email an