Il giorno gio, 22/03/2012 alle 08.12 +0100, [email protected] ha
scritto:
[...]
> Mi resterebbe la curiosità di capire perché per sed, se LANG=C
> l'espressione regolare ".*" include senza problemi anche un carattere
> accentato in una codifica sbagliata, mentre altrimenti no...

Ad esempio, se a tua locale attuale è multibyte, come ad esempio UTF-8,
ci sono dei caratteri di iso-8859-1 che non sono validi in utf-8. Nel
senso che che se la loro codifica binaria prevede che il bit più alto
sia a 1, allora in iso-8859-1 si passa tranquillamente al byte
successivo per interpretare il successivo carattere, mentre in UTF-8 si
prende il byte successivo per interpretare lo stesso carattere
(multibyte) e la coppia di byte deve essere una valida sequenza UTF-8.

Difatti mi pare di ricordare che il bit più alto nel primo byte di una
sequenza multibyte UTF-8, indiche che la sequenza continua con il byte
successivo.

Ciao,
G.


--
Per REVOCARE l'iscrizione alla lista, inviare un email a
[email protected] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [email protected]

To UNSUBSCRIBE, email to [email protected]
with a subject of "unsubscribe". Trouble? Contact [email protected]
Archive: http://lists.debian.org/1332406956.12632.4.camel@scarafaggio

Rispondere a