Il giorno gio, 22/03/2012 alle 08.12 +0100, [email protected] ha scritto: [...] > Mi resterebbe la curiosità di capire perché per sed, se LANG=C > l'espressione regolare ".*" include senza problemi anche un carattere > accentato in una codifica sbagliata, mentre altrimenti no...
Ad esempio, se a tua locale attuale è multibyte, come ad esempio UTF-8, ci sono dei caratteri di iso-8859-1 che non sono validi in utf-8. Nel senso che che se la loro codifica binaria prevede che il bit più alto sia a 1, allora in iso-8859-1 si passa tranquillamente al byte successivo per interpretare il successivo carattere, mentre in UTF-8 si prende il byte successivo per interpretare lo stesso carattere (multibyte) e la coppia di byte deve essere una valida sequenza UTF-8. Difatti mi pare di ricordare che il bit più alto nel primo byte di una sequenza multibyte UTF-8, indiche che la sequenza continua con il byte successivo. Ciao, G. -- Per REVOCARE l'iscrizione alla lista, inviare un email a [email protected] con oggetto "unsubscribe". Per problemi inviare un email in INGLESE a [email protected] To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected] Archive: http://lists.debian.org/1332406956.12632.4.camel@scarafaggio

