Ubunteiros

Acredito que todos devam passar por problemas de codificacao de caracteres.
A MS utiliza codificacao propria WIN-1252 ou CP1252 que apresenta diferencas 
com o *padrao* ISO-8859-1, sendo um *super-set* do ISO.
Existe o padrao UNICODE e os sistemas *nix usam UTF-8.

1- Caracter estranho:

Ontem recebi um arquivo TXT processado com um software para windows.
Nele havia um caracter, visualmente parecia como um traco de *menos*.

Aqui esta ele.

NATPR285−SAT02 

Este caracter eh uma sequencia de 3 bytes. '\342''\210''\222'

Perdi um baita tempo para descobrir porque um script meu com * dos2unix, 
awk,sed *  nao funcionava corretamente.

Para descobrir o que havia de errado, suspeitei de caracter de controle.
Instalei o editor **uex** para ver os valores binarios.  

* uex== UltraEdit is a text, hex, and programming language editor.*

Com ele vi os 3 danadinhos e corrigi meus scripts.

Desculpem me por me alongar na descricao e ja alongando :-(.

2- UltraEdit: Aqui foi uma surpesa, pela primeira vez instalo um software de 
repositorio, esta no *Canonical Partners ( parceiros )*, que emite mensagem de 
**trial**. Vou usar pelos 30 dias e ver quando expirar o prazo.


3- Nomes de arquivos:
Com relacao a nomes de arquivos, tenho usado o *detox* e o *cnvmv* mas sempre 
resta alguma operacao manual de acerto.


4- Finalmente:

Se alguem tem alguma dica funcional para tratar codificacao em texto e nome de 
arquivos eu agradeco.

obrigado,

julio














-- 
Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece

Lista de discussão Ubuntu Brasil
Histórico, descadastramento e outras opções:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-br

Responder a