Rodrigo Hjort wrote: > > 2007/6/5, Euler Taveira de Oliveira <[EMAIL PROTECTED]>: >> >> É o procedimento que sempre uso. Mas como assim não conseguiu converter >> alguns caracteres? Você detectou quais eram eles? O hexdump pode te >> ajudar aqui. > > > $ grep -e "R.ga" ora-dicts/french-english-2007-05-26.csv > RÄ«ga;Riga;FR > > $ echo "RÄ«ga;Riga;FR" | iconv -f utf-8 -t iso-8859-1 > Riconv: sequência de entrada ilegal na posição 1 > > $ grep -e "R.ga" ora-dicts/french-english-2007-05-26.csv | iconv -f utf-8 > -t > iso-8859-1 > Riconv: sequência de entrada ilegal na posição 1 > > $ echo "RÄ«ga;Riga;FR" | hd -b > 00000000 52 c4 ab 67 61 3b 52 69 67 61 3b 46 52 0a > |RÄ«ga;Riga;FR.| > 0000000 122 304 253 147 141 073 122 151 147 141 073 106 122 012 > 000000e > > $ echo -e "\304\253" | iconv -f utf-8 -t iso-8859-1 > iconv: sequência de entrada ilegal na posição 0 > > Outra coisa, você tem certeza que o conjunto de caracteres (charset) de >> origem era UTF-8 [1]? > > > $ file ora-dicts/french-english-2007-05-26.csv > ora-dicts/french-english-2007-05-26.csv: UTF-8 Unicode English text, with > CRLF line terminators > > >> Acho que o tal mapeamento não existe porque o ASCII é um subconjunto do >> UTF (aka UCS). > > > Mas é justamente isso que eu quero: reduzir um conjunto de caracteres a um > subconjunto menor, i.e: substituir caracteres especiais por equivalentes > sem > acentuação. > > De http://www.utf8-chartable.de/unicode-utf8-table.pl?start=256 Unicode character UTF-8 code (hex.) name point U+012B ī c4 ab LATIN SMALL LETTER I WITH MACRON Este caracter não existe no latin1. Parece ser o caracter EF (hex) do ISO-8859-4 (Latin4). http://czyborra.com/charsets/iso8859.html []s Osvaldo -- View this message in context: http://www.nabble.com/Convers%C3%A3o-de-UTF-8-para-ASCII-tf3865999.html#a10994599 Sent from the PostgreSQL - Brasil mailing list archive at Nabble.com.
_______________________________________________ pgbr-geral mailing list [email protected] https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral
