2013/7/18 Euler Taveira <[email protected]>

> On 18-07-2013 08:03, Matheus de Oliveira wrote:
> > Só uma correção, até onde me lembro, os caracteres acentuados (êãú...)
> > são representados com dois bytes em UTF8, não um. Logo o espaço ocupado
> > para textos em português em UTF8 pode ser, no máximo, o dobro dos
> > representados em Latin-1.
> >
> Afirmação precisa, porém, muito teórica. O uso de caracteres do Latin-1
> que não são representados com 1 byte (vide [1]) é esparso. Para se ter
> uma ideia, peguei dois títulos de Machado de Assis [2] e o aumento foi:
>
> Quincas Borba: 4,02%
> Dom Casmurro: 2,81%
>
>
Agora não entendi. Parece que falamos a mesma coisa. Eu disse *no máximo* o
dobro, mas é pouquíssimo provável que chegará perto disso. Como no exemplo
do e-mail que citei, que deu 2,56%.

De qualquer forma, gostei das referências para os livros do Machado de
Assis.


A não ser que o seu banco de dados seja meramente para guardar dados
> históricos e a quantidade armazenada fosse na casa das dezenas de
> terabytes, eu aconselharia não utilizar UTF-8.
>
>
> [1] http://en.wikipedia.org/wiki/C1_Controls_and_Latin-1_Supplement
> [2]
>
> http://machado.mec.gov.br/index.php?option=com_content&view=article&id=164:romance&catid=34:obra-completa&Itemid=123
>
>
Aí sim... :-)


Atenciosamente,
-- 
Matheus de Oliveira
Analista de Banco de Dados
Dextra Sistemas - MPS.Br nível F!
www.dextra.com.br/postgres
_______________________________________________
pgbr-geral mailing list
[email protected]
https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral

Responder a