Re: [pgbr-geral] LATIN1 ou UTF-8

Euler Taveira Thu, 18 Jul 2013 07:21:22 -0700

On 18-07-2013 08:03, Matheus de Oliveira wrote:
> Só uma correção, até onde me lembro, os caracteres acentuados (êãú...)
> são representados com dois bytes em UTF8, não um. Logo o espaço ocupado
> para textos em português em UTF8 pode ser, no máximo, o dobro dos
> representados em Latin-1.
>
Afirmação precisa, porém, muito teórica. O uso de caracteres do Latin-1
que não são representados com 1 byte (vide [1]) é esparso. Para se ter
uma ideia, peguei dois títulos de Machado de Assis [2] e o aumento foi:


Quincas Borba: 4,02%
Dom Casmurro: 2,81%

A não ser que o seu banco de dados seja meramente para guardar dados
históricos e a quantidade armazenada fosse na casa das dezenas de
terabytes, eu aconselharia não utilizar UTF-8.


[1] http://en.wikipedia.org/wiki/C1_Controls_and_Latin-1_Supplement
[2]
http://machado.mec.gov.br/index.php?option=com_content&view=article&id=164:romance&catid=34:obra-completa&Itemid=123


-- 
   Euler Taveira                   Timbira - http://www.timbira.com.br/
   PostgreSQL: Consultoria, Desenvolvimento, Suporte 24x7 e Treinamento
_______________________________________________
pgbr-geral mailing list
[email protected]
https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral

Re: [pgbr-geral] LATIN1 ou UTF-8

Responder a