2013/7/18 Euler Taveira <[email protected]> > On 18-07-2013 08:03, Matheus de Oliveira wrote: > > Só uma correção, até onde me lembro, os caracteres acentuados (êãú...) > > são representados com dois bytes em UTF8, não um. Logo o espaço ocupado > > para textos em português em UTF8 pode ser, no máximo, o dobro dos > > representados em Latin-1. > > > Afirmação precisa, porém, muito teórica. O uso de caracteres do Latin-1 > que não são representados com 1 byte (vide [1]) é esparso. Para se ter > uma ideia, peguei dois títulos de Machado de Assis [2] e o aumento foi: > > Quincas Borba: 4,02% > Dom Casmurro: 2,81% > > Agora não entendi. Parece que falamos a mesma coisa. Eu disse *no máximo* o dobro, mas é pouquíssimo provável que chegará perto disso. Como no exemplo do e-mail que citei, que deu 2,56%.
De qualquer forma, gostei das referências para os livros do Machado de Assis. A não ser que o seu banco de dados seja meramente para guardar dados > históricos e a quantidade armazenada fosse na casa das dezenas de > terabytes, eu aconselharia não utilizar UTF-8. > > > [1] http://en.wikipedia.org/wiki/C1_Controls_and_Latin-1_Supplement > [2] > > http://machado.mec.gov.br/index.php?option=com_content&view=article&id=164:romance&catid=34:obra-completa&Itemid=123 > > Aí sim... :-) Atenciosamente, -- Matheus de Oliveira Analista de Banco de Dados Dextra Sistemas - MPS.Br nível F! www.dextra.com.br/postgres
_______________________________________________ pgbr-geral mailing list [email protected] https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral
