On 11-12-2015 18:58, Matheus de Oliveira wrote:
> Dei uma olhada bem por cima no código em [1] (veja também a linha 1197,
> onde emite a mensagem), e pelo que entendi o número de linhas que são
> consideradas para a amostragem é o "statistics_target" multiplicado por
> um fator fixo de 300 (não parei pra analisar o código melhor e ver se
> varia em algumas situações, mas em alguns testes que fiz sempre deu
> exatamente 300).
> 
Isso se deve a um estudo descrito no artigo "Random Sampling for
Histogram Construction: How much is enough?" [1]. Verificou-se que um
fator de 300 atenderia boa partes das amostragens com uma pequena
probabilidade de erro (1%). Como disse o Matheus, no código fonte ele
explica (sucintamente) as razões da escolha do tamanho mínimo da
amostragem; o artigo discorre mais sobre o assunto.


[1]
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.53.1734&rep=rep1&type=pdf


-- 
   Euler Taveira                   Timbira - http://www.timbira.com.br/
   PostgreSQL: Consultoria, Desenvolvimento, Suporte 24x7 e Treinamento
_______________________________________________
pgbr-geral mailing list
[email protected]
https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral

Responder a