Userwhite commented on issue #6066:
URL: 
https://github.com/apache/incubator-doris/issues/6066#issuecomment-947652704


   @EmmyMiao87 
   目前聚合作为两阶段执行,update serialize + merge finalize
   在实际的一些业务测试发现对于小查询,去掉聚合优化有小幅度的提升,对于某些大数据情况,效果会变差。
   原因:
   1、数据聚合程度较差,优化前会在一阶段聚合的时候发现聚合程度较差,然后将数据shuffle到多台BE上进行;
   2、数据倾斜
   例子:
   三台机器:a,b,c; 查询sql的时候, a需要获取10条数据,b需要获取210w条,c需要获取10条
   在优化前,a/b/c会shuffle得到70w条数据去处理;
   在优化后,a/b/c会单独处理自己的数据,即使减少了一层fragment,但是b花费的时间过多。
   
   我理解这样会导致优化的效果对于大查询可能起到副作用,或者说优化可能和数据分布相关性较大。
   可能的解决办法?
   1、也许需要进行一个数据量的预估, 需要一些数据统计?
   2、该功能可以改成session variable,方便用户针对某些查询单独进行处理


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]



---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to