我stream方式倒是简单,我会基于统计结果,即key => pv的情况,根据pv大小记录key,pv/1000 进入kafka topic(skew)。 然后任务会读取 skew 数据,根据这个数据将key进行拆分,然后做2层汇总统计。就是做了个动态倾斜key的发现和分拆。
yidan zhao <hinobl...@gmail.com> 于2021年9月8日周三 上午11:04写道: > 我们流量大概4w的qps,如何根据key1+key2进行pv统计(SQL任务比较简单)。 > > 但是key2的分布比较极端,有些可能90%集中的。 > > Shuo Cheng <njucs...@gmail.com> 于2021年9月7日周二 下午7:30写道: > >> 最好具体描述下什么场景的倾斜, sql 上也有一些解倾斜的手段 >> >> On 9/7/21, yidan zhao <hinobl...@gmail.com> wrote: >> > 如题,目前非sql情况本身实现灵活,有很多方案。 >> > 但是SQL情况下,倾斜严重,同时无解。有没有小伙伴解决过类似问题。 >> > >> > 注意:sql,流任务,数据倾斜。 >> > >> >