hello all, 我在使用flink sql 进行数据处理的时候遇到了如下问题:Flink 算子节点存在数据倾斜,但是并非数据量倾斜,而是数据大小倾斜,这是因为每天会存在一些特殊的数据,此类数据是相同分组 id,因此会进入同一个 subtask 中,从而导致 subtask busy,但是并非每天相同 id,但是此类数据属于正常数据。该算子join之后会进入 udf 函数中进行复杂的业务逻辑整合和计算,因此个人认为这也是导致该 subtask busy 的一个主要原因。针对此类问题,希望各位有什么比较好的解决方案吗。谢谢 Flink 版本:1.11
- 数据大小倾斜,数据量不倾斜 焦童
- Re: 数据大小倾斜,数据量不倾斜 Jiangang Liu