2020年6月28日(星期天) 上午10:17
> 收件人: "user-zh"
> 主题: Flink-1.10.0 source的checkpoint偶尔时间比较长
>
>
>
> 关于Flink checkpoint偶尔会比较长时间的问题。
> 环境与背景:
> 版本:flink1.10.0
> 数据量:每秒约10万左右的记录,数据源是kafka
> 计算逻辑:滑动窗口统计,每个窗口输出的规模大概1~2千万记录。
> 是否有反压:任务经常会出现反压(特别是在窗口输出的时候)。
>
>
> 问题:
>
>
> 偶尔一两天出现 Checkpoint 超时,看下你的任务中,是否可能存在某类 key 在这一两天会突然增多的情况。
>
我增加每个task处理窗口数据的时间在观察一下,
我这个是测试任务,没有sink输出。
source -> window -> window(统计上一个窗口的输出的记录数,pint 10记录左右)
LakeShen 于2020年6月28日周日 上午10:35写道:
> Hi Tianwang Li,
>
> 偶尔一两天出现 Checkpoint 超时,看下你的任务中,是否可能存在某类 key 在这一两天会突然增多的情况。
>
> Best,
> LakeShe
我补充一下,checkpoint的UI截图如下:
https://imgchr.com/i/NgCUgS
https://imgchr.com/i/NgChDJ
https://imgchr.com/i/NgCT4x
>
--
**
tivanli
**
Hi Tianwang Li,
偶尔一两天出现 Checkpoint 超时,看下你的任务中,是否可能存在某类 key 在这一两天会突然增多的情况。
Best,
LakeShen
zhisheng 于2020年6月28日周日 上午10:27写道:
> hi, Tianwang Li
>
> 看到有三个图片挂了,可以试着把图片上传到第三方的图床,然后贴个链接过来,另外:
>
> > 任务经常会出现反压(特别是在窗口输出的时候)
>
> 这个检查一下窗口下游算子的情况,比如是不是窗口输出的数据过多,而 sink 的并发还和之前的保持一致,导致处理速度跟不上,从而导致的反压。
>
>
>
hi, Tianwang Li
看到有三个图片挂了,可以试着把图片上传到第三方的图床,然后贴个链接过来,另外:
> 任务经常会出现反压(特别是在窗口输出的时候)
这个检查一下窗口下游算子的情况,比如是不是窗口输出的数据过多,而 sink 的并发还和之前的保持一致,导致处理速度跟不上,从而导致的反压。
> 大部分时候checkpoint都是在1分钟内完成,偶尔会出现checkpint需要超过30分钟的(出现的频率不高,1~2天1次)
这种也可以看看是不是 HDFS 有时候压力比较大导致的出现毛刺现象
另外建议补一下 UI 上 chekcpoint 相关的截图和日志信息,这样才能更
关于Flink checkpoint偶尔会比较长时间的问题。
*环境与背景:*
版本:flink1.10.0
数据量:每秒约10万左右的记录,数据源是kafka
计算逻辑:滑动窗口统计,每个窗口输出的规模大概1~2千万记录。
是否有反压:任务经常会出现反压(特别是在窗口输出的时候)。
*问题:*
大部分时候checkpoint都是在1分钟内完成,偶尔会出现checkpint需要超过30分钟的(出现的频率不高,1~2天1次)。
source的checkpoint消耗的时间比较长。Trigger checkpoint 到 Starting checkpoint消耗时间比较长。
ch