你好,我也遇到了这个问题,你的checkpoint是怎么配置的,可以参考一下吗
Haihang Jing <gentlemenj...@gmail.com> 于2021年3月23日周二 下午8:04写道: > 你好,问题定位到了吗? > 我也遇到了相同的问题,感觉和checkpoint interval有关 > 我有两个相同的作业(checkpoint interval > 设置的是3分钟),一个运行在flink1.9,一个运行在flink1.12,1.9的作业稳定运行,1.12的运行5小时就会checkpoint > 制作失败,抛异常 org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint > tolerable failure threshold. > 当我把checkpoint interval调大到10分钟后,1.12的作业也可以稳定运行,所以我怀疑和制作间隔有关。 > > 看到过一个issuse,了解到flink1.10后对于checkpoint机制进行调整,接收端在barrier对齐时不会缓存单个barrier到达后的数据,意味着发送方必须在barrier对齐后等待credit > feedback来传输数据,因此发送方会产生一定的冷启动,影响到延迟和网络吞吐量。但是不确定是不是一定和这个相关,以及如何定位影响。 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/