flink taskmanger重启失败的问题

唐世伟 Wed, 22 Feb 2023 19:16:03 -0800

我们有一个flink任务，同时写10几张doris表，每次doris出问题的时候任务就挂，flink的重启策略没有效果。
flink的重启配置入下：
restart-strategy: failure-rate
restart-strategy.failure-rate.delay: 60 s
restart-strategy.failure-rate.failure-rate-interval: 10 min
restart-strategy.failure-rate.max-failures-per-interval: 3


这边看了一下任务日志逻辑，发现任务写doris失败的时候，进入了重启流程，然后尝试cancel其他的operator。而每次cancel 
operator的时候都会触发当前operator的checkpoint。但是由于存在其他大量写doris表的算子。在执行checkpoint都会尝试flush数据到doris，导致再次报错calcel失败。而每次失败都会计入尝试重启次数，最后导致超过重启上限次数，任务直接挂了。请问这个是不是不太合理？理论上说，执行失败就失败了，没必要计入重启失败次数。最后导致重启失败。这个有办法调整吗？

flink taskmanger重启失败的问题

回复