这个问题我也遇到过。 1.11版本,提交任务如果没加-d参数,flink程序挂掉了,但是yarn的application还一直是running状态,就相当于一个常驻的yarn session。 加上-d的话才能把flink程序和yarn application的生命周期捆绑到一起。
-- kingdomad 在 2020-11-13 11:16:02,"[email protected]" <[email protected]> 写道: >>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。 >按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running.. > >>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? >这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1 > >昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web >ui状态为Failed的时候,实时反馈Failed状态给Yarn,从而解决Yarn仍为Running的问题, >也提到说Flink-1.10及以后的Per-job模式是YarnJobClusterEntrypoint,这个确实没错,但是我面临的问题仍然和Flink-1.10以前的问题一致, >就是Flink web ui观察任务已经Fail掉了,但Yarn application仍然在Running > >另外,发现Flink web ui观察任务如果是Finished的话,也会处于Running,这个算属于正常吗?(以上描述的作业都是Streaming >job) > >best, >amenhub > > > >发件人: tison >发送时间: 2020-11-13 11:01 >收件人: user-zh >主题: Re: Flink与Yarn的状态一致性问题 >PerJob 模式下,在作业完全挂掉之后,是会上报 YARN RM 应用自己失败的状态的。 > >当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。 > >你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? > >Best, >tison. > > >zhisheng <[email protected]> 于2020年11月12日周四 下午8:17写道: > >> 同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态 >> >> hdxg1101300123 <[email protected]> 于2020年11月12日周四 下午8:07写道: >> >> > 可以设置检查点失败任务也失败 >> > >> > >> > >> > 发自vivo智能手机 >> > > hi everyone, >> > > >> > > 最近在使用Flink-1.11.1 On Yarn Per >> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn >> > application仍处于运行状态 >> > > >> > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢 >> > > >> > > best, >> > > amenhub >>
