subject:"Re\: flink on yarn 模式下，yarn集群的resource\-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复"

Re: Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-31 文章 Yang Wang

HA在ZK里面记录了最后一次成功的checkpoint counter和地址，没有启用HA的话，就是从指定的savepoint恢复的。 Best, Yang 刘建刚于2021年5月28日周五下午6:51写道： > 那应该是master failover后把快照信息丢失了，ha应该能解决这个问题。 > > 董建 <62...@163.com> 于2021年5月28日周五下午6:24写道： > > > 稳定复现 > > checkpoint 正常生成，在web ui和hdfs目录里边都可以确认。 > > 我们jobmanager没有做ha，不知道是否是这个原因导致的？ > >

Re: Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章刘建刚

那应该是master failover后把快照信息丢失了，ha应该能解决这个问题。董建 <62...@163.com> 于2021年5月28日周五下午6:24写道： > 稳定复现 > checkpoint 正常生成，在web ui和hdfs目录里边都可以确认。 > 我们jobmanager没有做ha，不知道是否是这个原因导致的？ > 日志里边能看到是从指定的-s恢复的，没有指定-s的时候，重启的时候也并没有使用最新的checkpoint文件。 > 目前这个问题困扰了我很久，也没有一个好的思路，下一步先把ha搞起来再试试。 > >>

Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章刘建刚

这种情况是不符合预期的。请问通过以下步骤可以稳定复现吗？ 1、从savepoint恢复； 2、作业开始定期做savepoint； 3、作业failover。如果是的话，可能需要排查下checkpoint 文件是否存在，zookeeper上是否更新。如果还是有问题，需要通过日志来排查了。董建 <62...@163.com> 于2021年5月28日周五下午5:37写道： > 我遇到的问题现象是这样的 > > > > > 1、flink版本flink-1.12.2，启动命令如下，指定-s是因为job有做过cancel，这里重启。 > > > > > flink run -d -s >