hi,Tony

你可以把 Checkpoint 间隔时间稍微设置大一些,看起来像是作业启动的时候 Task 还没 Running,就开始执行 Checkpoint
了,而 Checkpoint 是要求所有的 Task 是处于 Running 状态的,所以就会丢弃掉那次
Checkpoint,BT,就算有这个异常应该问题也不大,只要后面你的作业全启动成功了的话,则 Checkpoint 还是会成功的。

Best!

zhisheng

Tony <[email protected]> 于2020年6月29日周一 下午8:16写道:

>
> 你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。
>
>
>
>
>
> --
> 发自我的网易邮箱手机智能版
> <br/><br/><br/>
>
>
> ----- Original Message -----
> From: tison <[email protected]>
> To: user-zh <[email protected]>
> Sent: Mon, 22 Jun 2020 15:08:04 +0800
> Subject: Re: flink 高可用问题
>
> 你看一下你的 chk 间隔,看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足,调度不起来或者调度得慢,你 chk
> 间隔又小,就这样了。
>
> 如果是一直 chk 以这个方式失败,应该看下调度的日志为啥迟迟调不起来
>
> Best,
> tison.
>
>
> Yichao Yang <[email protected]> 于2020年6月22日周一 上午10:57写道:
>
> > Hi
> >
> >
> > 看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗?
> >
> >
> > Best,
> > Yichao Yang
> >
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:&nbsp;"Tony"<[email protected]&gt;;
> > 发送时间:&nbsp;2020年6月22日(星期一) 上午10:54
> > 收件人:&nbsp;"user-zh"<[email protected]&gt;;
> >
> > 主题:&nbsp;flink 高可用问题
> >
> >
> >
> > 你好。
> >
> >
> > 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下:
> > high-availability:zookeeper
> > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181
> > high-availability.zookeeper.path.root:/flink
> > high-availability.cluster-id:/cluster_one
> > highavailability.storageDir:hdfs://master:9000/flink/ha
> >
> >
> > 我的flink和zookeeper都是在K8s的容器中
> > job启动出现如下问题:麻烦帮忙看一下,谢谢。
> > 2020-06-22 02:47:43,884 INFO&nbsp;
> >
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator&nbsp;&nbsp;&nbsp;&nbsp;
> > - Checkpoint triggering task Source:Kafka-Consumer -&gt; (Sink: Print to
> > Std. Out, Filter -&gt;Query Map -&gt; Unwind -&gt; Custom Map -&gt;
> filter
> > -&gt; Data Transformation -&gt; Filter) (1/1) of job
> > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED
> > instead. Aborting checkpoint.
>

回复