Re: zookeeper更换leader对flink的影响

Yang Wang Tue, 01 Dec 2020 04:18:49 -0800

Flink是利用Curator Framework来进行Leader Election和Retrieval，当时Curator的State
变成Suspended或者Lost的时候都会触发leader的revoke，进而导致需要Cancel掉之前的job
等待新的leader出现再重新调度


你可以提供一下JobManager的log或者自己观察一下JobManager的log是不是有Curator Connection State的变化
进而导致了Failover


Best,
Yang

赵一旦 <[email protected]> 于2020年12月1日周二 下午7:13写道：

> 又石沉大海了，有没有懂的人出来解释下。
>
> RS <[email protected]> 于2020年11月17日周二 上午9:35写道：
>
> > 哈哈, 我的也是, flink和ZK断开连接的话, 任务会全部重启, 这边测试了各种场景, 比如部署HA方案,
> > 部署多个jobmanager都测试过, 任务都是会重启的, 同样不知道如何解决.
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> > 在 2020-11-16 18:39:29，"赵一旦" <[email protected]> 写道：
> >
> >
> >按照我在工作中经验，有过几次需要重启zk集群，我是单个zk节点逐个重启。结论是导致了flink集群中任务的全部自动重启（基于最近一次的ckpt）。这对任务还是有一定影响的，因为ckpt是10分钟一次，会导致瞬间压力变高。
> > >
> > >问下这个合理嘛，还是我配置的有问题or操作有问题。
> >
>

Re: zookeeper更换leader对flink的影响

回复