出现 Job leader for job id xxxx lost 说明是 jm leader 在 zk 上的 session timeout 
了。可能的原因有

  1.  JM 和 ZK 网络连接有抖动,ZK 连接进入 suspended,并且你没有配置容忍 zk 连接 suspended(1.14 及以上版本配置 
high-availability.zookeeper.client.tolerate-suspended-connections 参数)或者配了但是 
session timeout 时间设的太短触发丢主
  2.  JM 确实经常挂
  3.  JM GC 很严重,导致了和 zk 连接有问题进入 suspended 状态

Best,
Zhanghao Chen
________________________________
From: magic <guanpeixi...@foxmail.com>
Sent: Wednesday, April 20, 2022 17:49
To: user-zh <user-zh@flink.apache.org>
Subject: Filnk: Job leader for job id xxxx lost leadership

Hi,all
我们在使用Flink 消费kafka数据写入hudi时,经常会报错:Job leader for job id xxxx 
lost&nbsp;&nbsp;leadership, 但是同集群 其他flink 任务就没问题,请教下前辈们,这是什么原因呢,感觉不太像zk的问题

回复