Hi, 你是 on-yarn 的模式吗? JobManager 并不是 worker,只是控制 Checkpoint ,接收 TM 的心跳等,可以看下在这个之前的其它日志。 还可以看下 ZK 是否正常等。 On-yarn 的话,也可以看下 NM 对这个AM处理 的日志。
Best, Hailong Wang 在 2020-11-05 15:03:11,"赵一旦" <[email protected]> 写道: >JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the >leadership. > > > >这种错误原因是什么,会导致任务重启,本身压力大,突然重启使用10分钟前的ckpt,压力更大了。
