你确认一下挂载给TM的ConfigMap都是一样的吗,因为从你给的Log来看,应该不是用的社区文档里面的yaml[1]来运行的
另外,如果能够把JobManager和TaskManager的log分享一下的话,查问题会更方便一些
[1].
https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/kubernetes.html
Best,
Yang
yanzhibo 于2020年9月18日周五 下午6:57写道:
>
>
跟jobmanager在同一个node上的tm是可以注册到jm上的,其他的node是不行的
Jm是单机模式部署
> 2020年9月17日 下午3:55,yanzhibo 写道:
>
> 是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的
>
>
>> 2020年9月17日 上午11:10,Yang Wang 写道:
>>
>> 你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢
>>
>> 如果是HA的话,TM是直接使用JM的Pod
从你发的报错栈来看TM是用的ip地址去连的,正常如果是非HA的话,应该是通过service来连接的
因为JM在非HA情况下rpc地址是bind到service上的
你是否有对Flink的代码做修改呢,或者用native模式起来以后,修改过ConfigMap等
Best,
Yang
yanzhibo 于2020年9月17日周四 下午3:55写道:
> 是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的
>
>
> > 2020年9月17日 上午11:10,Yang Wang 写道:
> >
> >
是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的
> 2020年9月17日 上午11:10,Yang Wang 写道:
>
> 你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢
>
> 如果是HA的话,TM是直接使用JM的Pod ip进行通信的,这个时候需要登录pod确认一下网络是否是通的
> 如果是非HA的话,TM是使用service来向JM注册,你需要检查一下K8s的kube proxy是否正常
>
> 另外,是所有TM都注册不上来,还是只有个别的。这个也可以排除网络问题
>
>
>
你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢
如果是HA的话,TM是直接使用JM的Pod ip进行通信的,这个时候需要登录pod确认一下网络是否是通的
如果是非HA的话,TM是使用service来向JM注册,你需要检查一下K8s的kube proxy是否正常
另外,是所有TM都注册不上来,还是只有个别的。这个也可以排除网络问题
Best,
Yang
yanzhibo 于2020年9月16日周三 下午5:25写道:
> 一个job manager pod 提交job后,申请taskmanager失败
>
>
> Taskmanager 的异常
>
>
一个job manager pod 提交job后,申请taskmanager失败
Taskmanager 的异常
Fatal error occurred in TaskExecutor
akka.tcp://flink@179.10.251.70:6122/user/rpc/taskmanager_0.
org.apache.flink.runtime.taskexecutor.exceptions.RegistrationTimeoutException:
Could not register at the ResourceManager within the