Re: K8s native 部署失败

2020-09-21 文章 Yang Wang
你确认一下挂载给TM的ConfigMap都是一样的吗,因为从你给的Log来看,应该不是用的社区文档里面的yaml[1]来运行的 另外,如果能够把JobManager和TaskManager的log分享一下的话,查问题会更方便一些 [1]. https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/kubernetes.html Best, Yang yanzhibo 于2020年9月18日周五 下午6:57写道: > >

Re: K8s native 部署失败

2020-09-18 文章 yanzhibo
跟jobmanager在同一个node上的tm是可以注册到jm上的,其他的node是不行的 Jm是单机模式部署 > 2020年9月17日 下午3:55,yanzhibo 写道: > > 是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的 > > >> 2020年9月17日 上午11:10,Yang Wang 写道: >> >> 你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢 >> >> 如果是HA的话,TM是直接使用JM的Pod

Re: K8s native 部署失败

2020-09-17 文章 Yang Wang
从你发的报错栈来看TM是用的ip地址去连的,正常如果是非HA的话,应该是通过service来连接的 因为JM在非HA情况下rpc地址是bind到service上的 你是否有对Flink的代码做修改呢,或者用native模式起来以后,修改过ConfigMap等 Best, Yang yanzhibo 于2020年9月17日周四 下午3:55写道: > 是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的 > > > > 2020年9月17日 上午11:10,Yang Wang 写道: > > > >

Re: K8s native 部署失败

2020-09-17 文章 yanzhibo
是非ha,所有tm都注册不上来,但是在tm的pod中 根据service 是可以ping 通 jobmanager的 > 2020年9月17日 上午11:10,Yang Wang 写道: > > 你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢 > > 如果是HA的话,TM是直接使用JM的Pod ip进行通信的,这个时候需要登录pod确认一下网络是否是通的 > 如果是非HA的话,TM是使用service来向JM注册,你需要检查一下K8s的kube proxy是否正常 > > 另外,是所有TM都注册不上来,还是只有个别的。这个也可以排除网络问题 > > >

Re: K8s native 部署失败

2020-09-16 文章 Yang Wang
你这个报错看着是TM向JM注册超时了,使用的HA还是非HA部署呢 如果是HA的话,TM是直接使用JM的Pod ip进行通信的,这个时候需要登录pod确认一下网络是否是通的 如果是非HA的话,TM是使用service来向JM注册,你需要检查一下K8s的kube proxy是否正常 另外,是所有TM都注册不上来,还是只有个别的。这个也可以排除网络问题 Best, Yang yanzhibo 于2020年9月16日周三 下午5:25写道: > 一个job manager pod 提交job后,申请taskmanager失败 > > > Taskmanager 的异常 > >

K8s native 部署失败

2020-09-16 文章 yanzhibo
一个job manager pod 提交job后,申请taskmanager失败 Taskmanager 的异常 Fatal error occurred in TaskExecutor akka.tcp://flink@179.10.251.70:6122/user/rpc/taskmanager_0. org.apache.flink.runtime.taskexecutor.exceptions.RegistrationTimeoutException: Could not register at the ResourceManager within the