Re: Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-21 文章 Yang Wang
我之前在另一个邮件里面回复过,我再拷贝过来。 目前我已经建了一个JIRA来跟进too old resource version的问题[1] 在Flink里面采用了Watcher来监控Pod的状态变化,当Watcher被异常close的时候就会触发fatal error进而导致JobManager的重启 我这边做过一些具体的测试,在minikube、自建的K8s集群、阿里云ACK集群,稳定运行一周以上都是正常的。这个问题复现是通过重启 K8s的APIServer来做到的。所以我怀疑你那边Pod和APIServer之间的网络是不是不稳定,从而导致这个问题经常出现。 [1]. https

Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-20 文章 lichunguang
Flink1.11.1版本job以Application Mode在K8S集群上运行,jobmanager每个小时会重启一次,报错【Fatal error occurred in ResourceManager.io.fabric8.kubernetes.client.KubernetesClientException: too old resource version】 pod重启: 重启原因: 2020-12-10 07:21:19,290 ERROR org.

Re: Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-15 文章 Yang Wang
我之间建了一个JIRA来跟进too old resource version的问题[1] 目前在Flink里面采用了Watcher来监控Pod的状态变化,当Watcher被异常close的时候就会触发fatal error进而导致JobManager的重启 我这边做过一些具体的测试,在minikube、自建的K8s集群、阿里云ACK集群,稳定运行一周以上都是正常的。这个问题复现是通过重启 K8s的APIServer来做到的。所以我怀疑你那边Pod和APIServer之间的网络是不是不稳定,从而导致这个问题经常出现。 [1]. https://issues.apache.org/jir

Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-14 文章 lichunguang
Flink1.11.1版本job以Application Mode在K8S集群上运行,jobmanager每个小时会重启一次,报错【Fatal error occurred in ResourceManager.io.fabric8.kubernetes.client.KubernetesClientException: too old resource version】 pod重启: 重启原因: 2020-12-10 07:21:19,290 ERROR org.

Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-14 文章 lichunguang
Flink1.11.1版本job以Application Mode在K8S集群上运行,jobmanager每个小时会重启一次,报错【Fatal error occurred in ResourceManager.io.fabric8.kubernetes.client.KubernetesClientException: too old resource version】 pod重启: 重启原因: 2020-12-10 07:21:19,290 ERROR org.