Hi Yang Wang 刚刚在测试环境测试了一下,taskManager没有办法nslookup出来,JM可以nslookup,这两者的差别在于是否有service。
解决方案:我这边给集群加上了taskmanager-query-state-service.yaml(按照官网上是可选服务)。就不会刷No hostname could be resolved for ip address,将NodePort改为ClusterIp,作业就可以成功提交,不会出现time out的问题了,问题得到了解决。 1. 如果按照上面的情况,那么这个配置文件是必须配置的? 2. 在1.11的更新中,发现有 [Flink-15911][Flink-15154] 支持分别配置用于本地监听绑定的网络接口和外部访问的地址和端口。是否是这块的改动, 需要JM去通过TM上报的ip反向解析出service? Bset! [1]https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/kubernetes.html | | a511955993 | | 邮箱:[email protected] | 签名由 网易邮箱大师 定制 On 07/23/2020 10:11, Yang Wang wrote: 我的意思就是你在Flink任务运行的过程中,然后下面的命令在集群里面起一个busybox的pod, 在里面执行 nslookup {ip_address},看看是否能够正常解析到。如果不能应该就是coredns的 问题了 kubectl run -i -t busybox --image=busybox --restart=Never 你需要确认下集群的coredns pod是否正常,一般是部署在kube-system这个namespace下的 Best, Yang SmileSmile <[email protected]> 于2020年7月22日周三 下午7:57写道: > > Hi,Yang Wang! > > 很开心可以收到你的回复,你的回复帮助很大,让我知道了问题的方向。我再补充些信息,希望可以帮我进一步判断一下问题根源。 > > 在JM报错的地方,No hostname could be resolved for ip address xxxxx > ,报出来的ip是k8s分配给flink pod的内网ip,不是宿主机的ip。请问这个问题可能出在哪里呢 > > Best! > > > a511955993 > 邮箱:[email protected] > > <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1&name=a511955993&uid=a511955993%40163.com&iconUrl=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png&items=%5B%22%E9%82%AE%E7%AE%B1%EF%BC%9Aa511955993%40163.com%22%5D> > > 签名由 网易邮箱大师 <https://mail.163.com/dashi/dlpro.html?from=mail88> 定制 > > On 07/22/2020 18:18, Yang Wang <[email protected]> wrote: > 如果你的日志里面一直在刷No hostname could be resolved for the IP address,应该是集群的coredns > 有问题,由ip地址反查hostname查不到。你可以起一个busybox验证一下是不是这个ip就解析不了,有 > 可能是coredns有问题 > > > Best, > Yang > > Congxian Qiu <[email protected]> 于2020年7月21日周二 下午7:29写道: > > > Hi > > 不确定 k8s 环境中能否看到 pod 的完整日志?类似 Yarn 的 NM 日志一样,如果有的话,可以尝试看一下这个 pod > > 的完整日志有没有什么发现 > > Best, > > Congxian > > > > > > SmileSmile <[email protected]> 于2020年7月21日周二 下午3:19写道: > > > > > Hi,Congxian > > > > > > 因为是测试环境,没有配置HA,目前看到的信息,就是JM刷出来大量的no hostname could be > > > resolved,jm失联,作业提交失败。 > > > 将jm内存配置为10g也是一样的情况(jobmanager.memory.pprocesa.size:10240m)。 > > > > > > 在同一个环境将版本回退到1.10没有出现该问题,也不会刷如上报错。 > > > > > > > > > 是否有其他排查思路? > > > > > > Best! > > > > > > > > > > > > > > > | | > > > a511955993 > > > | > > > | > > > 邮箱:[email protected] > > > | > > > > > > 签名由 网易邮箱大师 定制 > > > > > > On 07/16/2020 13:17, Congxian Qiu wrote: > > > Hi > > > 如果没有异常,GC 情况也正常的话,或许可以看一下 pod 的相关日志,如果开启了 HA 也可以看一下 zk 的日志。之前遇到过一次在 > > Yarn > > > 环境中类似的现象是由于其他原因导致的,通过看 NM 日志以及 zk 日志发现的原因。 > > > > > > Best, > > > Congxian > > > > > > > > > SmileSmile <[email protected]> 于2020年7月15日周三 下午5:20写道: > > > > > > > Hi Roc > > > > > > > > 该现象在1.10.1版本没有,在1.11版本才出现。请问这个该如何查比较合适 > > > > > > > > > > > > > > > > | | > > > > a511955993 > > > > | > > > > | > > > > 邮箱:[email protected] > > > > | > > > > > > > > 签名由 网易邮箱大师 定制 > > > > > > > > On 07/15/2020 17:16, Roc Marshal wrote: > > > > Hi,SmileSmile. > > > > 个人之前有遇到过 类似 的host解析问题,可以从k8s的pod节点网络映射角度排查一下。 > > > > 希望这对你有帮助。 > > > > > > > > > > > > 祝好。 > > > > Roc Marshal > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 在 2020-07-15 17:04:18,"SmileSmile" <[email protected]> 写道: > > > > > > > > > >Hi > > > > > > > > > >使用版本Flink 1.11,部署方式 kubernetes session。 TM个数30个,每个TM 4个slot。 job > > > > 并行度120.提交作业的时候出现大量的No hostname could be resolved for the IP > address,JM > > > time > > > > out,作业提交失败。web ui也会卡主无响应。 > > > > > > > > > >用wordCount,并行度只有1提交也会刷,no hostname的日志会刷个几条,然后正常提交,如果并行度一上去,就会超时。 > > > > > > > > > > > > > > >部分日志如下: > > > > > > > > > >2020-07-15 16:58:46,460 WARN > > > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > > > hostname could be resolved for the IP address 10.32.160.7, using IP > > > address > > > > as host name. Local input split assignment (such as for HDFS files) > may > > > be > > > > impacted. > > > > >2020-07-15 16:58:46,460 WARN > > > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > > > hostname could be resolved for the IP address 10.44.224.7, using IP > > > address > > > > as host name. Local input split assignment (such as for HDFS files) > may > > > be > > > > impacted. > > > > >2020-07-15 16:58:46,461 WARN > > > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > > > hostname could be resolved for the IP address 10.40.32.9, using IP > > > address > > > > as host name. Local input split assignment (such as for HDFS files) > may > > > be > > > > impacted. > > > > > > > > > >2020-07-15 16:59:10,236 INFO > > > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager > [] - > > > The > > > > heartbeat of JobManager with id 69a0d460de468888a9f41c770d963c0a > timed > > > out. > > > > >2020-07-15 16:59:10,236 INFO > > > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager > [] - > > > > Disconnect job manager 00000000000000000000000000000000 > > > > @akka.tcp://flink@flink-jobmanager:6123/user/rpc/jobmanager_2 for > job > > > > e1554c737e37ed79688a15c746b6e9ef from the resource manager. > > > > > > > > > > > > > > >how to deal with ? > > > > > > > > > > > > > > >beset ! > > > > > > > > > >| | > > > > >a511955993 > > > > >| > > > > >| > > > > >邮箱:[email protected] > > > > >| > > > > > > > > > >签名由 网易邮箱大师 定制 > > > > > > > > > > >
