Hi,Yang Wang!

很开心可以收到你的回复,你的回复帮助很大,让我知道了问题的方向。我再补充些信息,希望可以帮我进一步判断一下问题根源。

在JM报错的地方,No hostname could be resolved for ip address xxxxx ,报出来的ip是k8s分配给flink 
pod的内网ip,不是宿主机的ip。请问这个问题可能出在哪里呢

Best!



| |
a511955993
|
|
邮箱:[email protected]
|

签名由 网易邮箱大师 定制

On 07/22/2020 18:18, Yang Wang wrote:
如果你的日志里面一直在刷No hostname could be resolved for the IP address,应该是集群的coredns
有问题,由ip地址反查hostname查不到。你可以起一个busybox验证一下是不是这个ip就解析不了,有
可能是coredns有问题


Best,
Yang

Congxian Qiu <[email protected]> 于2020年7月21日周二 下午7:29写道:

> Hi
>    不确定 k8s 环境中能否看到 pod 的完整日志?类似 Yarn 的 NM 日志一样,如果有的话,可以尝试看一下这个 pod
> 的完整日志有没有什么发现
> Best,
> Congxian
>
>
> SmileSmile <[email protected]> 于2020年7月21日周二 下午3:19写道:
>
> > Hi,Congxian
> >
> > 因为是测试环境,没有配置HA,目前看到的信息,就是JM刷出来大量的no hostname could be
> > resolved,jm失联,作业提交失败。
> > 将jm内存配置为10g也是一样的情况(jobmanager.memory.pprocesa.size:10240m)。
> >
> > 在同一个环境将版本回退到1.10没有出现该问题,也不会刷如上报错。
> >
> >
> > 是否有其他排查思路?
> >
> > Best!
> >
> >
> >
> >
> > | |
> > a511955993
> > |
> > |
> > 邮箱:[email protected]
> > |
> >
> > 签名由 网易邮箱大师 定制
> >
> > On 07/16/2020 13:17, Congxian Qiu wrote:
> > Hi
> >   如果没有异常,GC 情况也正常的话,或许可以看一下 pod 的相关日志,如果开启了 HA 也可以看一下 zk 的日志。之前遇到过一次在
> Yarn
> > 环境中类似的现象是由于其他原因导致的,通过看 NM 日志以及 zk 日志发现的原因。
> >
> > Best,
> > Congxian
> >
> >
> > SmileSmile <[email protected]> 于2020年7月15日周三 下午5:20写道:
> >
> > > Hi Roc
> > >
> > > 该现象在1.10.1版本没有,在1.11版本才出现。请问这个该如何查比较合适
> > >
> > >
> > >
> > > | |
> > > a511955993
> > > |
> > > |
> > > 邮箱:[email protected]
> > > |
> > >
> > > 签名由 网易邮箱大师 定制
> > >
> > > On 07/15/2020 17:16, Roc Marshal wrote:
> > > Hi,SmileSmile.
> > > 个人之前有遇到过 类似 的host解析问题,可以从k8s的pod节点网络映射角度排查一下。
> > > 希望这对你有帮助。
> > >
> > >
> > > 祝好。
> > > Roc Marshal
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> > > 在 2020-07-15 17:04:18,"SmileSmile" <[email protected]> 写道:
> > > >
> > > >Hi
> > > >
> > > >使用版本Flink 1.11,部署方式 kubernetes session。 TM个数30个,每个TM 4个slot。 job
> > > 并行度120.提交作业的时候出现大量的No hostname could be resolved for the IP address,JM
> > time
> > > out,作业提交失败。web ui也会卡主无响应。
> > > >
> > > >用wordCount,并行度只有1提交也会刷,no hostname的日志会刷个几条,然后正常提交,如果并行度一上去,就会超时。
> > > >
> > > >
> > > >部分日志如下:
> > > >
> > > >2020-07-15 16:58:46,460 WARN
> > > org.apache.flink.runtime.taskmanager.TaskManagerLocation     [] - No
> > > hostname could be resolved for the IP address 10.32.160.7, using IP
> > address
> > > as host name. Local input split assignment (such as for HDFS files) may
> > be
> > > impacted.
> > > >2020-07-15 16:58:46,460 WARN
> > > org.apache.flink.runtime.taskmanager.TaskManagerLocation     [] - No
> > > hostname could be resolved for the IP address 10.44.224.7, using IP
> > address
> > > as host name. Local input split assignment (such as for HDFS files) may
> > be
> > > impacted.
> > > >2020-07-15 16:58:46,461 WARN
> > > org.apache.flink.runtime.taskmanager.TaskManagerLocation     [] - No
> > > hostname could be resolved for the IP address 10.40.32.9, using IP
> > address
> > > as host name. Local input split assignment (such as for HDFS files) may
> > be
> > > impacted.
> > > >
> > > >2020-07-15 16:59:10,236 INFO
> > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] -
> > The
> > > heartbeat of JobManager with id 69a0d460de468888a9f41c770d963c0a timed
> > out.
> > > >2020-07-15 16:59:10,236 INFO
> > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] -
> > > Disconnect job manager 00000000000000000000000000000000
> > > @akka.tcp://flink@flink-jobmanager:6123/user/rpc/jobmanager_2 for job
> > > e1554c737e37ed79688a15c746b6e9ef from the resource manager.
> > > >
> > > >
> > > >how to deal with ?
> > > >
> > > >
> > > >beset !
> > > >
> > > >| |
> > > >a511955993
> > > >|
> > > >|
> > > >邮箱:[email protected]
> > > >|
> > > >
> > > >签名由 网易邮箱大师 定制
> > >
> >
>

回复