Hi 不确定 k8s 环境中能否看到 pod 的完整日志?类似 Yarn 的 NM 日志一样,如果有的话,可以尝试看一下这个 pod 的完整日志有没有什么发现 Best, Congxian
SmileSmile <[email protected]> 于2020年7月21日周二 下午3:19写道: > Hi,Congxian > > 因为是测试环境,没有配置HA,目前看到的信息,就是JM刷出来大量的no hostname could be > resolved,jm失联,作业提交失败。 > 将jm内存配置为10g也是一样的情况(jobmanager.memory.pprocesa.size:10240m)。 > > 在同一个环境将版本回退到1.10没有出现该问题,也不会刷如上报错。 > > > 是否有其他排查思路? > > Best! > > > > > | | > a511955993 > | > | > 邮箱:[email protected] > | > > 签名由 网易邮箱大师 定制 > > On 07/16/2020 13:17, Congxian Qiu wrote: > Hi > 如果没有异常,GC 情况也正常的话,或许可以看一下 pod 的相关日志,如果开启了 HA 也可以看一下 zk 的日志。之前遇到过一次在 Yarn > 环境中类似的现象是由于其他原因导致的,通过看 NM 日志以及 zk 日志发现的原因。 > > Best, > Congxian > > > SmileSmile <[email protected]> 于2020年7月15日周三 下午5:20写道: > > > Hi Roc > > > > 该现象在1.10.1版本没有,在1.11版本才出现。请问这个该如何查比较合适 > > > > > > > > | | > > a511955993 > > | > > | > > 邮箱:[email protected] > > | > > > > 签名由 网易邮箱大师 定制 > > > > On 07/15/2020 17:16, Roc Marshal wrote: > > Hi,SmileSmile. > > 个人之前有遇到过 类似 的host解析问题,可以从k8s的pod节点网络映射角度排查一下。 > > 希望这对你有帮助。 > > > > > > 祝好。 > > Roc Marshal > > > > > > > > > > > > > > > > > > > > > > > > 在 2020-07-15 17:04:18,"SmileSmile" <[email protected]> 写道: > > > > > >Hi > > > > > >使用版本Flink 1.11,部署方式 kubernetes session。 TM个数30个,每个TM 4个slot。 job > > 并行度120.提交作业的时候出现大量的No hostname could be resolved for the IP address,JM > time > > out,作业提交失败。web ui也会卡主无响应。 > > > > > >用wordCount,并行度只有1提交也会刷,no hostname的日志会刷个几条,然后正常提交,如果并行度一上去,就会超时。 > > > > > > > > >部分日志如下: > > > > > >2020-07-15 16:58:46,460 WARN > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > hostname could be resolved for the IP address 10.32.160.7, using IP > address > > as host name. Local input split assignment (such as for HDFS files) may > be > > impacted. > > >2020-07-15 16:58:46,460 WARN > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > hostname could be resolved for the IP address 10.44.224.7, using IP > address > > as host name. Local input split assignment (such as for HDFS files) may > be > > impacted. > > >2020-07-15 16:58:46,461 WARN > > org.apache.flink.runtime.taskmanager.TaskManagerLocation [] - No > > hostname could be resolved for the IP address 10.40.32.9, using IP > address > > as host name. Local input split assignment (such as for HDFS files) may > be > > impacted. > > > > > >2020-07-15 16:59:10,236 INFO > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] - > The > > heartbeat of JobManager with id 69a0d460de468888a9f41c770d963c0a timed > out. > > >2020-07-15 16:59:10,236 INFO > > org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] - > > Disconnect job manager 00000000000000000000000000000000 > > @akka.tcp://flink@flink-jobmanager:6123/user/rpc/jobmanager_2 for job > > e1554c737e37ed79688a15c746b6e9ef from the resource manager. > > > > > > > > >how to deal with ? > > > > > > > > >beset ! > > > > > >| | > > >a511955993 > > >| > > >| > > >邮箱:[email protected] > > >| > > > > > >签名由 网易邮箱大师 定制 > > >
