Hi, 可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。
[1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options Best, Weihua On Mon, Feb 20, 2023 at 1:58 PM lxk <lxk7...@163.com> wrote: > 我尝试调整了参数,具体数值如下 > > > akka.ask.timeout: 900s > > > > 但还是报同样的错 > > > > > > > > > > > > 在 2023-02-17 17:32:51,"Guo Thompson" <gwqloveli...@gmail.com> 写道: > >可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了; > > > >lxk <lxk7...@163.com> 于2023年2月14日周二 14:32写道: > > > >> Flink version:1.16 > >> java version: jdk1.8.0_251 > >> 问题:最近上线的Flink程序,频繁young > >> > gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps > >> -ef|grep 1666758697316_2639108,找到对应的pid,最后执行 jmap -dump:format > >> b,file=user.dump 26326 > >> > 命令生成dump文件,但我们测试了很多个程序,只要一开始dump,都会对线上程序产生影响,程序的container会莫名的死掉,然后程序重启。具体执行命令后的报错如下: > >> sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410 > >> https://pic.imgdb.cn/item/63eb2a46f144a010071899ba.png > >> 不知道大家有没有遇见这个问题,是我们使用的姿势不对,还是目前使用的版本有什么问题,希望大家能够给出一些建议和看法。 >