Hi,

可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。


[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options

Best,
Weihua


On Mon, Feb 20, 2023 at 1:58 PM lxk <lxk7...@163.com> wrote:

> 我尝试调整了参数,具体数值如下
>
>
> akka.ask.timeout: 900s
>
>
>
> 但还是报同样的错
>
>
>
>
>
>
>
>
>
>
>
> 在 2023-02-17 17:32:51,"Guo Thompson" <gwqloveli...@gmail.com> 写道:
> >可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了;
> >
> >lxk <lxk7...@163.com> 于2023年2月14日周二 14:32写道:
> >
> >> Flink version:1.16
> >> java version: jdk1.8.0_251
> >> 问题:最近上线的Flink程序,频繁young
> >>
> gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps
> >> -ef|grep 1666758697316_2639108,找到对应的pid,最后执行 jmap -dump:format
> >> b,file=user.dump 26326
> >>
> 命令生成dump文件,但我们测试了很多个程序,只要一开始dump,都会对线上程序产生影响,程序的container会莫名的死掉,然后程序重启。具体执行命令后的报错如下:
> >> sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
> >> https://pic.imgdb.cn/item/63eb2a46f144a010071899ba.png
> >> 不知道大家有没有遇见这个问题,是我们使用的姿势不对,还是目前使用的版本有什么问题,希望大家能够给出一些建议和看法。
>

回复