好的,我尝试吧18个flink job拆分出来,在yarn中单独运行,观察里面的jm/tm的信息,谢谢.
发件人: Yun Gao
发送时间: 2019年5月10日 17:52
收件人: user-zh
主题: Re: flink集群性能问题
异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析
异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析。
--
From:戴嘉诚
Send Time:2019 May 10 (Fri.) 17:00
To:user-zh@flink.apache.org
Subject:flink集群性能问题
大家好:
我这里遇到了一个问题,我的运行方式是fli
大家好:
我这里遇到了一个问题,我的运行方式是flink session on
yarn上,一共有18个任务在这个session上运行,这个任务运行了几天后,最近开始发现有几个job,不定时报这个错误,(ps:就这几个job报这个异常,其他job没有出现)。一直都提示超时,然后看了gc,发现没有长时间的的fullgc,而且gc也改为了用g1垃圾收集器,但是也是会有这个问题。
状态后端使用的是文件后端,以前用rocksDB的时候,也是出现过如此异常。
异常一:
java.util.concurrent.TimeoutException: Heartbeat