答复: flink集群性能问题

2019-05-10 文章 戴嘉诚
好的,我尝试吧18个flink job拆分出来,在yarn中单独运行,观察里面的jm/tm的信息,谢谢. 发件人: Yun Gao 发送时间: 2019年5月10日 17:52 收件人: user-zh 主题: Re: flink集群性能问题 异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析

Re: flink集群性能问题

2019-05-10 文章 Yun Gao
异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析。 -- From:戴嘉诚 Send Time:2019 May 10 (Fri.) 17:00 To:user-zh@flink.apache.org Subject:flink集群性能问题 大家好: 我这里遇到了一个问题,我的运行方式是fli

flink集群性能问题

2019-05-10 文章 戴嘉诚
大家好: 我这里遇到了一个问题,我的运行方式是flink session on yarn上,一共有18个任务在这个session上运行,这个任务运行了几天后,最近开始发现有几个job,不定时报这个错误,(ps:就这几个job报这个异常,其他job没有出现)。一直都提示超时,然后看了gc,发现没有长时间的的fullgc,而且gc也改为了用g1垃圾收集器,但是也是会有这个问题。 状态后端使用的是文件后端,以前用rocksDB的时候,也是出现过如此异常。 异常一: java.util.concurrent.TimeoutException: Heartbeat