好的,我尝试吧18个flink job拆分出来,在yarn中单独运行,观察里面的jm/tm的信息,谢谢.
发件人: Yun Gao
发送时间: 2019年5月10日 17:52
收件人: user-zh
主题: Re: flink集群性能问题
异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析。
异常一和异常三应该是相关的,因为Heartbeat也是通过akka来发送的;如果确定不是GC的问题的话,那么超时一般是由于JM/TM在做一些耗时的操作导致akka线程阻塞,但是具体在做什么操作应该还需要进一步分析。
--
From:戴嘉诚
Send Time:2019 May 10 (Fri.) 17:00
To:user-zh@flink.apache.org
Subject:flink集群性能问题
大家好:
大家好,
我现在有一个程序消费kafka,写入kafka,我想获取flink 消费了多少条kafka数据,写入了多少条kafka数据,,但是在flink页面上
第一个subtasks的Records received是0,最后一个subtask的Records send也是0,但是第一个subtask的Records
send是正确的,最后一个subtask的Records
received也是正确的。也就是我现在我不能从flink的metric中获取到flink程序从kafka中读了多少条数据,flink程序写入kafka多少条数据。
请问一下,我如何能从flink
大家好:
我这里遇到了一个问题,我的运行方式是flink session on
yarn上,一共有18个任务在这个session上运行,这个任务运行了几天后,最近开始发现有几个job,不定时报这个错误,(ps:就这几个job报这个异常,其他job没有出现)。一直都提示超时,然后看了gc,发现没有长时间的的fullgc,而且gc也改为了用g1垃圾收集器,但是也是会有这个问题。
状态后端使用的是文件后端,以前用rocksDB的时候,也是出现过如此异常。
异常一:
java.util.concurrent.TimeoutException: Heartbeat
Hi
Root cause其实是最后一行 ”Caused by: java.lang.NoClassDefFoundError: Could not
initialize class org.apache.hadoop.hdfs.protocol.HdfsConstants“
与rocksDB无关,检查一下运行时classpath里面有没有这个类,可以先确认一下flink-shaded-hadoop2-xx.jar
在不在你的classpath里面。
祝好
唐云
From: zhang yue
Sent:
flink 版本1.7.2
org.apache.flink.client.program.ProgramInvocationException: Job failed. (JobID:
447c14f1bd0382214a420122215f6792)
at
org.apache.flink.client.program.rest.RestClusterClient.submitJob(RestClusterClient.java:268)
at