你好 从所给的信息暂时不确定是啥问题,你需要分析下是同步耗时比较多(对于 state size 差不多的情况下,同步阶段过长可以看看 barrier 对齐是否有问题),还是异步阶段耗时比较多(可以看看磁盘和网络相关的 metric 是否有抖动,或者瓶颈)
Best, Congxian [email protected] <[email protected]> 于2019年7月5日周五 下午2:39写道: > 你好: > 感谢回复。 > 情况是这样的: > 1、yarn-cluster 模式下和 yarn-session > 模式下的代码是一样的,配置是一样的,yarn-session分配的资源比yarn-cluster的少 > 2、都是使用的异步 > 3、两种方式下,state size都是越来越大(从我们测试的情况来看,从最初的任务启动state > size在20M左右,然后随着运行会达到300M以上) > > ------------------------------ > [email protected] > > > *发件人:* Congxian Qiu <[email protected]> > *发送时间:* 2019-07-05 14:32 > *收件人:* user-zh <[email protected]>; tangjunliang > <[email protected]> > *主题:* Re: 关于flink rocksdb 增量checkpoint的问题 > 你好, > 首先 rocksdb 增量 checkpoint 的耗时和具体怎么部署的是没有关系的。 > > 关于你的这个问题,需要一些更详细的信息才能做判断 > > - yarn-cluster 模式下和 yarn-session 模式下的代码,配置和环境是一样的吗? > - yarn-cluster 模式下时间越来越长,是同步时间变长了,还是异步时间变长了呢? > - 另外每次 checkpoint 的 state size 是什么趋势呢? > > Best, > Congxian > > > [email protected] <[email protected]> 于2019年7月5日周五 > 下午2:26写道: > >> 嗨 您好 我们现在在使用flink1.7.2 在使用过程当中遇到个疑惑 我们使用的rocksdb 增量做checkpoint >> job在yarn上运行 如果使用yan-cluster这种方式运行 cp从触发到完成的时间会越来越长 如果使用yarn-session这种方式 >> 触发到完成时间都是均匀的 不能理解 这两种方式是有什么区别麽 望解答 谢谢 >> >> >> >> [email protected] >> >
