Re: Re: 关于flink rocksdb 增量checkpoint的问题

Congxian Qiu Sun, 07 Jul 2019 18:42:12 -0700

你好
从所给的信息暂时不确定是啥问题，你需要分析下是同步耗时比较多（对于 state size 差不多的情况下，同步阶段过长可以看看 barrier
对齐是否有问题），还是异步阶段耗时比较多（可以看看磁盘和网络相关的 metric 是否有抖动，或者瓶颈）


Best,
Congxian


[email protected] <[email protected]> 于2019年7月5日周五
下午2:39写道：

> 你好：
> 感谢回复。
> 情况是这样的：
> 1、yarn-cluster 模式下和 yarn-session
> 模式下的代码是一样的，配置是一样的，yarn-session分配的资源比yarn-cluster的少
> 2、都是使用的异步
> 3、两种方式下，state size都是越来越大(从我们测试的情况来看，从最初的任务启动state
> size在20M左右，然后随着运行会达到300M以上)
>
> ------------------------------
> [email protected]
>
>
> *发件人：* Congxian Qiu <[email protected]>
> *发送时间：* 2019-07-05 14:32
> *收件人：* user-zh <[email protected]>; tangjunliang
> <[email protected]>
> *主题：* Re: 关于flink rocksdb 增量checkpoint的问题
> 你好，
> 首先 rocksdb 增量 checkpoint 的耗时和具体怎么部署的是没有关系的。
>
> 关于你的这个问题，需要一些更详细的信息才能做判断
>
> - yarn-cluster 模式下和 yarn-session 模式下的代码，配置和环境是一样的吗？
> - yarn-cluster 模式下时间越来越长，是同步时间变长了，还是异步时间变长了呢？
> - 另外每次 checkpoint 的 state size 是什么趋势呢？
>
> Best,
> Congxian
>
>
> [email protected] <[email protected]> 于2019年7月5日周五
> 下午2:26写道：
>
>> 嗨 您好 我们现在在使用flink1.7.2 在使用过程当中遇到个疑惑 我们使用的rocksdb 增量做checkpoint
>> job在yarn上运行 如果使用yan-cluster这种方式运行 cp从触发到完成的时间会越来越长 如果使用yarn-session这种方式
>> 触发到完成时间都是均匀的 不能理解 这两种方式是有什么区别麽 望解答 谢谢
>>
>>
>>
>> [email protected]
>>
>