Hi
从火焰图看,RocksDB#get 操作占用的时间较多,contains 会调用 RocksDB 的 get 函数
1. 你使用的是哪个版本的 Flink?
2. 不同 subtask 之间的数据是否均匀呢?这里主要想知道调用 RocksDB 的 get 函数调用频次是否符合预期
3. 如果我理解没错的话,有 snappy 的压缩,这个会有 IO 的操作(也就是从磁盘 load 数据),可能还需要看下为什么这个
subtask 的数据大量落盘
Best,
Congxian
fanrui <[email protected]> 于2020年9月1日周二 下午9:14写道:
> 备注一下:
> Flink 任务并行度 1024,运行几分钟,就会有四五个 subtask 出现上述现象,其余 subtask 正常。
> 正常的 subtask 打出的火焰图是正常的:代码中每一步都占用了一部分 CPU,而不是 MapState 的 contains 操作占用了了大量
> CPU。
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/