Hi 张立志, 一般 Checkpoint 超时,可以先看看你的任务中,是否存在反压,比如 Sink 阶段,又或者是某个地方有 flatMap操作导致。
然后看下自己任务中,是否存在热点问题等。如果一切都是正常的话,可以尝试使用 RocksDB 的增量 Checkpoint ,具体参考[1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/state/state_backends.html#rocksdb-state-backend-details Best, LakeShen 张立志 <[email protected]> 于2020年6月28日周日 上午9:52写道: > flink 版本1.8 > 部署集群yarn > > > 配置代码: > StreamExecutionEnvironment.stateBackend(new > FsStateBackend("hdfs://nsstreaming/streaming/flink_checkpoint/state").checkpointingInterval(1000*60*10).checkpointTimeout(1000*60*10).timeCharacteristic(TimeCharacteristic.IngestionTime).build(); > 业务代码相对比较简单,内存占用较大 > 超过10分钟后开始报错,state 大概在1.5G时,开始耗时开始变长 > > > > > >
