Hi Jacob,

能通过日志或监控判断是 checkpoint 时 snapshot 的 sync 阶段慢,还是 async 阶段慢,还是上传到 HDFS
时间长或是其他阶段的瓶颈吗?

几十 KB 的状态慢很可能是某个步骤出故障卡住了。

Best,
tison.


yidan zhao <[email protected]> 于2021年3月2日周二 下午3:58写道:

> 我比较奇怪的是再慢的磁盘,对于几十KB的状态也不至于“慢”吧。
>
> Jacob <[email protected]> 于2021年3月2日周二 上午10:34写道:
>
> > 谢谢回复
> >
> > 我用的是filesystem,
> > 相关配置如下:
> >
> >
> > state.backend: filesystem
> > state.checkpoints.dir: hdfs://nameservice1/datafeed/prd/flink_checkpoint
> > state.savepoints.dir: hdfs://nameservice1/datafeed/prd/flink_checkpoint
> > state.backend.incremental: false
> > state.backend.fs.memory-threshold: 1024
> > state.checkpoints.num-retained: 3
> > restart-strategy: fixed-delay
> > restart-strategy.fixed-delay.attempts: 1000
> > restart-strategy.fixed-delay.delay: 30 s
> >
> >
> >
> > 后面把上面配置注释掉,然后在代码中指定了checkpoint类型为内存,但速度还是很慢。
> >
> >
> >
> > -----
> > Thanks!
> > Jacob
> > --
> > Sent from: http://apache-flink.147419.n8.nabble.com/
> >
>

回复