Hi
1. Checkpoint 超时时间设置是多少(是默认的10min么),如果超时时间太短,容易checkpoint failure 2. 所有的subtask都是n/a 么,source task的checkpoint没有rocksDb的参与,与使用默认的MemoryStateBackend其实是一样的,不应该source task也没有完成checkpoint(除非一直都拿不到StreamTask里面的锁,一直都在process element) 3. 作业的反压情况如何,是不是使用RocksDB时候存在严重的反压(back pressure)情况?如果作业反压的话,barrier一直都流不到下游,容易造成checkpoint超时。 建议分享一下作业webUI上的checkpoint 信息。 祝好 唐云 ________________________________ From: Wesley Peng <[email protected]> Sent: Tuesday, September 3, 2019 15:44 To: [email protected] <[email protected]> Subject: Re: 回复: flink使用StateBackend问题 on 2019/9/3 15:38, 守护 wrote: > org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Received late > message for now expired checkpoint attempt 3 from > 24674987621178ed1a363901acc5b128 of job fd5010cbf20501339f1136600f0709c3. > 请问这个是什么问题呢? 可以根据这些失败的task的id去查询这些任务落在哪一个taskmanager上,经过排查发现,是同一台机器,通过ui看到该机器流入的数据明显比别的流入量大 因此是因为数据倾斜导致了这个问题,追根溯源还是下游消费能力不足的问题 also reference: https://juejin.im/post/5c374fe3e51d451bd1663756
