Re: Flink cdc 2.0 历史数据太大，导致log积压怎么解决

jinzhuguang Wed, 20 Sep 2023 18:47:23 -0700

你好，除了这些运维手段外，flink cdc本身有什么解法吗，比如说增量阶段不用从头开始读binlog，因为其实很多都是重复读到的数据


> 2023年9月20日 21:00，Jiabao Sun <jiabao....@xtransfer.cn.INVALID> 写道：
> 
> Hi,
> 生产环境的binlog还是建议至少保留7天，可以提高故障恢复时间容忍度。
> 另外，可以尝试增加snapshot的并行度和资源来提升snapshot速度，snapshot完成后可以从savepoint恢复并减少资源。
> Best,
> Jiabao
> ------------------------------------------------------------------
> From:jinzhuguang <jinzhuguan...@163.com>
> Send Time:2023年9月20日(星期三) 20:56
> To:user-zh <user-zh@flink.apache.org>
> Subject:Flink cdc 2.0 历史数据太大，导致log积压怎么解决
> 以mysql 
> cdc为例，现在的f整体流程是先同步全量数据，再开启增量同步；我看代码目前增量的初始offset选择的是所有全量split的最小的highwatermark。那我如果全量数据很大，TB级别，全量同步可能需要很久，但是binlog又不能删除，这样堆积起来会占用很大的空间，不知道这个问题现在有什么常见的解法吗？

Re: Flink cdc 2.0 历史数据太大，导致log积压怎么解决

回复