1、为什么source 默认要从 earliest 开始消费,是为了能够找到或者 补全 update before 数据? kafka 数据也有清理周期,给我感觉是 如果 state 找不到 就是 insert . 如果下游sink 能做 upsert 处理 比如 hbase 是不是 source 就可以解除这限制
2、翻了下 代码 没找到维护 sate 的源码位置,请指导下 核心类 3、Upsert kafka 作为 source 是否有严格要求 消息生产端必须对 消息进行 分区,使得 相同主键的 数据发送到同一个 kafka partition.
