如题,如果我任务本身是多个连续的window处理。 现在想拆分,基于kafka中转数据。但面临的第一个麻烦问题就是watermark的推进,当然简单实现也能满足功能,但是比如我窗口都是5min的,会导致下游窗口晚5min触发。比如window1 => window2的场景下,使用maxOutOfOrderness为1min的时候,[0-5) 的数据在6min数据到的时候触发计算。如果拆分了,那么window2需要11min时候window1输出[5-10)的数据到达window2时候才会触发window2的[0,5)的计算。
方案1:一个是将time(window时间)放入key,然后下游使用session window,正常肯定没问题,但是如果数据出现异常,比如上游某个五分钟数据分2批次到达下游可能会导致下游计算错误(规则类型window,业务不允许部分数据做计算)。 方案2:上游window想办法定期输出watermark到kafka,下游解析ts作为watermark?
