有人尝试这么实践过么?可以给一些建议么?谢谢!
















在 2024-04-15 11:15:34,"casel.chen" <casel_c...@126.com> 写道:
>我最近在调研Flink实时数仓数据质量保障,需要定期(每10/20/30分钟)跑批核对实时数仓产生的数据,传统方式是通过spark作业跑批,如Apache 
>DolphinScheduler的数据质量模块。
>但这种方式的最大缺点是需要使用spark sql重写flink 
>sql业务逻辑,难以确保二者一致性。所以我在考虑能否使用Flink流批一体特性,复用flink 
>sql,只需要将数据源从cdc或kafka换成hologres或starrocks表,再新建跑批结果表,最后只需要比较相同时间段内实时结果表和跑批结果表的数据即可。不过有几点疑问:
>1. 原实时flink sql表定义中包含的watermark, process_time和event_time这些字段可以复用在batch mode下么?
>2. 实时双流关联例如interval join和temporal join能够用于batch mode下么?
>3. 实时流作业中的窗口函数能够复用于batch mode下么?
>4. 其他需要关注的事项有哪些?

回复