date:20240414

Flink流批一体应用在实时数仓数据核对场景下有哪些注意事项？

2024-04-14 文章 casel.chen

我最近在调研Flink实时数仓数据质量保障，需要定期（每10/20/30分钟）跑批核对实时数仓产生的数据，传统方式是通过spark作业跑批，如Apache 
DolphinScheduler的数据质量模块。
但这种方式的最大缺点是需要使用spark sql重写flink sql业务逻辑，难以确保二者一致性。所以我在考虑能否使用Flink流批一体特性，复用flink 
sql，只需要将数据源从cdc或kafka换成hologres或starrocks表，再新建跑批结果表，最后只需要比较相同时间段内实时结果表和跑批结果表的数据即可。不过有几点疑问：
1. 原实时flink sql表定义中包含的watermark, process_time和event_time这些字段可以复用在batch mode下么？
2. 实时双流关联例如interval join和temporal join能够用于batch mode下么？
3. 实时流作业中的窗口函数能够复用于batch mode下么？
4. 其他需要关注的事项有哪些？

回复：退订

2024-04-14 文章 willluzheng

退订
 回复的原邮件 
| 发件人 | jimandlice |
| 发送日期 | 2024年04月13日 19:50 |
| 收件人 | user-zh |
| 主题 | 退订 |
退订




jimandlice
jimandl...@163.com

Flink流批一体应用在实时数仓数据核对场景下有哪些注意事项？

回复：退订

2 matches

Site Navigation

Mail list logo

Footer information