Re: Flink流批一体应用在实时数仓数据核对场景下有哪些注意事项？

Yunfeng Zhou Thu, 18 Apr 2024 00:50:57 -0700

流模式和批模式在watermark和一些算子语义等方面上有一些不同，但没看到Join和Window算子上有什么差异，这方面应该在batch
mode下应该是支持的。具体的两种模式的比较可以看一下这个文档


https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/execution_mode/

On Thu, Apr 18, 2024 at 9:44 AM casel.chen <casel_c...@126.com> wrote:
>
> 有人尝试这么实践过么？可以给一些建议么？谢谢！
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2024-04-15 11:15:34，"casel.chen" <casel_c...@126.com> 写道：
> >我最近在调研Flink实时数仓数据质量保障，需要定期（每10/20/30分钟）跑批核对实时数仓产生的数据，传统方式是通过spark作业跑批，如Apache
> > DolphinScheduler的数据质量模块。
> >但这种方式的最大缺点是需要使用spark sql重写flink 
> >sql业务逻辑，难以确保二者一致性。所以我在考虑能否使用Flink流批一体特性，复用flink 
> >sql，只需要将数据源从cdc或kafka换成hologres或starrocks表，再新建跑批结果表，最后只需要比较相同时间段内实时结果表和跑批结果表的数据即可。不过有几点疑问：
> >1. 原实时flink sql表定义中包含的watermark, process_time和event_time这些字段可以复用在batch 
> >mode下么？
> >2. 实时双流关联例如interval join和temporal join能够用于batch mode下么？
> >3. 实时流作业中的窗口函数能够复用于batch mode下么？
> >4. 其他需要关注的事项有哪些？

Re: Flink流批一体应用在实时数仓数据核对场景下有哪些注意事项？

回复