Re: 关于多个来源，如何保证数据对齐

Benchao Li Mon, 15 Jun 2020 04:42:14 -0700

Hi，
听起来你的需求应该就是做一个双流join，可以做一个基于事件时间的双流join[1]


[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming/joins.html#interval-joins

阿华田 <[email protected]> 于2020年6月15日周一 下午6:31写道：

> 建议使用缓存，因为b流会延迟20分钟到，所以将a流的数据缓存20分钟，时间到了在和b流进行关联，缓存推荐使用谷歌的cache,
> com.google.common.cache;
>
>
> | |
> 阿华田
> |
> |
> [email protected]
> |
> 签名由网易邮箱大师定制
>
>
> 在2020年06月15日 14:41，steven chen<[email protected]> 写道：
> hi:
> 1.项目中我们会汇集不同来源的消息的，然和合并进行统计并输出结果。
> 2. 有topic a 是所有的用户pv日志， topic b
> 是所有用户uv日志，现在1个job同时消费a,b2个消息，并将pv,uv的结果同时输出到下一级的kafka topic c中，
> 问题：当a 消息 提前到达，b 消息晚20分钟到达，job 在工作时如何保证2个topic 数据对齐，或者说2边数据进行关联整合？
> 相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上？
>
>
>
>
>

Re: 关于多个来源，如何保证数据对齐

回复