建议使用缓存,因为b流会延迟20分钟到,所以将a流的数据缓存20分钟,时间到了在和b流进行关联,缓存推荐使用谷歌的cache, 
com.google.common.cache;


| |
阿华田
|
|
[email protected]
|
签名由网易邮箱大师定制


在2020年06月15日 14:41,steven chen<[email protected]> 写道:
hi:
1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。
2. 有topic a 是所有的用户pv日志, topic b 
是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中,
问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合?
相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?




回复