1. 两个流的数据分别存入hbase;
2. 然后起新的消费者,两条流做outer join ,  并设置一定时间的TTL:
    A, 能关联上直接输出
    B, 右流为空,左流关联hbase补充右流数据
    C, 左流为空,右流关联hbase补充左流数据
3, 全局数据根据一个version或ts可以排序去重


> 2022年3月22日 17:07,Michael Ran <greemqq...@163.com> 写道:
> 
> 可以考虑存储层 局部更新
> 在 2022-03-21 17:00:31,"zns" <865094...@qq.com.INVALID> 写道:
>> Cdc join
>> 
>>> 2022年3月21日 14:01,JianWen Huang <jianwen.huang....@gmail.com> 写道:
>>> 
>>> 事实表流A需关联维度表B做数据打宽。需求是当纬度表B发生变化时,关联结果需全部发生变化更新到最新。
>>> 例子:
>>> 变化前:
>>> A流:
>>> name  gender
>>> a         male
>>> b         male
>>> c         female
>>> 
>>> 纬度表B:
>>> name    age
>>> a           16
>>> b            17
>>> 
>>> 结果:
>>> name   gender   age
>>> a           male      16
>>> b           male     17
>>> 
>>> 发生变化后:
>>> 纬度表B:
>>> name    age
>>> a           16->17
>>> b            17->18
>>> 
>>> 结果:
>>> name   gender   age
>>> a           male      17
>>> b           male      18
>>> 
>>> 目前我想到一个做法是将维度表做成流然后关联事实表,最后根据更新时间取top1最新sink到存储里。请问大家有别的更好做法吗

回复