1. 两个流的数据分别存入hbase;
2. 然后起新的消费者,两条流做outer join , 并设置一定时间的TTL:
A, 能关联上直接输出
B, 右流为空,左流关联hbase补充右流数据
C, 左流为空,右流关联hbase补充左流数据
3, 全局数据根据一个version或ts可以排序去重
> 2022年3月22日 17:07,Michael Ran <[email protected]> 写道:
>
> 可以考虑存储层 局部更新
> 在 2022-03-21 17:00:31,"zns" <[email protected]> 写道:
>> Cdc join
>>
>>> 2022年3月21日 14:01,JianWen Huang <[email protected]> 写道:
>>>
>>> 事实表流A需关联维度表B做数据打宽。需求是当纬度表B发生变化时,关联结果需全部发生变化更新到最新。
>>> 例子:
>>> 变化前:
>>> A流:
>>> name gender
>>> a male
>>> b male
>>> c female
>>>
>>> 纬度表B:
>>> name age
>>> a 16
>>> b 17
>>>
>>> 结果:
>>> name gender age
>>> a male 16
>>> b male 17
>>>
>>> 发生变化后:
>>> 纬度表B:
>>> name age
>>> a 16->17
>>> b 17->18
>>>
>>> 结果:
>>> name gender age
>>> a male 17
>>> b male 18
>>>
>>> 目前我想到一个做法是将维度表做成流然后关联事实表,最后根据更新时间取top1最新sink到存储里。请问大家有别的更好做法吗