1. 两个流的数据分别存入hbase; 2. 然后起新的消费者,两条流做outer join , 并设置一定时间的TTL: A, 能关联上直接输出 B, 右流为空,左流关联hbase补充右流数据 C, 左流为空,右流关联hbase补充左流数据 3, 全局数据根据一个version或ts可以排序去重
> 2022年3月22日 17:07,Michael Ran <greemqq...@163.com> 写道: > > 可以考虑存储层 局部更新 > 在 2022-03-21 17:00:31,"zns" <865094...@qq.com.INVALID> 写道: >> Cdc join >> >>> 2022年3月21日 14:01,JianWen Huang <jianwen.huang....@gmail.com> 写道: >>> >>> 事实表流A需关联维度表B做数据打宽。需求是当纬度表B发生变化时,关联结果需全部发生变化更新到最新。 >>> 例子: >>> 变化前: >>> A流: >>> name gender >>> a male >>> b male >>> c female >>> >>> 纬度表B: >>> name age >>> a 16 >>> b 17 >>> >>> 结果: >>> name gender age >>> a male 16 >>> b male 17 >>> >>> 发生变化后: >>> 纬度表B: >>> name age >>> a 16->17 >>> b 17->18 >>> >>> 结果: >>> name gender age >>> a male 17 >>> b male 18 >>> >>> 目前我想到一个做法是将维度表做成流然后关联事实表,最后根据更新时间取top1最新sink到存储里。请问大家有别的更好做法吗