Re: 关于flink-sql 维表join问题

Jark Wu Tue, 27 Oct 2020 02:25:03 -0700

我觉得这个更像是一个周期性调度的批处理需求。因为你流处理，只能一直读取员工表的增量，没法每天读个全量。
是不是用 flink batch + 调度更好一点呢？


Best,
Jark

On Tue, 27 Oct 2020 at 16:08, 夜思流年梦 <[email protected]> wrote:

> 目前在准备搞实时数仓：碰到一个问题：
> 比如统计一个所有员工所有的业绩的报表，这个报表需要关联1个员工维表，4个业绩相关流表；
> 如果是正常SQL的话是这样join ：
>
>
> 维表 left join  流表  1
> left join 流表 2
> left join 流表 3
> left join 流表 4
>
>
> 因为flink-sql 的temporal join 不支持 维表在左边 left join 流表，
>
>
> 故只能 流表在左，维表在右来join
> 即：select  * from  table a  left join dim_XXX  FOR SYSTEM_TIME AS OF
> a.proctime as c on a.memberId=c.rowkey
>
>
> 但是这个存在的问题是那些今天没有业绩的员工就没有统计数据，如果只是join一张流表，那么我可以把没有数据的员工在出报表时补空数据，现在的情况是要join4
> 张流表，那么必须得四张流表都有数据的员工才会有数据，这个就是问题了：最终的报表只有4个流表都有数据的员工。
>
>
> 上次问过一次，上次回答的是双流join，双流join的问题也是一样，只有两者都有数据才会得到最终结果，更何况是员工维表，基本上变化很少。因为有点找不到上次那个邮件了，所以再问一下，这种场景（维表在左
> left join 流表）有没有比较好的解决方案
>
>
>
>
>
>
>
>

Re: 关于flink-sql 维表join问题

回复