实时数仓落地建议先动手做一两个场景真实应用起来,见过好几个项目一开始目标定得过大,实时数仓、流批一体、数据管控啥的都规划进去,结果项目陷入无尽的扯皮,架构设计也如空中楼阁。
实践过程中不要太过于向已有数仓分层模型靠拢,从源系统直接拼接宽表到dws层就足以应付大部分需求了。下游应用再用MPP来满足业务层的实时聚合、BI需求。
等立了几个烟囱,自己项目的实时数仓怎么做也基本有了思路
Hi,
可以尝试使用 Flink CDC + Apache Paimon 去构建实时数仓。
目前 Paimon 已经支持使用 Flink CDC 将数据整库入湖,可以使用较小的成本进行实时入湖。
另外利用 Paimon partial update的特性,可以以较小的计算成本去构建 ADS 层宽表。
Paimon 也可以同时支持批式计算和流式计算,对于时效性和计算成本可以使用灵活的计算方式做平衡。
Best,
Jiabao
On 2024/01/14 12:57:29 海风 wrote:
>
hello,公司里业务会拿一张t+1的离线数仓表名,经常是ads应用层的,问你可不可以做成实时表,大家有碰到这类需求嘛?我的理解现在虽然有实时数仓,或者流批一体这样探索,但是远没有到层级很深的ads层t+1离线表可能以较小的成本去实现实时化。
引申的问题是当前实时数仓已有较大规模的场景落地么?有哪些场景落地呢?落地的效果成本与效果大概是怎么样的呢?