Re: 实时数仓场景落地问题

2024-01-23 文章 xiaohui zhang
实时数仓落地建议先动手做一两个场景真实应用起来,见过好几个项目一开始目标定得过大,实时数仓、流批一体、数据管控啥的都规划进去,结果项目陷入无尽的扯皮,架构设计也如空中楼阁。 实践过程中不要太过于向已有数仓分层模型靠拢,从源系统直接拼接宽表到dws层就足以应付大部分需求了。下游应用再用MPP来满足业务层的实时聚合、BI需求。 等立了几个烟囱,自己项目的实时数仓怎么做也基本有了思路

RE: 实时数仓场景落地问题

2024-01-14 文章 Jiabao Sun
Hi, 可以尝试使用 Flink CDC + Apache Paimon 去构建实时数仓。 目前 Paimon 已经支持使用 Flink CDC 将数据整库入湖,可以使用较小的成本进行实时入湖。 另外利用 Paimon partial update的特性,可以以较小的计算成本去构建 ADS 层宽表。 Paimon 也可以同时支持批式计算和流式计算,对于时效性和计算成本可以使用灵活的计算方式做平衡。 Best, Jiabao On 2024/01/14 12:57:29 海风 wrote: >