hi, thanks you for your kind words. good idea, I think we could talk about more detail things in Slack, welcome to join us through invitation URL : https://s.apache.org/dolphinscheduler-slack
two things need to do: 1、Please subscribe the dev mailing list : https://dolphinscheduler.apache.org/en-us/community/development/subscribe.html 2、Please describe this issue in English( English first, then Chinese also will be OK) Best Regards --------------- DolphinScheduler PMC Lidong Dai [email protected] --------------- On Tue, May 25, 2021 at 10:59 PM 满天花落 <[email protected]> wrote: > DS社区您好: > 作为一个dolphinscheduler长期使用者,首先感谢ds各位开发者的ds的支持与贡献,解决我们公司关于数据治理。 > > 本人所在公司也在ds基础上开发一些新的功能,增加了kafka数据同步至hudi数据湖的Task类型,有意向开源,就如何与ds集成,就有关问题与社区谈论。 > > 1.kafka数据至hudi,需要用到数据的元数据,就元数据如何存储问题,我们的做法是在利用datax任务把不同数据源的任务抽取到kafka的同时,判断目标源为kafka时,在数据库维护了一张kafka元数据信息表。 > switch (dbType) { > case HIVE: > dataxSubTask = new HiveSubTask(taskExecutionContext, logger); > break; > case KAFKA: > dataxSubTask = new KafkaSubTask(taskExecutionContext, logger); > break; > default: > dataxSubTask = new CommonSubTask(taskExecutionContext, logger); > break; > } > > > 2.kafka数据至hudi,本质上的其实是跑的spark类型的任务,我们的做法是继承了是sparkTask在此基础上做了扩展,并在前段页面增加了hudi任务节点。 > 以上两点想与社区讨论一下,对元数据这块存储社区有什么好的建议?社区是否考虑增加hudi任务节点?集成进强大的ds中去。 >
