一个关于实时合并数据的问题

bradyMk Fri, 04 Dec 2020 00:42:07 -0800

想请教各位一个问题：目前有一个这样的需求：

数据流40W/s,数据有id，time，type....等字段，id有10亿个，现在想30分钟内，同一个id的信息只保存一条，时间的话要用事件的事件，不能用处理的时间。


本人现在的思路是：根据id分组，然后做增量ck，状态信息存储每个id的最后的时间，然后每来一条数据会读取状态信息，然后做时间判断。但是发现这样做背压很高，数据消费很慢

请问各位，我这种思路是否可行？根据id分组会产生10亿个分组，这样会影响什么？还有其他更好的方法么？

谢谢各位解答疑惑！




-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

一个关于实时合并数据的问题

回复