hello, all
我通过flink sql去group by 
uid计算滑动窗口,窗口大小一天,五分钟一个步长。譬如我uid有100w,那么五分钟就会往下游发送100w数据,如果是upsert-kafka,可能会发送200w数据(DELETE+INSERT)。
已经确定的是,大部分uid每五分钟计算出来的指标与前五分钟的一致,可能一天下来变化的uid只有几十w,有没有可能可以做一个判断,将要输出的指标与上一次的指标做一下判断,如果一致则不输出,如果不一致则输出?
可以考虑不用滑动窗口,但是每个uid变化后需要输出到下游,不变化则不需要输出。
Best wishes
tanjialiang.
| |
谭家良
|
|
tanjl_w...@126.com
|

回复