hello, all
我通过flink sql去group by
uid计算滑动窗口,窗口大小一天,五分钟一个步长。譬如我uid有100w,那么五分钟就会往下游发送100w数据,如果是upsert-kafka,可能会发送200w数据(DELETE+INSERT)。
已经确定的是,大部分uid每五分钟计算出来的指标与前五分钟的一致,可能一天下来变化的uid只有几十w,有没有可能可以做一个判断,将要输出的指标与上一次的指标做一下判断,如果一致则不输出,如果不一致则输出?
可以考虑不用滑动窗口,但是每个uid变化后需要输出到下游,不变化则不需要输出。
Best wishes
我司flink作业运行在k8s集群上,日前发现有一些k8s集群节点的网络io在某些时间段超过了告警阈值180MB/s,最多达到430MB/s,最少的只有4MB/s,导致新作业无法部署到网络负载高的节点上,哪怕cpu和内存还有很多剩余。
目前我想的办法是利用节点亲和性手动从负载高的节点上迁移出那些耗网络io高的作业pod到负载低的节点,但是过一段时间又会出现类似的问题,请问:
1. 有什么办法可以彻底消除这种网络负载不均衡问题么?
2. k8s能否根据pod网络io负载进行合理调度吗?
好吧,难怪我没找到设置开始消费位置的参数,谢谢!
在 2022-12-05 18:34:49,"JasonLee" <17610775...@163.com> 写道:
>hi
>
>
>Upsert-kafka 不支持指定消费者位置,默认是从 earliest 位置开始消费的,你可以自己修改代码支持 scan.startup.mode 参数。
>
>
>Best
>JasonLee
>
>
> 回复的原邮件
>| 发件人 | casel.chen |
>| 发送日期 | 2022年12月5日 18:24 |
>| 收件人 |
hi
Upsert-kafka 不支持指定消费者位置,默认是从 earliest 位置开始消费的,你可以自己修改代码支持 scan.startup.mode 参数。
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年12月5日 18:24 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | flink sql消费upsert-kafka源表如何指定从哪个位点开始消费? |
flink
flink sql消费upsert-kafka源表如何指定从哪个位点开始消费?仿照kafka source表添加了 scan.startup.mode
参数会报非法参数