状态文件的数量与很多因素有关,比如作业的并行度,单条 state kv 的数据大小,状态的更新频率,key 的粒度等都有关系。
Best,
Guojun
On Wed, Mar 22, 2023 at 9:43 AM Shammon FY wrote:
> 那可能需要确认一下这些状态
> 1. 是否确实属于这个作业的状态
> 2. 这些状态是成功的checkpoint还是失败的checkpoint
> 3. 是否清理checkpoint出现了问题,排查下有没有相关错误日志
>
> Best,
> Shammon FY
>
> On Wed, Mar 22, 2023 at 8:51
Hi
确认一下这些 ha 文件的 last modification time 是一致的还是错开的?
另外,指定 chk- 恢复尝试了没有?可以恢复吗?
Best,
Guojun
On Fri, Mar 10, 2023 at 11:56 AM guanyq wrote:
> flink ha路径为 /tmp/flink/ha/
> flink chk路径为 /tmp/flink/checkpoint
>
>
> 我现在不确定是这个ha的文件损坏了,还是所有chk都损坏,但是这个需要模拟验证一下。
>
>
>
>
> 会尝试从10个chk恢复,日志有打印
>
可以看一下反压算子是否出现在同一台机器(排除单点故障)。比如使用了 rocksdb + hdd 盘;单机负载过高;磁盘打满等。
如果不是单点故障,可以打 jstack 查看对应的线程具体在执行什么样的操作,再进行相应的逻辑优化。
On Tue, Jan 31, 2023 at 6:01 PM lxk wrote:
> 现在从web ui上看,瓶颈主要在于group by 聚合函数之后去重这个逻辑。
> 而且SQL这个并行度是全局设置的,没法针对某一个特定的算子设置并行度,并行度多了之后,资源又感觉有点吃紧。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在
或许可以考虑在设计平台时将流任务和批任务做成不同的入口。
Best,
Guojun
在 2022-10-28 18:14:33,"junjie.m...@goupwith.com" 写道:
>这就是写代码和平台化的需求不同了,对于平台化需要能判断出写的sql代码块最终生成的管道是有界还是无界,对于有界需要对外提供restful
>api由外部调度系统定时调起,而无界管道可以直接运行长期保持。
>当然还有很多场景下需要知道管道的有界和无界,这里我不一一例举了。
>
>
>发件人: weijie guo
>发送时间: 2022-10-28 18:01
>收件人: