Re: Re: Flink任务每运行20天均会发生内部异常

Zhiwen Sun Wed, 27 Oct 2021 01:57:40 -0700

看看 task manager 的 jvm 内存， jstack 情况 ？

Zhiwen Sun




On Tue, Oct 26, 2021 at 7:22 PM mayifan <[email protected]> wrote:

> 非常感谢大佬的答复：
>
>     目前从任务来看的话总共存在三个任务，其中两个异常任务分别使用了1到2个MapState，过期时间均为1天或3天。
>
>     正常运行的任务使用了MapState及ListState各4个，过期时间为60min-120min。
>
>     异常任务在产生异常后从checkpoint重启又会恢复正常。
>
>
> > ------------------ 原始邮件 ------------------
> > 发 件 人："Caizhi Weng" <[email protected]>
> > 发送时间：2021-10-26 18:45:44
> > 收 件 人："flink中文邮件组" <[email protected]>
> > 抄 送：
> > 主 题：Re: Flink任务每运行20天均会发生内部异常
> >
> > Hi！
> >
> > 听起来和 state 过期时间非常有关。你配置了哪些和 state 过期相关的参数？是否有 20 天过期的 state？
> >
> > mayifan 于2021年10月26日周二 下午4:43写道：
> >
> > > Hi！
> > >
> > > 麻烦请教大家一个问题。
> > >
> > >
> > >
> 有三个Flink任务以yarn-per-job模式运行在Flink-1.11.2版本的集群上，均使用RocksDB作为状态后端，数据以增量的方式写入RocksDB，且均配置了状态过期时间。
> > >
> > >
> > >
> 任务逻辑大致都是通过状态与历史数据进行自关联或双流join，每输入一条数据都会产出等量、1/2或多倍的数据到下游，当数据无法通过状态关联，任务则无法向下游产出数据。
> > >
> > >
> > >
> 奇怪的是三个任务中有两个任务存在异常，异常现象是每次当任务启动运行至第20个工作日，都会非常准时的产生下游数据输出骤降的现象，输出与输入的数据量级差数十倍，并且此时任务中没有任何异常日志。
> > >
> > >
> > >
> > >
> > > 问题：目前怀疑是集群配置或RocksDB状态的问题，但是没有任何思路或排查线索，请问这种现象是怎样产生的？应该怎样排查？
>
>
>
>
>

Re: Re: Flink任务每运行20天均会发生内部异常

回复