Hi!

    麻烦请教大家一个问题。

    
有三个Flink任务以yarn-per-job模式运行在Flink-1.11.2版本的集群上,均使用RocksDB作为状态后端,数据以增量的方式写入RocksDB,且均配置了状态过期时间。

    
任务逻辑大致都是通过状态与历史数据进行自关联或双流join,每输入一条数据都会产出等量、1/2或多倍的数据到下游,当数据无法通过状态关联,任务则无法向下游产出数据。

    
奇怪的是三个任务中有两个任务存在异常,异常现象是每次当任务启动运行至第20个工作日,都会非常准时的产生下游数据输出骤降的现象,输出与输入的数据量级差数十倍,并且此时任务中没有任何异常日志。




    问题:目前怀疑是集群配置或RocksDB状态的问题,但是没有任何思路或排查线索,请问这种现象是怎样产生的?应该怎样排查?

回复