flink batch on yarn任务容错

张波 Mon, 29 Jun 2020 07:07:06 -0700

场景如下:
flink批处理中，如果出现错误，包括网络及其他原因，导致任务失败，此时会将整个任务重新跑一遍，就算只是其中一个tm出现了问题也是如此。
我有一个sink 
es的操作，由于数据量大，将其分拆成一个独立的batch任务，但是只要中间有导致tm挂掉的错误(非任务本身逻辑问题)，任务就会从头执行，感觉非常不友好。
问题:是否可以用streamsink的方式，使用checkpoint来解决批处理整个重启的问题?或者在10甚至之后的版本有新的解决方式?

flink batch on yarn任务容错

回复