各位好!
        请教下各位,Flink Job 在生产上运行时,关于job运行状态的监控和告警一般是采用什么方案处理的? 
比如监控job是否在正常运行,如果发现job 挂掉了 或者重启了 就进行告警。我这边有将一些metric 推到prometheus 
但是好像没有发现关于job是否挂掉的metric。
        希望有做过这种方案的朋友能赐教下,谢谢了!!

回复