Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题
使用Flink的rest api不可以嘛。我是standalone集群,写个python脚本,写了个list为expected_jobs,如果发现集群没这个job就报警。 Yun Tang 于2021年1月8日周五 上午10:53写道: > 因为numRestarts 是一个累计值,所以你得区分当前值和之前的数值是否发生了增加,来区分是否发生了failover。 > > > 另外,不建议使用YARN的application状态来判断Flink作业状态,因为如果Flink作业配置了重试策略,即使作业不断进行failover,整个YARN的application状态仍然是RUNNING,并不能发现问题。 > > 祝好 > 唐云 > > From: bradyMk > Sent: Thursday, January 7, 2021 16:38 > To: user-zh@flink.apache.org > Subject: Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题 > > 好的,我研究一下,谢谢指导~ > > > > - > Best Wishes > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >
Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题
因为numRestarts 是一个累计值,所以你得区分当前值和之前的数值是否发生了增加,来区分是否发生了failover。 另外,不建议使用YARN的application状态来判断Flink作业状态,因为如果Flink作业配置了重试策略,即使作业不断进行failover,整个YARN的application状态仍然是RUNNING,并不能发现问题。 祝好 唐云 From: bradyMk Sent: Thursday, January 7, 2021 16:38 To: user-zh@flink.apache.org Subject: Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题 好的,我研究一下,谢谢指导~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/
Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题
好的,我研究一下,谢谢指导~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/