回复:Re:Prometheus Pushgateway 监控 Flink 问题

2020-05-12 文章 972684638
谢谢杨纲的解答。
我之前是简单粗暴地把flink-metrcs-prometheus包中的推送到数据到pushgateway的方式改成了post,重新打包,这样jm和tm的数据就不会互相覆盖了。看来还是只知其一,不知其二。
看到你对metrics.reporter.promgateway.randomJobNameSuffix的解释,才明白了原因。



---原始邮件---
发件人: "yanggang_it_job"

Re:Prometheus Pushgateway 监控 Flink 问题

2020-05-12 文章 yanggang_it_job
HI 佳宸
跟你介绍下这几个参数的目的
metrics.reporter.promgateway.deleteOnShutdown:这个参数用于控制,当通过stop或者cancel下线一个任务的时候,会把pushgateway内存中缓存的指标进行清理,如果通过yarn
 kill的方式就不会清除
metrics.reporter.promgateway.randomJobNameSuffix:这个参数用于控制在我们定义的jobName后面加一个随机后缀以区别相同任务的不同container的metric_name,否则会出现覆盖写,也就是你描述的那样,指标不全的问题。原理是:当一个任务启动之后至少会有两个container(一个JM和一个TM),每个container都会往pushgateway推送指标,如果不设置这个参数为true的话,会用同一个jobName进行指标推送,那么此时后一个推送的指标就会前一个指标,就会产生一会是JM的指标,一会是TM的指标,所以要加上这个参数,那么每个container的就会不一样,这样就不会覆盖。

祝好
杨纲

















在 2020-05-12 18:25:10,"李佳宸"  写道:
>hi,大家好
>
>我在使用Prometheus Pushgateway 监控
>Flink时,metrics.reporter.promgateway.deleteOnShutdown:
>true 这一配置失效,
>Flink集群关闭时,pushgateway中仍然存有metrics数据
>reporter相关的全部配置为:
>
>metrics.reporter.promgateway.class:
>org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
>
>metrics.reporter.promgateway.host: localhost
>
>metrics.reporter.promgateway.port: 9091
>
>metrics.reporter.promgateway.jobName: myJob
>
>metrics.reporter.promgateway.randomJobNameSuffix: *true*
>
>metrics.reporter.promgateway.deleteOnShutdown: *true*
>
>
>Flink版本为1.9.1, pushgateway版本0.9 和1.2都尝试过,一样的问题。
>
>
>不知道这是不是bug,
>
>有谁有成功的案例么?
>
>谢谢