sorry, metrics 项没复制全,应该是taskmanager_job_task_operator_KafkaConsumer_records-lag-max。
我们主要是通过 grafana 的图标来展现来监控延迟等信息,简单的报警页可以通过grafana来配置。细粒度到任务级别的报警,grafana配置起来有点繁琐,不过可能可以通过grafana 的 rest api 自动生成。 jie mei <[email protected]> 于2021年7月28日周三 下午5:58写道: > hi,all > > 我们是通过 grafana 对采集到的 flink kafka 的 > metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。 > > xuhaiLong <[email protected]> 于2021年7月28日周三 下午5:46写道: > >> 参考下kafka_exporter,获取所有的 group 的消费情况,然后配置不同的规则去监控。 >> >> >> 在2021年7月28日 17:39,laohu<[email protected]> 写道: >> Hi comsir >> >> kafka的控制台能力比较弱,想知道延迟只能自己维护。 >> >> 维护方式: >> >> 1. 每个服务的topic的offset 减去 groupid的offset >> >> 2. 尽量可以计算出各种消费速度 >> >> 3. rocketmq控制台,可看到消费进度,可以参照下。 >> >> >> 在 2021/7/28 上午11:02, 龙逸尘 写道: >> Hi comsir, >> 采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。 >> group id 需要自己维护。 >> >> comsir <[email protected]> 于2021年7月20日周二 下午12:41写道: >> >> hi all >> 以kafka为source的flink任务,各位都是如何监控kafka的延迟情况?? >> 监控这个延迟的目的:1.大盘展示,2.延迟后报警 >> 小问题: >> 1.发现flink原生的相关metric指标很多,研究后都不是太准确,大家都用哪个指标? >> 2.怎么获取groupId呢,多个group消费的话,如何区分呀? >> 3.能通过kafka集群侧的元数据,和当前offset做减法,计算lag吗? >> 4.有比较优雅的实现方式吗? >> 非常感谢 期待解答 感谢感谢 >> > > > -- > > *Best Regards* > *Jeremy Mei* > -- *Best Regards* *Jeremy Mei*
