1、端到端的延迟可以通过latencyMarker来监控,但是可能会对性能有一定的影响。具体参考
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/metrics/#end-to-end-latency-tracking
2、kafka本身的延迟,直接使用kafka的groupId的lag即可。
3、Flink处理的延迟,这个好像没有原生的,可以通过反压来查看是否有有性能问题。另外,通过1、2也可以反映延迟情况。

RS <tinyshr...@163.com> 于2021年12月23日周四 10:37写道:

> 我是直接监控kafka的lag,如果lag数值较大或持续上升,肯定就有延迟了。收到告警后,再查看下plan,有个busy指标,红色的节点就是有问题的
>
>
>
>
>
>
>
>
> 在 2021-12-23 08:36:33,"casel.chen" <casel_c...@126.com> 写道:
> >想问一下flink sql作业链路延迟监控如何实现?
> >我们的flink
> sql作业基本上都是上游接kafka,下游sink到es/hbase/kafka/mongodb/redis/clickhouse/doris这些存储
> >想监控如下三种延迟,目前有什么办法实现吗?会有相应的metrics暴露出来吗?目前我们在用的flink版本是1.13.2
> >1. 端到端的延迟
> >2. kafka本身的延迟
> >3. flink处理的延迟
>

回复