简单的可以先监控任务状态,重启次数这种,消息延迟等这种能直接api拿到值的, 其他指标的比较麻烦,特别是task多了,算子多,还要合并
在 2021-07-21 11:32:31,"yihan xu" <[email protected]> 写道:
>原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。
>网上初步搜了一下,好像就是prometheus+grafana或者elk。
>
>请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。
>
>发自我的iPhone
>
>
>发自我的iPhone

回复