简单的可以先监控任务状态,重启次数这种,消息延迟等这种能直接api拿到值的, 其他指标的比较麻烦,特别是task多了,算子多,还要合并 在 2021-07-21 11:32:31,"yihan xu" <[email protected]> 写道: >原本作业基本处于半裸奔的状态,最近线上出了一次小事故后,在考虑如何实时采集作业日志或者metric再配置告警。 >网上初步搜了一下,好像就是prometheus+grafana或者elk。 > >请教各位大佬的项目目前都是用什么方式,我们小公司就我一个人搞flink,半路出家水平也有限,请大佬们推荐个易维护坑少点的方式?谢谢。 > >发自我的iPhone > > >发自我的iPhone
- 请教on yarn per job 作业采集日志进行监控方案 yihan xu
- Re: 请教on yarn per job 作业采集日志进行监控方案 cyril cui
- 回复:请教on yarn per job 作业采集日志进行监控方案 comsir
- Re:请教on yarn per job 作业采集日志进行监控方案 Michael Ran
