(无主题)
在flink处理函数中定义一个状态变量,比如private ValueState vs;这个状态变量是否需要用transient来修饰,为什么呢?以及什么情况下flink代码中需要用transient来修饰变量,什么情况下不用transient来修饰?请大家指教
Re: flink sql作业指标名称过长把prometheus内存打爆问题
hi casel 1. 可以考虑使用 Flink1.15, 使用精简的 operator name https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/config/#table-exec-simplify-operator-name-enabled 2. Flink 也提供了 restful 接口直接获取瞬时的 metric,如果不需要历史的 metric https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/#jobmanager-metrics Best, Feng On Tue, Jun 13, 2023 at 8:51 AM casel.chen wrote: > 线上跑了200多个flink > sql作业,接了prometheus指标(prometheus定期来获取作业指标)监控后没跑一会儿就将prometheus内存打爆(开了64GB内存),查了一下是因为指标名称过长导致的。 > flink > sql作业的指标名称一般是作业名称+算子名称组成的,而算子名称是由sql内容拼出来的,在select字段比较多或sql较复杂的情况下容易生成过长的名称, > 请问这个问题有什么好的办法解决吗?
flink sql作业指标名称过长把prometheus内存打爆问题
线上跑了200多个flink sql作业,接了prometheus指标(prometheus定期来获取作业指标)监控后没跑一会儿就将prometheus内存打爆(开了64GB内存),查了一下是因为指标名称过长导致的。 flink sql作业的指标名称一般是作业名称+算子名称组成的,而算子名称是由sql内容拼出来的,在select字段比较多或sql较复杂的情况下容易生成过长的名称, 请问这个问题有什么好的办法解决吗?
Re:Re: 求flink作业各个算子的延迟指标
谢谢解答,如果是flink sql作业要如何获取到作业中每个算子的latency指标呢? 而且通过prometheus获取作业指标的话,因为flink sql作业中每个算子的名称是按sql内容拼出来的,会出现名称很长, 这样的算子指标直接打到prometheus的话会直接将prometheus内存打爆,这个问题有什么好的办法解决吗? 在 2023-06-12 18:01:11,"Hangxiang Yu" 写道: >[.[.]]..latency >这个应该可以满足需求?也可以设置不同的粒度。 >https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io > >On Mon, Jun 12, 2023 at 5:05 PM casel.chen wrote: > >> 想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗? > > > >-- >Best, >Hangxiang.
Re: Fail to run flink 1.17 job with flink-operator 1.5.0 version
Hi! I think you forgot to upgrade the operator CRD (which contains the updates enum values). Please see: https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-main/docs/operations/upgrade/#1-upgrading-the-crd Cheers Gyula On Mon, 12 Jun 2023 at 13:38, Liting Liu (litiliu) wrote: > Hi, I was trying to submit a flink 1.17 job with the > flink-kubernetes-operator version v1.5.0. > But encountered the below exception: > > > The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion: > Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15", > "v1_16" > > > I think the flink-operator should have supported flink 1.17, because as > https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/ > requires, > autoscaler only work well with flink 1.17. > > > >
Fail to run flink 1.17 job with flink-operator 1.5.0 version
Hi, I was trying to submit a flink 1.17 job with the flink-kubernetes-operator version v1.5.0. But encountered the below exception: The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion: Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15", "v1_16" I think the flink-operator should have supported flink 1.17, because as https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/ requires, autoscaler only work well with flink 1.17.
Re: 求flink作业各个算子的延迟指标
[.[.]]..latency 这个应该可以满足需求?也可以设置不同的粒度。 https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io On Mon, Jun 12, 2023 at 5:05 PM casel.chen wrote: > 想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗? -- Best, Hangxiang.
求flink作业各个算子的延迟指标
想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗?
Re:回复:flink作业延迟时效指标
我的是flink sql作业,要如何实现你说的方案呢?我看到阿里云实时计算平台VVR是支持展示作业时延指标的,想知道它是如何实现的 在 2023-06-08 16:46:34,"17610775726" <17610775...@163.com> 写道: >Hi > > >你提到的所有的监控都是可以通过 metric 来监控报警的,至于你提到的 LatencyMarker 因为它不参与算子内部的计算逻辑的时间,所以这个 >metric 并不是准确的,但是如果任务有反压的情况下 LatencyMarker >也会被阻塞,所以大体上还是可以反应出任务的延迟情况,如果想要准确的计算出端到端的延迟,可以在 消费 kafka 的时候获取一个 start time 时间戳 >在 sink 的时候获取一个 end time 时间戳,然后自定义一个 metric 把这个结果上报 基于这个 metric 做端到端的延迟监控。 > > >Best >JasonLee > > > 回复的原邮件 >| 发件人 | casel.chen | >| 发送日期 | 2023年06月8日 16:39 | >| 收件人 | user-zh@flink.apache.org | >| 主题 | flink作业延迟时效指标 | >我想知道当前flink作业延迟了多久现在能通过什么指标可以获取到吗?想通过设置作业延迟告警来反馈作业健康状况,是否产生背压,是否需要增加资源等。 >以mysql表实时同步到doris表为例:mysql binlog -> kafka -> flink -> doris >延迟指标包括: >1. 业务延迟:业务延迟=当前系统时间 - 当前系统处理的最后一条数据的事件时间(Event time) >例如:kafka消息写入doris的时间 - kafka消息数据本身产生时间(例如更新mysql记录的时间) >2. 数据滞留延迟:数据滞留时间=数据进入实时计算的时间 - 数据事件时间(Event time) >例如:flink消费到kafka消息时间 - 消费到的kafka消息数据本身产生时间(例如更新mysql记录的时间) > > >当前我们是用kafka消费组积压告警来替代的,但这个数据不准,一是因为flink >checkpoint才会更新offset,二是因为生产流量在不同时段是不同的,在流量低的时候告警不及时。 >查了官网有一个LatencyMarker可以开启使用,请问这个开启后要怎么观察延迟呢?这个metric需要上报到prometheus才可以读到吗? > > >我们遇到另一个问题是使用flink >sql提交作业生成的metric名称很长,因为operatorId是根据sql内容来生成的,所以动不动就把prometheus给打爆了,这个有什么办法解决么?