(无主题)

2023-06-12 文章 Paul
在flink处理函数中定义一个状态变量,比如private ValueState 
vs;这个状态变量是否需要用transient来修饰,为什么呢?以及什么情况下flink代码中需要用transient来修饰变量,什么情况下不用transient来修饰?请大家指教




Re: flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-12 文章 Feng Jin
hi casel

1. 可以考虑使用 Flink1.15, 使用精简的 operator name

https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/config/#table-exec-simplify-operator-name-enabled

2.  Flink 也提供了 restful 接口直接获取瞬时的 metric,如果不需要历史的 metric

https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/#jobmanager-metrics


Best,
Feng

On Tue, Jun 13, 2023 at 8:51 AM casel.chen  wrote:

> 线上跑了200多个flink
> sql作业,接了prometheus指标(prometheus定期来获取作业指标)监控后没跑一会儿就将prometheus内存打爆(开了64GB内存),查了一下是因为指标名称过长导致的。
> flink
> sql作业的指标名称一般是作业名称+算子名称组成的,而算子名称是由sql内容拼出来的,在select字段比较多或sql较复杂的情况下容易生成过长的名称,
> 请问这个问题有什么好的办法解决吗?


flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-12 文章 casel.chen
线上跑了200多个flink 
sql作业,接了prometheus指标(prometheus定期来获取作业指标)监控后没跑一会儿就将prometheus内存打爆(开了64GB内存),查了一下是因为指标名称过长导致的。
flink 
sql作业的指标名称一般是作业名称+算子名称组成的,而算子名称是由sql内容拼出来的,在select字段比较多或sql较复杂的情况下容易生成过长的名称,
请问这个问题有什么好的办法解决吗?

Re:Re: 求flink作业各个算子的延迟指标

2023-06-12 文章 casel.chen
谢谢解答,如果是flink sql作业要如何获取到作业中每个算子的latency指标呢?
而且通过prometheus获取作业指标的话,因为flink sql作业中每个算子的名称是按sql内容拼出来的,会出现名称很长,
这样的算子指标直接打到prometheus的话会直接将prometheus内存打爆,这个问题有什么好的办法解决吗?

















在 2023-06-12 18:01:11,"Hangxiang Yu"  写道:
>[.[.]]..latency
>这个应该可以满足需求?也可以设置不同的粒度。
>https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io
>
>On Mon, Jun 12, 2023 at 5:05 PM casel.chen  wrote:
>
>> 想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗?
>
>
>
>-- 
>Best,
>Hangxiang.


Re: Fail to run flink 1.17 job with flink-operator 1.5.0 version

2023-06-12 文章 Gyula Fóra
Hi!

I think you forgot to upgrade the operator CRD (which contains the updates
enum values).

Please see:
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-main/docs/operations/upgrade/#1-upgrading-the-crd

Cheers
Gyula

On Mon, 12 Jun 2023 at 13:38, Liting Liu (litiliu) 
wrote:

> Hi,  I was trying to submit a flink 1.17 job with the
> flink-kubernetes-operator version v1.5.0.
> But encountered the below exception:
>
>
> The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion:
> Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15",
> "v1_16"
>
>
> I think the flink-operator should have supported flink 1.17, because as
> https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/
>  requires,
>  autoscaler only work well with flink 1.17.
>
>
>
>


Fail to run flink 1.17 job with flink-operator 1.5.0 version

2023-06-12 文章 Liting Liu (litiliu)
Hi,  I was trying to submit a flink 1.17 job with the flink-kubernetes-operator 
version v1.5.0.
But encountered the below exception:


The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion: 
Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15", "v1_16"


I think the flink-operator should have supported flink 1.17, because as 
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/
 requires,   autoscaler only work well with flink 1.17.





Re: 求flink作业各个算子的延迟指标

2023-06-12 文章 Hangxiang Yu
[.[.]]..latency
这个应该可以满足需求?也可以设置不同的粒度。
https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io

On Mon, Jun 12, 2023 at 5:05 PM casel.chen  wrote:

> 想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗?



-- 
Best,
Hangxiang.


求flink作业各个算子的延迟指标

2023-06-12 文章 casel.chen
想统计数据经过flink作业各个算子的延迟指标,目前社区开源版能实现吗?

Re:回复:flink作业延迟时效指标

2023-06-12 文章 casel.chen









我的是flink sql作业,要如何实现你说的方案呢?我看到阿里云实时计算平台VVR是支持展示作业时延指标的,想知道它是如何实现的








在 2023-06-08 16:46:34,"17610775726" <17610775...@163.com> 写道:
>Hi
>
>
>你提到的所有的监控都是可以通过 metric 来监控报警的,至于你提到的 LatencyMarker 因为它不参与算子内部的计算逻辑的时间,所以这个 
>metric 并不是准确的,但是如果任务有反压的情况下 LatencyMarker 
>也会被阻塞,所以大体上还是可以反应出任务的延迟情况,如果想要准确的计算出端到端的延迟,可以在 消费 kafka 的时候获取一个 start time 时间戳 
>在 sink 的时候获取一个 end time 时间戳,然后自定义一个 metric 把这个结果上报 基于这个 metric 做端到端的延迟监控。
>
>
>Best
>JasonLee
>
>
> 回复的原邮件 
>| 发件人 | casel.chen |
>| 发送日期 | 2023年06月8日 16:39 |
>| 收件人 | user-zh@flink.apache.org |
>| 主题 | flink作业延迟时效指标 |
>我想知道当前flink作业延迟了多久现在能通过什么指标可以获取到吗?想通过设置作业延迟告警来反馈作业健康状况,是否产生背压,是否需要增加资源等。
>以mysql表实时同步到doris表为例:mysql binlog -> kafka -> flink -> doris
>延迟指标包括:
>1. 业务延迟:业务延迟=当前系统时间 - 当前系统处理的最后一条数据的事件时间(Event time)
>例如:kafka消息写入doris的时间 - kafka消息数据本身产生时间(例如更新mysql记录的时间)
>2. 数据滞留延迟:数据滞留时间=数据进入实时计算的时间 - 数据事件时间(Event time)
>例如:flink消费到kafka消息时间 - 消费到的kafka消息数据本身产生时间(例如更新mysql记录的时间)
>
>
>当前我们是用kafka消费组积压告警来替代的,但这个数据不准,一是因为flink 
>checkpoint才会更新offset,二是因为生产流量在不同时段是不同的,在流量低的时候告警不及时。
>查了官网有一个LatencyMarker可以开启使用,请问这个开启后要怎么观察延迟呢?这个metric需要上报到prometheus才可以读到吗?
>
>
>我们遇到另一个问题是使用flink 
>sql提交作业生成的metric名称很长,因为operatorId是根据sql内容来生成的,所以动不动就把prometheus给打爆了,这个有什么办法解决么?