date:20230612

(无主题)

2023-06-12 文章 Paul

在flink处理函数中定义一个状态变量，比如private ValueState 
vs；这个状态变量是否需要用transient来修饰，为什么呢？以及什么情况下flink代码中需要用transient来修饰变量，什么情况下不用transient来修饰？请大家指教

Re: flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-12 文章 Feng Jin

hi casel

1. 可以考虑使用 Flink1.15, 使用精简的 operator name

https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/config/#table-exec-simplify-operator-name-enabled

2.  Flink 也提供了 restful 接口直接获取瞬时的 metric，如果不需要历史的 metric

https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/#jobmanager-metrics


Best,
Feng

On Tue, Jun 13, 2023 at 8:51 AM casel.chen  wrote:

> 线上跑了200多个flink
> sql作业，接了prometheus指标（prometheus定期来获取作业指标）监控后没跑一会儿就将prometheus内存打爆（开了64GB内存），查了一下是因为指标名称过长导致的。
> flink
> sql作业的指标名称一般是作业名称+算子名称组成的，而算子名称是由sql内容拼出来的，在select字段比较多或sql较复杂的情况下容易生成过长的名称，
> 请问这个问题有什么好的办法解决吗？

flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-12 文章 casel.chen

线上跑了200多个flink 
sql作业，接了prometheus指标（prometheus定期来获取作业指标）监控后没跑一会儿就将prometheus内存打爆（开了64GB内存），查了一下是因为指标名称过长导致的。
flink 
sql作业的指标名称一般是作业名称+算子名称组成的，而算子名称是由sql内容拼出来的，在select字段比较多或sql较复杂的情况下容易生成过长的名称，
请问这个问题有什么好的办法解决吗？

Re:Re: 求flink作业各个算子的延迟指标

2023-06-12 文章 casel.chen

谢谢解答，如果是flink sql作业要如何获取到作业中每个算子的latency指标呢？
而且通过prometheus获取作业指标的话，因为flink sql作业中每个算子的名称是按sql内容拼出来的，会出现名称很长，
这样的算子指标直接打到prometheus的话会直接将prometheus内存打爆，这个问题有什么好的办法解决吗？

















在 2023-06-12 18:01:11，"Hangxiang Yu"  写道：
>[.[.]]..latency
>这个应该可以满足需求？也可以设置不同的粒度。
>https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io
>
>On Mon, Jun 12, 2023 at 5:05 PM casel.chen  wrote:
>
>> 想统计数据经过flink作业各个算子的延迟指标，目前社区开源版能实现吗？
>
>
>
>-- 
>Best,
>Hangxiang.

Re: Fail to run flink 1.17 job with flink-operator 1.5.0 version

2023-06-12 文章 Gyula Fóra

Hi!

I think you forgot to upgrade the operator CRD (which contains the updates
enum values).

Please see:
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-main/docs/operations/upgrade/#1-upgrading-the-crd

Cheers
Gyula

On Mon, 12 Jun 2023 at 13:38, Liting Liu (litiliu) 
wrote:

> Hi,  I was trying to submit a flink 1.17 job with the
> flink-kubernetes-operator version v1.5.0.
> But encountered the below exception:
>
>
> The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion:
> Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15",
> "v1_16"
>
>
> I think the flink-operator should have supported flink 1.17, because as
> https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/
>  requires,
>  autoscaler only work well with flink 1.17.
>
>
>
>

Fail to run flink 1.17 job with flink-operator 1.5.0 version

2023-06-12 文章 Liting Liu (litiliu)

Hi,  I was trying to submit a flink 1.17 job with the flink-kubernetes-operator 
version v1.5.0.
But encountered the below exception:


The FlinkDeployment "test-scale-z6t4cd" is invalid: spec.flinkVersion: 
Unsupported value: "v1_17": supported values: "v1_13", "v1_14", "v1_15", "v1_16"


I think the flink-operator should have supported flink 1.17, because as 
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.5/docs/custom-resource/autoscaler/
 requires,   autoscaler only work well with flink 1.17.

Re: 求flink作业各个算子的延迟指标

2023-06-12 文章 Hangxiang Yu

[.[.]]..latency
这个应该可以满足需求？也可以设置不同的粒度。
https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/ops/metrics/#io

On Mon, Jun 12, 2023 at 5:05 PM casel.chen  wrote:

> 想统计数据经过flink作业各个算子的延迟指标，目前社区开源版能实现吗？



-- 
Best,
Hangxiang.

求flink作业各个算子的延迟指标

2023-06-12 文章 casel.chen

想统计数据经过flink作业各个算子的延迟指标，目前社区开源版能实现吗？

Re:回复：flink作业延迟时效指标

2023-06-12 文章 casel.chen










我的是flink sql作业，要如何实现你说的方案呢？我看到阿里云实时计算平台VVR是支持展示作业时延指标的，想知道它是如何实现的








在 2023-06-08 16:46:34，"17610775726" <17610775...@163.com> 写道：
>Hi
>
>
>你提到的所有的监控都是可以通过 metric 来监控报警的，至于你提到的 LatencyMarker 因为它不参与算子内部的计算逻辑的时间，所以这个 
>metric 并不是准确的，但是如果任务有反压的情况下 LatencyMarker 
>也会被阻塞，所以大体上还是可以反应出任务的延迟情况，如果想要准确的计算出端到端的延迟，可以在 消费 kafka 的时候获取一个 start time 时间戳 
>在 sink 的时候获取一个 end time 时间戳，然后自定义一个 metric 把这个结果上报 基于这个 metric 做端到端的延迟监控。
>
>
>Best
>JasonLee
>
>
> 回复的原邮件 
>| 发件人 | casel.chen |
>| 发送日期 | 2023年06月8日 16:39 |
>| 收件人 | user-zh@flink.apache.org |
>| 主题 | flink作业延迟时效指标 |
>我想知道当前flink作业延迟了多久现在能通过什么指标可以获取到吗？想通过设置作业延迟告警来反馈作业健康状况，是否产生背压，是否需要增加资源等。
>以mysql表实时同步到doris表为例：mysql binlog -> kafka -> flink -> doris
>延迟指标包括：
>1. 业务延迟：业务延迟=当前系统时间 - 当前系统处理的最后一条数据的事件时间（Event time）
>例如：kafka消息写入doris的时间 - kafka消息数据本身产生时间（例如更新mysql记录的时间）
>2. 数据滞留延迟：数据滞留时间=数据进入实时计算的时间 - 数据事件时间（Event time）
>例如：flink消费到kafka消息时间 - 消费到的kafka消息数据本身产生时间（例如更新mysql记录的时间）
>
>
>当前我们是用kafka消费组积压告警来替代的，但这个数据不准，一是因为flink 
>checkpoint才会更新offset，二是因为生产流量在不同时段是不同的，在流量低的时候告警不及时。
>查了官网有一个LatencyMarker可以开启使用，请问这个开启后要怎么观察延迟呢？这个metric需要上报到prometheus才可以读到吗？
>
>
>我们遇到另一个问题是使用flink 
>sql提交作业生成的metric名称很长，因为operatorId是根据sql内容来生成的，所以动不动就把prometheus给打爆了，这个有什么办法解决么？

(无主题)

Re: flink sql作业指标名称过长把prometheus内存打爆问题

flink sql作业指标名称过长把prometheus内存打爆问题

Re:Re: 求flink作业各个算子的延迟指标

Re: Fail to run flink 1.17 job with flink-operator 1.5.0 version

Fail to run flink 1.17 job with flink-operator 1.5.0 version

Re: 求flink作业各个算子的延迟指标

求flink作业各个算子的延迟指标

Re:回复：flink作业延迟时效指标

9 matches

Site Navigation

Mail list logo

Footer information