Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-23 文章 yuanfeng hu
rocksdb文件正在看~ > > 在 2024-01-18 10:56:51,"Zakelly Lan" 写道: > >> 你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State >> TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大 >> >> On Wed, Jan 17, 2024 at 4:09 PM fufu wrote: >> >>> >>&

关于 flink Async io checkpoint restore

2024-01-23 文章 zhhui yan
HI All flink 1.18.0 jdk 17 使用异步IO 失败后无法恢复,一直报序列化问题; 我调整使用 string 类型和bytes 都不能够恢复 Caused by: org.apache.flink.runtime.state.BackendBuildingException: Failed when trying to restore operator state backend at org.apache.flink.runtime.state.DefaultOperatorStateBackendBuilder.build(

Re: Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 Zakelly Lan
ize不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~ > > 在 2024-01-18 10:56:51,"Zakelly Lan" 写道: > > >你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State > >TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大 > > >

Re:Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
信息吗,比如:是datastream作业吧?是否设置了State >TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大 > >On Wed, Jan 17, 2024 at 4:09 PM fufu wrote: > >> >> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么

Re:Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~ 在 2024-01-18 10:56:51,"Zakelly Lan" 写道: >你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State >TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp

Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 Zakelly Lan
你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大 On Wed, Jan 17, 2024 at 4:09 PM fufu wrote: > > 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,

RocksDB增量模式checkpoint大小持续增长的问题

2024-01-17 文章 fufu
我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数, 请社区指导下,或者有没有别的解决方案?感谢社区!

回复: flink-checkpoint 问题

2024-01-11 文章 吴先生
看现象是这样,谢了,我抽空看下这块源码 | | 吴先生 | | 15951914...@163.com | 回复的原邮件 | 发件人 | Zakelly Lan | | 发送日期 | 2024年1月11日 16:33 | | 收件人 | | | 主题 | Re: flink-checkpoint 问题 | 看了下代码,这个问题有可能的原因是: 1. flink是先创建chk目录,然后再打 Triggering checkpoint 的 log 的,所以有概率是目录创建了,但是log没输出trigger 2. 作业失败,和触发下一个cp,这是两个异步线程,所以有可能

Re: flink-checkpoint 问题

2024-01-11 文章 Zakelly Lan
看了下代码,这个问题有可能的原因是: 1. flink是先创建chk目录,然后再打 Triggering checkpoint 的 log 的,所以有概率是目录创建了,但是log没输出trigger 2. 作业失败,和触发下一个cp,这是两个异步线程,所以有可能是先执行了创建25548目录的操作然后作业再失败,然后trigger 25548还没输出就退了。 版本1.14.5之后代码已经把上述1行为改了,先打log再创建目录,就不会有这样奇怪的问题了。 On Thu, Jan 11, 2024 at 3:03 PM 吴先生 <15951914...@163.com>

回复: flink-checkpoint 问题

2024-01-10 文章 吴先生
NFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 25546 for job d12f3c6e836f56fb23d96e31737ff0b3 (411347921 bytes in 50128 ms). 2023-12-31 18:40:10.681 [Checkpoint Timer] INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 25547 (type=CHECKPOINT) @ 1704019210665 for

Re:回复: flink-checkpoint 问题

2024-01-10 文章 Xuyang
Hi, 你的图挂了,可以用图床处理一下,或者直接贴log。 -- Best! Xuyang 在 2024-01-11 13:40:43,"吴先生" <15951914...@163.com> 写道: JM中chk失败时间点日志,没有25548的触发记录: 自动recovery失败: TM日志: checkpoint文件路径,25548里面空的: | | 吴先生 | | 15951914...@163.com | 回复的原邮件 | 发件人 | Zakelly Lan | | 发送日期 |

回复: flink-checkpoint 问题

2024-01-10 文章 吴先生
JM中chk失败时间点日志,没有25548的触发记录: 自动recovery失败: TM日志: checkpoint文件路径,25548里面空的: | | 吴先生 | | 15951914...@163.com | 回复的原邮件 | 发件人 | Zakelly Lan | | 发送日期 | 2024年1月10日 18:20 | | 收件人 | | | 主题 | Re: flink-checkpoint 问题 | 你好, 方便的话贴一下jobmanager的log吧,应该有一些线索 On Wed, Jan 10, 2024 at 5:55 PM 吴先

Re:flink-checkpoint 问题

2024-01-10 文章 ouywl
我记得flink低版本有这个bug,会错误的删除某一个checkpoint的,你这个版本太老了,可以升级到新版本。 The following is the content of the forwarded email From:"吴先生" <15951914...@163.com> To:user-zh Date:2024-01-10 17:54:42 Subject:fli

Re: flink-checkpoint 问题

2024-01-10 文章 Zakelly Lan
你好, 方便的话贴一下jobmanager的log吧,应该有一些线索 On Wed, Jan 10, 2024 at 5:55 PM 吴先生 <15951914...@163.com> wrote: > Flink版本: 1.12 > checkpoint配置:hdfs > > 现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的 > >

flink-checkpoint 问题

2024-01-10 文章 吴先生
Flink版本: 1.12 checkpoint配置:hdfs 现象:作业由于一些因素第N个checkpoint失败,导致任务重试,任务重试失败,hdfs中不存在第N个chk路径,但是为什么会出现一个第N+1的chk路径,且这个路径下是空的

在使用使用jemalloc内存分配器一段时间后,出现checkpoint 超时,任务卡住的情况

2023-09-24 文章 rui chen
在使用使用jemalloc内存分配器一段时间后,出现checkpoint 超时,任务卡住的情况,哪位遇到过呢?flink版本:flink-1.13.2,jiemalloc版本:5.3.0

After using the jemalloc memory allocator for a period of time, checkpoint timeout occurs and tasks are stuck

2023-09-24 文章 rui chen
After using the jemalloc memory allocator for a period of time, checkpoint timeout occurs and tasks are stuck. Who has encountered this? flink version:1.13.2, jiemalloc version: 5.3.0

checkpoint原理和2pc原理

2023-08-20 文章 zyzandmz
问题一: 做checkpoint时,是每个算子收到barriers之后,将状态和offset写到状态后端,并返回ack给jm之后。再做一次全量快照到jm内存或者自己设置的hdfs文件路径下啊。不理解在hdfs生成的checkpoint文件到底是2pc提交事务成功之后的checkpoint还是每个算子做完checkpoint。 是图1: 还是图二: 问题二: 做完2pc之后。出现了故障。做故障恢复。恢复的状态是上一次提交事务成功的地方的状态。还是上一个barriers所在算子做的checkpoint成功的地方开始恢复。 | | zyzandmz | | zyzan

Re: checkpoint Kafka Offset commit failed

2023-05-04 文章 Shammon FY
> > > > > > > > > > 回复的原邮件 > > | 发件人 | zhan...@eastcom-sw.com | > > | 日期 | 2023年05月04日 14:54 | > > | 收件人 | user-zh | > > | 抄送至 | | > > | 主题 | checkpoint Kafka Offset commit failed | > > hi,请问在flink(1.14、1.16) checkp

Re: checkpoint Kafka Offset commit failed

2023-05-04 文章 Leonard Xu
...@163.com > | > | > 邮箱:go574...@163.com > | > > > > > 回复的原邮件 > | 发件人 | zhan...@eastcom-sw.com | > | 日期 | 2023年05月04日 14:54 | > | 收件人 | user-zh | > | 抄送至 | | > | 主题 | checkpoint Kafka Offset commit failed | > hi,请问在flink(1.14、1.16) checkpoint

回复:checkpoint Kafka Offset commit failed

2023-05-04 文章 wuzhongxiu
退订 | | go574...@163.com | | 邮箱:go574...@163.com | 回复的原邮件 | 发件人 | zhan...@eastcom-sw.com | | 日期 | 2023年05月04日 14:54 | | 收件人 | user-zh | | 抄送至 | | | 主题 | checkpoint Kafka Offset commit failed | hi,请问在flink(1.14、1.16) checkpoint(10s)提交 kafka偏移量提示 The coordinator is not available

Re: Flink 误报checkpoint失败

2023-05-03 文章 Yanfei Lei
ager > 扩容/缩容的时候,Flink会在日志中报错:因为扩缩容之前的TaskManager没有在运行导致checkpoint失败,同时也有checkpoint失败的警报。 > 但实际上checkpoint 还能顺利进行, job也没有运行错误。 重启job后这个错误就会消失。想请教一下如何修复这个问题? > > 详细的日志如下 > 2022-12-13 05:08:22.339 [jobmanager-io-thread-1] INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinato

Flink 误报checkpoint失败

2023-05-03 文章 Chen Yang
您好, 我的 Flink job是以 reactive 模式运行,然后用了 Kubernetes HPA 来自动扩容/缩容 TaskManager。每当TaskManager 扩容/缩容的时候,Flink会在日志中报错:因为扩缩容之前的TaskManager没有在运行导致checkpoint失败,同时也有checkpoint失败的警报。 但实际上checkpoint 还能顺利进行, job也没有运行错误。 重启job后这个错误就会消失。想请教一下如何修复这个问题? 详细的日志如下 2022-12-13 05:08:22.339 [jobmanager-io-thread-1] INFO

Re: checkpoint首次触发时间疑问

2023-01-04 文章 Jiangang Liu
文件问题,采用了一小时checkpoint,具体参数为: > > bsEnv.enableCheckpointing(360); > bsEnv.setStateBackend(new HashMapStateBackend()); > > bsEnv.getCheckpointConfig().setCheckpointStorage("hdfs://xxx/user/flink/checkpoint/serverlog/hc"); > > 但在执行时发现首次checkpoint并没有按照一小时触发. > 作

Re: flink on k8s 提交作业,使用 oss 作为 checkpoint 地址,但找不到 oss

2022-11-07 文章 Lijie Wang
flink-oss-fs-hadoop-1.13.6.jar 这个 jar 需要放到 flink 的 lib 目录下 Best, Lijie highfei2011 于2022年11月1日周二 16:23写道: > 包冲突了。 > > > 在 2022年11月1日 15:39,highfei2011 写道: > > > flink 版本:apache flink 1.13.6 flink operator 版本: 1.2.0 > 提交命令:kubernetes-jobmanager.sh kubernetes-application 异常: Caused by: >

回复: Re:flink exactly once 写kafka,如果checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢?

2022-11-02 文章 郑 致远
你好. 但是下一次cp发起之时, kafka transaction 已经超时失败了, sink端precommit之前,写入到kafka的数据, 是不是就丢失了? 发件人: Xuyang 发送时间: 2022年11月1日 23:08 收件人: user-zh@flink.apache.org 主题: Re:flink exactly once 写kafka,如果checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢? Hi, 应该会等到下一次做

Re:flink exactly once 写kafka,如果checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢?

2022-11-01 文章 Xuyang
Hi, 应该会等到下一次做cp的时候再提交 在 2022-11-01 17:13:22,"郑 致远" 写道: >大佬们好. >flink exactly once 写kafka,如果flink >checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢? >kafka的transaction因为超时,abort后, 会导致abort之前写kafka的数据,丢失吗?

flink exactly once 写kafka,如果checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢?

2022-11-01 文章 郑 致远
大佬们好. flink exactly once 写kafka,如果flink checkpoint超时了导致kafka的transaction在commit之前也超时了, flink会怎么处理呢? kafka的transaction因为超时,abort后, 会导致abort之前写kafka的数据,丢失吗?

Re: 并行度>1时实时写入hive partition table且开启了checkpoint没有同步信息到metastore

2022-09-22 文章 yuxia
那么生成了 success 文件了吗? 另外你的 sink.partition-commit.trigger 用的是 process-time(默认是 process-time) 还是 partition-time。 Best regards, Yuxia - 原始邮件 - 发件人: "junjie miao" 收件人: "user-zh" 发送时间: 星期四, 2022年 9 月 22日 下午 2:27:46 主题: Re: Re: 并行度>1时实时写入hive partition table且开启了checkpoi

Re: 线上flink任务突然出现连续的checkpoint失败

2022-06-23 文章 Lijie Wang
022年6月24日周五 12:00写道: > flink版本:1.13.1 > hdfs:3+版本 > 异常日志: > > 2022-06-24 10:58:19,839 INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Decline > checkpoint 1101 by task b3d88f9ef72bda003056856c4422742d of job > 6bd7dc46451f01e008762c9b556cb08

????flink??????????????????checkpoint????

2022-06-23 文章 ??????
flink??1.13.1 hdfs??3+ ?? 2022-06-24 10:58:19,839 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator[] - Decline checkpoint 1101 by task b3d88f9ef72bda003056856c4422742d of job 6bd7dc46451f01e008762c9b556cb08f at zhaohy4-test-taskmanager-1-1 @ 10.42.5.55

Re: Re: 使用join+聚合时,checkpoint异常

2022-06-21 文章 Lincoln Lee
kpoints-after-tasks-finish.enabled相关配置,完美解决了问题。 > 我使用了lookup join + 外部mysql维表,任务开始时,全量加载了一次维表数据,对应task状态就变成了finished。 > > best wishes! > > > amber_...@qq.com > > 发件人: Lincoln Lee > 发送时间: 2022-06-21 11:18 > 收件人: user-zh > 主题: Re: Re: 使用join+聚合时,checkpoint异常 > Hi,

Re: Re: 使用join+聚合时,checkpoint异常

2022-06-21 文章 amber_...@qq.com.INVALID
非常感谢!你的建议很有用。 我在代码中添加execution.checkpointing.checkpoints-after-tasks-finish.enabled相关配置,完美解决了问题。 我使用了lookup join + 外部mysql维表,任务开始时,全量加载了一次维表数据,对应task状态就变成了finished。 best wishes! amber_...@qq.com 发件人: Lincoln Lee 发送时间: 2022-06-21 11:18 收件人: user-zh 主题: Re: Re: 使用join+聚合时,checkpoint异常

Re: Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 Lincoln Lee
ing with finished tasks is not enabled Best, Lincoln Lee amber_...@qq.com.INVALID 于2022年6月21日周二 10:27写道: > 感谢! > 未发生背压,但我在日志中发现了一些异常信息,如下: > Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4 > because Some tasks of the job have already finished and checkpointing with &

Re: Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 amber_...@qq.com.INVALID
感谢! 未发生背压,但我在日志中发现了一些异常信息,如下: Failed to trigger checkpoint for job 297c5a840f8fd3a1cbcb63825200e8d4 because Some tasks of the job have already finished and checkpointing with finished tasks is not enabled. Failure reason: Not all required tasks are currently running. 通过web ui可以看到,确实有一部分任务是

Re:使用join+聚合时,checkpoint异常

2022-06-20 文章 lxk
你好,图片挂了,可以尝试使用图床工具上传图片。 在 2022-06-21 09:42:54,"amber_...@qq.com.INVALID" 写道: 您好! 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务; 当我提交普通数据同步任务时,一切正常; 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed Memory使用率始终是100%; 以下是我的ch

Re: 使用join+聚合时,checkpoint异常

2022-06-20 文章 Shengkai Fang
hi. 这种情况下,最好查看一下是否发生了反压,同时看看日志之中是否有相关的异常信息。 Best, Shengkai amber_...@qq.com.INVALID 于2022年6月21日周二 09:43写道: > 您好! > 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务; > 当我提交普通数据同步任务时,一切正常; > 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed >

使用join+聚合时,checkpoint异常

2022-06-20 文章 amber_...@qq.com.INVALID
您好! 我使用flink1.14.4,sqlserver-cdc-2.2.1,yarn-per-job模式提交任务; 当我提交普通数据同步任务时,一切正常; 当我提交JOIN+聚合任务时,checkpoint无法正常工作,具体表现为无任何checkpoint记录,且Task Managed Memory使用率始终是100%; 以下是我的checkpoint配置: 我尝试增加Task Managed内存,但使用率总是100%; 当我关闭增量检查点时,无任何变化; 当我将State Backend切换为hashmap时

Re: Unaligned Checkpoint

2022-06-12 文章 Zhanghao Chen
你好, Unaligned checkpoint 是个底层特性,要使用的话只要设置 Flink 参数 execution.checkpointing.unaligned = true 就行,在 SQL client 中,可以使用 SET "key" = "value" 的语法设置 Flink 参数的值。 Unaligned checkpoint 较之 aligned checkpoint 主要的改变在于 * unaligned cp 在输入缓冲区收到第一个 cp barrier 的时候立即触发快照并直接输出至下游;代价是快照需要

Unaligned Checkpoint

2022-06-11 文章 小昌同学
大佬们可以说说Unaligned Checkpoint的实现吗 看了不少文档 没有太看懂 我如果想在sql里面实现 这个该怎么设置啊 请大佬们指教 | | 小昌同学 | | ccc0606fight...@163.com |

oss checkpoint fail

2022-05-12 文章 json
使用oss 存储checkpoint,做几次checkpoint就会出现下面报错,导致checkpoint失败 Caused by: org.apache.flink.fs.osshadoop.shaded.com.aliyun.oss.ClientException: Connection error due to: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields

Re: Flink - 1.11.6 - FsStateBackend没有存储checkpoint

2022-04-30 文章 Arthur Li
打扰了,解决了,原因是因为启动时没有配置savepoint路径。 > 2022年4月30日 12:09,Arthur Li 写道: > > 大家好, > > > 我在学习Flink checkpoint时,做了一个示例没有得到期望结果,麻烦帮忙看看是哪里设置有问题。谢谢 > 1. 启动checkpoint > 2. 设置statebackend为FsStateBackend > 3. 从socketTextStream读取数据,统计单词个数 >(“hello”, 5), (“world”, 1) > 4.

Flink - 1.11.6 - FsStateBackend没有存储checkpoint

2022-04-29 文章 Arthur Li
大家好, 我在学习Flink checkpoint时,做了一个示例没有得到期望结果,麻烦帮忙看看是哪里设置有问题。谢谢 1. 启动checkpoint 2. 设置statebackend为FsStateBackend 3. 从socketTextStream读取数据,统计单词个数 (“hello”, 5), (“world”, 1) 4. 通过触发异常,来模拟终止程序 5. 重新启动程序,那么启动之后的统计数据的初始值应该是上一次checkpoint 成功存储的值 (“hello”, 5), (“world”, 1) , 那么再次输入hello, 应该输出(“hello

Re: Re:flink s3 checkpoint 一直IN_PROGRESS(100%)直到失败

2022-03-08 文章 Yun Tang
Hi 一般是卡在最后一步从JM写checkpoint meta上面了,建议使用jstack等工具检查一下JM的cpu栈,看问题出在哪里。 祝好 唐云 From: Sun.Zhu <17626017...@163.com> Sent: Tuesday, March 8, 2022 14:12 To: user-zh@flink.apache.org Subject: Re:flink s3 checkpoint 一直IN_PROGRESS(100%)直到失败 图挂了 https://post

Re:flink s3 checkpoint 一直IN_PROGRESS(100%)直到失败

2022-03-07 文章 Sun.Zhu
图挂了 https://postimg.cc/Z9XdxwSk 在 2022-03-08 14:05:39,"Sun.Zhu" <17626017...@163.com> 写道: hi all, flink 1.13.2,将checkpoint 写到S3但是一直成功不了,一直显示IN_PROGRESS,直到超时失败,有大佬遇到过吗?

flink s3 checkpoint 一直IN_PROGRESS(100%)直到失败

2022-03-07 文章 Sun.Zhu
hi all, flink 1.13.2,将checkpoint 写到S3但是一直成功不了,一直显示IN_PROGRESS,直到超时失败,有大佬遇到过吗?

Re: flink 反压导致checkpoint超时,从而导致任务失败问题

2022-03-03 文章 yu'an huang
你好,我检查了下关于checkpoint的文档:https://nightlies.apache.org/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/checkpointing/ <https://nightlies.apache.org/flink/flink-docs-master/docs/dev/datastream/fault-tolerance/checkpointing/> tolerable checkpoint failure number: This defines ho

Re: flink 反压导致checkpoint超时,从而导致任务失败问题

2022-03-03 文章 yu'an huang
你好,checkpoint超时默认不会导致作业重启,可以提供下JM log看看作业为什么会重启吗? > On 3 Mar 2022, at 9:15 PM, kong <62...@163.com> wrote: > > hello,我最近遇到一个问题: > 我通过flink消费kafka数据,job 图大概是这样的:Source -> map -> filter -> flatMap -> Map -> > Sink > 在一瞬间kafka的producer端会产生大量的数据,导致flink无法消费完,

flink 反压导致checkpoint超时,从而导致任务失败问题

2022-03-03 文章 kong
hello,我最近遇到一个问题: 我通过flink消费kafka数据,job 图大概是这样的:Source -> map -> filter -> flatMap -> Map -> Sink 在一瞬间kafka的producer端会产生大量的数据,导致flink无法消费完,我的checkpoint设置的是10分钟; 最后会产生Checkpoint expired before completing.的错误,导致job重启,从而导致从上一个checkpoint恢复,然后重复消费数据,又导致checkpoint超时,死循环了。 不知道有什么好办法解决该问题。 多谢~

Re: flink 不触发checkpoint

2022-02-20 文章 Tony Wei
Hi, 有考慮升級 1.14 嗎?Flink 1.14 支持了 FLIP-147,讓 Flink 在 task 為 finished 狀態時仍能觸發 checkpoint [1, 2]。 [1] https://flink.apache.org/news/2021/09/29/release-1.14.0.html#checkpointing-and-bounded-streams [2] https://cwiki.apache.org/confluence/display/FLINK/FLIP-147%3A+Support+Checkpoints+After+Tasks

Re:flink 不触发checkpoint

2022-02-18 文章 RS
1. 图片挂了,看不到,尽量用文字,或者用图床等工具 2. 启动任务有配置checkpoint吗? 在 2022-02-17 11:40:04,"董少杰" 写道: flink读取csv文件建表,同时消费kafka数据建表,两张表join之后写入hdfs(hudi),读取csv数据的任务已经是finished状态,就会触发不了checkpoint,看有什么办法能让它正常触发checkpoint? flink版本1.12.2。 谢谢! | | 董少杰 | | eric21...@163.com |

flink 不触发checkpoint

2022-02-16 文章 董少杰
flink读取csv文件建表,同时消费kafka数据建表,两张表join之后写入hdfs(hudi),读取csv数据的任务已经是finished状态,就会触发不了checkpoint,看有什么办法能让它正常触发checkpoint? flink版本1.12.2。 谢谢! | | 董少杰 | | eric21...@163.com |

Re: 关于streamFileSink在checkpoint下生成文件问题

2022-01-11 文章 Chang Li
直接用的开源版本吗?还是公司内部有改动,原生的cp是固定频率,而很多公司离线计算都是整点触发的,为了减少延迟,会自定义在整点触发一次cp,开源目前没有这个feature 黄志高 于2021年12月1日周三 21:53写道: > hi,各位大佬,咨询个问题 > > > 我的Flink版本是1.11.0,我的程序是从kafka->s3,checkpoint的时间间隔是10分钟,程序中间不做任何操作,直接消费数据落到文件系统,使用的是streamingFileSink,用的是内部的bulkFormatbuilder

Re: Re: 关于streamFileSink在checkpoint下生成文件问题

2022-01-11 文章 Chang Li
; COMPLETED > | 8/8 | 13:02:36 | 13:02:41 | 4s | 214 KB | 0 B | > 上图是checkpoint > > > 这个是在11月30号0时段生成的文件 > 2021-11-30 00:00:011080827 athena_other-0-217891.gz > 2021-11-30 00:02:424309209 athena_other-0-217892.gz > 2021-11-30 00:12:403902474 athena_other-0-217893.

Re: flink 无法checkpoint问题

2021-12-29 文章 Caizhi Weng
Hi! 图片无法显示,建议使用外部图床上传。 checkpoint 慢的原因可能有很多,最可能的原因是由于算子处理数据太慢导致反压(可以通过 Flink web UI 每个节点的 busy 百分比大致看出来)。建议检查资源是否充足,数据是否倾斜,gc 是否过于频繁等。 紫月幽魔灵 于2021年12月28日周二 10:38写道: > 版本:flink版本1.14.0 > 问题: 使用flink 1.14.0版本提交到jdk1.7版本的yarn集群上checkpoint无法生成,一直处于IN_PROGRESS状态 > 提交命令如下: > ./

flink ????checkpoint????

2021-12-27 文章 ??????????
:flink1.14.0 : flink 1.14.0??jdk1.7??yarn??checkpoint,IN_PROGRESS : ./bin/flinksql-submit.sh \ --sql sqlserver-cdc-to-kafka.sql \ -m yarn-cluster \ -ynm sqlserverTOkafka \ -ys 2 \ -yjm 1024 \ -ytm 1024 \ -yid

Re:Re: 关于streamFileSink在checkpoint下生成文件问题

2021-12-01 文章 黄志高
| | | 32680 | COMPLETED | 8/8 | 13:12:36 | 13:12:39 | 2s | 125 KB | 0 B | | | 32679 | COMPLETED | 8/8 | 13:02:36 | 13:02:41 | 4s | 214 KB | 0 B | 上图是checkpoint 这个是在11月30号0时段生成的文件 2021-11-30 00:00:011080827 athena_other-0-217891.gz 2021-11-30 00:02:424309209 athena_other-0-217892.gz 2021-11-30 00:12

Re: 关于streamFileSink在checkpoint下生成文件问题

2021-12-01 文章 Caizhi Weng
Hi! 邮件里看不到图片和附件,建议使用外部图床。 partFile 文件是不是以英文句点开头的?这是因为 streamingFileSink 写文件的时候还没做 checkpoint,为了保证 exactly once,这些临时写下的 .partFile 文件都是不可见的,需要等 checkpoint 之后才会重命名成可见的文件。 黄志高 于2021年12月1日周三 下午9:53写道: > hi,各位大佬,咨询个问题 > > > 我的Flink版本是1.11.0,我的程序是从kafka->s3,checkpoint的时间间隔是10分钟,程序中间

关于streamFileSink在checkpoint下生成文件问题

2021-12-01 文章 黄志高
hi,各位大佬,咨询个问题 我的Flink版本是1.11.0,我的程序是从kafka->s3,checkpoint的时间间隔是10分钟,程序中间不做任何操作,直接消费数据落到文件系统,使用的是streamingFileSink,用的是内部的bulkFormatbuilder,通过源码分析采用的滚动策略是onCheckpointRollingPolicy,但是我发现在每个小时间生成一个bucket,都会在整点的时间生成一个partFile文件,而我的checkpoint触发的时间点都是02分,12分,22分,32分,42分,52分,对应的文件生成时间也是这个时候,但是总是会在整

Flink checkpoint文件大小与对应内存大小映射关系

2021-12-01 文章 mayifan
Hi,All~! 麻烦大家一个问题,有大佬了解过checkpoint文件大小与实际内存对应的状态数据大小的映射关系吗? 比如Fs状态后端checkpoint后文件大小是1MB,对应的状态数据在内存中占用大概是多少呢? 感谢答复~!

Re: flink的job运行一段时间后, checkpoint就一直失败

2021-11-18 文章 Caizhi Weng
Hi! checkpoint 超时有很多可能性。最常见的原因是超时的节点太忙阻塞了 checkpoint(包括计算资源不足,或者数据有倾斜等),这可以通过看 Flink web UI 上的 busy 以及反压信息判断;另外一个常见原因是 gc 太频繁,可以通过设置 jvm 参数打印出 gc log 观察。 yu...@kiscloud.net 于2021年11月18日周四 下午2:54写道: > flink的job运行一段时间后, checkpoint就一直失败,信息如下: > ID > Status > Acknowledged > Trigge

flink的job运行一段时间后, checkpoint就一直失败

2021-11-17 文章 yu...@kiscloud.net
flink的job运行一段时间后, checkpoint就一直失败,信息如下: ID Status Acknowledged Trigger Time Latest Acknowledgement End to End Duration State Size Buffered During Alignment 295 FAILED 30/5011:55:3811:55:391h 0m 0s205 KB0 B Checkpoint Detail: Path: - Discarded: - Failure Message: Checkpoint expired before

checkpoint??????????

2021-11-08 文章 ??????
: flink on yarn ??flink hdfs,ark1??hdfs??active??standby ark2standbyactive :??flink??checkpoint??hdfs??url??hdfs:ark:8082 ,standby??, hdfs??mycluster

checkpoint??????????

2021-11-07 文章 ??????
: flink on yarn ??flink hdfs,ark1??hdfs??active??standby ark2standbyactive :??flink??checkpoint??hdfs??url??hdfs:ark:8082 ,standby??, ??

Re: Re: 回复:回复:Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-11-04 文章 zhisheng
的 KafkaSource,可以配置 enable.auto.commit = true 和 > auto.commit.interval.ms = {commit_interval} 使 KafkaSource 按照指定的时间间隔自动提交 > offset。基于 SourceFunction 的 FlinkKafkaConsumer 在 checkpoint 开启时不支持自动提交,只能在 > checkpoint 时提交位点。 > > > >-- > >Best Regards, > > > >Qingsheng Re

Re: 关于作业失败从checkpoint重启,触发了过期的窗口计算

2021-10-31 文章 liwei li
-- > 发件人: > "user-zh" > < > hilili...@gmail.com; > 发送时间:2021年10月30日(星期六) 晚上10:58 > 收件人:"user-zh" > 主题:Re: 关于作业失败从checkpoint重启,触发了过期的窗口计算 > > >

?????? ??????????????checkpoint??????????????????????????

2021-10-31 文章 claylin
continue trigger ---- ??: "user-zh"

Re: 关于作业失败从checkpoint重启,触发了过期的窗口计算

2021-10-30 文章 liwei li
可以试试添加使用Continuou Trigger Yun Tang 于2021年10月29日周五 下午5:56写道: > Hi, > > 先问个版本问题,你的Flink版本是1.3 而不是1.13? > > > Checkpoint里面会存储timer,所以重启之后会触发窗口的计算,但确实这种一天的窗口累计有点太多了,除非你的作业存在比较严重的反压,导致checkpoint内积攒了大量没有触发的timer。 > > 祝好 > 唐云 > >

Re: 增量checkpoint是否可以用来恢复flink作业

2021-10-30 文章 liwei li
增量checkpoint是可以恢复作业的。 Flink 的增量 checkpoint 以 RocksDB 的 checkpoint 为基础。RocksDB 是一个 LSM 结构的 KV > 数据库,把所有的修改保存在内存的可变缓存中(称为 memtable),所有对 memtable 中 key 的修改,会覆盖之前的 value,当前 > memtable 满了之后,RocksDB 会将所有数据以有序的写到磁盘。当 RocksDB 将 memtable > 写到磁盘后,整个文件就不再可变,称为有序字符串表(sstable)。 > RocksDB 的后台压缩线程会将

Re: flink 以阿里云 oss 作为 checkpoint cpu 过高

2021-10-29 文章 Yun Tang
Hi 可以使用jstack,async profiler [1] 等工具勘察一下checkpoint期间的CPU栈。oss需要先写本地再上传,确实可能CPU消耗多一些,但是明显高很多有一些超出预期。 [1] https://github.com/jvm-profiling-tools/async-profiler 祝好 唐云 From: Lei Wang Sent: Tuesday, October 19, 2021 14:01 To: user-zh@flink.apache.org Subject: Re

Re: 关于作业失败从checkpoint重启,触发了过期的窗口计算

2021-10-29 文章 Yun Tang
Hi, 先问个版本问题,你的Flink版本是1.3 而不是1.13? Checkpoint里面会存储timer,所以重启之后会触发窗口的计算,但确实这种一天的窗口累计有点太多了,除非你的作业存在比较严重的反压,导致checkpoint内积攒了大量没有触发的timer。 祝好 唐云 From: claylin <1012539...@qq.com.INVALID> Sent: Friday, October 29, 2021 11:33 To: user-zh Subject: 关于作业失败从checkp

??????????????checkpoint??????????????????????????

2021-10-28 文章 claylin
checkpointflink1.3/1.4+sql??checkpoint1??rocksdb15??30

增量checkpoint是否可以用来恢复flink作业

2021-10-27 文章 casel.chen
增量checkpoint是否可以用来恢复flink作业? 增量checkpoint我理解是有一个base checkpoint + 若干个delta checkpoint (中间会做一次全量checkpoint以截断过长的血缘吗?),恢复的时候需要从base checkpoint开始一个个按时间顺序应用delta checkpoint。 按这样的话,每个delta checkpoint都需要保留才可以恢复状态,但现实并不是所有checkpoint都保留,所以我觉得增量checkpoint是不能用来恢复flink作业的,这样理解对吗?

回复:Re: 回复:回复:Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-27 文章 杨浩
= {commit_interval} 使 KafkaSource 按照指定的时间间隔自动提交 >offset。基于 SourceFunction 的 FlinkKafkaConsumer 在 checkpoint 开启时不支持自动提交,只能在 >checkpoint 时提交位点。 > >-- >Best Regards, > >Qingsheng Ren >Email: renqs...@gmail.com >On Oct 27, 2021, 4:59 PM +0800, 杨浩 , wrote: >> 请问有办法和现有监控兼容么?开启c

Re: 回复:回复:Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-27 文章 Qingsheng Ren
你好! 如果使用的是基于 FLIP-27 实现的 KafkaSource,可以配置 enable.auto.commit = true 和 auto.commit.interval.ms = {commit_interval} 使 KafkaSource 按照指定的时间间隔自动提交 offset。基于 SourceFunction 的 FlinkKafkaConsumer 在 checkpoint 开启时不支持自动提交,只能在 checkpoint 时提交位点。 -- Best Regards, Qingsheng Ren Email: renqs...@gmail.com

回复:回复:Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-27 文章 杨浩
请问有办法和现有监控兼容么?开启checkpoint时,让消费组的offset实时更新 在 2021-10-25 21:58:28,"杨浩" 写道: >currentOffsets理论上OK,但是这边云上监控系统中的kafka未消费量使用的是committedOffsets >在 2021-10-25 10:31:12,"Caizhi Weng" 写道: >>Hi! >> >>这里的 offset 是 kafka source 的 offset 吗?其实没必要通过 checkpoin

回复:Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-25 文章 杨浩
currentOffsets理论上OK,但是这边云上监控系统中的kafka未消费量使用的是committedOffsets 在 2021-10-25 10:31:12,"Caizhi Weng" 写道: >Hi! > >这里的 offset 是 kafka source 的 offset 吗?其实没必要通过 checkpoint 读取 offset,可以通过 >metrics 读取,见 [1]。 > >[1] >https://ci.apache.org/projects/flink/flink-docs-master/doc

Re: 在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-24 文章 Caizhi Weng
Hi! 这里的 offset 是 kafka source 的 offset 吗?其实没必要通过 checkpoint 读取 offset,可以通过 metrics 读取,见 [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-master/docs/ops/metrics/#kafka-connectors 杨浩 于2021年10月25日周一 上午10:20写道: > 请问下,如果启用checkpoint,因为状态比较大,checkpoint间隔设置比较大,如何让offset提交的比较快,这样方便监控程序进度

在开启checkpoint后如何设置offset的自动提交以方便监控

2021-10-24 文章 杨浩
请问下,如果启用checkpoint,因为状态比较大,checkpoint间隔设置比较大,如何让offset提交的比较快,这样方便监控程序进度

Re: flink修改sink并行度后,无法从checkpoint restore问题

2021-10-21 文章 yue ma
hello 这个报错看上去并不是状态不兼容的报错。 我看代码 Sink 算子设置了uid 理论上是可以正确恢复的。 kong <62...@163.com> 于2021年10月21日周四 上午10:26写道: > hi,我遇到flink修改sink并行度后,无法从checkpoint restore问题 > > > flink 版本: 1.13.1 > flink on yarn > DataStream api方式写的java job > > > 试验1:不修改任何代码,cancel job后,能从指定的checkpo

flink修改sink并行度后,无法从checkpoint restore问题

2021-10-20 文章 kong
hi,我遇到flink修改sink并行度后,无法从checkpoint restore问题 flink 版本: 1.13.1 flink on yarn DataStream api方式写的java job 试验1:不修改任何代码,cancel job后,能从指定的checkpoint恢复 dataStream.addSink(new Sink(config)).name("").uid(""); 试验2:只修改sink端的并行度,job无法启动,一直是Initiating状态 dataStre

Re: flink 以阿里云 oss 作为 checkpoint cpu 过高

2021-10-19 文章 Lei Wang
确实是跟 OSS 有关,我换成 HDFS 作为 checkpoint 后端就没有这种现象了,但我也不明白为什么会这样。 程序中设置了增量 checkpoit,但 flink web UI 中显示的 checkpoint data size 一直不断变高,三天就到了 1G On Mon, Oct 18, 2021 at 10:44 AM Michael Ran wrote: > 应该和OSS没关系吧,毕竟只是个存储。 > 我们CPU 你先看看消耗在哪个线程或者方法类呗 > > > > 在 2021-10-08 16:34

Re:flink 以阿里云 oss 作为 checkpoint cpu 过高

2021-10-17 文章 Michael Ran
应该和OSS没关系吧,毕竟只是个存储。 我们CPU 你先看看消耗在哪个线程或者方法类呗 在 2021-10-08 16:34:47,"Lei Wang" 写道: flink 程序以 RocksDB 作为 stateBackend, aliyun OSS 作为 checkpoint 数据最终的物理位置。 我们的监控发现节点 cpu 间隔性地变高,这个间隔时间恰好就是程序的 checkpoint 时间间隔。 这个可能的原因是什么?会跟 OSS 有关吗? 谢谢, 王磊

Re:​异步IO算子无法完成checkpoint

2021-10-11 文章 李一飞
图片上传到附件中了 在 2021-10-12 10:33:12,"李一飞" 写道: 异步IO算子无法完成checkpoint,帮忙看下是什么原因

Re: ​异步IO算子无法完成checkpoint

2021-10-11 文章 Caizhi Weng
Hi! 图片无法在邮件中显示,请检查。 李一飞 于2021年10月12日周二 上午10:33写道: > 异步IO算子无法完成checkpoint,帮忙看下是什么原因 > > > >

​异步IO算子无法完成checkpoint

2021-10-11 文章 李一飞
异步IO算子无法完成checkpoint,帮忙看下是什么原因

flink 以阿里云 oss 作为 checkpoint cpu 过高

2021-10-08 文章 Lei Wang
flink 程序以 RocksDB 作为 stateBackend, aliyun OSS 作为 checkpoint 数据最终的物理位置。 我们的监控发现节点 cpu 间隔性地变高,这个间隔时间恰好就是程序的 checkpoint 时间间隔。 [image: image.png] 这个可能的原因是什么?会跟 OSS 有关吗? 谢谢, 王磊

Re: HOP窗口较短导致checkpoint失败

2021-09-21 文章 xiaohui zhang
checkpoint的状态大约只有50M左右就会开始出现cp失败的问题。如果失败了,尝试停止任务生成savepoint基本也不能成功。但同时运行的其他任务,cp在300M左右, save point 1G左右的就很顺利,基本不会出问题。 因为实际的数据压力并不是很大,如果单纯增加并行度,是否能在窗口多的情况下有比较明显的改善呢? Caizhi Weng 于2021年9月22日周三 上午11:27写道: > Hi! > > 24 小时且步长 1 分钟的 window 会由于数据不断累积而导致 cp 越来越大,越来越慢,最终超时。当然如果运算太慢导致

Re: HOP窗口较短导致checkpoint失败

2021-09-21 文章 Caizhi Weng
og ( > devid, > ip, > op_ts > ) with ( > connector = kafka > ) > > sink: Hbase connect 2.2 > > 目前用flink sql的hop > window开发一个指标,统计近24小时的设备关联ip数。设置30min一次checkpoint,超时时间30min。 > 执行SQL如下 > insert into h_table > select > devid as rowkey > row(hop_end, ip

HOP窗口较短导致checkpoint失败

2021-09-17 文章 xiaohui zhang
FLink:1.12.1 源: kafka create table dev_log ( devid, ip, op_ts ) with ( connector = kafka ) sink: Hbase connect 2.2 目前用flink sql的hop window开发一个指标,统计近24小时的设备关联ip数。设置30min一次checkpoint,超时时间30min。 执行SQL如下 insert into h_table select devid as rowkey row(hop_end, ip_cnt) from ( select devid

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-12 文章 Tony Wei
Hi 從代碼上來看是使用了 regular join 關聯了 kafka source 和 hbase source,hbase connector 目前是不支持流式數據源的 你可以從任務儀表板上確認下提交的任務,hbase source 的部分應該在執行一段時間後狀態會變更為 FINISHED,目前 flink checkpoint 還不支持在 FINISHED task 上執行 你可以考慮改寫 sql 使用 processing time temporal join [1] 的方式來關聯 hbase table,從 kafka 消費的數據會實時的去查 hbase table 的當前

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 chang li
没有开启checkpoint execEnv.enableCheckpointing(checkpointInterval); On 2021/09/10 07:41:10, "xia_...@163.com" wrote: > Hi: > 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume > 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 chang li
没有开启checkpoint execEnv.enableCheckpointing(checkpointInterval); On 2021/09/10 07:41:10, "xia_...@163.com" wrote: > Hi: > 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume > 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 chang li
没有开启checkpoint execEnv.enableCheckpointing(checkpointInterval); On 2021/09/10 07:41:10, "xia_...@163.com" wrote: > Hi: > 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume > 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 chang li
没有开启checkpoint execEnv.enableCheckpointing(checkpointInterval); On 2021/09/10 07:41:10, "xia_...@163.com" wrote: > Hi: > 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume > 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请

Re: Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 chang li
没有开启Checkpoint execEnv.enableCheckpointing(checkpointInterval); On 2021/09/10 07:41:10, "xia_...@163.com" wrote: > Hi: > 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume > 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请

Flink Stream + StreamTableEnvironment 结合使用时checkpoint异常问题

2021-09-10 文章 xia_...@163.com
Hi: 有个问题想请教一下大佬们:正在研究流上join操作,使用FlinkKafkaConsume 消费kafka数据作为数据源,随后关联hbase维度表数据,可以成功关联,但是KafkaSource缺始终没有进行checkpoint,代码中是有设置checkpint的,我想请问一下是需要做其他什么配置吗?代码如下 DataStream kafkaSource = env.addSource(source); Map> sideOutStreamMap = new HashMap<>(); for (RowToColumnBean bea

Re: SQL clinet端,checkpoint 恢复执行

2021-09-08 文章 Caizhi Weng
处理逻辑:简单过滤输出到hive > > 问题: > > 每1分钟做一次checkpoint,然后由于某原因需要取消任务,再次运行job如何继续从最新的checkpoint继续处理,在客户端设置了参数: > > execution.savepoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8bfe459cb6c329ec696c > > execution.checkpoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8b

SQL;clinet端;checkpoint;恢复执行;

2021-09-08 文章 刘保欣
您好: 版本:flink1.13 运行: flink sql 源表: 基于kafka建表 处理逻辑:简单过滤输出到hive 问题: 每1分钟做一次checkpoint,然后由于某原因需要取消任务,再次运行job如何继续从最新的checkpoint继续处理,在客户端设置了参数: execution.savepoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8bfe459cb6c329ec696c execution.checkpoint.path=hdfs:///user

SQL clinet端,checkpoint 恢复执行

2021-09-08 文章 outlook_3e5704ab57282...@outlook.com
您好: 版本:flink1.13 运行: flink sql 源表: 基于kafka建表 处理逻辑:简单过滤输出到hive 问题: 每1分钟做一次checkpoint,然后由于某原因需要取消任务,再次运行job如何继续从最新的checkpoint继续处理,在客户端设置了参数: execution.savepoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8bfe459cb6c329ec696c

  1   2   3   4   5   6   7   >