Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-07-13 文章 Congxian Qiu
Hi Zhefu 感谢你在邮件列表分享你的解决方法,这样其他人遇到类似问题也有一个参考。 Best, Congxian Zhefu PENG 于2020年7月13日周一 下午7:51写道: > Hi all, > > 这封邮件最开始发出已经一个月了,这一个月里尝试了很多朋友或者各位大佬的建议,目前经过一周末加上两个工作日的查看,问题看来是解决了。 > > >

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-07-13 文章 Leonard Xu
> 反馈一下,如果有朋友遇到类似的问题,可以参考,给这个问题做一个闭环。谢谢各位的关注和帮忙。 > > Best, > Zhefu 谢谢 zhefu, 给你大大点赞,很社区的方式,相信这样的积累越多,小伙伴们都能学习到更多。 祝好, Leonard Xu > > LakeShen 于2020年6月12日周五 上午9:49写道: > >> Hi ZheFu, >> >> 可以把你的 Flink 版本说一下,我大致理解是这样的,每次 sink 端 在 snapshotState 的时候,会检查该次 Sink >> 的数据是否都已经 Sink 到了 kafka. >>

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-07-13 文章 Zhefu PENG
Hi all, 这封邮件最开始发出已经一个月了,这一个月里尝试了很多朋友或者各位大佬的建议,目前经过一周末加上两个工作日的查看,问题看来是解决了。 问题的根本原因:Kafka集群的性能不足(怀疑是CPU负荷过大)。问题出现的时候线上kakfa集群只有七台机器,在排除所有别的原因以及能进行到的尝试方案后,决定进行扩容。扩到15台机器。目前来看,平稳运行,没有再报出类似错误。 反馈一下,如果有朋友遇到类似的问题,可以参考,给这个问题做一个闭环。谢谢各位的关注和帮忙。 Best, Zhefu LakeShen 于2020年6月12日周五 上午9:49写道: > Hi ZheFu,

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-11 文章 LakeShen
Hi ZheFu, 可以把你的 Flink 版本说一下,我大致理解是这样的,每次 sink 端 在 snapshotState 的时候,会检查该次 Sink 的数据是否都已经 Sink 到了 kafka. 也就是说,你这次 Checkpoint 的时候,由于你的 Checkpoint 间隔较短,Kafka 那边给回的消息记录 Ack 还没有弄完,所以有这个问题。建议 Checkpoint 间隔弄长点。 具体代码查看:FlinkKafkaProducerBase.snapshotState 这个方法。 Best, LakeShen Congxian Qiu

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-10 文章 Congxian Qiu
Hi 从错误栈看是因为 task 端 snapshot 出问题了,原因是 “Caused by: java.lang.IllegalStateException: Pending record count must be zero at this point: 5”,需要看一下为什么会走到这里 Best, Congxian 李奇 <359502...@qq.com> 于2020年6月10日周三 下午5:57写道: > >

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-10 文章 李奇
哈喽,根据我自己遇到checkpoint失败,一般是因为你数据有问题,导致算子失败,有可能是数据格式,或者字段类型不匹配,字段数量等相关的原因造成,我看你补充的内容,好像是你kafka数据有问题样,你可以往这个方向看看数据是否正常。解析是否正确。 > 在 2020年6月10日,下午1:24,Zhefu PENG 写道: > > 补充一下,在TaskManager发现了如下错误日志: > > 2020-06-10 12:44:40,688 ERROR > org.apache.flink.streaming.runtime.tasks.StreamTask -

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-09 文章 Zhefu PENG
隔那么短,并且频繁checkpoint会导致性能问题。 > > > Best, > Yichao Yang > > > -- 原始邮件 -- > 发件人: Zhefu PENG 发送时间: 2020年6月10日 13:04 > 收件人: user-zh 主题: 回复:flink任务checkpoint无法完成snapshot,且报kafka异常 > > > > Hi all, > > 现在有一个简单的flink任务,大概chain在

回复:flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-09 文章 Yichao Yang
Hi 看报错是checkpoint失败次数超过了最大限制导致任务失败。checkpoint间隔设置太小了,在我们团队通常都是分钟级别的interval,我们一般设置5分钟,checkpoint只是一个容错机制,没有特殊的需求场景不需要设置间隔那么短,并且频繁checkpoint会导致性能问题。 Best, Yichao Yang -- 原始邮件 -- 发件人: Zhefu PENG

Re: flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-09 文章 Zhefu PENG
补充一下,在TaskManager发现了如下错误日志: 2020-06-10 12:44:40,688 ERROR org.apache.flink.streaming.runtime.tasks.StreamTask - Error during disposal of stream operator. org.apache.flink.streaming.connectors.kafka.FlinkKafkaException: Failed to send data to Kafka: Pending record count must be zero at

flink任务checkpoint无法完成snapshot,且报kafka异常

2020-06-09 文章 Zhefu PENG
Hi all, 现在有一个简单的flink任务,大概chain在一起后的执行图为: Source: Custom Source -> Map -> Source_Map -> Empty_Filer -> Field_Filter -> Type_Filter -> Value_Filter -> Map -> Map -> Map -> Sink: Unnamed