Hi Zhefu
感谢你在邮件列表分享你的解决方法,这样其他人遇到类似问题也有一个参考。
Best,
Congxian
Zhefu PENG 于2020年7月13日周一 下午7:51写道:
> Hi all,
>
> 这封邮件最开始发出已经一个月了,这一个月里尝试了很多朋友或者各位大佬的建议,目前经过一周末加上两个工作日的查看,问题看来是解决了。
>
>
>
> 反馈一下,如果有朋友遇到类似的问题,可以参考,给这个问题做一个闭环。谢谢各位的关注和帮忙。
>
> Best,
> Zhefu
谢谢 zhefu, 给你大大点赞,很社区的方式,相信这样的积累越多,小伙伴们都能学习到更多。
祝好,
Leonard Xu
>
> LakeShen 于2020年6月12日周五 上午9:49写道:
>
>> Hi ZheFu,
>>
>> 可以把你的 Flink 版本说一下,我大致理解是这样的,每次 sink 端 在 snapshotState 的时候,会检查该次 Sink
>> 的数据是否都已经 Sink 到了 kafka.
>>
Hi all,
这封邮件最开始发出已经一个月了,这一个月里尝试了很多朋友或者各位大佬的建议,目前经过一周末加上两个工作日的查看,问题看来是解决了。
问题的根本原因:Kafka集群的性能不足(怀疑是CPU负荷过大)。问题出现的时候线上kakfa集群只有七台机器,在排除所有别的原因以及能进行到的尝试方案后,决定进行扩容。扩到15台机器。目前来看,平稳运行,没有再报出类似错误。
反馈一下,如果有朋友遇到类似的问题,可以参考,给这个问题做一个闭环。谢谢各位的关注和帮忙。
Best,
Zhefu
LakeShen 于2020年6月12日周五 上午9:49写道:
> Hi ZheFu,
Hi ZheFu,
可以把你的 Flink 版本说一下,我大致理解是这样的,每次 sink 端 在 snapshotState 的时候,会检查该次 Sink
的数据是否都已经 Sink 到了 kafka.
也就是说,你这次 Checkpoint 的时候,由于你的 Checkpoint 间隔较短,Kafka 那边给回的消息记录 Ack
还没有弄完,所以有这个问题。建议 Checkpoint 间隔弄长点。
具体代码查看:FlinkKafkaProducerBase.snapshotState 这个方法。
Best,
LakeShen
Congxian Qiu
Hi
从错误栈看是因为 task 端 snapshot 出问题了,原因是 “Caused by:
java.lang.IllegalStateException: Pending record count must be zero at this
point: 5”,需要看一下为什么会走到这里
Best,
Congxian
李奇 <359502...@qq.com> 于2020年6月10日周三 下午5:57写道:
>
>
哈喽,根据我自己遇到checkpoint失败,一般是因为你数据有问题,导致算子失败,有可能是数据格式,或者字段类型不匹配,字段数量等相关的原因造成,我看你补充的内容,好像是你kafka数据有问题样,你可以往这个方向看看数据是否正常。解析是否正确。
> 在 2020年6月10日,下午1:24,Zhefu PENG 写道:
>
> 补充一下,在TaskManager发现了如下错误日志:
>
> 2020-06-10 12:44:40,688 ERROR
> org.apache.flink.streaming.runtime.tasks.StreamTask -
隔那么短,并且频繁checkpoint会导致性能问题。
>
>
> Best,
> Yichao Yang
>
>
> -- 原始邮件 --
> 发件人: Zhefu PENG 发送时间: 2020年6月10日 13:04
> 收件人: user-zh 主题: 回复:flink任务checkpoint无法完成snapshot,且报kafka异常
>
>
>
> Hi all,
>
> 现在有一个简单的flink任务,大概chain在
Hi
看报错是checkpoint失败次数超过了最大限制导致任务失败。checkpoint间隔设置太小了,在我们团队通常都是分钟级别的interval,我们一般设置5分钟,checkpoint只是一个容错机制,没有特殊的需求场景不需要设置间隔那么短,并且频繁checkpoint会导致性能问题。
Best,
Yichao Yang
-- 原始邮件 --
发件人: Zhefu PENG
补充一下,在TaskManager发现了如下错误日志:
2020-06-10 12:44:40,688 ERROR
org.apache.flink.streaming.runtime.tasks.StreamTask - Error
during disposal of stream operator.
org.apache.flink.streaming.connectors.kafka.FlinkKafkaException: Failed to
send data to Kafka: Pending record count must be zero at
Hi all,
现在有一个简单的flink任务,大概chain在一起后的执行图为:
Source: Custom Source -> Map -> Source_Map -> Empty_Filer -> Field_Filter
-> Type_Filter -> Value_Filter -> Map -> Map -> Map -> Sink: Unnamed
10 matches
Mail list logo