Re: 作业因为异常restart后,频繁OOM

2020-07-04 文章 Congxian Qiu
日 11:32,kcz 写道: > 1.10.0我也与遇到过,我看1.11.0介绍,会复用classloader,不知道是不是就把这个解决了。 > 我的情况是第一次运行OK,之后停止,再次启动,就遇到了OOM,调大了metaspace又可以跑,但是重复停止再次启动,还是OOM。 > > > > > --原始邮件-- > 发件人:"徐骁" 发送时间:2020年7月1日(星期三) 中午11:15 > 收件人:"user-zh" > 主题:Re:

Re: 作业因为异常restart后,频繁OOM

2020-06-30 文章 徐骁
很早以前遇到这个问题, standalone 模式下 metaspace 释放不掉, 感觉是一个比较严重的 bug https://issues.apache.org/jira/browse/FLINK-11205 这边有过讨论 SmileSmile 于2020年6月30日周二 下午11:45写道: > 作业如果正常运行,堆外内存是足够的。在restart后才会出现频繁重启的情况,重构集群才能恢复正常 > > > | | > a511955993 > | > | > 邮箱:a511955...@163.com > | > > 签名由 网易邮箱大师 定制 > >

回复:作业因为异常restart后,频繁OOM

2020-06-30 文章 SmileSmile
作业如果正常运行,堆外内存是足够的。在restart后才会出现频繁重启的情况,重构集群才能恢复正常 | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年06月30日 23:39,LakeShen 写道: 我在较低版本,Flink on k8s ,也遇到 OOM 被 kill 了。 我感觉可能是 TaskManager 堆外内存不足了,我目前是 Flink 1.6 版本,Flink on k8s , standalone per job 模式,堆外内存默认没有限制~。

Re: 作业因为异常restart后,频繁OOM

2020-06-30 文章 LakeShen
我在较低版本,Flink on k8s ,也遇到 OOM 被 kill 了。 我感觉可能是 TaskManager 堆外内存不足了,我目前是 Flink 1.6 版本,Flink on k8s , standalone per job 模式,堆外内存默认没有限制~。 我的解决方法增加了一个参数:taskmanager.memory.off-heap: true. 目前来看,OOM被 kill 掉的问题没有在出现了。希望能帮到你。 Best, LakeShen SmileSmile 于2020年6月30日周二 下午11:19写道: > > 补充一下,内核版本为

回复:作业因为异常restart后,频繁OOM

2020-06-30 文章 SmileSmile
补充一下,内核版本为 3.10.x,是否会是堆外内存cache没被回收而导致的内存超用? | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年06月30日 23:00,GuoSmileSmil 写道: hi all, 我使用的Flink版本为1.10.1,使用的backend是rocksdb,没有开启checkpoint,运行在kubernetes平台上,模式是standalone。

作业因为异常restart后,频繁OOM

2020-06-30 文章 GuoSmileSmil
hi all, 我使用的Flink版本为1.10.1,使用的backend是rocksdb,没有开启checkpoint,运行在kubernetes平台上,模式是standalone。 目前遇到的问题是作业如果因为网络抖动或者硬件故障导致的pod被失联而fail,在pod重生后,作业自动restart,作业运行一段时间(半小时到1小时不等)很容易出现其他pod因为oom被os kill的现象,然后反复循环,pod 被kill越来越频繁。目前的解决方法是手动销毁这个集群,重新构建一个集群后重启作业,就恢复正常。