flink on yarn 作业挂掉反复重启

2022-07-18 文章 SmileSmile
hi,all 遇到这种场景,flink on yarn,并行度3000的场景下,作业包含了多个agg操作,作业recover from checkpoint 或者savepoint必现无法恢复的情况,作业反复重启 jm报错org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - RECEIVED S IGNAL 15: SIGTERM. Shutting down as requested. 请问有什么好的排查思路吗

回复:Flink sql 列裁剪原理请教

2020-12-15 文章 SmileSmile
, FlinkLogicalCalcRemoveRule.INSTANCE 2. projection push into tablesource 可查看:PushProjectIntoTableSourceScanRule Best, Hailong 在 2020-12-15 20:57:32,"SmileSmile" 写道: >hi,社区的各位,是否有了解flink sql的列裁剪的实现原理? > >通过calcite的rbo可以实现sql优化,calcite的coreRules好像没有实现列裁剪。看一些文章有提到flink有实现projection >pushdow

Flink sql 列裁剪原理请教

2020-12-15 文章 SmileSmile
hi,社区的各位,是否有了解flink sql的列裁剪的实现原理? 通过calcite的rbo可以实现sql优化,calcite的coreRules好像没有实现列裁剪。看一些文章有提到flink有实现projection pushdown。请问下这部分源码对应哪里 Best! | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制

??????FlinkKafkaConsumer????

2020-09-05 文章 SmileSmile
hicheckpoint?? Best | | a511955993 | | ??a511955...@163.com | ?? ??2020??09??04?? 14:11??op ?? ---- ??:

Re: Flink 1.11 submit job timed out

2020-07-26 文章 SmileSmile
不影响正常使用 失败的原因是slot 5分钟申请超时了,你给的日志里面2020-07-23 13:55:45,519到2020-07-23 13:58:18,037是空白的,没有进行省略吧? 这段时间按理应该是task开始deploy了。在日志里看到了JM->RM的心跳超时,同一个Pod里面的同一个进程通信也超时了 所以怀疑JM一直在FullGC,这个需要你确认一下 Best, Yang SmileSmile 于2020年7月23日周四 下午2:43写道: > Hi Yang Wang > > 先分享下我这边的环境版本 > > > kub

Re: Flink 1.11 submit job timed out

2020-07-23 文章 SmileSmile
54]这两个JIRA并不会影响TM向RM注册时候的使用的地址 如果你想找到根本原因,那可能需要你这边提供JM/TM的完整log,这样方便分析 Best, Yang SmileSmile 于2020年7月23日周四 上午11:30写道: > > Hi Yang Wang > > 刚刚在测试环境测试了一下,taskManager没有办法nslookup出来,JM可以nslookup,这两者的差别在于是否有service。 > > 解决方案:我这边给集群加上了taskmanager-query-state-service.yaml(按照官网上是可选服务)

Re: Flink 1.11 submit job timed out

2020-07-22 文章 SmileSmile
Wang wrote: 我的意思就是你在Flink任务运行的过程中,然后下面的命令在集群里面起一个busybox的pod, 在里面执行 nslookup {ip_address},看看是否能够正常解析到。如果不能应该就是coredns的 问题了 kubectl run -i -t busybox --image=busybox --restart=Never 你需要确认下集群的coredns pod是否正常,一般是部署在kube-system这个namespace下的 Best, Yang SmileSmile 于2020年7月22日周三 下午7:57写道: > &

回复:flink 1.11 on kubernetes 构建失败

2020-07-22 文章 SmileSmile
的 如果你的日志里面一直在刷No hostname could be resolved for the IP address,应该是集群的coredns 有问题,由ip地址反查hostname查不到。你可以起一个busybox验证一下是不是这个ip就解析不了,有 可能是coredns有问题 Flink里面用的是InetAddress#getHostFromNameService来跟进IP地址获取FQDN的 Best, Yang SmileSmile 于2020年7月10日周五 下午1:10写道: > hi Yang > > 在1.10版本,running的作业

Re: Flink 1.11 submit job timed out

2020-07-22 文章 SmileSmile
发现 > Best, > Congxian > > > SmileSmile 于2020年7月21日周二 下午3:19写道: > > > Hi,Congxian > > > > 因为是测试环境,没有配置HA,目前看到的信息,就是JM刷出来大量的no hostname could be > > resolved,jm失联,作业提交失败。 > > 将jm内存配置为10g也是一样的情况(jobmanager.memory.pprocesa.size:10240m)。 > > > >

回复:flink 1.11 on kubernetes 构建失败

2020-07-22 文章 SmileSmile
我这边也验证了一下,在你所说的地方确实是ip:port,但是提交任务都是正常的 如果你的日志里面一直在刷No hostname could be resolved for the IP address,应该是集群的coredns 有问题,由ip地址反查hostname查不到。你可以起一个busybox验证一下是不是这个ip就解析不了,有 可能是coredns有问题 Flink里面用的是InetAddress#getHostFromNameService来跟进IP地址获取FQDN的 Best, Yang SmileSmile 于2020年7月10日周五 下午1:10写道

Re: Flink 1.11 submit job timed out

2020-07-21 文章 SmileSmile
Qiu wrote: Hi 如果没有异常,GC 情况也正常的话,或许可以看一下 pod 的相关日志,如果开启了 HA 也可以看一下 zk 的日志。之前遇到过一次在 Yarn 环境中类似的现象是由于其他原因导致的,通过看 NM 日志以及 zk 日志发现的原因。 Best, Congxian SmileSmile 于2020年7月15日周三 下午5:20写道: > Hi Roc > > 该现象在1.10.1版本没有,在1.11版本才出现。请问这个该如何查比较合适 > > > > | | > a511955993 > |

Re: Flink 1.11 submit job timed out

2020-07-15 文章 SmileSmile
Hi Roc 该现象在1.10.1版本没有,在1.11版本才出现。请问这个该如何查比较合适 | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 On 07/15/2020 17:16, Roc Marshal wrote: Hi,SmileSmile. 个人之前有遇到过 类似 的host解析问题,可以从k8s的pod节点网络映射角度排查一下。 希望这对你有帮助。 祝好。 Roc Marshal 在 2020-07-15 17:04:18,"SmileSmile"

Flink 1.11 submit job timed out

2020-07-15 文章 SmileSmile
Hi 使用版本Flink 1.11,部署方式 kubernetes session。 TM个数30个,每个TM 4个slot。 job 并行度120.提交作业的时候出现大量的No hostname could be resolved for the IP address,JM time out,作业提交失败。web ui也会卡主无响应。 用wordCount,并行度只有1提交也会刷,no hostname的日志会刷个几条,然后正常提交,如果并行度一上去,就会超时。 部分日志如下: 2020-07-15 16:58:46,460 WARN

回复:flink 1.11 on kubernetes 构建失败

2020-07-09 文章 SmileSmile
个是哪里的?正常TM列表akka地址 都是ip地址的 Best, Yang SmileSmile 于2020年7月10日周五 上午10:42写道: > hi yang wang > > 1.11版本的on kubernetes在hostname上有做什么变化吗? > > 作业运行的时候 flink ui上 tm变成ip:端口 > ,在1.10版本,ui上是 podname:端口。 > > 作业启动的时候,jm日志一直在刷 > > No hostname could be resolved for the IP

回复:flink 1.11 on kubernetes 构建失败

2020-07-08 文章 SmileSmile
ons [3] https://github.com/apache/flink-docker/blob/master/1.11/scala_2.11-debian/docker-entrypoint.sh | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年07月08日 16:38,SmileSmile 写道: hi yun tang! 没有对 /opt/flink/config 目录下的文件做写操作。 只是按照官网上的配置文件进行部署,镜像用的也是社区的镜像。 best! | | a511955993

回复:flink 1.11 on kubernetes 构建失败

2020-07-08 文章 SmileSmile
configmap里面的内容,这样挂载时候就会自动更新了。 祝好 唐云 From: SmileSmile Sent: Wednesday, July 8, 2020 13:03 To: Flink user-zh mailing list Subject: flink 1.11 on kubernetes 构建失败 hi 按照文档[1]的方法部署session cluster on kubernetes,集群构建的时候出现了如下报错 Starting Task Manager sed: couldn't open

flink 1.11 on kubernetes 构建失败

2020-07-07 文章 SmileSmile
hi 按照文档[1]的方法部署session cluster on kubernetes,集群构建的时候出现了如下报错 Starting Task Manager sed: couldn't open temporary file /opt/flink/conf/sedVdyy6Q: Read-only file system sed: couldn't open temporary file /opt/flink/conf/sedcj5VKQ: Read-only file system /docker-entrypoint.sh: 72:

回复:作业升级到flink1.11,idea运行失败

2020-07-07 文章 SmileSmile
groupId: org.apache.flink artifactId: flink-clients_${scala.binary.version} Best, Yangze Guo On Wed, Jul 8, 2020 at 11:27 AM SmileSmile wrote: > > > hi > > 作业的依赖从1.10.1升级到1.11.0,在idea运行的时候报错 > > Exception in thread "main" java.lang.IllegalStateException: No >

作业升级到flink1.11,idea运行失败

2020-07-07 文章 SmileSmile
hi 作业的依赖从1.10.1升级到1.11.0,在idea运行的时候报错 Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application. at org.apache.flink.core.execution.DefaultExecutorServiceLoader.getExecutorFactory(DefaultExecutorServiceLoader.java:84) at

回复:rocksdb的block cache usage应该如何使用

2020-07-07 文章 SmileSmile
-fill make 其次最好指定dump文件的输出地址,例如在 MALLOC_CONF中加上前缀的配置 prof_prefix:/tmp/jeprof.out ,以确保文件位置可写。 最后,由于你是在容器中跑,在容器退出前要保证相关文件能上传或者退出时候hang住一段时间,否则相关dump的文件无法看到了 祝好 唐云 From: SmileSmile Sent: Monday, July 6, 2020 14:15 To: Yun Tang Cc: user-zh@flink.apache.org Subject

jemalloc dump 内存

2020-07-06 文章 SmileSmile
hi,社区的各位,是否有配置过jemalloc? 目前在docker容器中放入编译过后的jemalloc,在flink的配置文件加入如下配置 containerized.taskmanager.env.LD_PRELOAD: /opt/jemalloc/lib/libjemalloc.so containerized.taskmanager.env.MALLOC_CONF: prof:true,lg_prof_interval:25,lg_prof_sample:17,prof_prefix:/opt/state/jeprof.out 结果生成不到对应的heap文件,

回复:rocksdb的block cache usage应该如何使用

2020-07-06 文章 SmileSmile
se%3A-Heap-Profiling [2] https://www.evanjones.ca/java-native-leak-bug.html 祝好 唐云 ________ From: SmileSmile Sent: Friday, July 3, 2020 15:22 To: Yun Tang Cc: user-zh@flink.apache.org Subject: 回复:rocksdb的block cache usage应该如何使用 Hi 作业只配置了重启策略,作业如果fail了,只会重启,没有恢复历史数据。 【

回复:rocksdb的block cache usage应该如何使用

2020-07-03 文章 SmileSmile
: Hi 如果是没有开启Checkpoint,作业是如何做到failover的?failover的时候一定需要从Checkpoint加载数据的。还是说你其实开启了Checkpoint,但是Checkpoint的interval设置的很大,所以每次failover相当于作业重新运行。 如果都没有从checkpoint加载数据,哪里来的历史数据呢?作业一旦发生failover,state backend的数据都需要清空然后再启动的时候进行加载。 祝好 唐云 From: SmileSmile Sent: Friday, July

回复:rocksdb的block cache usage应该如何使用

2020-07-03 文章 SmileSmile
usage的显示数值是否超过你的单个slot的managed memory,计算方法是 managed memory / slot数目,得到一个slot的managed memory,将该数值与block cache usage比较,看内存是否超用。重启之后容易被os kill,使用的是从savepoint恢复数据么? 祝好 唐云 From: SmileSmile Sent: Friday, July 3, 2020 14:20 To: Yun Tang Cc: Flink user-zh mailing list

回复:rocksdb的block cache usage应该如何使用

2020-07-03 文章 SmileSmile
cache均是一个,这样你可以根据taskmanager和subtask_index 作为tag来区分,你会发现在同一个TM里面的某个subtask对应的不同column_family 的block cache的数值均是完全相同的。所以不需要将这个数值进行求和统计。 祝好 唐云 From: SmileSmile Sent: Thursday, July 2, 2020 18:05 To: Flink user-zh mailing list Subject: rocksdb的block cache usage应该如何使用

回复:在没有开启Checkpoint的情况下,当作业重启时,历史数据是否会残留在内存中?

2020-07-03 文章 SmileSmile
释放。 有一个疑问,如果没有开启ck,作业恢复后是重新开始的,重启前的旧数据在rocksdb中是在如何清理的呢? | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年07月03日 14:02,Congxian Qiu 写道: 理论上作业重启后,会释放内存,这里的问题从描述看,重启后有内存没有释放。能否在重启后 dump 一下内存看看呢? 或者你这个问题能够完全重现吗?可否告知一下如何复现这个问题呢 Best, Congxian SmileSmile 于2020年7月3日周五 下午12:23写道

回复:在没有开启Checkpoint的情况下,当作业重启时,历史数据是否会残留在内存中?

2020-07-02 文章 SmileSmile
这种现象只会出现在on rocksdb中。 | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年07月03日 11:21,SmileSmile 写道: Hi 我的作业是运行在1.10.1, 使用的是event time ,没有开启checkPoint。每当作业重启一次,container memory usage会上涨2G,每重启一次就会上涨一些内存直到被OS kill。 历史数据的清理是在新event time到达之后调用 WindowOperator#onEventTime() 的

在没有开启Checkpoint的情况下,当作业重启时,历史数据是否会残留在内存中?

2020-07-02 文章 SmileSmile
Hi 我的作业是运行在1.10.1, 使用的是event time ,没有开启checkPoint。每当作业重启一次,container memory usage会上涨2G,每重启一次就会上涨一些内存直到被OS kill。 历史数据的清理是在新event time到达之后调用 WindowOperator#onEventTime() 的clearAllState实现清理,如果作业重启,又没有开启checkpoint,尚未被处理的历史数据是否一直残留在内存中无法清理? 是否有哪位大佬可以帮忙解惑? | | a511955993 | |

rocksdb的block cache usage应该如何使用

2020-07-02 文章 SmileSmile
通过 state.backend.rocksdb.metrics.block-cache-usage: true开启 rocksdb_block_cache_usage监控,上报到prometheus,对应的指标名称是 flink_taskmanager_job_task_operator_window_contents_rocksdb_block_cache_usage。 我们的作业一个TM的内存设置如下: taskmanager.memory.process.size: 23000m taskmanager.memory.managed.fraction: 0.4

??????????????????restart????????OOM

2020-06-30 文章 SmileSmile
??OOMmetaspaceOOM?? ---- ??:""https://issues.apache.org/jira/browse/FLINK-11205 SmileSmile

回复:作业因为异常restart后,频繁OOM

2020-06-30 文章 SmileSmile
:taskmanager.memory.off-heap: true. 目前来看,OOM被 kill 掉的问题没有在出现了。希望能帮到你。 Best, LakeShen SmileSmile 于2020年6月30日周二 下午11:19写道: > > 补充一下,内核版本为 3.10.x,是否会是堆外内存cache没被回收而导致的内存超用? > > > | | > a511955993 > | > | > 邮箱:a511955...@163.com > | > > 签名由 网易邮箱大师 定制 > > 在2

回复:作业因为异常restart后,频繁OOM

2020-06-30 文章 SmileSmile
补充一下,内核版本为 3.10.x,是否会是堆外内存cache没被回收而导致的内存超用? | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制 在2020年06月30日 23:00,GuoSmileSmil 写道: hi all, 我使用的Flink版本为1.10.1,使用的backend是rocksdb,没有开启checkpoint,运行在kubernetes平台上,模式是standalone。