Re: flink metrics的 Reporter 问题

2019-05-15 文章 Xintong Song
取hostname的第一部分是为了和hdfs的用法保持一致,可以参考一下当时的issue,作者专门提到了为什么要这么做。 https://issues.apache.org/jira/browse/FLINK-1170?focusedCommentId=14175285=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-14175285 Thank you~ Xintong Song On Wed, May 15, 2019 at 9:11 PM Yun Tang wrote

Re: 注册缓存文件的热更新问题

2019-07-04 文章 Xintong Song
你好, 这个应该是不可以的。 Thank you~ Xintong Song On Thu, Jul 4, 2019 at 4:29 PM 戴嘉诚 wrote: > 大家好: > > 我在flink中看到可以注册一个分布式缓存文件StreamExecutionEnvironment.registerCachedFile()然后可以广播到每个tm上给算子使用,那么我想问问,这个文件可以检测到文件更新了,然后会重新广播过去嘛?因为ip会可能会每天都有改变,所以ip库要每天都更新。 > >

Re: taskmanager faild

2019-04-21 文章 Xintong Song
Hi naisili, This is the user-zh mailing list, so if you speak Chinese you can ask questions in Chinese. If you prefer using English, you can send emails to u...@flink.apache.org. Hope that helps you. BTW, I think you forgot to attache the screenshot. Thank you~ Xintong Song On Mon, Apr 22

Re: taskmanager faild

2019-04-25 文章 Xintong Song
hi naisili, 我没有在你的邮件里看到任何附件、截图或者文字描述的错误,麻烦你再确认一次。 Thank you~ Xintong Song On Fri, Apr 26, 2019 at 10:46 AM naisili Yuan wrote: > 还是集群稳定性问题,发现了这个错误,我想问下是不是我配置集群高可用的问题,是否不依赖zookeeper会更稳定一点。 > 希望得到回复,谢谢! > > naisili Yuan 于2019年4月22日周一 下午2:23写道: > >> 不好意思,我忘记贴图了。 >>

Re: flink tasks在taskmanager上分布不均衡

2019-07-01 文章 Xintong Song
你好, 社区此前已经发现你所遇到的问题了,会在后续版本中修复,目前规划的是在1.7.3, 1.8.2, 1.9.0几个版本中修复。详情可以参考: https://issues.apache.org/jira/browse/FLINK-12122 Thank you~ Xintong Song On Tue, Jul 2, 2019 at 11:27 AM Ever <439674...@qq.com> wrote: > 我们测试环境的flink集群(flink 1.8),taskmanager有3个,每个有10个slot。 > > 然后我有一个jo

Re: Flink的Slot是如何做到平均划分TM内存的?

2019-07-01 文章 Xintong Song
you~ Xintong Song On Mon, Jul 1, 2019 at 8:59 PM 徐涛 wrote: > Hi All, > 在官方文档里面,有介绍说多个Slot之间可以平均划分TM内存。 > > 但是我在Flink的源代码里面并没有找到Slot平均划分TM内存的代码。而且不太明白的是,同一个JVM内,不同Slot平均划分内存的实现原理是什么? > 非常感谢! > > > 谢谢 > 徐涛

Re: Re: 有一些TaskManager的slot不可用,尽管没有任务正在运行

2019-08-12 文章 Xintong Song
你的问题描述比较笼统,最好是能提供一些详细的信息和日志,这样其他人才好帮助你。 例如你用的是哪个版本的flink,运行的是什么模式 (perjob / session),是在什么环境下运行的(standalone / yarn / mesos / k8s),是如何判断slot没有被释放的等。 Thank you~ Xintong Song On Mon, Aug 12, 2019 at 3:57 AM pengcheng...@bonc.com.cn < pengcheng...@bonc.com.cn> wrote: > 你好,谢谢,图片显示确实有问题,不

Re: 任务内存增长

2019-08-27 文章 Xintong Song
你用的是heap state backend吗?可以看下checkpoint size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。 另外,如果checkpoint size持续增长没有趋于平缓的趋势,那么也可能state的使用有问题。 如果观察到不是state的问题,那么可能需要dump下tm的内存,看看是否哪里有内存泄露的情况。 Thank you~ Xintong Song On Mon

Re: 任务内存增长

2019-08-27 文章 Xintong Song
这个邮件列表看不到图片附件的,文本内容可以直接贴出来,图片的话需要放外部链接 Thank you~ Xintong Song On Tue, Aug 27, 2019 at 5:17 PM 张坤 wrote: > > 感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。 > > 在 2019/8/27 下午5:02,“Xintong Song” 写入: > > 你用的是heap state backe

Re: 有一些TaskManager的slot不可用,尽管没有任务正在运行

2019-08-09 文章 Xintong Song
Hi, 邮件中的图片显示不出来。Flink邮件列表的图片附件是有点问题的,如果是截图最好上传到其他地方然后把链接贴出来。 Thank you~ Xintong Song On Fri, Aug 9, 2019 at 10:06 AM pengcheng...@bonc.com.cn < pengcheng...@bonc.com.cn> wrote: > 各位大佬: > > 有对这种情况比较了解的吗?任务结束后,一些slot并没有释放掉。 > > > 如图所示: > > > > > ---

Re: 怎么执行flink代码里边的测试用例

2019-09-29 文章 Xintong Song
首先你要进入测试所在module的目录,在你这个例子中是 flink-connnectors\flink-connector-kafka-base\ 然后执行 mvn -Dtest=KafkaProducerTestBase#testExactlyOnceCustomOperator test -Dtest=后面可以跟<类名>#<方法名>执行某个测试用例,也可以跟<类名>执行某个类的所有测试用例 Thank you~ Xintong Song On Sun, Sep 29, 2019 at 4:32 PM gaofei

Re: FLINK 1.9 + YARN+ SessionWindows + 大数据量 + 运行一段时间后 OOM

2019-12-17 文章 Xintong Song
你这个不是OOM,是 container 内存超用被 yarn 杀掉了。 JVM 的内存是不可能超用的,否则会报 OOM。所以比较可能是 RocksDB 的内存够用量增加导致了超用。 建议: 1. 增加如下配置 taskmanager.memory.off-heap: true taskmanager.memory.preallocate: false 2. 若果已经采用了如下配置,或者改了配置之后仍存在问题,可以尝试调大下面这个配置,未配置时默认值是0.25 containerized.heap-cutoff-ratio Thank you~ Xintong Song

Re: 如何限制blink中资源使用上限(perjob模式)

2019-10-20 文章 Xintong Song
你好, blink perjob模式是根据job的资源需求按需申请资源的,不能限制整个job的资源上限。 你列出来的这几个参数,只能控制单个TM的资源上限,但是单个TM的资源上限减少了,整个job的资源需求并不会变,只是会申请更多的TM。 Thank you~ Xintong Song On Sat, Oct 19, 2019 at 3:56 PM 蒋涛涛 wrote: > Hi all, > > 我在使用blink提交的任务的时候(perjob模式),如何限制任务的资源使用上限啊,有个任务使用yarn的vcores特别多 &

Re: Flink提jar包部署到Yarn上报错

2019-10-20 文章 Xintong Song
看报错是TM挂了,具体原因需要分析TM日志,有可能是上面答复中相同的问题,也有可能是其他原因造成的。 Thank you~ Xintong Song On Mon, Oct 21, 2019 at 11:36 AM hery...@163.com wrote: > 参考: > http://mail-archives.apache.org/mod_mbox/flink-user-zh/201905.mbox/%3c2019052911134683852...@wsmtec.com%3E > > > > hery.

Re: Flink 1.8 版本如何进行 TaskManager 的资源控制

2019-10-08 文章 Xintong Song
=' 。 Thank you~ Xintong Song On Tue, Oct 8, 2019 at 1:59 PM LakeShen wrote: > Flink任务自身无法隔离CPU,我想了一下,在内存方面,你可以结合用户输入的参数提前计算出来任务使用的内存大小,同样,VCore也是。 > 最近我们这边也准备限制用户申请的资源。 > > 龙逸尘 于2019年10月7日周一 下午4:50写道: > > > Dear community, > > 我搭建了一个实时计算平台,由于历史遗留问题,目前使用的 Flink 版本是社区版1

Re: Re: FLINK 1.9 + YARN+ SessionWindows + 大数据量 + 运行一段时间后 OOM

2019-12-18 文章 Xintong Song
,是针对 flink 1.9 及以前版本的。最新尚未发布的 flink 1.10 中资源配置部分做了比较大的改动,如果有兴趣的话可以等到发布之后关注一下相关的文档。 Thank you~ Xintong Song On Wed, Dec 18, 2019 at 4:49 PM USERNAME wrote: > @tonysong...@gmail.com 感谢回复 > 看了下参数的含义, > taskmanager.memory.off-heap: > 如果设置为true,TaskManager分配用于排序,hash表和缓存中间结果的内存位于JVM堆

Re: 通过代码修改taskmanager.memory.network配置

2020-02-13 文章 Xintong Song
ction]=" 的方式覆盖 flink-conf.yaml 中的默认配置。 Thank you~ Xintong Song On Fri, Feb 14, 2020 at 9:53 AM claylin <1012539...@qq.com> wrote: > 我想问下现在有方法通过在代码设置taskmanager.memory.network网络所使用的内存吗,我这里使用的是在yarn上执行yarn > session方式执行作业,如果不能通过代码在作业里修改内存配置,是不是只有在flink-conf.yaml修改内存配置,然后重启yarn-session,如果这样的话感觉很麻烦

Re: flink内存分配的问题

2019-12-31 文章 Xintong Song
FLINK TM 中是用到了大量的堆外内存的,除了通常意义的 JVM 的栈空间、方法区等堆外开销外,还包括网络 buffer、batch 缓存、RocksDB等。 默认配置是相对保守,为了保证大多数情况下预留出足够的堆外内存。具体是否设置过大了,要看具体运行的作业的情况。可以尝试通过配置'containerized.heap-cutoff-ratio'进行调整。 另外,即将发布的flink 1.10版本中对TM的内存计算进行了优化,不再采用cutoff而是根据用途列出了更具体的配置项,欢迎试用 Thank you~ Xintong Song On Tue, Dec 31

Re: Re: flink内存分配的问题

2020-01-02 文章 Xintong Song
我这边看不到你的图片,不知道是什么原因。 你可以用 ps 一下 TM 的 JVM 进程,看一下启动命令中 是否明确指定了 -XX:NewSize. 如果指定了,那需要检查一下你的配置是否在什么地方设置了 env.java.opts 或者 env.java.opts.taskmanager 如果没指定,那应该就是 JVM 自动设置的了。 Thank you~ Xintong Song On Thu, Jan 2, 2020 at 1:49 PM cs <58683...@qq.com> wrote: > 这个参数配置我是在tm的gc日志中看到的,fli

Re: Re: flink内存分配的问题

2020-01-01 文章 Xintong Song
我知道 -XX:NewSize 是 JVM 的参数。 我的意思是说,Flink 并没有自动地去设置 JVM 的这个参数,你是从哪里看到这个参数被设置成了 2442764288 的呢? Thank you~ Xintong Song On Thu, Jan 2, 2020 at 10:03 AM pengchenglin wrote: > 这个是jdk的参数,可以通过flink的env.java.opts配置 > > 发件人: Xintong Song > 发送时间: 2020-01-02 09:54 > 收件人: user-zh > 主题

Re: flink内存分配的问题

2020-01-01 文章 Xintong Song
我不确定你说的 -XX:NewSize=2442764288 是从哪里看到的,据我所知 flink 似乎没有设置这个参数。另外你用的 flink 版本是哪个版本? Thank you~ Xintong Song On Tue, Dec 31, 2019 at 8:52 PM cs <58683...@qq.com> wrote: > 谢谢您的回答,我还有个问题想请教下 > 当tm的内存超过一定大小,-XX:NewSize的大小都是一样的 > 例如tm设置15G -XX:NewSize=2442764288 > tm设置20G

Re: Flink1.9批任务yn和ys对任务的影响

2019-12-25 文章 Xintong Song
slot需要多少内存是和具体作业相关的,不同作业差别会比较大。 slot的资源需求是根据所有算子的资源需求相加得到的,如果你对你的作业用到了哪些算子比较了解的话,可以根据算子的资源需求推算出来。 算子的默认资源需求可以参考 [1],里面有五个“table.exec.resource.*”的配置项,也可以调整这些配置项来更改算子使用的内存。 如果对作业使用到的算子不是很了解的话,那比较简单的办法还是直接提交作业试试看,去日志里面搜"Request slot with profile"就能够看到slot的资源需求。 Thank you~ Xintong Song

Re: Flink1.9批任务yn和ys对任务的影响

2019-12-24 文章 Xintong Song
Hi faaron, Flink 1.9 中 -yn参数应该是不生效的,后续版本中已经删除了这个参数。 根据你的参数,在每个 TM 的内存为30G不变的情况下,每个 TM 中的slot个数(-ys)从5变成10,也就意味着平均每个slot占用的内存变为了原来的一半。 Flink 1.9 的sql batch 算子对 flink managed memory 是有确定的需求的,很可能是这个变化导致单个 slot 的managed memory无法满足算子的资源需求了。 Thank you~ Xintong Song On Wed, Dec 25, 2019 at 11:09 AM

Re: The assigned slot bae00218c818157649eb9e3c533b86af_11 was removed

2019-12-24 文章 Xintong Song
这个应该不是root cause,slot was removed通常是tm挂掉了导致的,需要找下对应的tm日志看下挂掉的原因。 Thank you~ Xintong Song On Tue, Dec 24, 2019 at 10:06 PM hiliuxg <736742...@qq.com> wrote: > 偶尔发现,分配好的slot突然就被remove了,导致作业重启,看不出是什么原因导致?CPU和FULL GC都没有,异常信息如下: > > org.apache.flink.util.FlinkException: Th

Re: Flink On K8s, build docker image very slowly, is there some way to make it faster?

2019-12-22 文章 Xintong Song
t;, change the line "FROM openjdk:8-jre-alpine" to point to a domestic or local image source. Thank you~ Xintong Song On Mon, Dec 23, 2019 at 2:46 PM LakeShen wrote: > Hi community , when I run the flink task on k8s , the first thing is that > to build the flink task jar

Re: slot询问

2019-12-27 文章 Xintong Song
可以通过 “yarn.containers.vcores” 配置每个 TM 的 CPU。 这个配置项如果不配,默认是用slot数量,1.8 应该也是这个行为才对。 Thank you~ Xintong Song On Fri, Dec 27, 2019 at 5:11 PM 戴嘉诚 wrote: > 大家好: >我在的Flink是在yarn上跑,在yarn上部署了个yarn-session,命令如下: > ./yarn-session.sh -jm 5120m -tm 10240m -s 30 -d -st > > >

Re: scaling issue Running Flink on Kubernetes

2020-03-10 文章 Xintong Song
~ Xintong Song On Wed, Mar 11, 2020 at 10:37 AM Eleanore Jin wrote: > _Hi Xintong, > > Thanks for the prompt reply! To answer your question: > >- Which Flink version are you using? > >v1.8.2 > >- Is this skew observed only after

Re: Re: Flink 内存类型相关疑问

2020-03-09 文章 Xintong Song
t 和 native内存)其中的native内存,以及1.10里managed memory使用的native > 内存,是不是也无法在metrics里展示使用情况? Task/Framework OffHeap 也无法在 metrics 里展示。Managed Memory 理论上 Flink 自己有统计,我们也在考虑增加相应的 metrics 展示,目前的话也还是看不到的。 第二个是我看到metrics里directMemoryUsed总是和所配置的direct内存大小是一样的,不知道具体原因是啥? 要看你所说的“所配置的direct内存大小”是指什么? Thank

Re: Flink 内存类型相关疑问

2020-03-09 文章 Xintong Song
> > 这里的“所配置的direct内存”,是指按照task.manager.network.memory.fraction计算得到的network > memory大小。我想是不是这部分内存按照memory segment全部预分配了,所有metrics里显示的是全部是被Used了? 是的,Network Buffer Pool 是在 TM 初始化时预申请好的。在所有内存类型中,只有 Network Memory 是预申请的。Managed Memory 1.9 以前是有一个配置可以预申请(默认不开),1.10 起不再支持预申请。 Thank you~ Xin

Re: Flink 内存类型相关疑问

2020-03-09 文章 Xintong Song
on 这个需求完全可以通过修改 network.fraction 和 managed.fraction 来实现,设置 Network 和 Managed 用的内存少了,那么总内存中多出来的部分自然就留给 Heap 了。 Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/memory/mem_setup.html On Tue, Mar 10, 2020 at 11:40 AM zhisheng wrote: > hi, xintong > > 刚才

Re: Flink 内存类型相关疑问

2020-03-08 文章 Xintong Song
示也正是为了解决这个问题。但即便如此,受 JVM 内存机制本身的限制,恐怕也很难做到每个部分都完全匹配到对应的 metrics 上。 3. 这个应该是存在 state 里的,具体用哪种类型的内存取决于你的 State Backend 类型。MemoryStateBackend/FsStateBackend 用的是 Heap 内存,RocksDBStateBackend 用的是 Native 内存,也就是 1.10 中的 Manage Memory。 Thank you~ Xintong Song On Sun, Mar 8, 2020 at 4:49 PM pkuvisdudu

Re: Flink 内存类型相关疑问

2020-03-09 文章 Xintong Song
10是不会变化的。1.9以前的话,TM会在进程启动并初始化之后触发一次GC,然后以GC后的空闲内存作为Heap内存重新算一遍managed、network内存应该多大。 Thank you~ Xintong Song On Mon, Mar 9, 2020 at 3:23 PM pkuvisdudu wrote: > 非常详细的解答,非常感谢~~ > > 还有一些小疑问。图1中的Direct类型里面所包含的framework offheap、task offheap以及shuffle就是您讲的“不在 > JVM 堆上但受到 JVM 管理的内存:Direct

Re: Flink On Yarn , ResourceManager is HA , if active ResourceManager changed,what is flink task status ?

2020-04-15 文章 Xintong Song
Normally, Yarn RM switch should not cause any problem to the running Flink instance. Unless the RM switch takes too long and Flink happens to request new containers during that time, it might lead to resource allocation timeout. Thank you~ Xintong Song On Wed, Apr 15, 2020 at 3:49 PM LakeShen

Re: Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 Xintong Song
启动命令看起来是对的。 你说的不起作用,具体是什么现象呢? Thank you~ Xintong Song On Tue, Apr 14, 2020 at 2:05 PM guanyq wrote: > ./bin/flink run -m yarn-cluster \-ynm TestDataProcess \-ytm 666 > \-yjm 666 \-c > com.data.processing.unconditionalacceptance.TestDataProcess &

Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 Xintong Song
你邮件里的图片没有显示出来。 建议把完整的启动命令贴一下。 Thank you~ Xintong Song On Tue, Apr 14, 2020 at 1:11 PM guanyq wrote: > flink 提交jar包是 指定-ytm不起作用。想知道什么原因? > > > >

Re: flink 内存溢出 如何排查

2020-04-06 文章 Xintong Song
你说的这种情况,只能是分析 jvm heap dump 看下内存都用在哪里了。 可以试下配置 env.java.opts 添加 -XX:+HeapDumpOnOutOfMemoryError。 Thank you~ Xintong Song On Mon, Apr 6, 2020 at 3:30 PM 欧阳苗 wrote: > 你好, > 我看了下这篇文档,但是只给出了加大jvm的内存,但是我更想知道的是该如何排查哪一部分代码造成的内存溢出,请问有什么方法吗。 > 其次我这里的环境是,flink on k8s, 单机版。有一个服务是专门远程flink jo

Re: flink 内存溢出 如何排查

2020-04-06 文章 Xintong Song
你好, 请参考官方文档:部署与运维/内存配置/常见问题/OutOfMemoryError: Java heap space https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/memory/mem_trouble.html#outofmemoryerror-java-heap-space Thank you~ Xintong Song On Mon, Apr 6, 2020 at 12:33 AM 欧阳苗 wrote: > 2020-04-04 18:58:41.515 ERRO

Re: Question about the flink 1.6 memory config

2020-03-31 文章 Xintong Song
environment and workloads. For standalone clusters, the cut-off will not take any effect. For containerized environments, depending on Yarn/Mesos configurations your container may or may not get killed due to exceeding the container memory. Thank you~ Xintong Song On Tue, Mar 31, 2020 at 5:34 PM

Re: [Third-party Tool] Flink memory calculator

2020-03-29 文章 Xintong Song
cluster, but does not cover the scenarios of session clusters. Thank you~ Xintong Song On Mon, Mar 30, 2020 at 12:03 PM Yangze Guo wrote: > Thanks for your feedbacks, @Xintong and @Jeff. > > @Jeff > I think it would always be good to leverage exist logic in Flink, such > as JobLi

Re: Flink1.10执行sql超出内存限制被yarn杀掉

2020-03-29 文章 Xintong Song
> > file模式用的是direct中哪一部分memory > 这部分内存开销按理说应该是归在 Network Memory,但是目前并没有,只能通过 Framework / Task Off-Heap 来配置。你可以关注一下 FLINK-15981 [1] 。 Thank you~ Xintong Song [1] https://issues.apache.org/jira/browse/FLINK-15981 On Sat, Mar 28, 2020 at 9:25 AM faaron zheng wrote: > > Hi,感谢大家的回复

Re: [Third-party Tool] Flink memory calculator

2020-03-29 文章 Xintong Song
Thanks Yangze, I've tried the tool and I think its very helpful. Thank you~ Xintong Song On Mon, Mar 30, 2020 at 9:40 AM Yangze Guo wrote: > Hi, Yun, > > I'm sorry that it currently could not handle it. But I think it is a > really good idea and that feature would be added

Re: flink 内存设置问题-metaspace 溢出

2020-04-29 文章 Xintong Song
> > 这是我在gceasy分析出来的报告,看了log,确实是加大内存时候,出现的,第一次去看这个log,还请大佬帮忙看看,附件也上传了log了。 你这个只有 process.size=65536m 的时候的日志吧,我的意思是说 process.size=1568m 的时候 full GC 应该也存在,只不过单次时间会更短。 另外你这个也不是发生 metaspace oom 时候的日志吧,从你的这个日志上看,metaspace 才用了不到 80m,最大是 256m。 Thank you~ Xintong Song On Wed, Apr 29, 2020 a

Re: flink 内存设置问题-metaspace 溢出

2020-04-28 文章 Xintong Song
~ Xintong Song On Wed, Apr 29, 2020 at 12:27 PM 了不起的盖茨比 <573693...@qq.com> wrote: > 除了 memory增加,其余配置还是使用默认的。就是不明白,为什么我内存增加了,反而会出现full > gc情况,之后taskmanager失去心跳,然后继续提交job,出现metaspace溢出这个情况。 > 在使用默认配置内存时候反而是没有出现fullgc。想明白其中缘由。 > > > > > > ------原始邮件--

Re: flink 内存设置问题-metaspace 溢出

2020-04-28 文章 Xintong Song
Metaspace OOM 通常是 JVM 加载的类过多导致的。TM 内存从 1568m 增大到 65536m,是否有增加 slot 的数量呢?这个有可能造成运行时加载的类变多,metaspace 大小不变的情况下也可能会触发 OOM。 目前社区已经收到许多反馈,关于 1.10.0 的默认 metaspace 大小可能不太合理,在 1.10.1 中会调大这个默认值。你这边也可以先把 taskmanager.memory.metaspace.size 调到 256m 试一试。 Thank you~ Xintong Song On Tue, Apr 28, 2020 at 7:21

Re: Flink on k8s ,设置 taskmanager.heap.mb 对于 jvm 启动堆大小不生效

2020-04-23 文章 Xintong Song
抱歉,我刚刚说的是 docker-compose.yaml 是只用 docker 不用 kubernetes 的情况。 对于 kubernetes,如果你是按照官方文档[1]推荐的方法部署 flink 的,那么直接把这个参数加在 taskmanager-deployment.yaml 的 args 处应该就可以了。 > args: - taskmanager *- Dtaskmanager.heap.size=2000m* Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-d

Re: Flink on k8s ,设置 taskmanager.heap.mb 对于 jvm 启动堆大小不生效

2020-04-23 文章 Xintong Song
应该没有其他地方去写 flink-conf.yaml,能把具体用来打镜像、动态写配置的命令或者脚本发一下吗? 另外你这个问题还有一种解决方案,是 taskmanager.heap.mb 通过 -D 参数传给 taskmanager.sh。可以在 docker-compose.yaml 中 taskmanager command 处追加 -Dtaskmanager.heap.mb=2000m Thank you~ Xintong Song On Thu, Apr 23, 2020 at 5:59 PM LakeShen wrote: > Hi 社区, > &

Re: Flink Task Manager GC overhead limit exceeded

2020-05-03 文章 Xintong Song
https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/mem_setup.html Thank you~ Xintong Song On Fri, May 1, 2020 at 8:35 AM shao.hongxiao <17611022...@163.com> wrote: > 你好,宋 > Please refer to this document [1] for more details > 能发一下具体链接吗,我也发现flink ui上显示的内存参数不太对,我想仔细

Re: flink 1.10内存设置

2020-04-27 文章 Xintong Song
Managed 用的是 native memory,是不受 JVM 管理的,因此不会体现在 JVM 的启动参数上。可以参考一下邮件列表里之前的讨论内容[1]。 Thank you~ Xintong Song [1] http://apache-flink.147419.n8.nabble.com/Flink-tt1869.html <http://apache-flink.147419.n8.nabble.com/Flink-tt1869.html#a1872> On Tue, Apr 28, 2020 at 9:32 AM 蒋佳成(Jiacheng Jiang) &

Re: flink 1.10内存设置

2020-04-26 文章 Xintong Song
由 Flink 负责管理申请、分配、释放的,不依赖于 JVM 的垃圾回收机制。托管内存目前仅用于 RocksDBStateBackend 和部分 Batch 算子,与你现在遇到的 direct oom 的问题无关。 Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/memory/mem_detail.html [2] https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh

Re: Flink Task Manager GC overhead limit exceeded

2020-04-29 文章 Xintong Song
path '/dumps/oom.bin' a local path of the pod or a path of the host mounted onto the pod? The restarted pod is a completely new different pod. Everything you write to the old pod goes away as the pod terminated, unless they are written to the host through mounted storage. Thank you~ Xintong Son

Re: Flink Task Manager GC overhead limit exceeded

2020-04-29 文章 Xintong Song
I suspect there might be some argument passing problem regarding the spaces and double quotation marks. Thank you~ Xintong Song On Thu, Apr 30, 2020 at 11:39 AM Eleanore Jin wrote: > Hi Xintong, > > Thanks for the detailed explanation! > > as for the 2nd question: I mount it to

Re: exception:beyond the 'PHYSICAL' memory limit

2020-05-08 文章 Xintong Song
native 内存的 libaray。 Thank you~ Xintong Song On Fri, May 8, 2020 at 1:16 PM tiantingting5...@163.com < tiantingting5...@163.com> wrote: > 最近用flink1.10写一个流任务,大致的逻辑,是将数据清洗以后写入hbase,中间不需要保存任何状态 > 这里是启动脚本: > export HADOOP_CONF_DIR=/etc/hadoop/conf > export HADOOP_CLASSPATH=/opt/cl

Re: 有什么方式可以获得各个task占用内存情况呢

2020-05-15 文章 Xintong Song
Hi Jeff, Flink 目前没有 task 级别的内存统计。原因是运行在同一个 JVM 进程中的不同线程的内存开销,是很难区分开的。如果真要逐个线程进行内存分析,代价会比较高,不适合在运行时进行统计。如果需要对 task 的内存开销进行深入分析的话,可能需要借助一些 profiling 工具对某一时刻的 heap dump 进行分析。 Thank you~ Xintong Song On Fri, May 15, 2020 at 2:52 PM Jeff wrote: > hi all, > > > 我用per-job方式提交了一批任务,请问有

Re: flink 1.10内存设置

2020-05-06 文章 Xintong Song
内存申请是在 MemoryUtils#allocateUnsafe 。这里面最重要的是要通过 Unsafe 的 private static field 拿到 Unsafe 对象,这部分逻辑是在 MemoryUtils#getUnsafe 。 Thank you~ Xintong Song On Wed, May 6, 2020 at 5:41 PM 蒋佳成(Jiacheng Jiang) <920334...@qq.com> wrote: > hi Xintong,你能够告诉我flink中申请managed memory相关代码是在哪个类中吗?我想看看fli

Re: flink 1.10.0中内存分配问题和超时问题

2020-03-23 文章 Xintong Song
taskmanager.memory.managed.fraction 设成 0. 你也可以先参考一下官方文档中的升级指南[1]。 Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/memory/mem_migration.html On Mon, Mar 23, 2020 at 3:29 PM chenxyz wrote: > > 有没有配置TaskManager的MaxMetaspaceSize呢?1.10默认的MaxMetaspaceS

Re: 如何提升任务cpu使用率

2020-03-24 文章 Xintong Song
你的 Flink 版本是什么?运行环境是 Yarn? 降低 slot 数并不能提高 cpu 的使用率。默认情况下 yarn container 申请 vcore 数等于 slot 数,降低 slot 数相当于等比例地降低了每个 container 的 cpu 资源和计算需求。如果想提高 cpu 的使用率,可以考虑让 container 的 vcore 数少于 slot 数。通过 ‘yarn.containers.vcores’ 可以设置 container 的 vcore 数不用默认的 slot 数。 Thank you~ Xintong Song On Tue, Mar 24

Re: flink 1.10内存设置

2020-05-07 文章 Xintong Song
MaxDirectMemorySize,二是 JVM 会保证 DirectByteBuffer 被销毁的时候会向 OS 去释放这段内存。 Native 内存需要我们自己保证内存的释放,在 Flink 中由于申请到的 Native 内存也是封装在 DirectByteBuffer 里的,所以这部分内存的释放是通过给 DirectByteBuffer 设置 cleaner 实现的。详见 `MemorySegmentFactory#allocateOffHeapUnsafeMemory` Thank you~ Xintong Song On Fri, May 8, 2020 at 10:48 AM 蒋佳成

Re: exception:beyond the 'PHYSICAL' memory limit

2020-05-08 文章 Xintong Song
也可以尝试按照下面的方法进一步调大 native 内存。 1. taskmanager.memory.task.heap.size 进一步调小,比如 1.5g 或 1g 2. taskmanager.memory.jvm-overhead.max 调大以避免冲突,建议先调成 4g 另外你说这个问题是作业运行一段时间后发生的,具体是多长时间发生的呢?也可以考虑先把 -ytm 调得很大,观察一下 container 的内存用量是如何增长的。如果持续增长不收敛,那有可能是存在内存泄漏的问题。 Thank you~ Xintong Song On Fri, May 8, 2020

Re: TM太多,作业运行失败问题

2020-05-20 文章 Xintong Song
有没有可能是 pod ip 数不够了,或者 pod 上的 ip table 限制了 entry 数量之类的? Thank you~ Xintong Song On Wed, May 20, 2020 at 6:44 PM wrote: > hi,xintong > > 我这边观察到的现象,从系统日志上没有找到被内核oom > kill的日志。作业cancel掉后,失联的tm会重连上来,pod没有被kill掉。初步怀疑是网络层面的问题,感觉是cni有什么限制。 > > thanks~ > > > > > | |

Re: 退订

2020-09-09 文章 Xintong Song
你好, 退订需要发邮件到 user-zh-unsubscr...@flink.apache.org Thank you~ Xintong Song On Thu, Sep 10, 2020 at 10:03 AM 邢明浩 wrote: > 退订

Re: flink 1.11 taskmanager实际占用内存超出配置太多

2020-09-09 文章 Xintong Song
的建议 [1]。 Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/memory/mem_trouble.html#%E5%AE%B9%E5%99%A8container%E5%86%85%E5%AD%98%E8%B6%85%E7%94%A8 On Thu, Sep 10, 2020 at 12:54 PM Z-Z wrote: > 补充一下,是用的rocksdb做状态存储 > > > > >

Re: flink on yarn 内存

2020-10-08 文章 Xintong Song
比实际需要的 direct 内存大,却不一定会用满 maxDirectMemorySize 指定的内存大小,因为即使没有达到上限,不用的 direct 内存还是会随着 GC 被释放掉。 Thank you~ Xintong Song On Tue, Oct 6, 2020 at 9:58 PM 蒋佳成(Jiacheng Jiang) <920334...@qq.com> wrote: > 大家好: > 我有个flink on > yarn的内存问题,flink版本是1.7.2,因此没有新的内存模型。在on > yarn模式下,taskm

Re: flink on yarn 内存

2020-10-08 文章 Xintong Song
direct 内存用量触及 maxDirectMemorySize 只是触发 GC 的一个条件,其他像 heap 空间不足、metaspace 空间不足也都有可能触发 GC。一般情况下,heap 上的内存申请释放活动会更加活跃,会比 direct 内存更早触发 GC。当然也不排除在一些特殊的情况下,direct 内存会先达到上限,因此还是存在 container 超用的可能的。 Thank you~ Xintong Song On Fri, Oct 9, 2020 at 11:45 AM 蒋佳成(Jiacheng Jiang) <920334...@qq.com>

Re: 关于内存大小设置以及预测

2020-10-19 文章 Xintong Song
事前估算是比较难的,不同作业差别可能会很大。 如果只是 heap oom 的话,没必要调大整个 JM/TM 的内存,可以只针对 heap 部分进行调整。 可以参考一下这篇文档 [1]。 Thank you~ Xintong Song [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/memory/mem_tuning.html On Sun, Oct 18, 2020 at 8:54 PM guangyong yang wrote: > 可以使用jvm自带命令jstat

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
掉再重启 yarn-session 吗? 或者集群上是否有资源可以不停当前 session 再新起一个下看是否能正常工作?资源应该够的吧,这么长时间的话之前起的 TM 应该都释放了。 Thank you~ Xintong Song On Tue, Aug 25, 2020 at 7:05 PM song wang wrote: > 你好, > 现在yarn-session上还是可以提交新作业的。只是运行时无法分配slot,报错无法解析 resourcemanager 地址。 > > 如果是RM leadership丢失的话, > 1. 怎么可以确认

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
另外,可以看下 TM 日志。如果有正在运行的 TM,那么说明 RM 和 TM 之间的心跳是正常的,也就证明 RM 是没有问题的。如果没有 TM 在运行,有可能是因为长时间空闲没有任务运行被释放了,可以找最近被释放的 TM 的日志看下是因为心跳超时释放的,还是空闲超市 RM 主动释放的。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 11:07 AM Xintong Song wrote: > 这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
ter,由于没有发现有新的 RM leader,就会一直尝试重连原来的 RM,而对于 rest server 的表现则是找不到新的 leader 无法提交新的作业。 Thank you~ Xintong Song On Tue, Aug 25, 2020 at 4:50 PM song wang wrote: > hi, Xintong: > > 我仔细查看了下日志,发现在报错"Could not resolve ResourceManager address"之前有如下日志: >

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-25 文章 Xintong Song
这个报错看起来是 RM 和 RestServer 服务都是正常的,反倒是 JobMaster 没有拿到 leader,所以 RM 没有响应 JM 的请求。 你看下最早出现心跳超时 RM-JM 连接断开的时候,jobmanager 日志里面有没有 "Disconnect job manager xxx for job xxx from the resource manager." 这样的信息,描述的是 RM 主动断开了与 JM 的连接。 另外,ZK 这个报错是只出现了一次,还是对每个提交后无法调度的作业都出现了? Thank you~ Xintong Song

Re: flink1.11单机执行slot出错

2020-08-25 文章 Xintong Song
是单机运行 standalone 模式吗?感觉像是 TM 没起来。 jps 以下看看 TM 起来了没有,如果没起来的话找下 TM 日志看看具体原因是什么。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 9:25 AM 小学生 <201782...@qq.com> wrote: > 麻烦请教一个问题,在单机的Linux下运行,任务报这个错误,怎么解决呢? > java.util.concurrent.Complet

Re: flink 1.10 如何监控 Managed memory 使用量

2020-08-24 文章 Xintong Song
这个问题已经有相关的邮件讨论 [1] 和 jira issue [2] 了。目前应该是在方案细节上还没有完全讨论清楚。 Thank you~ Xintong Song [1] http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-FLIP-102-Add-More-Metrics-to-TaskManager-td37898.html [2] https://issues.apache.org/jira/browse/FLINK-14431 On Tue, Aug 25, 2020 at 11:45

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song
按照我们目前掌握的信息,我这边的初步判断是 ZK 的问题。至于具体 ZK 什么问题,建议你咨询一下 ZK 的专家,看一下为什么节点 create 不成功。这方面我也不是很熟悉。 Thank you~ Xintong Song On Wed, Aug 26, 2020 at 4:42 PM song wang wrote: > 你好,报错之前是有这个jobmanager 日志的, > 2020-08-22 05:35:32,944 INFO org.apache.flink.yarn.YarnResourceM

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-26 文章 Xintong Song
ZK 日志里有 TaskExecutor 节点创建失败的相关信息吗? 另外,你这个 yarn-session 是什么时间创建的,运行多久啦? 如果是zk 问题的话,我理解影响的应该是所有的yarnsession,可是只有这一个有问题 > 这个不一定的,ZK 的问题不见得是整个服务不可用,可能是与当前应用相关的某个状态出现了问题,造成只有这个作业的后续服务受到影响。 我这边也只能是根据你的描述猜测可能的原因。是否方便提供下完整的 JM 日志,我这边看下是否能有所发现? Thank you~ Xintong Song On Wed, Aug 26, 2020 at 5:16

Re: flink1.11任务资源分批

2020-08-18 文章 Xintong Song
目前 flink 是不支持运行时扩缩容的。 如果要做的话,只能是从外部根据 metrics 判断反压,然后停掉之前的作业,修改并发后再重新提交作业,从之前的 checkpoint 恢复。 目前社区正在准备一项 declarative resource management 的工作,让 flink 作业的并发度自动适配可用资源。这项工作完成后,可以通过从外部调整可用资源数量来调整作业的并发度。 Thank you~ Xintong Song On Mon, Aug 17, 2020 at 11:34 AM Dream-底限 wrote: > hi、 >

Re: flink 1.10.1 跑批任务 OutOfMemoryError: Metaspace

2020-08-18 文章 Xintong Song
按你的描述,应该是存在类加载泄露的问题。也就是说,由于某些原因,导致之前作业加载的类,没能被释放掉,致使类元数据积累越来越多,metaspace 空间不足。 具体泄露的原因还是需要根据 dump 分析,通常是作业用到的第三方依赖导致的,这种情况 flink 是没法强行清除加载类的。 Thank you~ Xintong Song On Mon, Aug 17, 2020 at 6:38 PM 胡松 wrote: > hi all > 使用flink 1.10.1 每10分钟跑一个批任务,但是跑一天后重复复现报错 > 2020-08-15

Re: flink 1.10.1 跑批任务 OutOfMemoryError: Metaspace

2020-08-19 文章 Xintong Song
@胡松 图片显示不出来,你可能需要借助一些第三方的图床工具 Thank you~ Xintong Song On Thu, Aug 20, 2020 at 9:24 AM codeleven wrote: > 你好,不知道你得问题解决了没有 > 我在使用Flink得时候也遇到了类似得问题,主要是mysql重复加载导致的问题。 > 这是我的解决方案,如果对你有帮助,我感到很高兴: > Flink-MetaSpace OOM <https://www.yuque.com/codeleven/flink/dgygq2> > >

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Xintong Song
Congratulations Dian~! Thank you~ Xintong Song On Thu, Aug 27, 2020 at 7:42 PM Jark Wu wrote: > Congratulations Dian! > > Best, > Jark > > On Thu, 27 Aug 2020 at 19:37, Leonard Xu wrote: > > > Congrats, Dian! Well deserved. > > > > Best > > Le

Re: flink 1.10 如何监控 Managed memory 使用量

2020-08-24 文章 Xintong Song
于流处理, - 使用 rocksdb state backend 时, - rocksdb 默认也是根据 managed memory 的大小决定申请多大的缓存。 - 此外,为了兼容此前版本的行为,rocksdb 也支持不根据 managed memory 决定内存大小。这种情况下,可以监控 rocksdb 本身的 metrics 判断内存用量 - 使用其他 state backend 的时候,不会用到 managed memory,应该配置为 0. Thank you~ Xintong Song

Re: flink taskmanager 因为内存超了container限制 被yarn kill 问题定位

2020-08-24 文章 Xintong Song
是无法控制这部分内存的用量的,只能是通过预留足够多的内存的方式,防止 container 超用。 Thank you~ Xintong Song On Mon, Aug 24, 2020 at 8:56 PM 柯四海 <2693711...@qq.com> wrote: > 我不是在做测试,公司flink是别人用的blink 分支编译的,我最近也有切换到 flink 1.11 来运行的打算, 我用flink 1.11 > 来试试. > > > > > --原

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song
按你的描述,我理解是在 yarn 上起了一个 flink session,然后往这个 session 里提交作业,一开始能正常提交运行,后来再作业开始出现问题? 具体问题的原因还是要看日志才能确定,这个有可能是 ResourceManager,也有可能是 HA 或者 Akka 的问题,仅凭现象描述很难判断。 Thank you~ Xintong Song On Tue, Aug 25, 2020 at 10:23 AM song wang wrote: > > 你好,这个报错是任务启动了很长一段时间后才发生的,之前一直正常运行,出现这个报错后就提交不了任

Re: 报错 Could not resolve ResourceManager address akka.tcp://flink@hostname:16098/user/resourcemanager

2020-08-24 文章 Xintong Song
从日志上看是 JobMaster 连不上 ResourceManager。这两个组件应该是在同一个进程内的,通过 akka 进行本地通信。 需要看下完整的日志,RM 是否成功启动并注册到了 akka 的 actor system,以及注册的路径是否和 JM 尝试连接的路径一致。 Thank you~ Xintong Song On Mon, Aug 24, 2020 at 3:41 PM song wang wrote: > 各位老哥, flink > 运行在yarn上,偶尔报错无法解析ResourceManager地址,可是从对应的host上查找是有flin

Re: flink on yarn默认GC的问题

2020-08-24 文章 Xintong Song
taskmanager.sh 是 standalone 模式使用的启动脚本。docker 模式和老的 kubernetes session 模式本质上也可以看做是 standalone 模式,也会用到这些脚本。 而 yarn 和新的 native kubernetes 则都是由 client 向集群提交应用的时候指定启动命令,默认是没有指定的 GC collector 的。 Thank you~ Xintong Song On Mon, Aug 24, 2020 at 5:26 PM shizk233 wrote: > Hi all, > > 请教一下,fl

Re: flink1.10以后,task堆外内存什么时候使用?

2020-08-24 文章 Xintong Song
应该是在用户代码使用堆外内存的时候指定 flink 框架的堆外内存是涵盖在 taskmanager.memory.framework.off-heap.size Thank you~ Xintong Song On Mon, Aug 24, 2020 at 4:27 PM caozhen wrote: > 如题,想问下大家task堆外内存设置规则(taskmanager.memory.task.off-heap.size) > > 1、是用户代码中指定了使用堆外内存吗? > 2、还是flink框架中在某种情况下使用堆外内存? > >

Re: 资源均衡问题

2020-09-21 文章 Xintong Song
Flink 现阶段并不支持你说的这种针对特定算子的负载均衡。如果采用默认的 slot sharing 策略,是可以通过调整每台机器上的 tm 和 slot 个数来控制 cluster 总共只有 15 个 slot,这样可以保证 C 在 5 台机器上是均衡的。但是 B 目前是没有比较好的方法保证的。 Thank you~ Xintong Song On Mon, Sep 21, 2020 at 5:45 PM 赵一旦 wrote: > > 当前的flink资源分配问题。我一个任务3个算子,算子A并行度为1,算子B并行度为10,算子C并行度15。集群5台机器。我怎么保

Re: 资源均衡问题

2020-09-21 文章 Xintong Song
难以解决。相关前置任务有些已经在进行中或已完成(如 FLIP-119/FLIP-138/FLINK-18689 等),有些则还在设计讨论阶段。 Thank you~ Xintong Song On Tue, Sep 22, 2020 at 1:17 PM 赵一旦 wrote: > 本身我的任务复杂点,CPU IDLE 正常在 80 - 90 %,每五分钟窗口闭合时刻CPU IDLE会降到 20-30 > %。如果运气不好,任务再不均衡点,部分机器会存在短时间卡死状态,长久下去很容器导致flink进程失败。 > > 赵一旦 于2020年9月22

Re: flink on yarn NM JVM内存

2020-09-24 文章 Xintong Song
应该和 flink 的 JM/TM/rocksdb 没有直接关系。不排除反复起停任务给 NM 造成了一定的压力。建议你去 hadoop 社区的邮件列表问问看。 Thank you~ Xintong Song On Thu, Sep 24, 2020 at 11:52 AM superainbower wrote: > Hi, 大家好 > 我有个flink任务在yarn上跑,statebackend是rocksdb,由于是测试,所以一段时间内我反复起停了任务,后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警(没有其他错误日志),此时我查

Re: TM太多,作业运行失败问题

2020-05-20 文章 Xintong Song
hi 最好能把完整的日志以及 error stack 发出来。 这个报错通常是 TM 运行的机器/pod 之间网络不通造成的,有可能和 kubernetes 的配置有关,但就目前的信息比较难确定。 Thank you~ Xintong Song On Wed, May 20, 2020 at 3:50 PM wrote: > > hi, all > > 集群信息: > flink版本是1.10.1,部署在kubernetes上。 > > 现象: > 需要200个slot,如果指定TM个数为40,每个TM的slot个数为4,可

Re: TM太多,作业运行失败问题

2020-05-20 文章 Xintong Song
TM 需要建立更多的网络连接从而消耗的内存。具体还是需要根据日志分析。 Thank you~ Xintong Song On Wed, May 20, 2020 at 4:50 PM wrote: > hi,xintong,堆栈信息如下。 > > 2020-05-20 16:46:20 > org.apache.flink.runtime.io.network.partition.consumer.PartitionConnectionException: > Connection for partition > 66c378b86c3e10

Re: Heartbeat of TaskManager with id xxx timed out

2020-10-27 文章 Xintong Song
TM 心跳超时有以下几种常见的原因: 1. 网络抖动 2. TM 丢失,进程挂掉了、被杀了之类的 3. JM 或 TM 由于 GC 等原因,未能及时响应处理心跳 建议排查下对应 TM 的日志,以及 JM/TM 的 GC 日志。 Thank you~ Xintong Song On Tue, Oct 27, 2020 at 1:46 PM freeza1...@outlook.com < freeza1...@outlook.com> wrote: > Hi all: > flink standalone模式, 3节点,1master,3slave, 创

Re: flink1.11 sql 发布到yarn session时找不到hbase相关的类

2020-07-29 文章 Xintong Song
export HADOOP_CLASSPATH 就可以了 Thank you~ Xintong Song On Wed, Jul 29, 2020 at 6:43 PM wind.fly@outlook.com < wind.fly@outlook.com> wrote: > Hi,all: > 最近在升级flink1.11,sql中用到hbase connctor,发布到yarn-session时,报如下异常: > 2020-07-29 11:49:55 > org.apache.hadoop.hbase.DoN

Re: flink slot之间内存隔离问题

2020-08-12 文章 Xintong Song
slot 之间只有 managed memory 是隔离的。 取决于你的 flink 版本,1.10 之后 managed memory 除了用于 batch operator,还会用于 rocksdb state backend。 Thank you~ Xintong Song On Wed, Aug 12, 2020 at 3:55 PM Cayden chen <1193216...@qq.com> wrote: > hi,all > 对于flink slot之间内存隔离有个疑问。就是slot中的task请求networkbufferpool的

Re: Flink slot 可以跨 job 共享吗?

2020-08-10 文章 Xintong Song
不可以的 Thank you~ Xintong Song On Mon, Aug 10, 2020 at 3:39 PM wangl...@geekplus.com wrote: > > Flink 一个 job 不同的 operator 可以共享 slot > 但能做到不同的 job 共享 slot 吗? > > > > > > wangl...@geekplus.com > >

Re: Flink Hadoop依赖

2020-07-08 文章 Xintong Song
你说的 “jobmanager的lib文件夹” 是指哪里?Flink 的部署方式是怎样的?CLI 运行在哪里? Thank you~ Xintong Song On Wed, Jul 8, 2020 at 10:59 AM Z-Z wrote: > Hi, 各位大佬们,有个问题,Flink > 1.10.0版本中,已经在jobmanager的lib文件夹添加了flink-shaded-hadoop-2-uber-2.7.5-10.0.jar文件,通过webui上传可以正常运行任务,但通过cli命令,提交任务后报Could > not find a fi

Re: Flink job不定期就会重启,版本是1.9

2020-07-02 文章 Xintong Song
从报错信息看是 Akka 的 RPC 调用超时,因为是 LocalFencedMessage 所以基本上可以排除网络问题。 建议看一下 JM 进程的 GC 压力以及线程数量,是否存在压力过大 RPC 来不及响应的情况。 Thank you~ Xintong Song On Fri, Jul 3, 2020 at 10:48 AM noon cjihg wrote: > Hi,大佬们 > > Flink job经常不定期重启,看了异常日志基本都是下面这种,可以帮忙解释下什么原因吗? > > 2020-07-01 20:2

Re: flink对task分配slot问题

2020-07-02 文章 Xintong Song
,A 和 B 之间的负载可能存在较大差异,而 A1 和 A2、B1 和 B2 之间通常不会有太大差异。 因此,slot sharing 的规则使得每个 slot 中都分配了一个 A 和一个 B,各个 slot 之间的负载大体上是均衡的。 Thank you~ Xintong Song On Fri, Jul 3, 2020 at 11:12 AM liuhy_em...@163.com wrote: > Dear, > > 请教一个问题,当前同一个job下的多个task(不在一个算子链)中,都会存在某一个subTask任务过重,这些subTask会分配到

Re: flink 1.11 local execution oom问题

2020-07-12 文章 Xintong Song
Local execution 模式下,Flink 是无法实际控制 JVM 的 Xmx, Xms, MaxDirectMemorySize 等参数的,这些参数取决于你的 IDE 设置。 检查一下 idea 的 run configuration 是否有配置过 -XX:MaxDirectMemorySize。 Thank you~ Xintong Song On Sat, Jul 11, 2020 at 3:48 PM Congxian Qiu wrote: > Hi > > 这个问题可以看下是否和 releasenote[1] 中 memory conf

Re: [ANNOUNCE] Yu Li is now part of the Flink PMC

2020-06-16 文章 Xintong Song
Congratulations Yu, well deserved~! Thank you~ Xintong Song On Wed, Jun 17, 2020 at 9:15 AM jincheng sun wrote: > Hi all, > > On behalf of the Flink PMC, I'm happy to announce that Yu Li is now > part of the Apache Flink Project Management Committee (PMC). > > Yu Li ha

Re: standalone模式下metaspace内存溢出

2020-06-04 文章 Xintong Song
你好, 社区已经发现过一些与 metaspace 泄漏相关的问题,其中部分已经修复,还有一些则与第三方依赖有关。由于你的图片没有显示出来,我不确定你遇到的是否是相同的问题。 此外,在即将发布的 1.11 中,Flink 针对这一问题进行了优化,作业会采用单独的 ClassLoader 运行,以避免作业结束之后 metaspace 还有泄漏的问题。1.11.0 已经进入发布前的测试阶段,RC1 已经发布,欢迎试用。 Thank you~ Xintong Song On Fri, Jun 5, 2020 at 9:29 AM 胡泽康 wrote: > flink版本:1

Re: flink1.11.1启动问题

2020-07-28 文章 Xintong Song
仍然采用的是计算资源的方式匹配 container。 flink 1.9 当中没有遇到这个问题,是因为默认所有 container 都是相同规格的,所以省略了匹配过程。目前 flink 社区正在开发支持申请不同规格 container 调度能力,因此在 1.11 种增加了验证 container 资源的逻辑。 Thank you~ Xintong Song On Tue, Jul 28, 2020 at 2:46 PM 酷酷的浑蛋 wrote: > 谢谢你,我将flink-conf.yaml的taskmanager.memory.process.size由1728

Re: flink1.11.1启动问题

2020-07-27 文章 Xintong Song
算 container request 实际分到的 container 应该多大,并对分到的 container 进行检查。现在看 JM 日志,分下来的 container 并没有通过这个检查,造成 Flink 认为 container 规格不匹配。这里最可能的原因是 Flink 拿到的 minimum-allocation-mb 和 Yarn RM 实际使用的不一致。 Thank you~ Xintong Song On Mon, Jul 27, 2020 at 7:42 PM 酷酷的浑蛋 wrote: > > 首先,flink1.9提交到yarn集群是没有问题的,

Re: Flink-yarn模块加载外部文件的问题

2020-12-06 文章 Xintong Song
/browse/FLINK-20505 Thank you~ Xintong Song On Mon, Dec 7, 2020 at 10:03 AM zhou chao wrote: > hi all, 最近在1.11上使用io.extra-file加载外部http文件出现一点小问题 > > 由于http的文件在FileSystem.getFileStatus去拿状态时会走HttpFileSystem的类的getFileStatus方法,该方法返回的FileStatus中length为-1。 > 在cl

  1   2   >