flink1.17.1版本 flink on yarn 提交无法获取配置文件

2023-08-01 文章 guanyq
/opt/flink/flink-1.17.1/bin/flink run-application -t yarn-application -yjm 1024m -ytm 1024m ./xx-1.0.jar ./config.properties以上提交命令制定的配置文件,为什么在容器内找配置文件?file /home/yarn/nm/usercache/root/appcache/application_1690773368385_0092/container_e183_1690773368385_0092_01_01/./config.properties does

Re: flink on yarn rocksdb内存超用

2023-06-07 文章 Hangxiang Yu
Hi, 目前对RocksDB使用的内存是没有严格限制住的,可以参考这个 ticket: https://issues.apache.org/jira/browse/FLINK-15532 如果要定位到内存使用情况,可以先看一些粗的Metrics: https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#rocksdb-native-metrics 如果要再细致定位到单 instance 内部 RocksDB 的详细内存使用情况,可能需要用 malloc

Re:Re: Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-13 文章 guanyq
我昨天模拟下断电的情况 10个ha文件的日期是错开的5秒一个 chk-xxx也不是都损坏了,有的是可以启动的,这个我也试了 现在情况是 yarn集群停电重启首先会循环尝试从10个ha的文件中启动应用,ha文件记录的chk的相关原数据 1.如果ha文件都损坏了,即使chk没有损坏,flink应用也是拉不起来的 现在想的是让hdfs上存在至少1组个可用的的ha文件及其对应的chk 现在是5秒一个chk,保存了10个,也会出现损坏无法启动的问题 5秒*10 = 50秒,也想知道多长时间的存档才能保证存在一组没有损坏ha和chk呢。 在 2023-03-14

Re: Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-13 文章 Guojun Li
Hi 确认一下这些 ha 文件的 last modification time 是一致的还是错开的? 另外,指定 chk- 恢复尝试了没有?可以恢复吗? Best, Guojun On Fri, Mar 10, 2023 at 11:56 AM guanyq wrote: > flink ha路径为 /tmp/flink/ha/ > flink chk路径为 /tmp/flink/checkpoint > > > 我现在不确定是这个ha的文件损坏了,还是所有chk都损坏,但是这个需要模拟验证一下。 > > > > > 会尝试从10个chk恢复,日志有打印 >

Re:Re: Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 guanyq
理解了,非常感谢。 在 2023-03-13 16:57:18,"Weihua Hu" 写道: >图片看不到,可以找一个图床上传图片,在邮件列表中贴一下链接。 > >YARN 拉起 AM 还受 "yarn.application-attempt-failures-validity-interval"[1] >控制,在这个时间内达到指定次数才会退出。 > >[1]

Re: Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 Weihua Hu
图片看不到,可以找一个图床上传图片,在邮件列表中贴一下链接。 YARN 拉起 AM 还受 "yarn.application-attempt-failures-validity-interval"[1] 控制,在这个时间内达到指定次数才会退出。 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#yarn-application-attempt-failures-validity-interval Best, Weihua On Mon, Mar 13, 2023 at

Re:Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 guanyq
图片在附件 但是实际却是超过了10次。。 在 2023-03-13 15:39:39,"Weihua Hu" 写道: >Hi, > >图片看不到了 > >按照这个配置,YARN 应该只会拉起 10 次 JobManager。 > >Best, >Weihua > > >On Mon, Mar 13, 2023 at 3:32 PM guanyq wrote: > >> flink1.10版本,flink配置如下 >> yarn.application-attempts = 10 (yarn尝试启动flink job的次数为10) >>

Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 Weihua Hu
Hi, 图片看不到了 按照这个配置,YARN 应该只会拉起 10 次 JobManager。 Best, Weihua On Mon, Mar 13, 2023 at 3:32 PM guanyq wrote: > flink1.10版本,flink配置如下 > yarn.application-attempts = 10 (yarn尝试启动flink job的次数为10) > 正常我理解yarn会尝试10次启动flink job,如果起不来应该就会失败,但是在yarn应用页面看到了尝试11次,如下图 >

flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 guanyq
flink1.10版本,flink配置如下 yarn.application-attempts = 10 (yarn尝试启动flink job的次数为10) 正常我理解yarn会尝试10次启动flink job,如果起不来应该就会失败,但是在yarn应用页面看到了尝试11次,如下图 请问appattempt_1678102326043_0006_000409每个序号不是代表一次尝试么

Re:Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 guanyq
flink ha路径为 /tmp/flink/ha/ flink chk路径为 /tmp/flink/checkpoint 我现在不确定是这个ha的文件损坏了,还是所有chk都损坏,但是这个需要模拟验证一下。 会尝试从10个chk恢复,日志有打印 2023-03-0718:37:43,703INFOorg.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Recovering checkpoints from ZooKeeper.

Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Weihua Hu
Hi 一般来说只是 YARN 集群异常停电不会影响已经完成的历史 Checkpoint(最后一次 Checkpoint 可能会写 hdfs 异常) 有更详细的 JobManager 日志吗?可以先确认下 Flink 在恢复时检索到了多少个 completedCheckpoint 以及最终尝试从哪一次 cp 恢复的。 也可以尝试按照 Yanfei 所说指定历史的 cp 作为 savepoint 恢复 Best, Weihua On Fri, Mar 10, 2023 at 10:38 AM guanyq wrote: > 没有开启增量chk >

Re:Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 guanyq
没有开启增量chk 文件损坏是看了启动日志,启动日志尝试从10个chk启动,但是都因为以下块损坏启动失败了 错误日志为: java.io.IOException: Got error, status message opReadBlock BP-1003103929-192.168.200.11-1668473836936:blk_1301252639_227512278 received exception org.apache.hadoop.hdfs.server.datanode.CorruptMetaHeaderException: The meta file length

Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Yanfei Lei
Hi 可以尝试去flink配置的checkpoint dir下面去找一找历史chk-x文件夹,如果能找到历史的chk-x,可以尝试手工指定 chk重启[1]。 > flink任务是10个checkpoint,每个checkpoint间隔5秒,如果突然停电,为什么所有的checkpoint都损坏了。 请问作业开启增量checkpoint了吗?在开启了增量的情况下,如果是比较早的一个checkpoint的文件损坏了,会影响后续基于它进行增量的checkpoint。 >

Re:Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 guanyq
目前也想着用savepoint处理异常停电的问题 但是我这面还有个疑问: flink任务是10个checkpoint,每个checkpoint间隔5秒,如果突然停电,为什么所有的checkpoint都损坏了。 就很奇怪是不是10个checkpoint都没落盘导致的。 想问下: checkpoint落盘的机制,这个应该和hdfs写入有关系,flink任务checkpoint成功,但是hdfs却没有落盘。 在 2023-03-10 08:47:11,"Shammon FY" 写道: >Hi > >我觉得Flink

Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Shammon FY
Hi 我觉得Flink 作业恢复失败时,作业本身很难确定失败是checkpoint的文件块损坏之类的原因。如果你的作业做过savepoint,可以尝试从指定的savepoint恢复作业 Best, Shammon On Thu, Mar 9, 2023 at 10:06 PM guanyq wrote: > 前提 > 1.flink配置了高可用 > 2.flink配置checkpoint数为10 > 3.yarn集群配置了任务恢复 > 疑问 > yarn集群停电重启后,恢复flink任务时,如果最近的checkpoint由于停电导致块损坏,是否会尝试从其他checkpoint启动

flink on yarn 异常停电问题咨询

2023-03-09 文章 guanyq
前提 1.flink配置了高可用 2.flink配置checkpoint数为10 3.yarn集群配置了任务恢复 疑问 yarn集群停电重启后,恢复flink任务时,如果最近的checkpoint由于停电导致块损坏,是否会尝试从其他checkpoint启动

Re: Flink on yarn 运行一段时间出现 TaskManager with id is no longer reachable

2023-02-16 文章 Shammon FY
Hi 上面TM心跳出现unreachable,一般是TM退出了,可以看下退出原因 下面Checkpoint超时,可以看下是否出现反压等问题,也可以看checkpoint执行时间,考虑增加checkpoint超时时间 Best, Shammon On Thu, Feb 16, 2023 at 10:34 AM lxk wrote: > 你好,可以dump下内存分析 > > > > > > > > > > > > > > > > > > 在 2023-02-16 10:05:19,"Fei Han" 写道: > >@all > >大家好!我的Flink

Flink on yarn 运行一段时间出现 TaskManager with id is no longer reachable

2023-02-15 文章 Fei Han
@all 大家好!我的Flink 版本是1.14.5。CDC版本是2.2.1。在on yarn 运行一段时间后会出现如下报错: org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id container_e506_1673750933366_49579_01_02(hdp-server-010.yigongpin.com:8041) is no longer reachable. at

Re: flink on yarn 作业挂掉反复重启

2022-07-25 文章 Weihua Hu
可以检查下是不是 JobManager 内存不足被 OOM kill 了,如果有更多的日志也可以贴出来 Best, Weihua On Mon, Jul 18, 2022 at 8:41 PM SmileSmile wrote: > hi,all > 遇到这种场景,flink on yarn,并行度3000的场景下,作业包含了多个agg操作,作业recover from checkpoint > 或者savepoint必现无法恢复的情况,作业反复重启 > jm报错org.apache.flink.runtime.entrypoint.Clust

flink on yarn 作业挂掉反复重启

2022-07-18 文章 SmileSmile
hi,all 遇到这种场景,flink on yarn,并行度3000的场景下,作业包含了多个agg操作,作业recover from checkpoint 或者savepoint必现无法恢复的情况,作业反复重启 jm报错org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - RECEIVED S IGNAL 15: SIGTERM. Shutting down as requested. 请问有什么好的排查思路吗

Re: Flink on yarn ,并行度>1的情况下,怎么获取springboot的bean?

2022-04-22 文章 tison
@duwenwen 我比较好奇你的算子里做了什么,因为如果你就是要全局初始化唯一一次,那就用一个 parallelism=1 的算子去做就好了。 parallelism=n 你还要确保 once 的话应该得依赖外部系统来做到仅初始化一次。 Best, tison. Paul Lam 于2022年4月22日周五 18:16写道: > 听起来是在 Flink 里启动 springboot? 很有意思的架构,有一点点类似 statefun 了。可以说说这么做的背景吗? > > 另外请附带上 flink 的部署模式和版本信息,这样大家才好判断问题在哪里。 > > Best, >

Re: Flink on yarn ,并行度>1的情况下,怎么获取springboot的bean?

2022-04-22 文章 Paul Lam
听起来是在 Flink 里启动 springboot? 很有意思的架构,有一点点类似 statefun 了。可以说说这么做的背景吗? 另外请附带上 flink 的部署模式和版本信息,这样大家才好判断问题在哪里。 Best, Paul Lam > 2022年4月22日 16:30,duwenwen 写道: > > 您好: >首先很感谢您能在百忙之中看到我的邮件。我是一个写代码的新手,在使用flink框架过程中我遇到了一些问题,希望能得到您的解答。 >

Flink on yarn ,并行度>1的情况下,怎么获取springboot的bean?

2022-04-22 文章 duwenwen
您好: 首先很感谢您能在百忙之中看到我的邮件。我是一个写代码的新手,在使用flink框架过程中我遇到了一些问题,希望能得到您的解答。 由于需求要求,我需要将springboot和flink结合起来使用,我在open方法中获取springboot的上下文来获取bean。当设置parallelism为1时,可以发布到集群正常运行,但是当parallelism>1时,springboot的环境被多次初始化,运行就开始报错,,请问当parallelism>1

Re: flink on yarn任务停止发生异常

2022-03-08 文章 Jiangang Liu
异常提示的很明确了,做savepoint的过程中有的task不在running状态,你可以看下你的作业是否发生了failover。 QiZhu Chan 于2022年3月8日周二 17:37写道: > Hi, > > 各位社区大佬们,帮忙看一下如下报错是什么原因造成的?正常情况下客户端日志应该返回一个savepoint路径,但却出现如下异常日志,同时作业已被停止并且查看hdfs有发现当前job产生的savepoint文件 > > > > >

回复:flink on yarn HDFS_DELEGATION_TOKEN清除后,任务am attempt时失败

2022-02-10 文章 xieyi
/hadoop-yarn-site/src/site/markdown/YarnApplicationSecurity.md#securing-long-lived-yarn-services 想知道flink on yarn是如何解决hadoop Delegation token 过期的呢?看官网似乎说得不够清楚 目前在生产环境遇到了如下故障: flink 1.12 on yarn,yarn的nodemanager是容器化部署的,nodemanager偶尔会挂掉重启。当flink 任务运行超过7天后,若某个flink任务的JM(am)所在的nodemanager重启,am会进行

flink on yarn HDFS_DELEGATION_TOKEN清除后,任务am attempt时失败

2022-02-10 文章 xieyi
老师们好: 请教一个问题, 由于hadoop Delegation token 会在超过Max Lifetime(默认7天)后过期清除,对于长期运行任务,yarn提到有三种策略解决这个问题:https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-site/src/site/markdown/YarnApplicationSecurity.md#securing-long-lived-yarn-services 想知道flink on yarn

flink on yarn HDFS_DELEGATION_TOKEN清除后,任务am attempt时失败

2022-02-10 文章 xieyi
老师们好: 请教一个问题, 由于hadoop Delegation token 会在超过Max Lifetime(默认7天)后过期清除,对于长期运行任务,yarn提到有三种策略解决这个问题:https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-site/src/site/markdown/YarnApplicationSecurity.md#securing-long-lived-yarn-services 想知道flink on yarn

Re:Re: 关于flink on yarn 跨多hdfs集群访问的问题

2021-12-06 文章 casel.chen
如果是两套oss或s3 bucket(每个bucket对应一组accessKey/secret)要怎么配置呢?例如写数据到bucketA,但checkpoint在bucketB 在 2021-12-06 18:59:46,"Yang Wang" 写道: >我觉得你可以尝试一下ship本地的hadoop conf,然后设置HADOOP_CONF_DIR环境变量的方式 > >-yt /path/of/my-hadoop-conf >-yD

Re: 关于flink on yarn 跨多hdfs集群访问的问题

2021-12-06 文章 Yang Wang
我觉得你可以尝试一下ship本地的hadoop conf,然后设置HADOOP_CONF_DIR环境变量的方式 -yt /path/of/my-hadoop-conf -yD containerized.master.env.HADOOP_CONF_DIR='$PWD/my-hadoop-conf' -yD containerized.taskmanager.env.HADOOP_CONF_DIR='$PWD/my-hadoop-conf' Best, Yang chenqizhu 于2021年11月30日周二 上午10:00写道: > all,您好: > >

关于flink on yarn 跨多hdfs集群访问的问题

2021-11-29 文章 chenqizhu
all,您好: flink 1.13 版本支持了在flink-conf.yaml通过flink.hadoop.* 的方式 配置hadoop属性。有个需求是将checkpoint写到装有ssd的hdfs(称之为集群B)以加速checkpoint写入速度,但这个hdfs集群不是flink客户端本地的默认hdfs(默认hdfs称为集群A),于是想通过在flink-conf.yaml里配置A、B两个集群的nameservices,类似与hdfs联邦模式,访问到两个hdfs集群,具体配置如下: flink.hadoop.dfs.nameservices:

关于flink on yarn 跨多hdfs集群访问的问题

2021-11-29 文章 chenqizhu
all,您好: flink 1.13 版本支持了在flink-conf.yaml通过flink.hadoop.* 的方式 配置hadoop属性。有个需求是将checkpoint写到装有ssd的hdfs(称之为集群B)以加速checkpoint写入速度,但这个hdfs集群不是flink客户端本地的默认hdfs(默认hdfs称为集群A),于是想通过在flink-conf.yaml里配置A、B两个集群的nameservices,类似与hdfs联邦模式,访问到两个hdfs集群,具体配置如下: flink.hadoop.dfs.nameservices:

??????flink on yarn ??pre_job????????,????session????????????

2021-11-04 文章 JasonLee
hi ?? jar ??Flink ?? Best JasonLee ??2021??11??4?? 18:41<2572805...@qq.com.INVALID> ?? yarn??: org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint YarnJobClusterEntrypoint. at

Re: flink on yarn 的pre_job提交失败,但是session模式可以成功

2021-11-04 文章 刘建刚
通过你上面的信息是看不出来的,里头的链接你可以看下详细日志 http://ark1.analysys.xyz:8088/cluster/app/application_1635998548270_0028 陈卓宇 <2572805...@qq.com.invalid> 于2021年11月4日周四 下午6:29写道: > yarn的错误日志: > org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to > initialize the cluster entrypoint

flink on yarn ??pre_job????????,????session????????????

2021-11-04 文章 ??????
yarn??: org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint YarnJobClusterEntrypoint. at org.apache.flink.runtime.entrypoint.ClusterEntrypoint.startCluster(ClusterEntrypoint.java:200) at

flink 1.13.1 ????yarn-application????????????????mysql??????????????hive??????????????16G+??Taskmangaer????

2021-11-04 文章 Asahi Lee
hi! ??flink sqlmysql??hive??yarn-application??16G??

回复:Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-31 文章 JasonLee
Hi 可以参考这两篇文章: https://mp.weixin.qq.com/s/2S4M8p-rBRinIRxmZrZq5Q https://mp.weixin.qq.com/s/44SXmCAUOqSWhQrNiZftoQ Best JasonLee 在2021年08月31日 13:23,guanyq 写道: flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-30 文章 guanyq
flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

Re: Flink On Yarn HA 部署模式下Flink程序无法启动

2021-08-17 文章 周瑞
您好,我的版本是1.13.1 --Original-- From: "Yang Wang"https://issues.apache.org/jira/browse/FLINK-19212 Best, Yang 周瑞

Re: Flink On Yarn HA 部署模式下Flink程序无法启动

2021-08-17 文章 Yang Wang
看报错应该是个已知问题[1]并且已经在1.11.2中修复 [1]. https://issues.apache.org/jira/browse/FLINK-19212 Best, Yang 周瑞 于2021年8月17日周二 上午11:04写道: > 您好:Flink程序部署在Yran上以Appliation Mode 模式启动的,在没有采用HA > 模式的时候可以正常启动,配置了HA之后,启动异常,麻烦帮忙看下是什么原因导致的. > > > HA 配置如下: > high-availability: zookeeper high-availability.storageDir:

Flink On Yarn HA 部署模式下Flink程序无法启动

2021-08-16 文章 周瑞
您好:Flink程序部署在Yran上以Appliation Mode 模式启动的,在没有采用HA 模式的时候可以正常启动,配置了HA之后,启动异常,麻烦帮忙看下是什么原因导致的. HA 配置如下: high-availability: zookeeper high-availability.storageDir: hdfs://mycluster/flink/ha high-availability.zookeeper.quorum: zk-1:2181,zk-2:2181,zk-3:2181 high-availability.zookeeper.path.root:

flink on yarn报错

2021-07-30 文章 wangjingen
有没有大佬帮忙看看这个问题 The RMClient's and YarnResourceManagers internal state about the number of pending container requests for resource has diverged .Number client's pending container requests 1 !=Number RM's pending container requests 0;

flink on yarn??????????log4j????

2021-07-22 文章 comsir
hi all flink??log4jlog4j ?? ??

Flink on yarn-cluster模式提交任务报错

2021-06-08 文章 maker_d...@foxmail.com
我在CDH集群上使用Flink on yarn-cluster模式提交任务,报错不能部署,找不到jar包。 这个jar包是我没有用到的,但是在flink的lib中是存在的,并且我已经将lib的目录添加到环境变量中: export HADOOP_CLASSPATH=/opt/cloudera/parcels/FLINK/lib/flink/lib The program finished with the following exception: org.apache.flink.client.program.ProgramInvocationException: The main

回复:flink on yarn日志清理

2021-06-07 文章 王刚
你可以在客户端的log4j.properties或者logback.xml文件上配置下相关清理策略 你先确认下使用的哪个slf4j的实现类 原始邮件 发件人: zjfpla...@hotmail.com 收件人: user-zh 发送时间: 2021年6月7日(周一) 12:17 主题: flink on yarn日志清理 大家好, 请问下如下问题: flink on yarn模式,日志清理机制有没有的? 是不是也是按照log4j/logback/log4j2等的清理机制来的?还是yarn上配置的。 是实时流作业,非离线一次性作业,一直跑着的 zjfpla

flink on yarn日志清理

2021-06-06 文章 zjfpla...@hotmail.com
大家好, 请问下如下问题: flink on yarn模式,日志清理机制有没有的? 是不是也是按照log4j/logback/log4j2等的清理机制来的?还是yarn上配置的。 是实时流作业,非离线一次性作业,一直跑着的 zjfpla...@hotmail.com

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-31 文章 Yang Wang
HA在ZK里面记录了最后一次成功的checkpoint counter和地址,没有启用HA的话,就是从指定的savepoint恢复的。 Best, Yang 刘建刚 于2021年5月28日周五 下午6:51写道: > 那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 > > 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > > > 稳定复现 > > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 > > 我们jobmanager没有做ha,不知道是否是这个原因导致的? > >

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 刘建刚
那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > 稳定复现 > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 > 我们jobmanager没有做ha,不知道是否是这个原因导致的? > 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。 > 目前这个问题困扰了我很久,也没有一个好的思路,下一步先把ha搞起来再试试。 > >>

Re:Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 董建
稳定复现 checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 我们jobmanager没有做ha,不知道是否是这个原因导致的? 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。 目前这个问题困扰了我很久,也没有一个好的思路,下一步先把ha搞起来再试试。 >> org.apache.flink.configuration.GlobalConfiguration [] - Loading >> configuration property:

Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 刘建刚
这种情况是不符合预期的。请问通过以下步骤可以稳定复现吗? 1、从savepoint恢复; 2、作业开始定期做savepoint; 3、作业failover。 如果是的话,可能需要排查下checkpoint 文件是否存在,zookeeper上是否更新。 如果还是有问题,需要通过日志来排查了。 董建 <62...@163.com> 于2021年5月28日周五 下午5:37写道: > 我遇到的问题现象是这样的 > > > > > 1、flink版本flink-1.12.2,启动命令如下,指定-s是因为job有做过cancel,这里重启。 > > > > > flink run -d -s >

flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 董建
我遇到的问题现象是这样的 1、flink版本flink-1.12.2,启动命令如下,指定-s是因为job有做过cancel,这里重启。 flink run -d -s hdfs:///user/flink/checkpoints/default/f9b85edbc6ca779b6e60414f3e3964f2/chk-100 -t yarn-per-job -m yarn-cluser -D yarn.application.name= /tmp/flink-1.0-SNAPSHOT.jar -c com.test.myStream --profile

flink on yarn更新文件后重启失败

2021-04-30 文章 zjfpla...@hotmail.com
flink任务停止后,将相关配置文件进行更新(keytab),然后报错: Resource hdfs://nameservice1/user/hbase/.flink/${appid}/hbase.keytab changed on src filesystem(excepted ,was ) zjfpla...@hotmail.com

flink on yarn kerberos认证问题

2021-04-30 文章 zjfpla...@hotmail.com
大家好, 问题点: 1.cdh中kerberos已经被cm托管的情况下,cm中修改kerberos配置,/var/kerberos/krb5kdc/kdc.conf和/etc/krb5.conf都不变,好像是存在其他位置,这个有没有人清楚? 2.flink 1.8 on cdh5.14 yarn运行时,一天后报GSS initiate failed{caused by GSSException:No valid credentials

flink在yarn集群上启动的问题

2021-04-21 文章 tanggen...@163.com
您好,我在向yarn 集群提交flink任务时遇到了一些问题,希望能帮忙回答一下 我布署了一个三个节点hadoop集群,两个工作节点为4c24G,yarn-site中配置了8个vcore,可用内存为20G,总共是16vcore 40G的资源,现在我向yarn提交了两个任务,分别分配了3vcore,6G内存,共消耗6vcore,12G内存,从hadoop的web ui上也能反映这一点,如下图: 但是当我提交第三个任务时,却无法提交成功,没有明显的报错日志,可是整个集群的资源明显是充足的,所以不知道问题是出现在哪里,还请多多指教 附1(控制台输出): The program

flink on yarn 启动报错

2021-04-18 文章 Bruce Zhang
flink on yarn per-job 模式提交报错,命令是 bin/flink run -m yarn-cluster -d -yjm 1024 -ytm 4096 /home/XX.jar yarn 资源足够,提交别的程序也可以,只有这个程序提交就报错,但是命令修改为bin/flink run -m yarn-cluster -yjm 1024 -ytm 4096 /home/testjar/XX.jar 就能成功,即去掉-d 这个命令参数,但是是session模式,并且还会影响别的程序执行 报错信息: 2021-04-19 10:08:13,116

Re: flink on yarn 多TaskManager 拒绝连接问题

2021-04-12 文章 haihua
hi请问楼主这个问题解决了 ,有什么思路可以分享一下吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink on yarn session模式与yarn通信失败的问题 (job模式可以成功)

2021-03-22 文章 刘乘九
多谢大佬呀~尝试了一下没有解决。这两个参数有配置上,启动的时候也显示的与配置中一致。看上面的注释说好像仅Standalone 模式下有效,而且奇怪的是pre-job可以很顺利 session却连不上。对啦我的版本是1.11.2,大佬有空再帮忙看一眼呀 在 2021-03-23 09:28:20,"wxpcc" 写道: >第一个问题可以尝试在flink.conf 中配上jobmanager.rpc.address 和jobmanager.rpc.port >第二个问题不是很清楚 > > > >-- >Sent from:

Re: flink on yarn session模式与yarn通信失败的问题 (job模式可以成功)

2021-03-22 文章 wxpcc
第一个问题可以尝试在flink.conf 中配上jobmanager.rpc.address 和jobmanager.rpc.port 第二个问题不是很清楚 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink on yarn session模式与yarn通信失败的问题 (job模式可以成功)

2021-03-22 文章 刘乘九
大佬们请教一下: 之前一直使用job模式来提交任务,可以顺利提交计算任务。最近有需求比较适合session模式来提交,按照论坛里的教程进行提交的时候,一直报错连接不上resource manage。观察启动log发现两种任务连接的resource manage不同,一个是正确的端口,一个一直请求本机端口。 session 模式启动log: job 模式启动log: 想请教一下: 1.如何配置session 模式下的 resource manage 端口? 2.job

flink on yarn session模式与yarn通信失败 (job模式可以成功)的问题

2021-03-22 文章 刘乘九
大佬们请教一下: 之前一直使用job模式来提交任务,可以顺利提交计算任务。最近有需求比较适合session模式来提交,按照论坛里的教程进行提交的时候,一直报错连接不上resource manage。观察启动log发现两种任务连接的resource manage不同,一个是正确的端口,一个一直请求本机端口。 session 模式启动log: job 模式启动log: 想请教一下: 1.如何配置session 模式下的 resource manage 端口? 2.job

Flink on yarn per-job HA

2021-03-19 文章 Ink????
?? ??flink1.12 flink on yarn per-job HAHA??

Re: Flink On Yarn Per Job 作业提交失败问题

2021-02-24 文章 Robin Zhang
Hi,凌战 看看hadoop环境变量是否正确设置,可以参考文档 https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/resource-providers/yarn.html#preparation Best, Robin 凌战 wrote > hi,社区 > 在接口端设置用户为 hdfs 用户,在调度执行作业后,发现在/user/hdfs/.flink/application-id 目录下 存在相关包,如 > -rw-r--r-- 3 hdfs supergroup

Flink On Yarn Per Job 作业提交失败问题

2021-02-23 文章 凌战
hi,社区 在接口端设置用户为 hdfs 用户,在调度执行作业后,发现在/user/hdfs/.flink/application-id 目录下 存在相关包,如 -rw-r--r-- 3 hdfs supergroup 9402 2021-02-24 11:02 /user/hdfs/.flink/application_1610671284452_0257/WordCount.jar -rw-r--r-- 3 hdfs supergroup 1602 2021-02-24 11:09

Re: 本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 Smile
你好, org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint 这个类应该是在 flink-yarn 这个 module 里面,打 lib 包的时候作为依赖被打进 flink-dist 里面。 为什么你同时添加了 flink-dist_2.11-1.10.1.jar 和 flink-yarn_2.11-1.11.1.jar 这两个 jar 呀,不会冲突吗? Smile -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:回复:本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 Smile@LETTers
你好,org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint 这个类应该是在 flink-yarn 这个 module 里面,打 lib 包的时候作为依赖被打进 flink-dist 里面。为什么你同时添加了 flink-dist_2.11-1.10.1.jar 和 flink-yarn_2.11-1.11.1.jar 这两个 jar 呀,不会冲突吗?Smile 在 2021-02-23 19:27:43,"凌战" 写道: >上面添加的jar包没有显示,补充一下:目前除了用户jar包,添加的依赖

回复:本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 凌战
上面添加的jar包没有显示,补充一下:目前除了用户jar包,添加的依赖jar包就是 flink-dist_2.11-1.10.1.jar flink-queryable-state-runtime_2.11-1.10.1.jar flink-shaded-hadoop-2-uber-2.7.5-10.0.jar flink-table-blink_2.11-1.10.1.jar flink-table_2.11-1.10.1.jar flink-yarn_2.11-1.11.1.jar | | 凌战 | | m18340872...@163.com | 签名由网易邮箱大师定制

回复:本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 凌战
上面添加的jar包没有显示,补充一下:目前除了用户jar包,添加的依赖jar包就是 flink-dist_2.11-1.10.1.jar flink-queryable-state-runtime_2.11-1.10.1.jar flink-shaded-hadoop-2-uber-2.7.5-10.0.jar flink-table-blink_2.11-1.10.1.jar flink-table_2.11-1.10.1.jar flink-yarn_2.11-1.11.1.jar 但是提交到flink on yarn那边,仍然报错 | | 凌战 | | m18340872

本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 凌战
List userClassPaths = new ArrayList<>(); File file = ResourceUtils.getFile(new URL(Objects.requireNonNull(this.getClass().getClassLoader().getResource("")).toString()+"lib")); if(file.isDirectory()&()!=null){ for(File ele: Objects.requireNonNull(file.listFiles()))

回复:本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 凌战
| | 凌战 | | m18340872...@163.com | 签名由网易邮箱大师定制 在2021年2月23日 18:57,凌战 写道: List userClassPaths = new ArrayList<>(); File file = ResourceUtils.getFile(new URL(Objects.requireNonNull(this.getClass().getClassLoader().getResource("")).toString()+"lib"));

本地api提交jar包到Flink on Yarn集群,报错 Error: Could not find or load main class org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint

2021-02-23 文章 凌战
List userClassPaths = new ArrayList<>(); File file = ResourceUtils.getFile(new URL(Objects.requireNonNull(this.getClass().getClassLoader().getResource("")).toString()+"lib")); if(file.isDirectory()&()!=null){ for(File ele:

flink on yarn任务的唯一性id问题

2021-02-18 文章 datayangl
目前使用flink1.11进行数据的etl工作,使用snowflake算法生成唯一性id,一个taskmanager有4个slot,etl任务并行度设为16,假设在单机节点上,那么实际运行的任务会运行4个yarn container,由于同一台机器上的雪花算法有相同的时钟和机器id,因此有机率会出现重复id。请问,1.雪花算法怎么应用到单节点多container的场景且不重复 2.还有什么唯一性id的算法(除了UUID) -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn 多TaskManager 拒绝连接问题

2021-02-07 文章 Yang Wang
那你可能需要把你的JobManager和TaskManager的日志发一下,才能进一步分析 主要需要确认的是连的端口是正确的,如果网络层面没有问题,那就有可能是哪个配置项使用了某个特定端口导致的 Best, Yang Junpb 于2021年2月8日周一 上午9:30写道: > 你好, > 我的测试环境yarn有三个节点,当TM启动只有一个时,JM和Tm随机启动在任何节点上都很正常,只有TM变为两个时,会出现报错。 > 每次启动JM和TM端口都是随机的,以上配置是确保2个TM启动,我现在怀疑是我其他配置导致的错误,谢谢 > > Best, > Bi > > > > -- >

Re: flink on yarn 多TaskManager 拒绝连接问题

2021-02-07 文章 Junpb
你好, 我的测试环境yarn有三个节点,当TM启动只有一个时,JM和Tm随机启动在任何节点上都很正常,只有TM变为两个时,会出现报错。 每次启动JM和TM端口都是随机的,以上配置是确保2个TM启动,我现在怀疑是我其他配置导致的错误,谢谢 Best, Bi -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink on yarn 多TaskManager 拒绝连接问题

2021-02-06 文章 Yang Wang
建议你使用telnet检查一下JM和有问题TM之间的网络连通性,Flink在这个地方没有已知的bug Best, Yang Junpb 于2021年2月5日周五 下午8:09写道: > nohup bin/flink run -m yarn-cluster \ > -c main \ > -ynm ${FLINK_NAME} \ > -ys 3 \ > -p 4 \ > -yjm 2048m \ > -ytm 2048m \ > > 在flink on yarn 的情况下,使用以上flink run 参数,确保TaskMana

flink on yarn 多TaskManager 拒绝连接问题

2021-02-05 文章 Junpb
nohup bin/flink run -m yarn-cluster \ -c main \ -ynm ${FLINK_NAME} \ -ys 3 \ -p 4 \ -yjm 2048m \ -ytm 2048m \ 在flink on yarn 的情况下,使用以上flink run 参数,确保TaskManager 为 2 奇怪的是 JobManager 里面报如下错误,但TaskManager的确启动2个,只是报错的那个TaskManager无法正常工作 谢谢解答 错误: Caused by: org.apache.flink.shaded.netty4

Re: flink on yarn , JobManager和ApplicationMaster的关系

2021-02-02 文章 lp
谢谢! 我摘录的是flink1.11.2版本文档最后那部分:Background / Internals,介绍flink 如何在yarn上运行的 的内容:https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/yarn_setup.html 。感觉版本比较新了,应该没有问题吧,也是我们生产上在用的版本。1.12版本中没有找到相关内容。 仔细看了下文档,可能是我对flink on yarn的理解不太清楚,还是有几个问题请教下: ①flink on yarn模式下,jobmanager 和

Re: flink on yarn , JobManager和ApplicationMaster的关系

2021-02-02 文章 Xintong Song
pMaster,那flink on yarn > ,ApplicationMaster对应的实现是啥? > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: flink on yarn , JobManager和ApplicationMaster的关系

2021-02-02 文章 lp
或者说,我知道,对于MapReduce任务,ApplicationMaster的实现是MRAppMaster,那flink on yarn ,ApplicationMaster对应的实现是啥? -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink on yarn , JobManager和ApplicationMaster的关系

2021-02-02 文章 lp
flink on yarn中,yarn的applicationMaster和flink JobManager的关系是啥,我对yarn不是很熟悉,之前的理解是 JobManager就是yarn中的applicationMaster的角色。但我在官网中看到如下摘录:...Once that has finished, the ApplicationMaster (AM) is started.The JobManager and AM are running in the same container. Once they successfully started, the AM knows

Re: Flink on yarn JDK 版本支持问题

2021-01-24 文章 Yun Tang
ser-zh@flink.apache.org Subject: Flink on yarn JDK 版本支持问题 使用Flink1.11.2客户端 往hadoop集群提交job,报错如下: LogType:jobmanager.err Log Upload Time:Sat Jan 23 00:06:47 -0800 2021 LogLength:160 Log Contents: Unrecognized VM option 'MaxMetaspaceSize=268435456' Error: Could not create the Java Virtual Machine.

Flink On Yarn部署模式下,yarn能否实现自定义日志聚合策略而不是作业结束后才聚合。

2021-01-23 文章 Bobby
在Flink On Yarn部署模式下,发现只有当作业终止后,yarn才会对各个tm和jm的日志进行聚合放到hdfs里。这对实际生产查日志解决问题非常不方便。 有没有可以自定义日志聚合策略,如每间隔多久就聚合一次放到yarn里这种实现方式。 亦或者对Flink程序各位大佬在日常使用中是如何做到实时查询日志的。 感谢。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink on yarn JDK 版本支持问题

2021-01-23 文章 Jacob
使用Flink1.11.2客户端 往hadoop集群提交job,报错如下: LogType:jobmanager.err Log Upload Time:Sat Jan 23 00:06:47 -0800 2021 LogLength:160 Log Contents: Unrecognized VM option 'MaxMetaspaceSize=268435456' Error: Could not create the Java Virtual Machine. Error: A fatal exception has occurred. Program will exit.

Re: Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Yang Wang
est, > > Yang > > > > Bobby < > > > 1010445050@ > > >> 于2021年1月18日周一 下午7:18写道: > > > >> Flink On Yarn 日志配置log4j.properties 文件默认读取flink/conf中的log4j.properties。 > >> 有没有方法可以在提交flink 作业时指定自己编写的log4.properties。 >

Re: Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Bobby
首先感谢提供解决方案。我回头就去试试。 关于提到的“在Yarn部署的时候是依赖log4j.properties这个文件名来ship资源的,所以不能手动指定一个其他文件”,怎么理解,可以提供相关资料吗,我去了解具体flink on yarn 部署逻辑。 thx. Yang Wang wrote > 在Yarn部署的时候是依赖log4j.properties这个文件名来ship资源的,所以不能手动指定一个其他文件 > > 但是你可以export一个FLINK_CONF_DIR=/path/of/your/flink-conf环境变量 > 在相应的

Re: Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Bobby
11 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Bobby
首先感谢提供解决方案。我回头就去试试。 关于提到的“在Yarn部署的时候是依赖log4j.properties这个文件名来ship资源的,所以不能手动指定一个其他文件”,怎么理解,可以提供相关资料吗,我去了解具体flink on yarn 部署逻辑。 thx. -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Yang Wang
在Yarn部署的时候是依赖log4j.properties这个文件名来ship资源的,所以不能手动指定一个其他文件 但是你可以export一个FLINK_CONF_DIR=/path/of/your/flink-conf环境变量 在相应的目录下放自己的flink-conf.yaml和log4j.properties Best, Yang Bobby <1010445...@qq.com> 于2021年1月18日周一 下午7:18写道: > Flink On Yarn 日志配置log4j.properties 文件默认读取flink/conf中的log4j.p

Flink On Yarn部署模式下,提交Flink作业 如何指定自定义log4j 配置

2021-01-18 文章 Bobby
Flink On Yarn 日志配置log4j.properties 文件默认读取flink/conf中的log4j.properties。 有没有方法可以在提交flink 作业时指定自己编写的log4.properties。 thx。 Flink版本:1.9.1 部署方式:Flink on Yarn -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink on yarn??????????????

2020-12-30 文章 ??????
?? bin/flink run -m yarn-cluster -yjm 1024 -ytm 1024 -c com.dwd.lunch.dwd_lunch.Dim_Cc_Media -ys 1 xjia_shuyun-6.0.jar nodemanager?? Deployment took more than 60 seconds. Please check

Re: Re: flink on yarn启动失败

2020-12-23 文章 magichuang
感谢感谢感谢!!! 原来是这样,以为solt 缩写就是-s了,,,感谢这位朋友的解答,已经可以提交了~ > -- 原始邮件 -- > 发 件 人:"Yang Wang" > 发送时间:2020-12-24 11:01:46 > 收 件 人:user-zh > 抄 送: > 主 题:Re: flink on yarn启动失败 > > 你这个命令写的有点问题,flink run -m yarn-cluster -ynm traffic -s 2 -p 2

Re: flink on yarn启动失败

2020-12-23 文章 Yang Wang
你这个命令写的有点问题,flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py traffic.py 应该是-ys,而不是-s -s是从savepoints恢复,所以报错里面会有找不到savepoints目录 Best, Yang magichuang 于2020年12月23日周三 下午8:29写道: > 机器参数:三台 32C64G centos 7.8,cdh集群在这上面先部署 > flink版本:1.11.2,在三台集群上搭建的集群 > > hadoop集群是用cdh搭建

flink on yarn启动失败

2020-12-23 文章 magichuang
机器参数:三台 32C64G centos 7.8,cdh集群在这上面先部署 flink版本:1.11.2,在三台集群上搭建的集群 hadoop集群是用cdh搭建的 启动命令:flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py traffic.py 程序使用pyflink开发的,从kafka读取数据,然后用滚动窗口聚合每分钟的数据在写入kafka 这个程序在local模式下是正常运行的,但是用per-job模式提交总是失败 测试官方例子 flink run -m yarn-cluster

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 Yang Wang
t; > Hi > > 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 > > > > > > Original Message > > Sender: r pp > > Recipient: user-zh > > Date: Monday, Dec 21, 2020 21:25 > > Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 > > >

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 r pp
flink 提交到特定的node ,可以保证 其它的任务 不能提交到flink特定的node 上么? xiao cai 于2020年12月22日周二 上午10:28写道: > Hi > 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 > > > Original Message > Sender: r pp > Recipient: user-zh > Date: Monday, Dec 21, 2020 21:25 > Subject: Re: Flink on yarn 如

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 xiao cai
Hi 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 Original Message Sender: r pp Recipient: user-zh Date: Monday, Dec 21, 2020 21:25 Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? 于2020年12月21日周一 下午5:48写道: > 通过y

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 r pp
嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > > -邮件原件- > 发件人: user-zh-return-10095-afweijian=163@flink.apache.org > 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人: user-zh@flink.apache.org >

答复: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 afweijian
通过yarn label可以实现 -邮件原件- 发件人: user-zh-return-10095-afweijian=163@flink.apache.org 代表 yujianbo 发送时间: 2020年12月21日 16:44 收件人: user-zh@flink.apache.org 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 amen...@163.com
这个问题应该问yarn吧。。。 发件人: yujianbo 发送时间: 2020-12-21 16:43 收件人: user-zh 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 yujianbo
各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink on yarn 任务FAILED后 没有错误日志 输出到yarn log

2020-11-20 文章 air23
但是 在yarn上跑的spark 任务 都是可以看到错误日志的, flink这边配置的是log4j的日志文件,本地运行 控制台是可以看到错误原因 和日志 在 2020-11-20 17:53:03,"caozhen" 写道: > >1、jobmanager的日志有没有错误呢? >2、或者通过yarn history查下日志 yarn logs -applicationId xxx >3、如果是flink client 提交作业可以看下客户端日志 > > > >air23 wrote >> 你好 &

Re:Re: flink on yarn 任务FAILED后 没有错误日志 输出到yarn log

2020-11-20 文章 air23
yarn logs -applicationId xxx 和 yarn 历史log 都查看不到FAILED 错误日志。 在 2020-11-20 17:53:03,"caozhen" 写道: > >1、jobmanager的日志有没有错误呢? >2、或者通过yarn history查下日志 yarn logs -applicationId xxx >3、如果是flink client 提交作业可以看下客户端日志 > > > >air23 wrote >> 你好 >> flink on yarn

  1   2   3   >