Re: Flink提交作业是否可以跳过上传作业jar包这一步?

2023-05-15 文章 shimin huang
可以考虑基于flink-kubernetes依赖下的KubernetesClusterDescriptor来启动任务,可以参考https://github.com/collabH/flink-deployer/blob/main/infrastructure/src/main/java/com/flink/plugins/inf/deployer/KubernetesClusterDeployer.java > 2023年5月15日 19:21,casel.chen 写道: > > 我们开发了一个实时计算平台提交flink >

Re: 使用flink-operator 成功生成savepoint, 但job 并未取消

2022-10-19 文章 shimin huang
savepoint流程 1. 执行savepoint kubectl patch flinkdeployment/savepoint-job --type=merge -p '{"spec": {"job": {"state": "suspended", "upgradeMode": "savepoint"}}}’ 2. 删除job kubectl delete flinkdeployment/savepoint-job 3. 根据savepoint启动job 修改flinkdeployment yaml配置,添加如下 spec: ... job:

Re: flink on k8s native开启ha后根据sp启动任务报错找不到job id 0000

2022-05-17 文章 shimin huang
于2022年5月17日周二 21:54写道: > Hi, shimin > 用的哪个版本的 Flink?提交命令是什么呢? > > > Best, > Weihua > > > 2022年5月17日 下午1:48,shimin huang 写道: > > > > flink on native k8s根据savepoint停止任务后在根据savepoint启动任务报错找不到job > &

flink on k8s native开启ha后根据sp启动任务报错找不到job id 0000

2022-05-16 文章 shimin huang
flink on native k8s根据savepoint停止任务后在根据savepoint启动任务报错找不到job 错误堆栈如下: java.util.concurrent.ExecutionException: org.apache.flink.runtime.messages.FlinkJobNotFoundException: Could not find Flink job () at

Re: flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip

2022-04-14 文章 shimin huang
感谢 我看下这块 huweihua 于2022年4月15日周五 13:47写道: > Nodeport 模式下获取 address 的代码在 getLoadBalancerRestEndpoint 中。历史版本会直接获取k8s > master url, 在 Flink-1.14 版本中针对 k8s master 是 VIP 的情况做了适配[1],可以看下是否对你有帮助 > https://issues.apache.org/jira/browse/FLINK-23507 > > > > 2022年4月15日 下午

Re: flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip

2022-04-14 文章 shimin huang
Fabric8FlinkKubeClient#getRestEndPointFromService shimin huang 于2022年4月15日周五 13:37写道: > private Optional getRestEndPointFromService(Service service, int > restPort) { > if (service.getStatus() == null) { > return Optional.empty(); > } > > LoadBalanc

Re: flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip

2022-04-14 文章 shimin huang
gt; 图片显示失败了,可以上传到图床,贴链接到邮件里 > > > 2022年4月15日 上午11:30,shimin huang 写道: > > > > > > 具体细节看和flink k8s这块的细节实现有关,不清楚为什么这个externalIPs的第一个ip在我们k8s集群中为什么不存在 > > > > shimin huang huangshimin1...@gmail.com>> 于2022年4月15日周五 11:16写道: > > hi,使用flink on native k8s NodePort方式启动任务后返回的jobmanager web > ui的地址不是集群中的ip,看k8s底层的部署也没发现具体问题 > >

Re: flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip

2022-04-14 文章 shimin huang
[image: image.png] 具体细节看和flink k8s这块的细节实现有关,不清楚为什么这个externalIPs的第一个ip在我们k8s集群中为什么不存在 shimin huang 于2022年4月15日周五 11:16写道: > hi,使用flink on native k8s NodePort方式启动任务后返回的jobmanager web > ui的地址不是集群中的ip,看k8s底层的部署也没发现具体问题 >

flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip

2022-04-14 文章 shimin huang
hi,使用flink on native k8s NodePort方式启动任务后返回的jobmanager web ui的地址不是集群中的ip,看k8s底层的部署也没发现具体问题

Re: flink on k8s NodePort方式提交本人返回的jm的url和容器ip不一致,导致无法访问

2022-04-14 文章 shimin huang
感谢 我去了解了解 huweihua 于2022年4月14日周四 20:06写道: > 使用 NodePort 会默认使用 api server 的 host + nodeport, 预期 K8S 集群内部所有节点都会转发 > nodeport 的流量,如果无法访问,可能是你使用的 K8S 做了一些封禁,把 NodePort 的流量转发功能禁用了 > > > > 2022年4月14日 下午5:22,shimin huang 写道: > > > > 使用Nodeport方式提交的flink任务返回的jobmang

Re: flink on k8s NodePort方式提交本人返回的jm的url和容器ip不一致,导致无法访问

2022-04-14 文章 shimin huang
使用Nodeport方式提交的flink任务返回的jobmangaer的web ui地址发现无法访问,这导致正常的flink list命令也无法获取对应 cluster.id下的job,实际返回的jm ip发现是api server的,请问各位有什么好的办法解决这类问题呢 shimin huang 于2022年4月14日周四 17:20写道: > flink version: flink 1.13.0 > >

flink on k8s NodePort方式提交本人返回的jm的url和容器ip不一致,导致无法访问

2022-04-14 文章 shimin huang
flink version: flink 1.13.0

Re: flink on k8s是否有替代yarn.ship-files的参数

2022-03-29 文章 shimin huang
供了ship文件的功能。对于Kubernetes application mode来说,用户程序是运行在Job > > Manager的,要求所有的artifacts都已经在镜像中存在。Flink会自动将$FLINK_HOME/usrlib目录下的文件都放入用户程序的classpath中,所以你需要按照链接中的方法,创建镜像,将你需要的artifacts提前放到镜像之中。然后在提交命令中指定主类和主类所用的JAR就可以了。 > > > > > On Mon, 28 Mar 2022 at 8:26 PM, shimin huang > wrote: >

Re: flink on k8s是否有替代yarn.ship-files的参数

2022-03-28 文章 shimin huang
1.12.0没有找到相关的配置,目前考虑测试下pipeline.classpaths指定对应的jars路径是否生效。 Geng Biao 于2022年3月28日周一 20:18写道: > Hi shimin, > 外部jar依赖可以看一下文档里usrlib在flink on k8s里的使用。 > > Best, > Biao > > 获取 Outlook for iOS<https://aka.ms/o0ukef> > ________ > 发件人: shimi

Re: flink on k8s是否有替代yarn.ship-files的参数

2022-03-28 文章 shimin huang
external-resource..yarn.config-key这个配置贴错了应该是这个 external-resource..kubernetes.config-key shimin huang 于2022年3月28日周一 20:14写道: > flink version 1.12.0 > > 近期在将flink on yarn迁移至flink on > k8s,以前外部的jar包和配置都是通过yarn.skip-files参数来进行配置加载的,想问下k8s是否有类似参数,目前在1.12.0的文档发现没找到类似的,有个 > ex

flink on k8s是否有替代yarn.ship-files的参数

2022-03-28 文章 shimin huang
flink version 1.12.0 近期在将flink on yarn迁移至flink on k8s,以前外部的jar包和配置都是通过yarn.skip-files参数来进行配置加载的,想问下k8s是否有类似参数,目前在1.12.0的文档发现没找到类似的,有个 external-resource..yarn.config-key配置,但是没有具体的试用案例,希望有大佬能够解答下有什么好的方式吗

Re: 非对齐检查点还能保证exactly once语义吗

2021-08-03 文章 shimin huang
Hi! 这个有相关的文档介绍吗,1.11版本左右简单了解过exactly once非对齐机制这块,1.13版本的exactly once的非对齐机制貌似没在官方文档上看到 Caizhi Weng 于2021年8月2日周一 下午7:28写道: > Hi! > > shimin huang 说的可能是原本的 at least once 的 checkpoint 机制,这种 checkpoint 原本就是不对齐的。 > > Flink 1.13 完善了 exactly once 条件下的不对齐 checkpoint 机制,因此这是能保证 exactly onc

Re: 非对齐检查点还能保证exactly once语义吗

2021-08-02 文章 shimin huang
不可以,会存在重复消费的问题,如果buffer没有对齐的话,job重启,那么这些buffer的数据就会清空,然后相关的subtask会重新消费一遍。 张锴 于2021年8月2日周一 下午6:53写道: > flink最新特性中有非对齐检查点的特性,可以用来解决一些反压下的任务,但如果用了这个,还能保证精确一次吗?对齐的检查点有清晰的快照N~N + > 1之间的边界,这个会将数据混在一起,如何在恢复的时候保证精确一次? >

Re: flink集群提交任务挂掉

2021-04-01 文章 shimin huang
增大`taskmanager.memory.task.off-heap.size`配置 bowen li 于2021年4月2日周五 上午10:54写道: > Hi,大家好: > 现在我们遇到的场景是这样的,提交任务的时候会报错。我们使用的版本是1.12.1,搭建模式是standalone的。下面是报错信息。 > >java.lang.OutOfMemoryError: Direct buffer memory. The direct > out-of-memory error has occurred. This can mean two things:

Re: Flink Job 如何集成到自己的系统,方便管理

2021-03-07 文章 shimin huang
可以看下flink源码的flink k8s模块,里面的test pachage下有需求flink k8s的使用姿势,希望对你有帮助。 DanielGu <610493...@qq.com> 于2021年3月7日周日 下午4:34写道: > >有的,通过 FLINK 和 YARN 或 k8s > 的接口进行编程,管理元数据,管理用户文件,支持提交作业及之后管理作业状态,这是许多公司应用Flink > 的实现方式。 > > 请问有什么可以参考的资料吗?有相关意愿,不知道从哪里下手,希望整个 flink on k8s > > > > -- > Sent from:

使用per-job部署成功的flink sql应用但是用applicationMode部署失败,提交到yarn上不到2秒就死掉,并且读取不到日志

2020-11-25 文章 shimin huang
``` 14:56:44.536 [main] ERROR org.apache.flink.client.cli.CliFrontend - Error while running the command. org.apache.flink.client.deployment.ClusterDeploymentException: Couldn't deploy Yarn Application Cluster at

使用flink1.11.1的debezium-changelog目前是否不支持Watermark

2020-11-16 文章 shimin huang
报错日志: ``` Currently, defining WATERMARK on a changelog source is not supported ```

flink1.11.1使用Table API Hive方言的executSql报错

2020-07-27 文章 shimin huang
Hi,all: 本人基于Flink1.11.1的table API使用Hive方言,调用executSql方法后报错,堆栈信息如下: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Failed to execute sql at org.apache.flink.client.program.PackagedProgram.callMainMethod( PackagedProgram.java:302)

Re: Flink 严重背压问题排查

2020-05-11 文章 shimin huang
Hello aven.wu: 可以看下各个operator的metrics的指标,比如它的buffers.outPoolUsage、buffers.inPoolUsage、buffers.inputFloatingBuffersUsage、buffers.inputExclusiveBuffersUsage, - 如果一个 Subtask 的发送端 Buffer 占用率很高,则表明它被下游反压限速了;如果一个 Subtask 的接受端 Buffer 占用很高,则表明它将反压传导至上游。 - outPoolUsage 和 inPoolUsage 同为低或同为高分别表明当前