Re: 使用Kafka记录自身的时间戳问题

2024-05-13 文章 Biao Geng
Hi,

>>> 那这个时间戳是kafka接收到数据自动生成的时间吗?还是说消息发送给kafka的时候需要怎么设置把业务时间附上去?
这个时间戳来自Kafka record里的时间戳,可以参考代码
<https://github.com/apache/flink-connector-kafka/blob/00c9c8c74121136a0c1710ac77f307dc53adae99/flink-connector-kafka/src/main/java/org/apache/flink/connector/kafka/source/reader/KafkaRecordEmitter.java#L52>
。它的生成逻辑由Kafka配置决定,如果用户没有指定的话,默认是消息创建时间,可以参考Kafka的文档
<https://kafka.apache.org/23/javadoc/org/apache/kafka/clients/producer/ProducerRecord.html>

>>> 感觉应该是发送数据到kafka的时候需要把业务时间给附上去,那在sink端怎么把时间附上去呢?
flink的Kafka connector里KafkaSink的实现是默认用input record里的时间戳,可以参考这里的实现
<https://github.com/apache/flink-connector-kafka/blob/00c9c8c74121136a0c1710ac77f307dc53adae99/flink-connector-kafka/src/main/java/org/apache/flink/connector/kafka/sink/KafkaWriter.java#L190>
。


Best,
Biao Geng


ha.fen...@aisino.com  于2024年5月8日周三 10:59写道:

>
> DataStream stream = env.fromSource(
> kafkaSource,
> WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(20)),
> "mySource");
> 这样做使用的是Kafka记录自身的时间戳来定义watermark。
>
> 那这个时间戳是kafka接收到数据自动生成的时间吗?还是说消息发送给kafka的时候需要怎么设置把业务时间附上去?
> 感觉应该是发送数据到kafka的时候需要把业务时间给附上去,那在sink端怎么把时间附上去呢?
>


Re: 在idea中用CliFrontend提交job 报错 java.nio.ByteBuffer.position(I)Ljava/nio/ByteBuffer;

2024-04-30 文章 Biao Geng
Hi,

这个报错一般是JDK版本不一致导致的。建议统一build flink和执行flink作业时的Java版本,(都用JDK8 或者 都用JDK11)。
用JDK11时没有sun.misc的问题可以试试勾选掉Idea的Settings-> Build, Execution and Deployment
-> Compiler-> Java Compiler的Use '--release' option for cross-compilation'
选项。

Best,
Biao Geng


z_mmG <13520871...@163.com> 于2024年4月30日周二 15:08写道:

>
> JDK11 编译的flink1.19的源码
> 因为他说没有sun.misc,所以启动用的jdk8
>
> 已连接到地址为 ''127.0.0.1:8339',传输: '套接字'' 的目标虚拟机
>
> Job has been submitted with JobID 0975ec264edfd11d236dd190e7708d70
>
>
> 
>
>  The program finished with the following exception:
>
>
> org.apache.flink.client.program.ProgramInvocationException: The main
> method caused an error:
> org.apache.flink.client.program.ProgramInvocationException: Job failed
> (JobID: 0975ec264edfd11d236dd190e7708d70)
>
> at
> org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:373)
>
> at
> org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:223)
>
> at org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:113)
>
> at
> org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:1026)
>
> at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:247)
>
> at
> org.apache.flink.client.cli.CliFrontend.parseAndRun(CliFrontend.java:1270)
>
> at
> org.apache.flink.client.cli.CliFrontend.lambda$mainInternal$10(CliFrontend.java:1367)
>
> at
> org.apache.flink.runtime.security.contexts.NoOpSecurityContext.runSecured(NoOpSecurityContext.java:28)
>
> at
> org.apache.flink.client.cli.CliFrontend.mainInternal(CliFrontend.java:1367)
>
> at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:1335)
>
> Caused by: java.util.concurrent.ExecutionException:
> org.apache.flink.client.program.ProgramInvocationException: Job failed
> (JobID: 0975ec264edfd11d236dd190e7708d70)
>
> at
> java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357)
>
> at java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895)
>
> at
> org.apache.flink.client.program.StreamContextEnvironment.getJobExecutionResult(StreamContextEnvironment.java:170)
>
> at
> org.apache.flink.client.program.StreamContextEnvironment.execute(StreamContextEnvironment.java:121)
>
> at
> org.apache.flink.streaming.api.environment.StreamExecutionEnvironment.execute(StreamExecutionEnvironment.java:2325)
>
> at
> org.apache.flink.streaming.api.environment.StreamExecutionEnvironment.execute(StreamExecutionEnvironment.java:2303)
>
> at org.apache.flink.streaming.examples.ys.WordCount.main(WordCount.java:34)
>
> at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
>
> at
> sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
>
> at
> sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
>
> at java.lang.reflect.Method.invoke(Method.java:498)
>
> at
> org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:356)
>
> ... 9 more
>
> Caused by: org.apache.flink.client.program.ProgramInvocationException: Job
> failed (JobID: 0975ec264edfd11d236dd190e7708d70)
>
> at
> org.apache.flink.client.deployment.ClusterClientJobClientAdapter.lambda$getJobExecutionResult$6(ClusterClientJobClientAdapter.java:130)
>
> at
> java.util.concurrent.CompletableFuture.uniApply(CompletableFuture.java:602)
>
> at
> java.util.concurrent.CompletableFuture$UniApply.tryFire(CompletableFuture.java:577)
>
> at
> java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
>
> at
> java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:1962)
>
> at
> org.apache.flink.util.concurrent.FutureUtils.lambda$retryOperationWithDelay$6(FutureUtils.java:302)
>
> at
> java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
>
> at
> java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
>
> at
> java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
>
> at
> java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:1962)
>
> at
> org.apache.flink.client.program.rest.RestClusterClient.lambda$pollResourceAsync$35(RestClusterClient.java:901)
>
> at
> java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
>
> at
> java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
>
> at
> java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
>
> at
> java.util.concurrent.Completab

Re: 退订

2024-04-07 文章 Biao Geng
Hi,

If you want to unsubscribe to user-zh mailing list, please send an email
with any content to user-zh-unsubscr...@flink.apache.org
.
退订请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org
.


Best,
Biao Geng


995626544 <995626...@qq.com.invalid> 于2024年4月7日周日 16:06写道:

> 退订
>
>
>
>
> 995626544
> 995626...@qq.com
>
>
>
> 


Re: 配置hadoop依赖问题

2024-04-01 文章 Biao Geng
Hi fengqi,

“Hadoop is not in the
classpath/dependencies.”报错说明org.apache.hadoop.conf.Configuration和org.apache.hadoop.fs.FileSystem这些hdfs所需的类没有找到。

如果你的系统环境中有hadoop的话,通常是用这种方式来设置classpath:
export HADOOP_CLASSPATH=`hadoop classpath`

如果你的提交方式是提交到本地一个standalone的flink集群的话,可以检查下flink生成的日志文件,里面会打印classpath,可以看下是否有Hadoop相关的class。

Best,
Biao Geng


ha.fen...@aisino.com  于2024年4月2日周二 10:24写道:

> 1、在开发环境下,添加的有hadoop-client依赖,checkpoint时可以访问到hdfs的路径
> 2、flink1.19.0,hadoop3.3.1,jar提交到单机flink系统中,提示如下错误
> Caused by: java.lang.RuntimeException:
> org.apache.flink.runtime.client.JobInitializationException: Could not start
> the JobMaster.
> at org.apache.flink.util.ExceptionUtils.rethrow(ExceptionUtils.java:321)
> at
> org.apache.flink.util.function.FunctionUtils.lambda$uncheckedFunction$2(FunctionUtils.java:75)
> at
> java.util.concurrent.CompletableFuture.uniApply(CompletableFuture.java:602)
> at
> java.util.concurrent.CompletableFuture$UniApply.tryFire(CompletableFuture.java:577)
> at
> java.util.concurrent.CompletableFuture$Completion.exec(CompletableFuture.java:443)
> at java.util.concurrent.ForkJoinTask.doExec(ForkJoinTask.java:289)
> at
> java.util.concurrent.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1056)
> at java.util.concurrent.ForkJoinPool.runWorker(ForkJoinPool.java:1692)
> at
> java.util.concurrent.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:157)
> Caused by: org.apache.flink.runtime.client.JobInitializationException:
> Could not start the JobMaster.
> at
> org.apache.flink.runtime.jobmaster.DefaultJobMasterServiceProcess.lambda$new$0(DefaultJobMasterServiceProcess.java:97)
> at
> java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
> at
> java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
> at
> java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
> at
> java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1595)
> at
> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
> at
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
> at java.lang.Thread.run(Thread.java:748)
> Caused by: java.util.concurrent.CompletionException:
> org.apache.flink.util.FlinkRuntimeException: Failed to create checkpoint
> storage at checkpoint coordinator side.
> at
> java.util.concurrent.CompletableFuture.encodeThrowable(CompletableFuture.java:273)
> at
> java.util.concurrent.CompletableFuture.completeThrowable(CompletableFuture.java:280)
> at
> java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1592)
> ... 3 more
> Caused by: org.apache.flink.util.FlinkRuntimeException: Failed to create
> checkpoint storage at checkpoint coordinator side.
> at
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator.(CheckpointCoordinator.java:364)
> at
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator.(CheckpointCoordinator.java:273)
> at
> org.apache.flink.runtime.executiongraph.DefaultExecutionGraph.enableCheckpointing(DefaultExecutionGraph.java:503)
> at
> org.apache.flink.runtime.executiongraph.DefaultExecutionGraphBuilder.buildGraph(DefaultExecutionGraphBuilder.java:334)
> at
> org.apache.flink.runtime.scheduler.DefaultExecutionGraphFactory.createAndRestoreExecutionGraph(DefaultExecutionGraphFactory.java:173)
> at
> org.apache.flink.runtime.scheduler.SchedulerBase.createAndRestoreExecutionGraph(SchedulerBase.java:381)
> at
> org.apache.flink.runtime.scheduler.SchedulerBase.(SchedulerBase.java:224)
> at
> org.apache.flink.runtime.scheduler.DefaultScheduler.(DefaultScheduler.java:140)
> at
> org.apache.flink.runtime.scheduler.DefaultSchedulerFactory.createInstance(DefaultSchedulerFactory.java:162)
> at
> org.apache.flink.runtime.jobmaster.DefaultSlotPoolServiceSchedulerFactory.createScheduler(DefaultSlotPoolServiceSchedulerFactory.java:121)
> at
> org.apache.flink.runtime.jobmaster.JobMaster.createScheduler(JobMaster.java:379)
> at org.apache.flink.runtime.jobmaster.JobMaster.(JobMaster.java:356)
> at
> org.apache.flink.runtime.jobmaster.factories.DefaultJobMasterServiceFactory.internalCreateJobMasterService(DefaultJobMasterServiceFactory.java:128)
> at
> org.apache.flink.runtime.jobmaster.factories.DefaultJobMasterServiceFactory.lambda$createJobMasterService$0(DefaultJobMasterServiceFactory.java:100)
> at
> org.apache.flink.util.function.FunctionUtils.lambda$uncheckedSupplier$4(FunctionUtils.java:112)
> at
> java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1590)
> ... 3 more
> Caused by: org.apache.flink.core.fs.UnsupportedFileSystemSchemeException:
> Could not find a file system implementation for scheme '

Re: 退订

2024-04-01 文章 Biao Geng
Hi,

退订请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org
.


Best,
Biao Geng

CloudFunny  于2024年3月31日周日 22:25写道:

>
>


Re: 退订

2024-04-01 文章 Biao Geng
Hi,

退订请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org
.


Best,
Biao Geng

戴少  于2024年4月1日周一 11:09写道:

> 退订
>
> --
>
> Best Regards,
>
>
>
>
>  回复的原邮件 
> | 发件人 | wangfengyang |
> | 发送日期 | 2024年03月22日 17:28 |
> | 收件人 | user-zh  |
> | 主题 | 退订 |
> 退订


Re: 退订

2024-04-01 文章 Biao Geng
Hi,

退订请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org
.


Best,
Biao Geng


杨东树  于2024年3月31日周日 20:23写道:

> 申请退订邮件通知,谢谢!


Re: 申请退订邮件申请,谢谢

2024-04-01 文章 Biao Geng
Hi,

退订请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org
.


Best,
Biao Geng

 于2024年3月31日周日 22:20写道:

> 申请退订邮件申请,谢谢


Re: 退订

2023-09-13 文章 Biao Geng
Hi,

请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 地址来取消订阅来自
user-zh@flink.apache.org  邮件组的邮件,你可以参考[1][2]
管理你的邮件订阅。
Please send email to user-zh-unsubscr...@flink.apache.org if you want to
unsubscribe the mail from user-zh@flink.apache.org ,
and you can refer [1][2] for more details.

Best,
Biao Geng

[1]
https://flink.apache.org/zh/community/#%e9%82%ae%e4%bb%b6%e5%88%97%e8%a1%a8
[2] https://flink.apache.org/community.html#mailing-lists

wangchuan  于2023年9月11日周一 10:20写道:

> 退订
>


Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-23 文章 Biao Geng
Hi,
可以配置下jemalloc来进行堆外内存泄漏的定位。
具体操作可以参考下这两篇文章。
https://cloud.tencent.com/developer/article/1884177
https://chenhm.com/post/2018-12-05-debuging-java-memory-leak#_native_method_%E5%86%85%E5%AD%98

Best,
Biao Geng

Guo Thompson  于2023年4月22日周六 09:57写道:

> yarn,我已经关闭了yarn的内存检查,glibc的那个参数已经配置成1了
>
> Weihua Hu  于2023年4月21日周五 19:23写道:
>
> > Hi,
> >
> > 你作业运行在 YARN 还是 Kubernetes 上?可以先关注下文档里的 Glibc 泄露问题
> >
> > Best,
> > Weihua
> >
> >
> > On Fri, Apr 21, 2023 at 6:04 PM Guo Thompson 
> > wrote:
> >
> > > Flink
> > >
> >
> Job是基于sql的,Flink版本为1.13.3,state用rocksDB存,发现会存在内存泄露的情况,作业运行一段时间后,会被linux内核kill掉,求助,如何解决?
> > > 网上
> > >
> >
> http://www.whitewood.me/2021/01/02/%E8%AF%A6%E8%A7%A3-Flink-%E5%AE%B9%E5%99%A8%E5%8C%96%E7%8E%AF%E5%A2%83%E4%B8%8B%E7%9A%84-OOM-Killed/
> > > 讲很可能就是rocksDB的内存没法回收导致。
> > >
> > > 1、分配 tm的30G内存,jvm堆内的远远没有使用完。
> > > [image: 8f47b109-a04b-4bc1-8f64-fed21c58838d.jpeg]
> > > 2、从linux上查看内存使用,实际使用内存 44.4G,远远超出设置的30G
> > > [image: image.png]
> > > 3、dump下tm的jvm内存,实际不到2G(dump会触发full gc)
> > > [image: image.png]
> > >
> >
>


Re: 退订

2023-04-19 文章 Biao Geng
Hi,
退订可以发送邮件到 
user-zh-unsubscr...@flink.apache.org

From: 琴师 <1129656...@qq.com.INVALID>
Date: Wednesday, April 19, 2023 at 4:42 PM
To: user-zh 
Subject: 退订
退订


琴师
1129656...@qq.com






Re: 退订

2023-04-18 文章 Biao Geng
Hi,
退订可以发送邮件到 
user-zh-unsubscr...@flink.apache.org
 

From: 杨伟伟 
Date: Tuesday, April 18, 2023 at 9:32 AM
To: user-zh@flink.apache.org 
Subject: 退订
退订


Re: Re: Flink程序内存Dump不了

2023-02-20 文章 Biao Geng
Hi,
这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
可能和flink关系不大。
我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux user与运行flink作业的Linux
user不一致导致的。
不知道和你们的问题一不一致,你可以试试t用op -p 查到USER,然后su 一下,再进行jmap
-dump:format=b,file=/tmp/dump.hprof 试试。

Best,
Biao Geng

Weihua Hu  于2023年2月20日周一 14:03写道:

> Hi,
>
> 可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。
>
>
> [1]
>
> https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options
>
> Best,
> Weihua
>
>
> On Mon, Feb 20, 2023 at 1:58 PM lxk  wrote:
>
> > 我尝试调整了参数,具体数值如下
> >
> >
> > akka.ask.timeout: 900s
> >
> >
> >
> > 但还是报同样的错
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> > 在 2023-02-17 17:32:51,"Guo Thompson"  写道:
> > >可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了;
> > >
> > >lxk  于2023年2月14日周二 14:32写道:
> > >
> > >> Flink version:1.16
> > >> java version: jdk1.8.0_251
> > >> 问题:最近上线的Flink程序,频繁young
> > >>
> >
> gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps
> > >> -ef|grep 1666758697316_2639108,找到对应的pid,最后执行 jmap -dump:format
> > >> b,file=user.dump 26326
> > >>
> >
> 命令生成dump文件,但我们测试了很多个程序,只要一开始dump,都会对线上程序产生影响,程序的container会莫名的死掉,然后程序重启。具体执行命令后的报错如下:
> > >> sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
> > >> https://pic.imgdb.cn/item/63eb2a46f144a010071899ba.png
> > >> 不知道大家有没有遇见这个问题,是我们使用的姿势不对,还是目前使用的版本有什么问题,希望大家能够给出一些建议和看法。
> >
>


Re: [ANNOUNCE] Apache Flink Kubernetes Operator 1.3.0 released

2022-12-16 文章 Biao Geng
Congratulations!
Thanks a lot for the awesome work!

Best regards,
Biao Geng


Őrhidi Mátyás  于2022年12月15日周四 01:30写道:

> The Apache Flink community is very happy to announce the release of Apache
> Flink Kubernetes Operator 1.3.0.
>
> Release highlights:
>
>- Upgrade to Fabric8 6.x.x and JOSDK 4.x.x
>- Restart unhealthy Flink clusters
>- Contribute the Flink Kubernetes Operator to OperatorHub
>- Publish flink-kubernetes-operator-api module separately
>
> Please check out the release blog post for an overview of the release:
> https://flink.apache.org/news/2022/12/14/release-kubernetes-operator-1.3.0.html
>
> The release is available for download at:
> https://flink.apache.org/downloads.html
>
> Maven artifacts for Flink Kubernetes Operator can be found at:
> https://search.maven.org/artifact/org.apache.flink/flink-kubernetes-operator
>
> Official Docker image for Flink Kubernetes Operator applications can be
> found at: https://hub.docker.com/r/apache/flink-kubernetes-operator
>
> The full release notes are available in Jira:
> https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522=12352322
>
> We would like to thank all contributors of the Apache Flink community who
> made this release possible!
>
> Regards,
>
> Matyas Orhidi
>


Re: Flink Kubernetes Operator何时会保留JobManager Pod

2022-11-27 文章 Biao Geng
hi,主要就是针对作业FINISHED或者FAILED时也能保留作业。你可以跑一个批作业试试。
Best,
Biao Geng

获取 Outlook for iOS<https://aka.ms/o0ukef>

发件人: hjw 
发送时间: Monday, November 28, 2022 3:13:56 PM
收件人: user-zh@flink.apache.org 
主题: Flink Kubernetes Operator何时会保留JobManager Pod

环境:

Flink:1.15
Operator: 1.2.0


问题:
注意到Operator源码里execution.shutdown-on-application-finish参数被设置为False。
想请问Flink operator部署的Flink作业在何时会保留JobManager的pod?因为我想在作业失败或者停止后还能获取到作业的日志。


除了正常Running状态会保留外,我尝试了其他情况。
1、作业State设置为suspended:保留对应的FlinkDeployment资源类型,但作业相关的Deployment和service全部删除,包括JobManager所在pod。
2、直接执行kubectl delete flinkdeployment 
my-deployment。作业的所有关联资源全被删除,包括HA资源,状态存储信息,Deployment等。







--

Best,
Hjw


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 Biao Geng
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

> 您好,我之前做了一些尝试:
> 1. 测试Spark、MR任务正常
> 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
> 3.
> 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
> 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
> HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
> HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题
>
>
> 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>  Replied Message 
> | From | Biao Geng |
> | Date | 07/14/2022 14:31 |
> | To |  |
> | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
> hi,
>
> 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
> 有几个可以检查的地方:
> 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
> HADOOP_CLASSPATH=`hadoop classpath`
> 2.
>
> 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确
>
> Best,
> Biao Geng
>
> Biao Geng  于2022年7月14日周四 11:32写道:
>
> hi,
> 你有试过提交flink
>
> example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
> -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。
>
> Best,
> Biao Geng
>
> lishiyuan0506  于2022年7月14日周四 11:06写道:
>
> 您好,环境变量里面有,而且flink的conf.sh也设置了
>
>
> lishiyuan0506
> lishiyuan0...@163.com
>
> <
> https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D
> >
>
>  Replied Message 
> From Yang Wang 
> Date 07/14/2022 11:00
> To user-zh 
> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>
> Best,
> Yang
>
> lishiyuan0506  于2022年7月14日周四 09:41写道:
>
> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>
>


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 Biao Geng
hi,
你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.
集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

> hi,
> 你有试过提交flink
> example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
> -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。
>
> Best,
> Biao Geng
>
> lishiyuan0506  于2022年7月14日周四 11:06写道:
>
>> 您好,环境变量里面有,而且flink的conf.sh也设置了
>>
>>
>> lishiyuan0506
>> lishiyuan0...@163.com
>>
>> <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>
>>
>>  Replied Message 
>> From Yang Wang 
>> Date 07/14/2022 11:00
>> To user-zh 
>> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
>> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>>
>> Best,
>> Yang
>>
>> lishiyuan0506  于2022年7月14日周四 09:41写道:
>>
>> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
>> 0.0.0.0/0.0.0.0:8030这个异常
>>
>>
>> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>>
>>
>> | |
>> lishiyuan0506
>> |
>> |
>> lishiyuan0...@163.com
>> |
>>
>>
>>


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-13 文章 Biao Geng
hi,
你有试过提交flink
example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

> 您好,环境变量里面有,而且flink的conf.sh也设置了
>
>
> lishiyuan0506
> lishiyuan0...@163.com
>
> <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>
>
>  Replied Message 
> From Yang Wang 
> Date 07/14/2022 11:00
> To user-zh 
> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>
> Best,
> Yang
>
> lishiyuan0506  于2022年7月14日周四 09:41写道:
>
> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>


Re: 安装helm的Flink Kubernetes Operator 失败

2022-04-25 文章 Biao Geng
Hi,
报错看着是没有找到cert-manager,你有参考官网的QuickStart
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-main/docs/try-flink-kubernetes-operator/quick-start/
 先运行 kubectl create -f
https://github.com/jetstack/cert-manager/releases/download/v1.7.1/cert-manager.yaml
吗? 或者不需要开启webhoook的话,也可以helm install flink-kubernetes-operator
flink-operator-repo/flink-kubernetes-operator --set webhook.create=false
跳过安装webhook及其依赖的cert-manager.

Best,
Biao Geng


陈卓宇 <2572805...@qq.com.invalid> 于2022年4月25日周一 19:46写道:

> 报错:
> [streamx@localhost ~]$ helm install flink-kubernetes-operator
> flink-operator-repo/flink-kubernetes-operator
> WARNING: Kubernetes configuration file is group-readable. This is
> insecure. Location: /home/streamx/.kube/config
> WARNING: Kubernetes configuration file is world-readable. This is
> insecure. Location: /home/streamx/.kube/config
> Error: INSTALLATION FAILED: unable to build kubernetes objects from
> release manifest: [unable to recognize "": no matches for kind
> "Certificate" in version "cert-manager.io/v1", unable to recognize "": no
> matches for kind "Issuer" in version "cert-manager.io/v1"]
>
> 求大佬教解决办法
>
> 陈卓宇
>
>
> 


Re: Flink1.13 standalone基于zk进行HA,经常出现重启后无限leader选举的情况

2022-03-10 文章 Biao Geng
Hi yidian,
如果我没理解错的话,你提到集群没有flink作业时,zk也会有较低概率发生leader选举(你说的“重启”应该是指leader选举?)。这本身就是可能有问题的。你可以先去看看zk的日志判断一下zk重启的原因。

Best,
Biao

yidan zhao 于2022年3月11日 周五12:17写道:

> 我zk主要就flink和kafka用,还有kafka-manager,应该用的不是不多。至少zk的磁盘IO很低。
> 除非说是zk所在机器本身压力高勉强可能,但是zk本身压力不会高。
>
>
> Biao Geng  于2022年3月11日周五 12:06写道:
>
> > Hi yidian,
> >
> > 你说的应该是ZK
> >
> >
> leader频繁选举?你可以看下ZK的日志,看看有没有更具体的原因。一般是因为ZK存储用量过大(znode数目过多),导致ZK的leader和follower数据同步失败,触发选举。
> > Flink HA任务数目不多的话,一般在ZK侧压力不大。你可以看看有没有其他应用也使用了ZK服务。
> >
> > Best,
> > Biao
> >
> > yidan zhao 于2022年3月11日 周五11:51写道:
> >
> > > 如题,大家知道为啥吗。
> > > 一般如果集群没任务。重启问题出现概率低。
> > > 但如果集群本身任务多,重启后有任务恢复,很容易出现无限重启。
> > >
> >
>


Re: Flink1.13 standalone基于zk进行HA,经常出现重启后无限leader选举的情况

2022-03-10 文章 Biao Geng
Hi yidian,

你说的应该是ZK
leader频繁选举?你可以看下ZK的日志,看看有没有更具体的原因。一般是因为ZK存储用量过大(znode数目过多),导致ZK的leader和follower数据同步失败,触发选举。
Flink HA任务数目不多的话,一般在ZK侧压力不大。你可以看看有没有其他应用也使用了ZK服务。

Best,
Biao

yidan zhao 于2022年3月11日 周五11:51写道:

> 如题,大家知道为啥吗。
> 一般如果集群没任务。重启问题出现概率低。
> 但如果集群本身任务多,重启后有任务恢复,很容易出现无限重启。
>