Flink 误报checkpoint失败

2023-05-03 文章 Chen Yang
您好, 我的 Flink job是以 reactive 模式运行,然后用了 Kubernetes HPA 来自动扩容/缩容 TaskManager。每当TaskManager 扩容/缩容的时候,Flink会在日志中报错:因为扩缩容之前的TaskManager没有在运行导致checkpoint失败,同时也有checkpoint失败的警报。 但实际上checkpoint 还能顺利进行, job也没有运行错误。 重启job后这个错误就会消失。想请教一下如何修复这个问题? 详细的日志如下 2022-12-13 05:08:22.339 [jobmanager-io-thread-1] INFO

退订

2023-05-02 文章 胡家发
退订

Re: sql查询数据库不走索引

2023-04-28 文章 Shammon FY
Hi 你使用的是flink-connector-jdbc 3.0.0-1.16版本吧?需要使用3.0.0-1.17,不过目前应该还没有release,你可以关注下 On Wednesday, April 26, 2023, 杨扬 wrote: > 各位大佬好! > 目前升级到了flink1.17+jdbc-3.0,经过测试依然没有实现谓词下推,想请教下这是为什么? > > > > > > 在 2022年12月5日,下午3:05,rovo98 写道: > > > > 你好,请留意您使用的 flink 版本。在 flink 1.17, jdbc-3.0.0

Re: sql查询数据库不走索引

2023-04-25 文章 杨扬
各位大佬好! 目前升级到了flink1.17+jdbc-3.0,经过测试依然没有实现谓词下推,想请教下这是为什么? > 在 2022年12月5日,下午3:05,rovo98 写道: > > 你好,请留意您使用的 flink 版本。在 flink 1.17, jdbc-3.0.0 版本之前,jdbc connector 没有实现 > SupportsFilterPushDown 接口(谓词下推),所以发送至数据库的查询是 select xxx from table_name > 的全表扫描形式。 > > > 如有需要可参考 FLINK-16024

回复: 关于Apache Flink源码贡献流程

2023-04-25 文章 tanjialiang
Hi, Jing Ge, 原来如此,非常感谢你的帮助和建议 Best regards, tanjialiang. 回复的原邮件 | 发件人 | Jing Ge | | 发送日期 | 2023年4月25日 13:45 | | 收件人 | | | 主题 | Re: 关于Apache Flink源码贡献流程 | Hi tanjianliang, 你说的英文讨论邮件是这个吧[1]? 建议以后讨论涉及到邮件引用时都带上链接,方便大家理解上下文。 结合邮件以及Jira里面的回复,你可以写好FLIP[2]之后再来发起新的讨论。 Best regards, Jing

Re: 关于Apache Flink源码贡献流程

2023-04-24 文章 Jing Ge
Hi tanjianliang, 你说的英文讨论邮件是这个吧[1]? 建议以后讨论涉及到邮件引用时都带上链接,方便大家理解上下文。 结合邮件以及Jira里面的回复,你可以写好FLIP[2]之后再来发起新的讨论。 Best regards, Jing [1] https://lists.apache.org/thread/3yzvo6mynj637v2z10s895t7hhmv4rjd [2] https://cwiki.apache.org/confluence/display/FLINK/Flink+Improvement+Proposals On Mon, Apr 24,

退订

2023-04-24 文章 m15901500867_1
退订 | | 15901500...@163.com | | 邮箱:15901500...@163.com |

回复: 关于Apache Flink源码贡献流程

2023-04-24 文章 tanjialiang
Hi, Shammon FY, 感谢你的帮助,我想我缺少了FLIP,我会补上再发起一次讨论 Best regards, tanjialiang. 回复的原邮件 | 发件人 | Shammon FY | | 发送日期 | 2023年4月25日 10:12 | | 收件人 | , | | 主题 | Re: 关于Apache Flink源码贡献流程 | Hi tanjialiang

Re: 关于Apache Flink源码贡献流程

2023-04-24 文章 Shammon FY
Hi tanjialiang `EncodingFormat`和`DecodingFormat`是PublicEvolving接口,你可以在 https://cwiki.apache.org/confluence/display/FLINK/Flink+Improvement+Proposals 创建一个FLIP,然后在dev邮件组发起FLIP讨论;完成讨论后发起FLIP投票,投票通过后可以在对应的issue上提交PR Best, Shammon FY On Mon, Apr 24, 2023 at 5:10 PM tanjialiang wrote: > Hi, Jing Ge

回复: 关于Apache Flink源码贡献流程

2023-04-24 文章 tanjialiang
Hi, Jing Ge 感谢你的回复。 目前我已经发起了一个英文的邮件讨论(大约两周前),但是目前回复邮件的开发者只有一个,针对这种情况我应该如何去安排后续的代码贡献工作? Best regrads, tanjialiang. 回复的原邮件 | 发件人 | Jing Ge | | 发送日期 | 2023年4月24日 16:30 | | 收件人 | | | 主题 | Re: 关于Apache Flink源码贡献流程 | Hi, 如果是增加public API变更的话,建议先发起一个英文的邮件讨论,然后看是否需要创建FLIP,然后在基于FLIP发起更具体的技术讨论

Re: 关于Apache Flink源码贡献流程

2023-04-24 文章 Jing Ge
Hi, 如果是增加public API变更的话,建议先发起一个英文的邮件讨论,然后看是否需要创建FLIP,然后在基于FLIP发起更具体的技术讨论 On Mon, Apr 24, 2023 at 10:06 AM tanjialiang wrote: > Hello,everyone. > 我想向apache > flink贡献源码,由于修复这个issue需要新增一些API,按照流程需要发起邮件讨论,但这个topic只得到一名开发者关注,这样的情况下我应该如何进行后面的流程?期待有熟悉flink源码贡献的开发者可以提供帮助 > > > issue:

关于Apache Flink源码贡献流程

2023-04-24 文章 tanjialiang
Hello,everyone. 我想向apache flink贡献源码,由于修复这个issue需要新增一些API,按照流程需要发起邮件讨论,但这个topic只得到一名开发者关注,这样的情况下我应该如何进行后面的流程?期待有熟悉flink源码贡献的开发者可以提供帮助 issue: https://issues.apache.org/jira/browse/FLINK-31686 discuss邮件标题: EncodingFormat and DecondingFormat provide copy API Best regrads tanjialiang.

退订

2023-04-23 文章 朱静
退订

Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-23 文章 Yanfei Lei
Hi, 请问作业有配置ttl吗? 另外可以参考下是否与下面两个问题类似: 1. pin L0 index in memory : https://issues.apache.org/jira/browse/FLINK-31089 2. max open files:https://issues.apache.org/jira/browse/FLINK-31225 Biao Geng 于2023年4月23日周日 15:35写道: > > Hi, > 可以配置下jemalloc来进行堆外内存泄漏的定位。 > 具体操作可以参考下这两篇文章。 >

Re: flink rocksdb异常

2023-04-23 文章 Shammon FY
Hi 这是TM向JM发送消息超时了,可以了看下JM是否有错误日志,或者对应的TM和JM是否有资源打满等情况,导致akka消息超时 Best, Shammon FY On Sun, Apr 23, 2023 at 2:28 PM crazy <2463829...@qq.com.invalid> wrote: > Hi, 大佬好, >有个Flink on > Yarn程序,Flink版本使用的是flink-1.13.5,statebackend使用的是rocksdb,任务跑一段时间,就会出现如下堆栈异常: > > > 2023-04-20 22:32:08,127

Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-23 文章 Biao Geng
Hi, 可以配置下jemalloc来进行堆外内存泄漏的定位。 具体操作可以参考下这两篇文章。 https://cloud.tencent.com/developer/article/1884177 https://chenhm.com/post/2018-12-05-debuging-java-memory-leak#_native_method_%E5%86%85%E5%AD%98 Best, Biao Geng Guo Thompson 于2023年4月22日周六 09:57写道: > yarn,我已经关闭了yarn的内存检查,glibc的那个参数已经配置成1了 > >

回复:flink datastream api写的代码如何在idea中调试

2023-04-22 文章 m18751805115_1
thx 回复的原邮件 | 发件人 | Feng Jin | | 日期 | 2023年04月22日 22:22 | | 收件人 | user-zh@flink.apache.org | | 抄送至 | | | 主题 | Re: flink datastream api写的代码如何在idea中调试 | 如果你是要本地 idea debug 线上的作业,需要在 taskManager 的 JVM 参数中开启debug 提交作业时, 添加参数:

Re: flink datastream api写的代码如何在idea中调试

2023-04-22 文章 Feng Jin
如果你是要本地 idea debug 线上的作业,需要在 taskManager 的 JVM 参数中开启debug 提交作业时, 添加参数: env.java.opts.taskmanager="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5005" 然后在 idea 创建一个 remote debug 启动项,连接到线上的 TaskManager 所在的机器 IP 即可。之后即可在在 idea 中打断点,或者截取执行栈 *(前提是你本地的机器和线上的机器网络是互通的)* 参考:

回复:flink datastream api写的代码如何在idea中调试

2023-04-22 文章 m18751805115_1
抱歉啊,可能我没有把问题描述清楚。我是想本地对代码进行debug调试,观察每条流输入后的变量值以及调用栈等信息的。 回复的原邮件 | 发件人 | Feng Jin | | 日期 | 2023年04月22日 21:53 | | 收件人 | user-zh@flink.apache.org | | 抄送至 | | | 主题 | Re: flink datastream api写的代码如何在idea中调试 | 支持的, 在 idea 中执行 main 函数即可.执行前,idea 中的运行配置中,最好勾选上: *Include dependencies with

Re: flink datastream api写的代码如何在idea中调试

2023-04-22 文章 Feng Jin
支持的, 在 idea 中执行 main 函数即可.执行前,idea 中的运行配置中,最好勾选上: *Include dependencies with "Provided" scope *否则有可能会有 class not found 的报错. Best, Feng Jin On Sat, Apr 22, 2023 at 9:28 PM m18751805115_1 <18751805...@163.com> wrote: > 请教一下,在idea中用flink datastream >

flink datastream api写的代码如何在idea中调试

2023-04-22 文章 m18751805115_1
请教一下,在idea中用flink datastream api写的代码,source输入是一条一条socket流数据,那如何在本地idea中进行调试,观察每条输入数据的运行情况,idea是否支持这种调试?

Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-21 文章 Guo Thompson
yarn,我已经关闭了yarn的内存检查,glibc的那个参数已经配置成1了 Weihua Hu 于2023年4月21日周五 19:23写道: > Hi, > > 你作业运行在 YARN 还是 Kubernetes 上?可以先关注下文档里的 Glibc 泄露问题 > > Best, > Weihua > > > On Fri, Apr 21, 2023 at 6:04 PM Guo Thompson > wrote: > > > Flink > > >

Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-21 文章 Weihua Hu
Hi, 你作业运行在 YARN 还是 Kubernetes 上?可以先关注下文档里的 Glibc 泄露问题 Best, Weihua On Fri, Apr 21, 2023 at 6:04 PM Guo Thompson wrote: > Flink > Job是基于sql的,Flink版本为1.13.3,state用rocksDB存,发现会存在内存泄露的情况,作业运行一段时间后,会被linux内核kill掉,求助,如何解决? > 网上 >

退订

2023-04-21 文章 二月
退订

Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-21 文章 Guo Thompson
Flink Job是基于sql的,Flink版本为1.13.3,state用rocksDB存,发现会存在内存泄露的情况,作业运行一段时间后,会被linux内核kill掉,求助,如何解决? 网上 http://www.whitewood.me/2021/01/02/%E8%AF%A6%E8%A7%A3-Flink-%E5%AE%B9%E5%99%A8%E5%8C%96%E7%8E%AF%E5%A2%83%E4%B8%8B%E7%9A%84-OOM-Killed/ 讲很可能就是rocksDB的内存没法回收导致。 1、分配 tm的30G内存,jvm堆内的远远没有使用完。 [image:

退订

2023-04-21 文章 liang ji
退订

退订

2023-04-20 文章 于光远
退订 -- 于光远 phone: 187-3364-3045 E-mail: programme...@163.com

退订

2023-04-20 文章 杨光跃
退订 | | 杨光跃 | | yangguangyuem...@163.com |

Re: 不同的流程使用不同的并行度

2023-04-20 文章 yidan zhao
从哪方面考虑,主要根据每个算子的工作复杂性,复杂性越高自然设置越高的并发好点。 其次实际运行时,也可以根据反压情况找到瓶颈进行调整。 Shammon FY 于2023年4月21日周五 09:04写道: > > Hi > > DataStream作业设置并发度有两种方式 > 1. 在ExecutionEnvironment通过setParallelism设置全局并发 > 2. 在DataStream中通过setParallelism为指定的datastream计算设置并发度 > > Best, > Shammon FY > > On Fri, Apr 21, 2023 at 8:58 

Re: 不同的流程使用不同的并行度

2023-04-20 文章 Shammon FY
Hi DataStream作业设置并发度有两种方式 1. 在ExecutionEnvironment通过setParallelism设置全局并发 2. 在DataStream中通过setParallelism为指定的datastream计算设置并发度 Best, Shammon FY On Fri, Apr 21, 2023 at 8:58 AM 小昌同学 wrote: > > > 各位老师好,请教一下关于flink的并行度的问题; > 我现在数据上游是kafka(四个分区),经过Flink >

不同的流程使用不同的并行度

2023-04-20 文章 小昌同学
各位老师好,请教一下关于flink的并行度的问题; 我现在数据上游是kafka(四个分区),经过Flink ETL处理后,实时落地到Kafka以及MYSQL,那我想在不同的阶段设置不同的并行度,这一块可以怎么使用,我使用的是DataStream API 还想请教一下就是关于并行度的这个设置,应该从哪些方面进行考虑啊,麻烦各位老师指教一下 | | 小昌同学 | | ccc0606fight...@163.com |

Re: [External] Re: 用Flink Table API和RocksDB不能正常升级状态数据结构

2023-04-20 文章 Elvis Chen
感谢回复。我们在之前使用Flink 1.11的应用是可以支持增加带默认值的field。目前1.16的Table API无法兼容吗? On Mon, Apr 17, 2023 at 11:21 PM Shammon FY wrote: > Hi > > 目前增减列数据会导致状态无法兼容 > > Best, > Shammon FY > > > On Fri, Apr 14, 2023 at 9:09 PM Elvis Chen > wrote: > > > 我们正在使用flink-1.16.0的Table API和RocksDB作为后端,为我们的用户提供运行SQL > > > > >

Re: kafka实例重启对flink作业的影响

2023-04-20 文章 Ran Tao
作业不 fo Best Regards, Ran Tao Ran Tao 于2023年4月20日周四 16:12写道: > offset 重放,mistake > > Best Regards, > Ran Tao > > > Ran Tao 于2023年4月20日周四 16:11写道: > >> 1.一种比较干净但是暴力的做法是Flink一旦检测到分区变化,就执行作业fo. >> fo后读取最新的分区列表,旧的分区从状态中进行offer重放,新分区执行特定的点位启动策略。它的做法比较干净暴力。 >> >>

Re: kafka实例重启对flink作业的影响

2023-04-20 文章 Ran Tao
offset 重放,mistake Best Regards, Ran Tao Ran Tao 于2023年4月20日周四 16:11写道: > 1.一种比较干净但是暴力的做法是Flink一旦检测到分区变化,就执行作业fo. > fo后读取最新的分区列表,旧的分区从状态中进行offer重放,新分区执行特定的点位启动策略。它的做法比较干净暴力。 > > 2.第二种就是动态的分区发现(指作业fo,异步线程一直check分区变化,针对removed或者insert的分区单独处理), > 这个在 newKafkaSource 中已经实现了。旧的kafka source实现社区有

Re: kafka实例重启对flink作业的影响

2023-04-20 文章 Ran Tao
1.一种比较干净但是暴力的做法是Flink一旦检测到分区变化,就执行作业fo. fo后读取最新的分区列表,旧的分区从状态中进行offer重放,新分区执行特定的点位启动策略。它的做法比较干净暴力。 2.第二种就是动态的分区发现(指作业fo,异步线程一直check分区变化,针对removed或者insert的分区单独处理), 这个在 newKafkaSource 中已经实现了。旧的kafka source实现社区有 FLIP[1] 讨论这个问题。实现侧来看,这种方案相对于第一种复杂一些,需要开发者比较小心的处理状态以及某些极端环境的fo导致的问题[2]。 [1]

Re: kafka实例重启对flink作业的影响

2023-04-20 文章 Weihua Hu
Flink kafka connector 支持自动发现 partition,可以参考官方文档[1] [1] https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/connectors/datastream/kafka/#dynamic-partition-discovery Best, Weihua On Thu, Apr 20, 2023 at 3:43 PM casel.chen wrote: > >

kafka实例重启对flink作业的影响

2023-04-20 文章 casel.chen
实际工作中会遇到kafka版本升级或者kafka扩容(横向或纵向),数据重平衡等情况,想问一下发生这些情况下对线上运行的flink作业会有什么影响?flink作业能感知topic分区发生变化吗?要如何应对以减少对flink作业消费端的影响?

退订

2023-04-19 文章 曹佳清
退订

Re: 退订

2023-04-19 文章 Biao Geng
Hi, 退订可以发送邮件到 user-zh-unsubscr...@flink.apache.org From: 琴师 <1129656...@qq.com.INVALID> Date: Wednesday, April 19, 2023 at 4:42 PM To: user-zh Subject: 退订 退订 琴师 1129656...@qq.com

回复:控制台打印出流式数据

2023-04-19 文章 小昌同学
好滴呀 谢谢老师 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件 | 发件人 | Jason_H | | 发送日期 | 2023年4月19日 16:06 | | 收件人 | flink中文邮件组 | | 主题 | 回复:控制台打印出流式数据 | 这个方法就可以打印在你本地的idea控制台里面,你试一下 | | Jason_H | | hyb_he...@163.com | 回复的原邮件 | 发件人 | 小昌同学 | | 发送日期 | 2023年4月19日 16:01 | | 收件人 |

回复:flink命令行提交作业读取不到properties配置文件

2023-04-19 文章 小昌同学
我这边的做法是将配置文件也当作一条流进行读取,程序会自动读取,不需要再任务启动的时候指定;希望对你有帮助呀 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件 | 发件人 | Jason_H | | 发送日期 | 2023年4月19日 15:57 | | 收件人 | flink中文邮件组 , user-zh-subscribe | | 主题 | flink命令行提交作业读取不到properties配置文件 | hi,大家好

回复:控制台打印出流式数据

2023-04-19 文章 Jason_H
这个方法就可以打印在你本地的idea控制台里面,你试一下 | | Jason_H | | hyb_he...@163.com | 回复的原邮件 | 发件人 | 小昌同学 | | 发送日期 | 2023年4月19日 16:01 | | 收件人 | user-zh | | 抄送人 | user-zh | | 主题 | 回复:控制台打印出流式数据 | 这个print是将数据打印再flink的stud out吧,我现在是再本地进行调试,想在本地上打印出来结果 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件

回复:控制台打印出流式数据

2023-04-19 文章 小昌同学
这个print是将数据打印再flink的stud out吧,我现在是再本地进行调试,想在本地上打印出来结果 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件 | 发件人 | Jason_H | | 发送日期 | 2023年4月19日 15:58 | | 收件人 | flink中文邮件组 | | 主题 | 回复:控制台打印出流式数据 | hi,你好 你应该使用 stream.print() 来打印流中的数据 不要system out 输出 | | Jason_H | | hyb_he...@163.com |

回复:控制台打印出流式数据

2023-04-19 文章 Jason_H
hi,你好 你应该使用 stream.print() 来打印流中的数据 不要system out 输出 | | Jason_H | | hyb_he...@163.com | 回复的原邮件 | 发件人 | 小昌同学 | | 发送日期 | 2023年4月19日 15:51 | | 收件人 | user-zh | | 主题 | 控制台打印出流式数据 | 各位老师好,请教一个问题,就是上游的数据源是Kafka,编辑工具是idea,再new FlinkKafkaConsumer后,得到一条流stream,我想看一下流中的数据,直接

flink命令行提交作业读取不到properties配置文件

2023-04-19 文章 Jason_H
hi,大家好 我在使用命令行提交任务时,发现任务刚起来就会报错,根据错误发现没有读去到jar包中resource目录下的properties配置文件,导致在使用redis时,初始化报错 提交命令如下: flink run -c com.test..etl.OdsChangeApplication /opt/dobrain/app/etl/test-etl-0.0.2-SNAPSHOT.jar \ -p 4 \ -job-name test-etl \ 此处没有添加redis配置参数,但是配置文件中已经有默认的,提交运行后报错:

控制台打印出流式数据

2023-04-19 文章 小昌同学
各位老师好,请教一个问题,就是上游的数据源是Kafka,编辑工具是idea,再new FlinkKafkaConsumer后,得到一条流stream,我想看一下流中的数据,直接 System.out.println(stream.toString); 但是从控制台打印结果来看,打印出来的还是地址值,请各位老师指导一下 | | 小昌同学 | | ccc0606fight...@163.com |

Re: Re: Re: sink mysql id自增表数据会丢失

2023-04-18 文章 Shammon FY
退订请发送任意邮件到 user-zh-unsubscr...@flink.apache.org ,可以参考 https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list On Wed, Apr 19, 2023 at 9:31 AM 王国成 wrote: > 退订 > > > > > > > > > > > > 在 2023-04-19 09:15:09,"Shammon FY" 写道: > >如果想让mysql生成自增主键,可以在flink

Re:Re: Re: sink mysql id自增表数据会丢失

2023-04-18 文章 王国成
退订 在 2023-04-19 09:15:09,"Shammon FY" 写道: >如果想让mysql生成自增主键,可以在flink ddl的table里不增加主键字段,然后flink作业直接写入数据到table就可以了 > >On Tue, Apr 18, 2023 at 5:38 PM Jeff wrote: > >> 在sink时指定字段不可以不包括自增主键的列。 >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> >> 在 2023-04-17 07:29:16,"Shammon FY" 写道: >>

Re: Re: sink mysql id自增表数据会丢失

2023-04-18 文章 Shammon FY
如果想让mysql生成自增主键,可以在flink ddl的table里不增加主键字段,然后flink作业直接写入数据到table就可以了 On Tue, Apr 18, 2023 at 5:38 PM Jeff wrote: > 在sink时指定字段不可以不包括自增主键的列。 > > > > > > > > > > > > > > > > > > 在 2023-04-17 07:29:16,"Shammon FY" 写道: > >Hi > > > >如果想使用mysql的自增主键,应该是在插入的时候不要写自增主键的列吧,可以在insert的时候直接指定需要插入的列试试? > > >

Re: flink api消费kafka(avro)数据出错

2023-04-18 文章 Shammon FY
Hi 看着是解析数据错误,可以检查一下是不是source的schema和数据不匹配 On Tue, Apr 18, 2023 at 2:46 PM kcz <573693...@qq.com.invalid> wrote: > 版本:1.15.2 >1.首先是采用SQL方式,将json数据输入到kafka里面(avro格式) >2.然后采用DS api方式去接收解析kafka里面的avro数据 > --报错如下-- >

Re: 退订

2023-04-18 文章 Biao Geng
Hi, 退订可以发送邮件到 user-zh-unsubscr...@flink.apache.org From: 杨伟伟 Date: Tuesday, April 18, 2023 at 9:32 AM To: user-zh@flink.apache.org Subject: 退订 退订

退订

2023-04-18 文章 ji_longzhang

Re:Re: sink mysql id自增表数据会丢失

2023-04-18 文章 Jeff
在sink时指定字段不可以不包括自增主键的列。 在 2023-04-17 07:29:16,"Shammon FY" 写道: >Hi > >如果想使用mysql的自增主键,应该是在插入的时候不要写自增主键的列吧,可以在insert的时候直接指定需要插入的列试试? > >On Sun, Apr 16, 2023 at 7:58 PM Jeff wrote: > >> sink数据到mysql catalog内的表时,当表只一个自增主键id无其唯一索引时,同一批写入的数据只会保存一条,其它数据会丢失。 >> >> >> mysql内表ddl: >> >>

udf函数不能使用DataTypeHint("Row>")

2023-04-18 文章 Jeff
在自定义函数中使用DataTypeHint("Row>")时报错,错误内容为: Caused by: java.lang.ClassCastException: class [I cannot be cast to class [Ljava.lang.Object; ([I and [Ljava.lang.Object; are in module java.base of loader 'bootstrap') \tat

退订

2023-04-17 文章 杨伟伟
退订

Re: 退订

2023-04-17 文章 Shammon FY
退订请发送任意邮件到 user-zh-unsubscr...@flink.apache.org ,可以参考 https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list On Fri, Apr 14, 2023 at 7:32 PM daniel sun wrote: > 退订 > zjw 于2023年4月14日 周五下午7:17写道: > > > >

Re: 流数据转化为json

2023-04-17 文章 Weihua Hu
Hi, 你使用的那个 Flink 版本,建议直接参考 Flink 官方 kafka connector 文档[1]。 转换为 Json 数据格式可以使用 flink-json format [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/kafka/#kafka-sink [2] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/formats/json/

Flink Streaming API ElasticSearch Connector 长连接

2023-04-17 文章 Yuze Wei
各位大佬好! 我在使用Flink ES连接器的时候,有时候报以下错误: Caused by: java.io.IOException breakpoint : 远程主机强迫关闭了一个现有的连接 初步判断,应该是没有维持住长连接保活,所以如果一段时间不写入数据,连接就断了。 请问各位大佬,ElasticSearch Connector 有什么参数可以维持长连接吗? ElasticSearch Connector 代码如下: jsonStringStream .sinkTo( new

Re: 用Flink Table API和RocksDB不能正常升级状态数据结构

2023-04-17 文章 Shammon FY
Hi 目前增减列数据会导致状态无法兼容 Best, Shammon FY On Fri, Apr 14, 2023 at 9:09 PM Elvis Chen wrote: > 我们正在使用flink-1.16.0的Table API和RocksDB作为后端,为我们的用户提供运行SQL > > queries的服务。表格是使用Avro模式创建的,当以兼容的方式更改模式,例如添加一个带默认值的field时,我们无法从savepoint恢复作业。这是在数据结构升级后的报错: > Caused by:

Re: 流数据转化为json

2023-04-17 文章 Shammon FY
Hi 对于kafka的问题,使用print或者其他方式有数据输出吗?可以通过这种方式确认一下是作业本身的数据问题还是kafka的问题 Best, Shammon FY On Fri, Apr 14, 2023 at 7:17 PM 小昌同学 wrote: > 你好,请问一下上游的数据是 > SingleOutputStreamOperator outPutInfoStream = > keyedStream.process(new KeyStreamFunc()); > 数据样式为:InPutInfo[phone='123456',workId='001'] >

Re: sink mysql id自增表数据会丢失

2023-04-17 文章 Shammon FY
Hi 如果想使用mysql的自增主键,应该是在插入的时候不要写自增主键的列吧,可以在insert的时候直接指定需要插入的列试试? On Sun, Apr 16, 2023 at 7:58 PM Jeff wrote: > sink数据到mysql catalog内的表时,当表只一个自增主键id无其唯一索引时,同一批写入的数据只会保存一条,其它数据会丢失。 > > > mysql内表ddl: > > create table test (id bigint primary key auto_increment , passport > varchar); > > > flink

sink mysql id自增表数据会丢失

2023-04-16 文章 Jeff
sink数据到mysql catalog内的表时,当表只一个自增主键id无其唯一索引时,同一批写入的数据只会保存一条,其它数据会丢失。 mysql内表ddl: create table test (id bigint primary key auto_increment , passport varchar); flink sql: insert into mysql_catalog.test select 0, passport from source_table; 之所以select 0是表示使用物理表的自增值。

ValueError: unsupported pickle protocol: 5

2023-04-15 文章 casel.chen
我在尝试提交pyflink作业到k8s,按照这篇文章[1]介绍操作的,pyflink镜像文件[2],flink版本是1.15.2,执行wordcount jar作业没遇到问题,而在提交pyflink作业时发现作业失败了,日志显示如下。我本地安装的python 3.7.9和pyflink镜像中的版本是一致的, 请问是不是pickle包版本有问题? 怎样查看当前pickle包版本号是多少? 期望用的pickle包版本号是多少? 如何将当前pickle包安装成期望的版本? ./bin/flink run \ -m localhost:8081 \ -py

用Flink Table API和RocksDB不能正常升级状态数据结构

2023-04-14 文章 Elvis Chen
我们正在使用flink-1.16.0的Table API和RocksDB作为后端,为我们的用户提供运行SQL queries的服务。表格是使用Avro模式创建的,当以兼容的方式更改模式,例如添加一个带默认值的field时,我们无法从savepoint恢复作业。这是在数据结构升级后的报错: Caused by: org.apache.flink.util.StateMigrationException: The new state serializer (org.apache.flink.table.runtime.typeutils.RowDataSerializer@aad5b03a)

Re: 退订

2023-04-14 文章 daniel sun
退订 zjw 于2023年4月14日 周五下午7:17写道: >

流数据转化为json

2023-04-14 文章 小昌同学
你好,请问一下上游的数据是 SingleOutputStreamOperator outPutInfoStream = keyedStream.process(new KeyStreamFunc()); 数据样式为:InPutInfo[phone='123456',workId='001'] 我想直接将这个流输入到kafka中,直接使用addsink算子,但是查看kafka日志发现,数据内容没有插入进来,想请教一下有没有什么解决方案; 我现在自己想着将流中的数据转换为json,但是我使用了gson以及fastjson都不行,请各位大佬指点 | | 小昌同学 | |

回复:flink sink web ui显示为Sink: Unnamed

2023-04-14 文章 小昌同学
好滴,谢谢各位老师 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件 | 发件人 | hjw | | 发送日期 | 2023年4月14日 16:38 | | 收件人 | | | 主题 | Re:flink sink web ui显示为Sink: Unnamed | 可以在算子后面调用.name()方法指定名称,方法参数就是算子名称。 比如需sink的流为stream stream.sinkTo(Sink算子).name("sink-name") -- Best, Hjw 在 2023-04-14

退订

2023-04-14 文章 zjw

退订

2023-04-14 文章 huang huang

Re: flink sink web ui显示为Sink: Unnamed

2023-04-14 文章 Weihua Hu
可以,在算子后可以通过 .name("xxx") 来命名 Best, Weihua On Fri, Apr 14, 2023 at 4:27 PM 小昌同学 wrote: > 我将流式数据输出到mysql,查看flink 自带的web ui界面,有一个sink节点显示为Sink: Unnamed > ,这个针对sink节点可以命名嘛 > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > |

Re:flink sink web ui显示为Sink: Unnamed

2023-04-14 文章 hjw
可以在算子后面调用.name()方法指定名称,方法参数就是算子名称。 比如需sink的流为stream stream.sinkTo(Sink算子).name("sink-name") -- Best, Hjw 在 2023-04-14 16:26:35,"小昌同学" 写道: >我将流式数据输出到mysql,查看flink 自带的web ui界面,有一个sink节点显示为Sink: Unnamed ,这个针对sink节点可以命名嘛 > > >| | >小昌同学 >| >| >ccc0606fight...@163.com >|

flink sink web ui显示为Sink: Unnamed

2023-04-14 文章 小昌同学
我将流式数据输出到mysql,查看flink 自带的web ui界面,有一个sink节点显示为Sink: Unnamed ,这个针对sink节点可以命名嘛 | | 小昌同学 | | ccc0606fight...@163.com |

回复:打印不同流怎么进行区分

2023-04-14 文章 小昌同学
好滴,谢谢您 | | 小昌同学 | | ccc0606fight...@163.com | 回复的原邮件 | 发件人 | 17610775726<17610775...@163.com> | | 发送日期 | 2023年4月14日 10:27 | | 收件人 | user-zh@flink.apache.org | | 抄送人 | user-zh | | 主题 | 回复:打印不同流怎么进行区分 | Hi Print 方法是可以传入一个参数的,用来标识某个流,比如 print(“a”); print(“b"); Best JasonLee

回复:打印不同流怎么进行区分

2023-04-13 文章 17610775726
Hi Print 方法是可以传入一个参数的,用来标识某个流,比如 print(“a”); print(“b"); Best JasonLee 回复的原邮件 | 发件人 | 小昌同学 | | 发送日期 | 2023年04月14日 09:46 | | 收件人 | user-zh | | 主题 | 打印不同流怎么进行区分 | 你好,请问一下再一个程序中,有流与流之间的转换,比如说流A转换为流B,那我想看看流A,也想看看流B,请问我该怎么实现,直接print的话,再控制面板会乱掉 | | 小昌同学 | | ccc0606fight...@163.com |

打印不同流怎么进行区分

2023-04-13 文章 小昌同学
你好,请问一下再一个程序中,有流与流之间的转换,比如说流A转换为流B,那我想看看流A,也想看看流B,请问我该怎么实现,直接print的话,再控制面板会乱掉 | | 小昌同学 | | ccc0606fight...@163.com |

Re: 退订

2023-04-13 文章 Shammon FY
退订请发送任意邮件到 user-zh-unsubscr...@flink.apache.org ,可以参考[1] [1] https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list On Thu, Apr 13, 2023 at 9:53 PM lei-tian wrote: > 退订 > > > > | | > totorobabyf...@163.com > | > | > 邮箱:totorobabyf...@163.com > |

退订

2023-04-13 文章 lei-tian
退订 | | totorobabyf...@163.com | | 邮箱:totorobabyf...@163.com |

ogg json格式不支持database include和table include参数

2023-04-13 文章 casel.chen
多张oracle表变更同步到同一个kafka topic,现在实时flinlk作业需要消费其中一张oracle表,查了一下没看到类似canal json格式中 canal-json.database.include 和 canal-json.table.include 参数,只在available metadata中看到 table 字段,这意味着我需要在select语句中按table字段进行过滤吗? [1]

转发:

2023-04-13 文章 孟令平
发件人: Henry meng (孟令平) 发送时间: 2023年4月13日 15:27 收件人: 'user-zh-i...@flink.apache.org' 主题: public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //env.enableCheckpointing(6);

回复:监控flink的prometheus经常OOM

2023-04-12 文章 17610775726
Hi 这个是可以配置的,可以参考官网 filter.includes[1] 来过滤你想要的 metrics。 [1]https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/deployment/metric_reporters/#filter-includes Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2023年03月22日 12:08 | | 收件人 | user-zh@flink.apache.org | | 主题 |

Re: Flink实时计算平台在k8s上以Application模式启动作业如何实时同步作业状态到平台?

2023-04-11 文章 Yang Wang
可以通过JobResultStore[1]来获取任务最终的状态,flink-kubernetes-operator也是这样来获取的 [1]. https://cwiki.apache.org/confluence/display/FLINK/FLIP-194%3A+Introduce+the+JobResultStore Best, Yang Weihua Hu 于2023年3月22日周三 10:27写道: > Hi > > 我们内部最初版本是通过 cluster-id 来唯一标识一个 application,同时认为流式任务是长时间运行的,不应该主动退出。如果该 >

Re: 监控flink的prometheus经常OOM

2023-04-11 文章 Yang Wang
可以通过给Prometheus server来配置metric_relabel_configs[1]来控制采集哪些metrics [1]. https://prometheus.io/docs/prometheus/latest/configuration/configuration/#metric_relabel_configs Best, Yang casel.chen 于2023年3月22日周三 13:47写道: >

Re: Re: PartitionNotFoundException

2023-04-09 文章 Weihua Hu
Hi, 可以提供下 JobManager 和相关 TaskManager 的日志吗? 一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现, 根据你的描述,应该是一个消费 Kafka 的流式任务,不太应该在运行一周后 出现 PartitionNotFoundException 可以检查下是否存在其他异常 Best, Weihua On Mon, Apr 10, 2023 at 9:51 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: >

Re: Re: PartitionNotFoundException

2023-04-09 文章 Shammon FY
像上面提到的,流式作业可以设置taskmanager.network.tcp-connection.enable-reuse-across-jobs: false,一般作业影响不会有影响 Best, Shammon FY On Mon, Apr 10, 2023 at 9:27 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > hi, 上周调整这两参数后,正常运行了近一个星期后 又重现了[PartitionNotFoundException]... > >

Re: 回复:Kerberos加密Yarn集群上的Flink任务写入其他未互信的加密HDFS是否可能

2023-04-08 文章 Geng Biao
你的考虑是对的;可能需要2个KDC互信,来使得一个keytab访问2个kerberos集群。这个其实就是我在刚才说的第一步操作中要考虑的事情。本质上是打通2个kerberos集群。 From: yihan Date: Sunday, April 9, 2023 at 12:13 AM To: Geng Biao Cc:

回复:Kerberos加密Yarn集群上的Flink任务写入其他未互信的加密HDFS是否可能

2023-04-08 文章 yihan
Biao Geng: 十分感谢您的回复。 这个问题是我的同事之前向我提出的。我当时直觉感觉是不行的。现在周末放空的时候再想想这个问题。 我考虑的是,提交任务使用到本集群的principal和keytab和要他写入的另一集群用到的principal和keytab在hadoop的UserGroupInformation类login时会冲突,导致要么任务无法在本集群顺利做如checkpoint之类的操作,要么就是无法写入另一集群的HDFS。 我想任务提交到非加密yarn上时确实是可行的,但是对于加密yarn来说就不行了。 不知道上面考虑是否合理。 回复的原邮件

Re: Kerberos加密Yarn集群上的Flink任务写入其他未互信的加密HDFS是否可能

2023-04-08 文章 Geng Biao
Hi yihan, 这个本质上可以理解成在Flink的taskmanager运行一个UDF(UDF做的事情是写另一个Kerberos HDFS集群),所以技术上是可能的。 我之前走通过普通Yarn集群的Flink任务写入另一个Kerberos HDFS集群的流程,整体操作感觉比较复杂,通常而言,你需要如下步骤: 1.

Kerberos加密Yarn集群上的Flink任务写入其他未互信的加密HDFS是否可能

2023-04-08 文章 yihan
请教如标题问题,谢谢。

WindowAssigner中windowStagger作用

2023-04-06 文章 yidan zhao
如题,目前看实现,这个 windowStagger 是针对 opeartor 的众多 subtask 之间,针对每个 subtask 生成了一个固定的 offset 作用于该 subtask 处理的元素。因为 staggerOffset 是在 assignWindows 中生成,而且只有第一次会生成,后续复用。如下: if (staggerOffset == null) { staggerOffset = windowStagger.getStaggerOffset(context.getCurrentProcessingTime(), size); }

Re: 退订

2023-04-06 文章 Shammon FY
Hi 退订请发送任意邮件到 user-zh-unsubscr...@flink.apache.org [1] https://flink.apache.org/community/#mailing-lists On Thu, Apr 6, 2023 at 2:00 PM Tony wrote: > 退订

退订

2023-04-06 文章 Tony
退订

Re: 退订

2023-04-04 文章 Shammon FY
Hi 发送任意邮件到 user-zh-unsubscr...@flink.apache.org 退订 [1] https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list On Tue, Apr 4, 2023 at 1:20 PM 柳懿珊 wrote: > 退订

退订

2023-04-03 文章 柳懿珊
退订

[ANNOUNCE] Starting with Flink 1.18 Release Sync

2023-04-03 文章 Qingsheng Ren
Hi everyone, As a fresh start of the Flink release 1.18, I'm happy to share with you that the first release sync meeting of 1.18 will happen tomorrow on Tuesday, April 4th at 10am (UTC+2) / 4pm (UTC+8). Welcome and feel free to join us and share your ideas about the new release cycle! Details of

Re: PartitionNotFoundException

2023-04-02 文章 yidan zhao
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为 false,设置 taskmanager.network.max-num-tcp-connections 大点。 之前有个bug导致这个问题我记得,不知道1.16修复没有。 zhan...@eastcom-sw.com 于2023年4月3日周一 10:08写道: > > > hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 >

Re: PartitionNotFoundException

2023-04-02 文章 Shammon FY
Hi 出现PartitionNotFoundException通常是指定task的上游有subtask失败了,你可以查看一下上游subtask有没有错误日志,根据错误日志查看具体原因 Best, Shammon FY On Mon, Apr 3, 2023 at 10:08 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > > hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 >

Re: flink sql的codegen导致metaspace OOM疑问

2023-03-29 文章 Shammon FY
Hi 自增id可以为同一个作业的多个codegen类生成唯一类名 一般metaspace可以通过fullgc释放,你可以查看你的集群metaspace大小,是否触发了了fullgc Best, Shammon FY On Wednesday, March 29, 2023, tanjialiang wrote: > Hi all, >我有一个通过flink kubernetes operator定时提交到同一个session作业(底层是将flink >

Re: [ANNOUNCE] Flink Table Store Joins Apache Incubator as Apache Paimon(incubating)

2023-03-29 文章 Dong Lin
Congratulations! Dong On Mon, Mar 27, 2023 at 5:24 PM Yu Li wrote: > Dear Flinkers, > > > > As you may have noticed, we are pleased to announce that Flink Table Store > has joined the Apache Incubator as a separate project called Apache > Paimon(incubating) [1] [2] [3]. The new project still

来自胡家发的邮件

2023-03-29 文章 胡家发
退订

flink sql的codegen导致metaspace OOM疑问

2023-03-29 文章 tanjialiang
Hi all, 我有一个通过flink kubernetes operator定时提交到同一个session作业(底层是将flink sql转JobGraph的逻辑下推到了JobManager执行),当他跑了一段时间后,JobManager报了metaspace OOM. 经过排查后发现是flink sql codegen生成的代码类有一个自增ID,这些类在使用完后不会释放。 疑问: 1. flink sql codegen做这样的一个自增ID有什么特殊意义吗? 2. java中通过类加载器加载的类有什么办法可以释放?

<    4   5   6   7   8   9   10   11   12   13   >