Re: 方案询问

2019-04-02 文章 Paul Lam
Hi, 推荐可以维护两个 MapState 分别缓存尚未匹配的两种订单。一条订单数据进来首先查找另一种订单的 MapState,若找到则输出合并的数据并删除对应的 entry,否则放入所属订单类型的 MapState。 Best, Paul Lam > 在 2019年4月2日,13:46,1900 <575209...@qq.com> 写道: > > 现在有个需求,从kafka接收订单信息,每条订单信息有1-2条数据(一般第一条是订单初始状态数据,第二条是订单终态数据);时间间隔不等(一般5秒以内), > 如何能将数据进行合并,最终合并成一条数

Re: 如何每五分钟统计一次当天某个消息的总条数

2019-03-04 文章 Paul Lam
Hi, 你可以试下设置 event time 窗口为一天,然后设置 processing time timer 来定时每 5 分钟触发输出当天最新的结果。 Best, Paul Lam > 在 2019年3月5日,13:16,张作峰 写道: > > 大家好! > 请教下诸位大牛,如何使用stream api每五分钟统计一次当天某个消息的总条数? > 谢谢!

Re: Weekly Community Update 2019/33, Personal Chinese Version

2019-08-18 文章 Paul Lam
Hi Tison, Big +1 for the Chinese Weekly Community Update. The content is well-organized, and I believe it would be very helpful for Chinese users to get an overview of what’s going on in the community. Best, Paul Lam > 在 2019年8月19日,12:27,Zili Chen 写道: > > Hi community, >

Re: HDFS_DELEGATION_TOKEN自动过期问题

2019-12-10 文章 Paul Lam
tml#kerberos-based-security> Best, Paul Lam > 在 2019年12月10日,11:03,hss <1090948...@qq.com> 写道: > > 各位好! > > > hadoop集群开启了Kerberos安全认证,以 Flink on Yarn > 的Per-job模式提交任务。只要是超过七天之后HDFS_DELEGATION_TOKEN自动过期, checkpoint执行不成功, > 有遇到这种问题的? &

Re: [ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Paul Lam
Congrats, Dian! Best, Paul Lam > 在 2020年1月17日,10:49,tison 写道: > > Congratulations! Dian > > Best, > tison. > > > Zhu Zhu mailto:reed...@gmail.com>> 于2020年1月17日周五 > 上午10:47写道: > Congratulations Dian. > > Thanks, > Zhu Zhu > > hailon

Re: flink table Kafka 重新连接的问题

2020-09-10 文章 Paul Lam
具体是什么样的 exception?Kafka 的重连和 Task 重启是不同的事情。前者取决于 Kafka 的配置和异常的类型,后者取决于 Flink 的重启策略。 Best, Paul Lam > 2020年9月11日 11:42,marble.zh...@coinflex.com.invalid > 写道: > > 自己顶一下, 有人给些建议吗? > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink 涉及到 state 恢复能从 RocketMQ 直接转到 Kafka 吗?

2020-09-02 文章 Paul Lam
可以,保证 RokcetMQ source 算子的 uid 和原本的 Kafka source 算子的 uid 不同就行。 另外启动要设置参数 -n 或 —allowNonRestoredState 。 Best, Paul Lam > 2020年9月2日 17:21,wangl...@geekplus.com 写道: > > > 有一个 flink streaming 的程序,读 RocketMQ,中间有一些复杂度计算逻辑用 RocksDB state 存储. > 程序有小的更新直接 cancel -s 取消再 run -s 恢复 > &

Re: Flink如何实现至多一次(At Most Once)

2020-09-03 文章 Paul Lam
如果每次都从最新的数据开始读的话,关掉 checkpoint 是可以达到 At Most Once。 另外建议还要看看 sink 有没有自动重试机制,可能造成数据重复。 Best, Paul Lam > 2020年9月2日 19:16,Tianwang Li 写道: > > 我们有一些场景,对实时性要求高,同时对数据重复会有比较大大影响。 > 我想关闭checkpoint,这样是不是能不能保证“至多一次” (At Most Once) ? > 这里会不会有什么坑

Re: 如何获取flink webUI上面的DAG图

2020-10-13 文章 Paul Lam
Hi, 可以利用 Flink 的 plan visualizer,见[1] 1. https://ci.apache.org/projects/flink/flink-docs-stable/dev/execution_plans.html Best, Paul Lam hailongwang <18868816...@163.com> 于2020年10月12日周一 下午11:38写道: > Hi, > 你是想要自己做一个产品,将图显示在Web上?我们是只拿 DAG 中 json 值,然后前端进行处理的。 > 希望能帮助到你~ > > &

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Paul Lam
Congrats, Dian! Best, Paul Lam > 2020年8月27日 17:42,Marta Paes Moreira 写道: > > Congrats, Dian! > > On Thu, Aug 27, 2020 at 11:39 AM Yuan Mei <mailto:yuanmei.w...@gmail.com>> wrote: > Congrats! > > On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang &

Re: flink1.11.0 java.lang.NoSuchMethodError: org.apache.flink.streaming.connectors.kafka.internal.KafkaConsumerThread

2020-07-14 文章 Paul Lam
Hi, 看起来是 Kafka connector class 冲突了,flink-connector-kafka_2.12-1.11.0.jar 和 flink-connector-kafka-0.10_2.12-1.11.0.jar 不能同时加到 classpath 里。 Best, Paul Lam > 2020年7月15日 10:48,dmt312_2010 写道: > > Hi, > 大家好,请教各位大佬一个问题,我在验证flink 1.11.0时,遇到如下问题: > > > 报错信息: > > >

Re: flink基于yarn的HA次数无效,以及HA拉起的任务是否可以重用state

2020-07-02 文章 Paul Lam
判断 Attempt 失败的标准是 Flink 通过 AMRMClientAsyncImpl 通知 YARN RM Application 失败并注销自己,所以 kill jm 是不算的。 Best, Paul Lam > 2020年7月2日 11:09,liangji 写道: > > 我之前配置了HA,也配置了flink中yarn-attempts=2,结果是kill jm进程可以无限重启 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink JOB_MANAGER_LEADER_PATH Znode 疑似泄漏问题

2020-06-28 文章 Paul Lam
/FLINK-10333 <https://issues.apache.org/jira/browse/FLINK-10333> Best, Paul Lam > 2020年6月28日 12:29,于汝国 写道: > > > > > flink本身不提供cancel > job后清理zookeeper上残留znode的功能或机制,包括hdfs上的部分数据,如果想清除的话,可手动操作或者自实现。 > > > > > > > > > > > &g

Re: Flink yarn session exception

2020-07-16 文章 Paul Lam
日志里说得比较清楚了,classpath 里没有 Hadoop 的 lib。可以参考这个文档 [1] 来配置你的环境。 1. https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html <https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html> Best, Paul Lam > 2020年7月16日 15:46,Rain

Re: Flink从SavePoint启动任务,修改的代码不生效

2020-07-06 文章 Paul Lam
估计你是用同一个 Kafka Source 消费 A B 两个 Topic? 如果是,看起来像是 Kafka Connector 早期的一个问题。 作业停止的时候,Topic B 的 partition offset 被存储到 Savepoint 中,然后在恢复的时候,尽管代码中 Topic B 已经被移除,但它的 partition offset 还是被恢复了。 这个问题在后来的版本,估计是 1.8 或 1.9,被修复了。 Best, Paul Lam > 2020年7月6日 20:55,milan183sansiro 写道: > > 你好: >

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 Paul Lam
我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? Best, Paul Lam > 2020年12月7日 18:11,zilong xiao 写道: > > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 Paul Lam
Hi, 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 Best, Paul Lam > 2020年12月8日 11:03,zilong xiao 写道: > > Hi Paul, >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了D

Re: [ANNOUNCE] Apache Flink 1.11.3 released

2020-12-18 文章 Paul Lam
Well done! Thanks to Gordon and Xintong, and everyone that contributed to the release. Best, Paul Lam > 2020年12月18日 19:20,Xintong Song 写道: > > The Apache Flink community is very happy to announce the release of Apache > Flink 1.11.3, which is the third bugfix release for the

Re: 请问,flink支持StreamFileSink在将pending文件转为finished的时候做一些操作吗

2021-02-03 文章 Paul Lam
如果使用 RollOnCheckpoint 的文件滚动策略,可以开发一个 UDF 实现 CheckpointListener 接口,在 notifyCheckpointComplete 函数里面发消息。不过要注意这个消息可能会重复。 Best, Paul Lam > 2021年2月3日 17:36,上官 <17635713...@163.com> 写道: > > 各位大神,我的工作需要Flink将DataStream中的数据写入到HDFS上,我需要在flink将写入文件变为下游可读的时候,发送一个消息到消息队列,请问Flink支持这种操作吗

Re: flink状态查看工具

2021-05-26 文章 Paul Lam
可以使用 State Processor [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/libs/state_processor_api/ Best, Paul Lam > 2021年5月26日 09:14,casel.chen 写道: > > 我有一个flink sql写的数据实时同步作业,从mysql binlog cdc消费发到mongodb,仅此而已,没有lookup,也没有join。 > 查看checkpoint页显示状态有17MB,che

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 Paul Lam
关于 chk 下只有 _metadata 的问题,大概是因为 state 比较小,被嵌入到 _medata 文件里了。可以参考这个配置项 [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#state-backend-fs-memory-threshold Best, Paul Lam > 2021年4月1日 16:25,lp <973182...@qq.com> 写道: > > 好的,谢谢 > >

Re: 1.12 yarn-per-job提交作业失败

2021-03-14 文章 Paul Lam
从 Flink 1.12 开始,-yqu 等 YARN 相关的参数被移除了,可以使用 [1] 来代替。 [1 ]https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue <https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue> Best, Pa

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
Hi, Debezium 支持 MongoDB CDC[1],可以了解下。 [1] https://debezium.io/documentation/reference/connectors/mongodb.html Best, Paul Lam > 2021年2月24日 16:23,Evan 写道: > > > 有人完整的实现Flink的MongodbSource吗 > 如题,现在有一个需求,需要Flink能实时读取MongoDB中数据变化 > >

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
Hi Even, 我没有实际使用过,不过根据 Debezium 文档 [1] 和我了解到的用户反馈,存量读取和实时增量读取都是支持的。 [1] https://debezium.io/documentation/reference/connectors/mongodb.html#mongodb-streaming-changes Best, Paul Lam > 2021年2月24日 17:08,Evan 写道: > > 好的,十分感谢,我调研一下,之前网上搜了一些资料,实现的只能批量读取,读完程序就停止了,不能一直实时的增量读取 > &g

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
据我所知暂时没有。不过我所在公司内部有很多 mongodb 使用,因此我们也有计划开发 mongodb connector(主要是作为 sink)。 之前因为等 FLIP-143 新接口搁置了一下计划,最近可以重启。 如果顺利的话,我们预计放到 bahir 上或贡献给 mongo 社区(考虑到 flink 社区现在对新增 connector 到主 repo 比较谨慎)。 Best, Paul Lam > 2021年2月24日 18:16,林影 写道: > > 请问flink的mongodb connector这块后续有计划吗 > > Evan 于

Re: Flink-kafka-connector Consumer配置警告

2021-04-19 文章 Paul Lam
这个是 Kafka client 的警告。这个配置项是 Flink 加进去的,Kafka 不认识。 Best, Paul Lam > 2021年4月18日 19:45,lp <973182...@qq.com> 写道: > > flink1.12正常程序中,有如下告警: > > 19:38:37,557 WARN org.apache.kafka.clients.consumer.ConsumerConfig > > [] - The configuration 'flink.partitio

Re: Flink Yarn Session模式,多任务不同Kerberos认证问题

2021-07-30 文章 Paul Lam
现在是不能共享的。Flink JobManager 的 principal 在启动时就确定了。 Best, Paul Lam > 2021年7月30日 14:46,Ada Luna 写道: > > 在Flink Yarn Session中每次提交Job都更换principal。因为要做权限隔离,每个用户有自己的principal。 > > 现在 Flink Session模式是不是无法满足多个principal共享一个Flink Session集群,只能走perjob。 > 或者每个持有独立principal的用户独享一个Session。

Re: 如何给flink的输出削峰填谷?

2022-01-25 文章 Paul Lam
Hi, 如果是 DataStream 应用的话,最简单的方式是给 sink 之前加个 throttle 算子,比如 guava RateLimiter。 SQL 应用的话可能要实现个 UDF 来做。 Best, Paul Lam > 2022年1月26日 02:11,Jing 写道: > > Hi Flink中文社区, > > 我碰到一个这样的问题,我的数据库有write throttle, 我的flink > app是一个10分钟窗口的聚合操作,这样导致,每10分钟有个非常大量的写请求。导致数据库的sink有时候会destroy. >

Re: flink table store

2022-04-07 文章 Paul Lam
@tison https://nightlies.apache.org/flink/flink-table-store-docs-release-0.1/docs/try-table-store/quick-start/ <https://nightlies.apache.org/flink/flink-table-store-docs-release-0.1/docs/try-table-store/quick-start/> Best, Paul Lam > 2022年4月7日 15:05,tison 写道: > > 我有点好奇官网看

Re: [ANNOUNCE] Apache Flink 1.18.0 released

2023-10-26 文章 Paul Lam
Finally! Thanks to all! Best, Paul Lam > 2023年10月27日 03:58,Alexander Fedulov 写道: > > Great work, thanks everyone! > > Best, > Alexander > > On Thu, 26 Oct 2023 at 21:15, Martijn Visser > wrote: > >> Thank you all who have contributed! >> >

Re: Flink1.17.1 yarn token 过期问题

2023-10-26 文章 Paul Lam
Hello, 这个问题解决了吗?我遇到相同的问题,还没定为到原因。 Best, Paul Lam > 2023年7月20日 12:04,王刚 写道: > > 异常栈信息 > ``` > > 2023-07-20 11:43:01,627 ERROR > org.apache.flink.runtime.taskexecutor.TaskManagerRunner [] - Terminating > TaskManagerRunner with exit code 1. > org.apache.flink.

Re: Flink on yarn ,并行度>1的情况下,怎么获取springboot的bean?

2022-04-22 文章 Paul Lam
听起来是在 Flink 里启动 springboot? 很有意思的架构,有一点点类似 statefun 了。可以说说这么做的背景吗? 另外请附带上 flink 的部署模式和版本信息,这样大家才好判断问题在哪里。 Best, Paul Lam > 2022年4月22日 16:30,duwenwen 写道: > > 您好: >首先很感谢您能在百忙之中看到我的邮件。我是一个写代码的新手,在使用flink框架过程中我遇到了一些问题,希望能得到您的解答。 > 由于需求要求,我需要将springboot和flink结合起来使用,我在open方法中