date:20200414

请问有没有什么方法可以把checkpoint打到集群外的hdfs?

2020-04-14 文章 tao wang

现在有个场景，集群上上了一些比较重要的任务，为了提高这些任务的性能，为它提供了一个专有的hdfs 集群用来存储checkpoint 。但是现在不知道怎么配置才能让支持任务打到外部的hdfs集群。谢谢！！

Re: flink反压问题求助

2020-04-14 文章 Junzhong Qin

Hi, LakeShen 图太大了，回复的邮件没有投递成功，图加到附件了。补充一下任务信息，目前此任务使用的是Flink-1.5。 LakeShen 于2020年4月13日周一上午10:15写道： > Hi Junzhong ， > > 图片没有显示,能否把图片重新上传一下。 > > Best, > LakeShen > > Junzhong Qin 于2020年4月11日周六上午10:38写道： > > > 在跑Flink任务时，遇到了operator反压问题，任务执行图如下，source(读Kafka), > > >

Re: 关于flink检查点

2020-04-14 文章 Congxian Qiu

hi 你说的间隔自适应是指什么呢？是指做 checkpoint 的间隔自动调整吗？ Best, Congxian half coke 于2020年4月15日周三下午12:24写道： > 请问下为什么flink没有支持自适应检查点间隔呢？是出于什么样的考虑吗？ >

回复：自定义具有Exactly-Once语义的sink

2020-04-14 文章阿华田

 谢谢 | | 王志华 | | 邮箱：a15733178...@163.com | 签名由网易邮箱大师定制在2020年04月15日 11:44，zhang...@lakala.com 写道：昨天晚上看到一篇微信公众号文章，分享给你，希望对你有帮助。 “Flink 端到端 Exactly-once 机制剖析” https://mp.weixin.qq.com/s/fhUNuCOVFQUjRB-fo4Rl2g 发件人：阿华田发送时间： 2020-04-15 11:00 收件人： user-zh@flink.apache.org 主题：

关于flink检查点

2020-04-14 文章 half coke

请问下为什么flink没有支持自适应检查点间隔呢？是出于什么样的考虑吗？

Re: Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 Jark Wu

Hi, 我觉得你的需求是“使用系统时间关联维表变更日志”。这种方式可以保证最低的延迟，而且能保持高吞吐。不过这个功能目前还没有原生支持，Flink 1.11 会支持读取变更日志。但关联维表变更日志可能要等到1.12。当前，可以通过 temporal table function join [1] 来满足需求，就是需要一定的开发量。需要你自己去将 mysql binlog 数据（只能有 upsert 数据，不能有 delete）读进来构造成 Table。 Best, Jark [1]:

Re: Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 wangweigu...@stevegame.cn

参考下这篇文章，里面有好多维度关联场景案例讲解！ https://ververica.cn/developers/flink-datastream-associated-dimension-table-practice/ 发件人： tingli ke 发送时间： 2020-04-15 11:22 收件人： user-zh 主题： Re: JDBCLookupFunction被缓存导致数据的不及时性是否有其他的方式来对mysql维表数据进行实时join 13122260...@163.com <13122260...@163.com> 于2020年4月15日周三

Re: 自定义具有Exactly-Once语义的sink

2020-04-14 文章 zhang...@lakala.com

昨天晚上看到一篇微信公众号文章，分享给你，希望对你有帮助。 “Flink 端到端 Exactly-once 机制剖析” https://mp.weixin.qq.com/s/fhUNuCOVFQUjRB-fo4Rl2g 发件人：阿华田发送时间： 2020-04-15 11:00 收件人： user-zh@flink.apache.org 主题：自定义具有Exactly-Once语义的sink

Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 Zhenghua Gao

有两个参数可以控制cache大小和cache失效时间 [1]，你可以在性能和准确性上做权衡 -- lookup options, optional, used in temporary join 'connector.lookup.cache.max-rows' = '5000', -- optional, max number of rows of lookup cache, over this value, the oldest rows will -- be eliminated.

Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 Dino Zhang

可以考虑调小cache.ttl On Wed, Apr 15, 2020 at 11:22 AM tingli ke wrote: > 是否有其他的方式来对mysql维表数据进行实时join > > > 13122260...@163.com <13122260...@163.com> 于2020年4月15日周三上午11:08写道： > > > 有个setCacheMaxSize(1000)，可以改成 -1 表示不使用cache > > org.apache.flink.api.java.io.jdbc.JDBCLookupFunction 这个方法有解释 > > The

Re: 自定义具有Exactly-Once语义的sink

2020-04-14 文章 jinhai wang

FlinkKafkaProducer、StreamingFileSink的实现都支持Exactly-Once，可以研究下 Best Regards jinhai...@gmail.com > 2020年4月15日上午11:00，阿华田写道： > > 如果自定义具有Exactly-Once语义的sink，继承TwoPhaseCommitSinkFunction，怎么确保真正的Exactly-Once，大佬们有已经上线使用的案例demo吗？ > | | > 王志华 > | > | > a15733178...@163.com > | > 签名由网易邮箱大师定制 >

????????????????Exactly-Once??????sink

2020-04-14 文章 1193216154

Flink FlinkKafkaProducer?? ---- ??:"??"

Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 tingli ke

是否有其他的方式来对mysql维表数据进行实时join 13122260...@163.com <13122260...@163.com> 于2020年4月15日周三上午11:08写道： > 有个setCacheMaxSize(1000)，可以改成 -1 表示不使用cache > org.apache.flink.api.java.io.jdbc.JDBCLookupFunction 这个方法有解释 > The cacheMaxSize is -1 means not use cache > > > > 13122260...@163.com > > 发件人： tingli ke

Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 tingli ke

您好，不使用cache会导致每个记录都要查一次mysql，效率很低效 13122260...@163.com <13122260...@163.com> 于2020年4月15日周三上午11:08写道： > 有个setCacheMaxSize(1000)，可以改成 -1 表示不使用cache > org.apache.flink.api.java.io.jdbc.JDBCLookupFunction 这个方法有解释 > The cacheMaxSize is -1 means not use cache > > > > 13122260...@163.com > > 发件人：

Re: JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 13122260...@163.com

有个setCacheMaxSize(1000)，可以改成 -1 表示不使用cache org.apache.flink.api.java.io.jdbc.JDBCLookupFunction 这个方法有解释 The cacheMaxSize is -1 means not use cache 13122260...@163.com 发件人： tingli ke 发送时间： 2020-04-15 10:55 收件人： user-zh 主题： JDBCLookupFunction被缓存导致数据的不及时性 Hi,

自定义具有Exactly-Once语义的sink

2020-04-14 文章阿华田

如果自定义具有Exactly-Once语义的sink，继承TwoPhaseCommitSinkFunction，怎么确保真正的Exactly-Once，大佬们有已经上线使用的案例demo吗？ | | 王志华 | | a15733178...@163.com | 签名由网易邮箱大师定制

JDBCLookupFunction被缓存导致数据的不及时性

2020-04-14 文章 tingli ke

Hi, 流表通过JDBCLookupFunction来对mysql的维表数据进行实时join，但是JDBCLookupFunction会对数据进行缓存，导致mysql的维表数据被更新，但是flink还是老的数据，(考虑性能需要被缓存) 是否有其他的方式来对mysql维表数据进行实时join

Re:Re: 关于flink run -m yarn提交失败。flink1.9

2020-04-14 文章 guanyq

使用的是perjob模式提交作业，没有使用yarn-seesion。为什么perjob模式提交有这个-yd参数会有问题，还是没太懂。在 2020-04-15 08:52:11，"tison" 写道： >-yd 参数影响的是你是否使用 perjob 模式提交作业，简单地说 > >with -yd 以 perjob 模式提交作业，即启动一个新集群 >without -yd 提交到一个现有的 Flink on YARN 集群 > >哪个是你的需求呢？有没有实现用 yarn-session 启动 Flink on YARN 集群呢？ > >Best, >tison. > > >guanyq

Re: 关于flink run -m yarn提交失败。flink1.9

2020-04-14 文章 tison

-yd 参数影响的是你是否使用 perjob 模式提交作业，简单地说 with -yd 以 perjob 模式提交作业，即启动一个新集群 without -yd 提交到一个现有的 Flink on YARN 集群哪个是你的需求呢？有没有实现用 yarn-session 启动 Flink on YARN 集群呢？ Best, tison. guanyq 于2020年4月15日周三上午8:46写道： > 提交失败，本人测试与-yd参数有关系，这个参数去掉就可以提交了。但是不知道 -yd这个参数影响了什么？ > At 2020-04-14 15:31:00, "guanyq"

Re:关于flink run -m yarn提交失败。flink1.9

2020-04-14 文章 guanyq

提交失败，本人测试与-yd参数有关系，这个参数去掉就可以提交了。但是不知道 -yd这个参数影响了什么？ At 2020-04-14 15:31:00, "guanyq" wrote: >提交失败，yarn资源也还有很多，为什么会提交失败呢？ > >提交脚本 >./bin/flink run -m yarn-cluster \ >-ynm TestDataProcess \ >-yd \ >-yn 2 \ >-ytm 1024 \ >-yjm 1024 \ >-c com.data.processing.unconditionalacceptance.TestDataProcess \

Re: flink sql ddl 不支持primary key

2020-04-14 文章 Jingsong Li

Hi, 是的，现在是不支持，老的sink没有使用这个primary key来做upsert，但是在1.11里新的sink接口会打通DDL的primary key的。[1] [1]https://issues.apache.org/jira/browse/FLINK-17030 Best, Jingsong Lee On Tue, Apr 14, 2020 at 5:38 PM 叶贤勋 wrote: > Hi all: > 我看源码在将sqlNode转换CreateTableOperator[1]时，还是不支持primary key配置，但是sql >

flink sql ddl 不支持primary key

2020-04-14 文章叶贤勋

Hi all: 我看源码在将sqlNode转换CreateTableOperator[1]时，还是不支持primary key配置，但是sql parser是已经能够解析，请问下为何不放开这个限制。 https://github.com/apache/flink/blob/master/flink-table/flink-table-planner-blink/src/main/java/org/apache/flink/table/planner/operations/SqlToOperationConverter.java#L178 | | 叶贤勋 | |

Re: 关于pyflink连接rabbitmq

2020-04-14 文章 Dian Fu

PyFlink目前只支持Python Table API，rabbitmq目前还没有提供Table/SQL的connector，如果想在PyFlink里使用rabbitmq，有以下几种解决方案： 1）实现Java的rabbitmq的TableSource/TableSink，可以参考Kafka等connector的实现，基本只需要在现有实现的基础上包装一下即可。 2）在PyFlink作业里使用rabbitmq的source/sink。目前在PyFlink里注册TableSource/TableSink有2种方式：

Re: Re: Flink 1.10读取kafka数据，打包jar，提交任务到集群运行测试，遇到java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/FlinkKafkaConsumerBase问题，求救大神帮忙解答，谢谢！

2020-04-14 文章 wangweigu...@stevegame.cn

昨天测试了下，除了需要添加 flink-connector-kafka_2.11-1.10.0.jar 这个外，还需要flink-connector-kafka-base_2.11-1.10.0.jar，感觉Flink在添加依赖jar做的不是很好，添加也不够灵活！发件人： zhisheng 发送时间： 2020-04-14 15:24 收件人： user-zh 主题： Re: Re: Flink 1.10读取kafka数据，打包jar，提交任务到集群运行测试，遇到java.lang.NoClassDefFoundError:

Re: flink array 查询解析问题

2020-04-14 文章 Benchao Li

Hi, 你的UDF应该要显示指定一下参数的类型，覆盖ScalarFunction的getParameterTypes方法。因为UDF对于复杂类型的推导能力有限，这种复杂类型可以显示指定参数类型。出发 <573693...@qq.com> 于2020年4月14日周二下午3:37写道： > 1.定义ddl解析array字段时候，假如select > 那个字段可以解析出。2.当我去定义自己函数时候，会出现null，flink直接跳过解析array那个函数了吗？ > CREATE TABLE sourceTable ( > event_time_line array

关于pyflink连接rabbitmq

2020-04-14 文章 Ella SUN

您好~ 我是一个flink的初学者。目前的需求是从rabbitmq读入流处理后存进mysql。因为公司大家的技术栈是python，最近看到了中国社区在推广pyflink（apache-flink）所以就试了一下。但是我发现连接rabbitmq的时候，java有很多包支持，比如 org.apache.flink.streaming.connectors.rabbitmq.* ，想问一下pyflink有类似的连接支持么？或者有什么推荐的解决方案么比如用pika连接等多谢~ -- Ella Sun

flink array ????????????

2020-04-14 文章 ????

1.ddlarray??select 2.??null??flinkarray?? CREATE TABLE sourceTable ( event_time_line array

回复: 关于kafka connector通过python链接

2020-04-14 文章秦寒

这个问题定义了我用了两个kafka包，其中红色的包是不需要的，非常感谢你们的帮助 flink-connector-kafka_2.11-1.10.0.jar flink-sql-connector-kafka_2.11-1.10.0.jar 发件人: 秦寒发送时间: 2020年4月10日 10:15 收件人: 'Hequn Cheng' ; 'user-zh' 主题: 回复: 关于kafka connector通过python链接这个搞定了，pip3重装了一下apache flink，引入了jar包搞定发件人: 秦寒 <

回复: 关于kafka connector通过python链接

2020-04-14 文章秦寒

这个搞定了，pip3重装了一下apache flink，引入了jar包搞定发件人: 秦寒发送时间: 2020年4月9日 16:41 收件人: 'Hequn Cheng' ; 'user-zh' 主题: 回复: 关于kafka connector通过python链接您好根据你们的说明我做了如下配置，我用的是flink 1.10版本 1在pyflink/lib下面添加了kafka-clients-2.2.0.jar 2

回复：ddl array 创建问题求助

2020-04-14 文章出发

谢谢 -- 原始邮件 -- 发件人: Benchao Li

关于flink run -m yarn提交失败。flink1.9

2020-04-14 文章 guanyq

提交失败，yarn资源也还有很多，为什么会提交失败呢？提交脚本 ./bin/flink run -m yarn-cluster \ -ynm TestDataProcess \ -yd \ -yn 2 \ -ytm 1024 \ -yjm 1024 \ -c com.data.processing.unconditionalacceptance.TestDataProcess \ ./tasks/UnconditionalAcceptanceDataProcess.jar \ yarn资源 Apps Submitted Apps PendingApps Running

Re: Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 zhisheng

可以试试设置 -ytm 2048m 看看是不是还这样 wangweigu...@stevegame.cn 于2020年4月14日周二下午2:16写道： > > 应该是你设置的 -ytm 和 -yjm内存大小比yarn container最小容器内存都小吧！ > yarn最小容器内存的参数： yarn.scheduler.minimum-allocation-mb > 容器内存增量： yarn.scheduler.increment-allocation-mb > > 发件人： guanyq > 发送时间： 2020-04-14 14:05 > 收件人： user-zh >

Re: Re: Flink 1.10读取kafka数据，打包jar，提交任务到集群运行测试，遇到java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/FlinkKafkaConsumerBase问题，求救大神帮忙解答，谢谢！

2020-04-14 文章 zhisheng

应该加了 flink-connector-kafka_2.11-1.10.0.jar 这个就行 wangweigu...@stevegame.cn 于2020年4月13日周一下午3:09写道： > > 感谢flink道友解答，谢谢！ > > > 目前是通过maven来开发flink程序，只是编译打包到集群运行的时候缺少kafka依赖包，flink-connector-kafka_2.11-1.10.0.jar，flink-connector-kafka-base_2.11-1.10.0.jar，kafka-clients-1.0.1-kafka-3.1.1.jar >

????checkpoint??hdfs??kerberos????????????

2020-04-14 文章 ??????

??flink1.9.1hdfs??keberos security.kerberos.login.use-ticket-cache: true security.kerberos.login.keytab: /home/abc.keytab security.kerberos.login.principal: abc/ad...@test.com 2020-04-14 11:14:20,650 INFO

Re:Re: Re: rocksdb作为状态后端任务重启时，恢复作业失败Could not restore keyed state backend for KeyedProcessOperator

2020-04-14 文章 chenxyz

Hi，Congxian：不好意思，邮件消失在了邮件海中... 我是这么复现的，直接重启运行这个任务的TM。然后就会出现KeyedProcessFunction恢复失败。只有RocksDB StateBackend会出现这种错误，使用HDFS作为FsBackend可以正常恢复任务。一开始我以为是KeyedProcessFunction里面的自定义State恢复失败，最后写了一个空的KeyedProcessFunction也不能成功恢复任务。下面附上一个简单的Demo。 public class App { public static void main(String[] args)

Re: Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 wangweigu...@stevegame.cn

应该是你设置的 -ytm 和 -yjm内存大小比yarn container最小容器内存都小吧！ yarn最小容器内存的参数： yarn.scheduler.minimum-allocation-mb 容器内存增量： yarn.scheduler.increment-allocation-mb 发件人： guanyq 发送时间： 2020-04-14 14:05 收件人： user-zh 主题： Re:Re: 关于flink 提交job参数不生效的问题 ./bin/flink run -m yarn-cluster \-ynm TestDataProcess \-ytm 666

Re:Re: Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 guanyq

脚本设置-ytm 666但是flink ui页面的，job manager--taskmanager.heap.size为1024 在 2020-04-14 14:10:31，"Xintong Song" 写道： >启动命令看起来是对的。 >你说的不起作用，具体是什么现象呢？ > >Thank you~ > >Xintong Song > > > >On Tue, Apr 14, 2020 at 2:05 PM guanyq wrote: > >> ./bin/flink run -m yarn-cluster \-ynm TestDataProcess \-ytm 666 >>

Re: Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 Xintong Song

启动命令看起来是对的。你说的不起作用，具体是什么现象呢？ Thank you~ Xintong Song On Tue, Apr 14, 2020 at 2:05 PM guanyq wrote: > ./bin/flink run -m yarn-cluster \-ynm TestDataProcess \-ytm 666 > \-yjm 666 \-c > com.data.processing.unconditionalacceptance.TestDataProcess >

Re:Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 guanyq

./bin/flink run -m yarn-cluster \-ynm TestDataProcess \-ytm 666 \-yjm 666 \-c com.data.processing.unconditionalacceptance.TestDataProcess \./tasks/UnconditionalAcceptanceDataProcess.jar \--group.id Test001 \--checkpoint.interval 5000 在 2020-04-14 14:00:59，"Xintong Song" 写道： >你邮件里的图片没有显示出来。

Re: 关于flink 提交job参数不生效的问题

2020-04-14 文章 Xintong Song

你邮件里的图片没有显示出来。建议把完整的启动命令贴一下。 Thank you~ Xintong Song On Tue, Apr 14, 2020 at 1:11 PM guanyq wrote: > flink 提交jar包是指定-ytm不起作用。想知道什么原因？ > > > >

40 matches

Mail list logo