Flink SQL 可以使用异步IO特性吗

2021-01-11 文章 kenyore
hi,all 我有一个场景是使用自定义的ScalaFunction实现所需要的look up功能(从数据库查询并将多行数据拼成一个数组)。 我正在试图尝试使用异步IO的方式以提高它的性能,但是似乎只有Stream API提供了该特性支持。 大家有什么建议吗?或者有其他优化思路吗? 谢谢! -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: 【Flink SQL】维表优化规则建议

2021-01-10 文章 张韩
hi,感谢回复 自定义的维表支持lookup,在DDL中维表定义主键和时间属性 在 2021-01-11 10:02:43,"Leonard Xu" 写道: >Hi, >这个异常信息可以提升的准确说是需要主键和even-time 时间属性,你的自定义维表是同时支持lookup和scan的吗? >这个异常信息可以提升的,如果确定问题的话可以再社区建个JIRA提升下的。 > >祝好 >Leonard Xu > >> 在 2021年1月9日,09:39,张韩 写道: >> >> 版本:1.12 >>

Re:Re: 【Flink SQL】维表优化规则建议

2021-01-10 文章 张韩
Hi,感谢回复 自定义的维表仅仅是支持lookup,是在DDL中定义了维表主键和时间属性 在 2021-01-11 10:02:43,"Leonard Xu" 写道: >Hi, >这个异常信息可以提升的准确说是需要主键和even-time 时间属性,你的自定义维表是同时支持lookup和scan的吗? >这个异常信息可以提升的,如果确定问题的话可以再社区建个JIRA提升下的。 > >祝好 >Leonard Xu > >> 在 2021年1月9日,09:39,张韩 写道: >> >> 版本:1.12 >>

Re: 【Flink SQL】维表优化规则建议

2021-01-10 文章 Leonard Xu
Hi, 这个异常信息可以提升的准确说是需要主键和even-time 时间属性,你的自定义维表是同时支持lookup和scan的吗? 这个异常信息可以提升的,如果确定问题的话可以再社区建个JIRA提升下的。 祝好 Leonard Xu > 在 2021年1月9日,09:39,张韩 写道: > > 版本:1.12 > 问题:维表关联若是支持事件时间,维表需要有主键和时间属性,在满足这两个条件前提下,自定义维表若是实现LookupTableSource接口则优化会报异常: > Caused by:

【Flink SQL】维表优化规则建议

2021-01-08 文章 张韩
版本:1.12 问题:维表关联若是支持事件时间,维表需要有主键和时间属性,在满足这两个条件前提下,自定义维表若是实现LookupTableSource接口则优化会报异常: Caused by: org.apache.calcite.plan.RelOptPlanner$CannotPlanException: There are not enough rules to produce a node with desired properties: convention=STREAM_PHYSICAL, FlinkRelDistributionTraitDef=any,

【Flink SQL】维表优化规则建议

2021-01-08 文章 张韩
版本:1.12 问题:维表关联若是支持事件时间,维表需要有主键和时间属性,在满足这两个条件前提下,自定义维表若是实现LookupTableSource接口则优化会报异常: Caused by: org.apache.calcite.plan.RelOptPlanner$CannotPlanException: There are not enough rules to produce a node with desired properties: convention=STREAM_PHYSICAL, FlinkRelDistributionTraitDef=any,

Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Jacob
谢谢回复, 听起来是可以的 我先尝试一下这种方案 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Sebastian Liu
tableEnv.executeSql 会返回TableResult,可以从中获取JobClient,检查JobStatus,在Future中CallBack 写逻辑执行后续sql。不知道是否满足你的需求? Jacob <17691150...@163.com> 于2021年1月6日周三 下午2:13写道: > Dear All,在Flink SQL > > job中,如果有多个sql语句,需要按顺序执行,即下一个sql的执行依赖上一个sql的执行结果。由于tableEnv.executeSql(sql)是*异步*提交的,那么如何保证多个sql是*顺序执行

flink sql开了TwoStageOptimizedAggregateRule优化,容易jvm heap outofmemory?

2021-01-06 文章 jindy_liu
如上,同一个作业,数据也是相同的,配置差异就是有两阶段聚合,线上作业运行一断时间后 1、开两阶段聚合, 运行一段时间就会core,并且从checkpoint恢复时,必core,作业重启不了。每次都显示jvm heap不足。 2、关闭两阶段聚合,其它内存配置不变,作业运行没问题。 查看线上的core的时候的dump文件,发现一处疑似泄漏的地方。 请问下local agg操作是不是会用到java heap做聚合操作?聚合的数据量没控制好,容易引发内存问题?

Flink sql 流批一体的应用

2021-01-05 文章 Jacob
Hi all 现有一个场景: 消费kafka消息,逐条处理加工每条kafka数据,每隔15分钟将不同数据写进hive表(多张表) 之后,对上面的多张表进行一系列join merge等操作写到新表,生成最终的数据。 这样的场景如果用Flink去处理,是不是需要启动两个flink job,一个处理流数据,一个处理批数据 因为两个执行环境不一样 流处理: StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 批处理: EnvironmentSettings

Re:回复: flink sql消费kafka sink到mysql问题

2021-01-05 文章 air23
发现是flink sql 消费kafka 不管有没有解析成功。先去提交offset到kafka 但是实际 是解析失败了。 在 2021-01-06 14:01:34,"Evan" 写道: >flinksql 貌似是目前做不到你说的这样 > > > > >发件人: air23 >发送时间: 2021-01-06 12:29 >收件人: user-zh >主题: flink sql消费kafka sink到mysql问题 >你好。我这边在跑任务时候 发现使用flink sql消费kafka如果报错了

Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-05 文章 Jacob
Dear All,在Flink SQL job中,如果有多个sql语句,需要按顺序执行,即下一个sql的执行依赖上一个sql的执行结果。由于tableEnv.executeSql(sql)是*异步*提交的,那么如何保证多个sql是*顺序执行*?eg:在一个main函数中,有如下代码:String sql1 = "";tableEnv.executeSql(sql1 );String sql2 = "";tableEnv.executeSql(sql2 );问题:如何保证sql1先执行完成,再执行sql2 - Thanks! Jaco

回复: flink sql消费kafka sink到mysql问题

2021-01-05 文章 Evan
flinksql 貌似是目前做不到你说的这样 发件人: air23 发送时间: 2021-01-06 12:29 收件人: user-zh 主题: flink sql消费kafka sink到mysql问题 你好。我这边在跑任务时候 发现使用flink sql消费kafka如果报错了 然后再重启 发现报错的数据 会丢失 采用的scan.startup.mode' = 'group-offsets' 按理说 不是要重新消费 失败的那条数据 开始消费吗? 请问如何配置 可以不丢失数据 CREATE TABLE source1 ( id BIGINT

??????????flink-sql????????????????????????????State????

2021-01-05 文章 ??????
flink??flink-on-yarn??jobTimeStampcurrent_dateenv.setStateBackend(new

Re: Flink SQL>查询的hive表数据全部为NULL

2021-01-05 文章 Jacob
谢谢回复 这个问题困扰了很久 已经解决 原因是写orc时候指定的字段名是column0、column1.、column33 而hive创建表的字段是实际字段的名字,两个不匹配,因此在flink sql中读不到 数据 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的

2021-01-05 文章 Carmen Free
处理吗? > > > > 赵一旦 于2021年1月5日周二 下午9:18写道: > > > > > 我感觉还是jar的问题。如下尝试下,我懒得去试了。 > > > 将 org.apache.kafka.common.security.plain.PlainLoginModule 替换为 > > > org.apache.flink.kafka.shaded.org.apache.kafka.common.securi > > > ty.plain.PlainLoginModule > > > > > > 因为你用的是sql-con

Re: flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的

2021-01-05 文章 赵一旦
pache.kafka.common.security.plain.PlainLoginModule 替换为 > > org.apache.flink.kafka.shaded.org.apache.kafka.common.securi > > ty.plain.PlainLoginModule > > > > 因为你用的是sql-connector-kafka,这个包把kafka-clients的包shade了。 > > > > Carmen Free 于2021年1月5日周二 下午5:09写道: > > > > > flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前

flink sql消费kafka sink到mysql问题

2021-01-05 文章 air23
你好。我这边在跑任务时候 发现使用flink sql消费kafka如果报错了 然后再重启 发现报错的数据 会丢失 采用的scan.startup.mode' = 'group-offsets' 按理说 不是要重新消费 失败的那条数据 开始消费吗? 请问如何配置 可以不丢失数据 CREATE TABLE source1 ( id BIGINT , username STRING , password STRING , AddTime TIMESTAMP , origin_table STRING METADATA FROM

Re: flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的

2021-01-05 文章 Carmen Free
t; Carmen Free 于2021年1月5日周二 下午5:09写道: > > > flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的 > > > > 1、版本说明 > > flink版本:1.10.2 > > kafka版本:1.1.0 > > > > 2、kafka鉴权说明 > > 仅使用了sasl鉴权方式 > > 在kafka客户端有配置 kafka_server-jass.con

?????? crontab????????????flink-job????,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-05 文章 ??????
thank you ---- ??: "user-zh"

?????? crontab????????????flink-job????,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-05 文章 ????
/etc/profile export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera/ export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export ZOOKEEPER_HOME=/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/zookeeper export

?????? crontab????????????flink-job????,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-05 文章 ??????
$HADOOP_CLASSPATH??/home/xjia/opt/module/hadoop3.2.1/lib/native?? ---- ??: "zhisheng"https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/resource-providers/yarn.html <

?????? crontab????????????flink-job????,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-05 文章 ??????
-??crontabflink-jobazkaban?? ---- ??: "zhisheng"https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/resource-providers/yarn.html <

Re: flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的

2021-01-05 文章 赵一旦
我感觉还是jar的问题。如下尝试下,我懒得去试了。 将 org.apache.kafka.common.security.plain.PlainLoginModule 替换为 org.apache.flink.kafka.shaded.org.apache.kafka.common.securi ty.plain.PlainLoginModule 因为你用的是sql-connector-kafka,这个包把kafka-clients的包shade了。 Carmen Free 于2021年1月5日周二 下午5:09写道: > flink sql 消费鉴权的kafka,是怎么消

Re: crontab通过脚本启动flink-job失败,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-05 文章 zhisheng
hi 可以检查一下提交任务的 flink 客户端的 lib 目录下面是否有 flink-sql-parquet_2.11-1.12.0.jar 依赖 Best zhisheng 冯嘉伟 <1425385...@qq.com> 于2021年1月4日周一 上午9:58写道: > hi! > > java.io.FileNotFoundException: File file:/home/xjia/.flink/... > 可以看出,从本地加载jar包,而不是hdfs。 > > 我觉得可能是hadoop环境的问题,

Re: Flink SQL>查询的hive表数据全部为NULL

2021-01-05 文章 housezhang
可以看下flink jobmanager 上的日志,会不会有什么异常出现了。s -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的

2021-01-05 文章 Carmen Free
flink sql 消费鉴权的kafka,是怎么消费的呢?在kafka未添加鉴权之前,flink SQL消费kafka是正常的 1、版本说明 flink版本:1.10.2 kafka版本:1.1.0 2、kafka鉴权说明 仅使用了sasl鉴权方式 在kafka客户端有配置 kafka_server-jass.conf、 server.properties、producer.properties、consumer.properties 3、主要配置参数 sasl.mechanism=PLAIN security.protocol=SASL_PLAINTEXT

Re: Flink SQL>查询的hive表数据全部为NULL

2021-01-04 文章 Rui Li
Hello, Flink和Hive版本是什么呢?ORC表的数据是否有过schema evolution? On Mon, Jan 4, 2021 at 9:19 AM Jacob <17691150...@163.com> wrote: > Dear All, > > Flink SQL>select * from table1; > > > 在Flink客户端查询hive数据,结果每个字段全为NULL,但数据条数是对的,select > count是正确的,查具体数据就是NULL,不知何故?同样的查询在hive客户端是可以

Re: 如何优雅的开发Flink SQL作业

2021-01-04 文章 赵一旦
1 kafka table和group id是啥意思。group id随意写一个就可以了。 2 本身就可以复用。 3 听不懂表达啥。 HideOnBushKi <1405977...@qq.com> 于2021年1月4日周一 下午3:43写道: > 大佬们好,现在业务需求多,生产作业开始变得繁重,请教3个生产业务场景,主要是想看下各位有什么优雅的思路 > > 1.kakfa table和group_ID应该怎么去维护呢?一个业务一张表吗? > 2.如何做到复用表的效果? > 3.如果新增一个业务需求,用到之前的一张kafka table,似乎要在一个程序里。执行多次

Flink SQL查询ORC表结果全部为NULL

2021-01-04 文章 Jacob
Flink SQL> select * from table1 where dt='1609739880002'; table1是张orc表,有分区(dt是分区),在flink sql客户端查询表的结果全部为NULL,但select count是可以查出数据条数。找了好几天的原因,实在不知道是什么原因了,求教!!! Flink SQL> select * from table1 where dt='1609739880002'; <http://apache-flink.147419.n8.nabble.com/file/t1162

如何优雅的开发Flink SQL作业

2021-01-03 文章 HideOnBushKi
大佬们好,现在业务需求多,生产作业开始变得繁重,请教3个生产业务场景,主要是想看下各位有什么优雅的思路 1.kakfa table和group_ID应该怎么去维护呢?一个业务一张表吗? 2.如何做到复用表的效果? 3.如果新增一个业务需求,用到之前的一张kafka table,似乎要在一个程序里。执行多次 executeSql("sql 1")才不会乱序,但是这样的话,程序的耦合度会很高,请问该怎么优雅的处理这些场景呢? -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: Flink SQL DDL Schema csv嵌套json

2021-01-03 文章 amen...@163.com
Flink版本 1.12.0 发件人: amen...@163.com 发送时间: 2021-01-03 16:09 收件人: user-zh 主题: Flink SQL DDL Schema csv嵌套json hi everyone, zhangsan|man|28|goodst...@gmail.com|{"math":98, "language":{"english":89, "french":95}}|china|beijing 这是一条来自kafka消息队列中的数据,当我

Re: crontab通过脚本启动flink-job失败,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-03 文章 冯嘉伟
hi! java.io.FileNotFoundException: File file:/home/xjia/.flink/... 可以看出,从本地加载jar包,而不是hdfs。 我觉得可能是hadoop环境的问题,导致读取的scheme是file,使用 echo $HADOOP_CLASSPATH 检查你的环境。 Important Make sure that the HADOOP_CLASSPATH environment variable is set up (it can be checked by running echo $HADOOP_CLASSPATH). If

Flink SQL>查询的hive表数据全部为NULL

2021-01-03 文章 Jacob
Dear All, Flink SQL>select * from table1; 在Flink客户端查询hive数据,结果每个字段全为NULL,但数据条数是对的,select count是正确的,查具体数据就是NULL,不知何故?同样的查询在hive客户端是可以查到数据的 hive表时orc文件load的数据。 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink SQL DDL Schema csv嵌套json

2021-01-03 文章 amen...@163.com
hi everyone, zhangsan|man|28|goodst...@gmail.com|{"math":98, "language":{"english":89, "french":95}}|china|beijing 这是一条来自kafka消息队列中的数据,当我创建kafka ddl为之定义schema时,报出异常信息: Exception in thread "main" java.lang.IllegalArgumentException: Only simple types are supported in the second level nesting of

crontab????????????flink-job????,flink-sql-parquet_2.11-1.12.0.jar does not exist

2021-01-01 文章 ??????
Container for appattempt_1609403978979_0043_02 exited with exitCode: -1000 Failing this attempt.Diagnostics: [2021-01-02 14:55:14.203]File file:/home/xjia/.flink/application_1609403978979_0043/lib/flink-sql-parquet_2.11-1.12.0.jar does not exist java.io.FileNotFoundException: File file:/home/xjia/.flink/application_160940397897

flink sql 数组下标问题

2020-12-31 文章 silence
flink sql官方文档中数组的取值方式如下定义 array ‘[’ integer ‘]’ Returns the element at position integer in array. The index starts from 1. 参考链接 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/functions/systemFunctions.html#collection-functions 主要问题就是数组的下标是从1开始的,这不符合数组从0开始的常识,也和hive sql不兼容

Flink sql执行insert into 的一些问题

2020-12-30 文章 Jacob
Dear All, Flink SQL> insert into table1 select filed1,filed2,.filed10 from table2; 在flink sql 中执行类似上面的语句,在webui中看到很快就finished了,但数据并没有写进table1表中,查看log,也看不到什么报错。迷惑 还有,在使用select count(*) 查询表数据时,有的表能查到结果,有的就不显示结果,也没有报错。实在不知道什么原因了。。。 - Thanks! Jacob -- Sent from: http://apache-fl

Re: flink-sql流平台工具

2020-12-29 文章 Leonard Xu
感谢分享! 看起来很nice的平台化实践,star 了. > 在 2020年12月29日,21:09,zhp <499348...@qq.com> 写道: > > 本人业余时间开发了一个基于flink-sql 的web 可视化ui平台供大家学习、参考、使用 > https://github.com/zhp8341/flink-streaming-platform-web > <https://github.com/zhp8341/flink-streaming-platform-web> > > > &

flink-sql流平台工具

2020-12-29 文章 zhp
本人业余时间开发了一个基于flink-sql 的web 可视化ui平台供大家学习、参考、使用 https://github.com/zhp8341/flink-streaming-platform-web <https://github.com/zhp8341/flink-streaming-platform-web> -- Sent from: http://apache-flink.147419.n8.nabble.com/

how to achive exactly once with flink sql when consume from kafka and then write to mysql

2020-12-29 文章 huliancheng
we are going to build our data computing system based on flink sql. for now, with flink 1.11.0, we had achived a milestone: consuming from kafka, then select from dynamic table, and write results to mysql. but, when we test the exactly once(end to end), we found problem. below are our sourcecode

Re: flink sql ddl CREATE TABLE kafka011 sink 如何开启事务exactly-once?

2020-12-29 文章 huliancheng
we are going to build our data computing system base on flink sql. for now, with flink 1.11.0, we had achived a milestone: consuming from kafka, then select from dynamic table, and write results to mysql. but, when we test the exactly once(end to end), we found problem. official documentation

Re:flink12同时使用flink-connector-kafka和flink-sql-connector-kafka会引发类冲突问题

2020-12-29 文章 felixzh
org.apache.flink flink-connector-kafka-2.2_2.11 1.12.0provided 在 2020-12-26 10:37:52,"site" 写道: >在yarn中部署streaming程序,maven使用依赖 > >org.apache.flink >flink-connector-kafka-2.2_2.11 >1.12.0 > >在flink的lib目录中有flink-sql-connector-kafka_2.11-1.12.0.jar,因为类冲

Re:Re: Flink SQL并发度设置问题

2020-12-27 文章 hailongwang
ink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism >> > > >> > > 赵一旦 于2020年12月27日周日 下午12:44写道: >> > > >> > > > 了解下多少数据量呀,128的并发其实很高了感觉。 >> > > > >> > > > guaishushu1...@163.com 于2020年12月26日周六 >> > 下午5:39写道: >> > > > >> > > > > Flink >> > > > > >> > > > >> > > >> > >> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? >> > > > > >> > > > > >> > > > > >> > > > > guaishushu1...@163.com >> > > > > >> > > > >> > > >> > >>

Re: Flink SQL并发度设置问题

2020-12-27 文章 赵一旦
]来设置 > > > > > > [1] > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism > > > > > > 赵一旦 于2020年12月27日周日 下午12:44写道: > > > > > > > 了解下

Re: Flink SQL并发度设置问题

2020-12-27 文章 Shengkai Fang
-resource-default-parallelism > > > > 赵一旦 于2020年12月27日周日 下午12:44写道: > > > > > 了解下多少数据量呀,128的并发其实很高了感觉。 > > > > > > guaishushu1...@163.com 于2020年12月26日周六 > 下午5:39写道: > > > > > > > Flink > > > > > >

Re: Flink SQL并发度设置问题

2020-12-27 文章 赵一旦
aster/dev/table/config.html#table-exec-resource-default-parallelism > > 赵一旦 于2020年12月27日周日 下午12:44写道: > > > 了解下多少数据量呀,128的并发其实很高了感觉。 > > > > guaishushu1...@163.com 于2020年12月26日周六 下午5:39写道: > > > > > Flink > > > > > > SQL中Source和sink可以通过修改c

Re: Flink SQL并发度设置问题

2020-12-26 文章 Shengkai Fang
可以通过该配置[1]来设置 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism 赵一旦 于2020年12月27日周日 下午12:44写道: > 了解下多少数据量呀,128的并发其实很高了感觉。 > > guaishushu1...@163.com 于2020年12月26日周六 下午5:39写道: > > > Flink > >

Re: Flink SQL并发度设置问题

2020-12-26 文章 赵一旦
了解下多少数据量呀,128的并发其实很高了感觉。 guaishushu1...@163.com 于2020年12月26日周六 下午5:39写道: > Flink > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > guaishushu1...@163.com >

Flink SQL并发度设置问题

2020-12-26 文章 guaishushu1...@163.com
Flink SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? guaishushu1...@163.com

flink12同时使用flink-connector-kafka和flink-sql-connector-kafka会引发类冲突问题

2020-12-25 文章 site
在yarn中部署streaming程序,maven使用依赖 org.apache.flink flink-connector-kafka-2.2_2.11 1.12.0 在flink的lib目录中有flink-sql-connector-kafka_2.11-1.12.0.jar,因为类冲突问题会引起在yarn中程序部署失败,flink默认类加载机制child-first,改为parent-first也样,类冲突问题可以参考http://apache-flink.147419.n8.nabble.com/Kafka-Consumer-td3475.html

flink sql cdc流(1.11.2),双流join长时间运行后,试着取消job后,再从从checkpoint处恢复运行,报outofmemorry, tm的参数配置也没有变过,rocksdb后端。 这个可能原因是啥?运行的时候没报,为啥恢复的时间报了?

2020-12-23 文章 jindy_liu
java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3181) at java.util.ArrayList.grow(ArrayList.java:261) at java.util.ArrayList.ensureExplicitCapacity(ArrayList.java:235) at

Re: 请教个Flink sql问题

2020-12-21 文章 占英华
行时查询的结果是在耗时后查询得到的 >> >>>> 在 2020年12月21日,11:14,hailongwang <18868816...@163.com> 写道: >>> >>>  >>> >>> 可以的,比如将结果写入table1,table2 …… >>> Insert into table1 ……; >>> Insert into table2 ……; >>> >>> >>> >>> Best, >>> Hailong >>>> 在 2020-12-19 08:30:23,"占英华" 写道: >>>> Flink sql的dml语句可以将结果写入不同的sink表中吗?如果可以可以怎么处理?

Re:Re: 请教个Flink sql问题

2020-12-21 文章 hailongwang
> >> 可以的,比如将结果写入table1,table2 …… >> Insert into table1 ……; >> Insert into table2 ……; >> >> >> >> Best, >> Hailong >>> 在 2020-12-19 08:30:23,"占英华" 写道: >>> Flink sql的dml语句可以将结果写入不同的sink表中吗?如果可以可以怎么处理?

Re: 请教个Flink sql问题

2020-12-20 文章 占英华
这样是不是第一条select和第二条的select出来的结果会有差异,因为执行第一条有耗时,第二条执行时查询的结果是在耗时后查询得到的 > 在 2020年12月21日,11:14,hailongwang <18868816...@163.com> 写道: > >  > > 可以的,比如将结果写入table1,table2 …… > Insert into table1 ……; > Insert into table2 ……; > > > > Best, > Hailong >&g

Re:请教个Flink sql问题

2020-12-20 文章 hailongwang
可以的,比如将结果写入table1,table2 …… Insert into table1 ……; Insert into table2 ……; Best, Hailong 在 2020-12-19 08:30:23,"占英华" 写道: >Flink sql的dml语句可以将结果写入不同的sink表中吗?如果可以可以怎么处理?

Re: 请教个Flink sql问题

2020-12-20 文章 赵一旦
应该可以,先说下我SQL也是刚刚开始学习哈。 你写2个SQL肯定是可以达到的,如果你是希望2个SQL在同一个作业中,也是可以的。 不清楚你是啥开发SQL,比如zeppelin的话,有个runAsOne的设置。如果是代码的话,好像有个StatementSet的概念。 占英华 于2020年12月19日周六 上午9:32写道: > Flink sql的dml语句可以将结果写入不同的sink表中吗?如果可以可以怎么处理?

??????flink sql????????????????

2020-12-19 文章 ?Y??????????????????
??Kafka??schemacsv??json??avro??schema?? ---- ??:

flink sql如何处理脏数据?

2020-12-19 文章 陈帅
业务上游数据源发出来的数据有可能会有脏数据导致数据无法解析成源表的结构,如kafka json topic映射成源表。 请问这种情况下flink sql要如何处理? 期望的是将脏数据发到一个专门的topic,是不是要自己写个connector? 标准kafka connector支持这种需求么?

请教个Flink sql问题

2020-12-18 文章 占英华
Flink sql的dml语句可以将结果写入不同的sink表中吗?如果可以可以怎么处理?

Re: Re:Re: flink sql作业state size一直增加

2020-12-18 文章 赵一旦
话说为什么会有这类需求呢,感觉flink就不应该有state.retention这种考虑。要么使用time window,要么over window。干嘛不分窗呢。。 Storm☀️ 于2020年12月18日周五 上午11:17写道: > mini batch默认为false 。题主问题找到了吗 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Flink-SQL-Client 啥时候支持GateWay Mode

2020-12-18 文章 夜思流年梦
Dear developer: 想问下flink-sql client 啥时候支持GateWay Mode呢? 就好像Spark 有spark thrift server ,我们可以通过jdbc方式调用 我在 Apache Flink Home / Flink Improvement Proposals 这个里面看到是有 GateWay Mode 的计划的,19年7月提的, 想问下这个的具体进度,最近几个版本会有规划吗? GateWay Mode这个模式很符合业务实际场景, 这样我们可以通过JDBC/Rest API的方式调用,提交SQL; 望各位大神可以透露下

Re: Re:Re: flink sql作业state size一直增加

2020-12-17 文章 Storm☀️
mini batch默认为false 。题主问题找到了吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink sql 自定义udaf函数 出现 No match found for function signature count_uadf()

2020-12-17 文章 丁浩浩
问题我自己已经解决。 > 在 2020年12月17日,下午9:00,丁浩浩 <18579099...@163.com> 写道: > > flink版本:1.11.1 > udaf函数代码来自于阿里云官网文档 > > 以下是代码 > public class TestSql { >public static void main(String[] args) throws Exception { >StreamExecutionEnvironment env = >

Flink sql 自定义udaf函数 出现 No match found for function signature count_uadf()

2020-12-17 文章 丁浩浩
flink版本:1.11.1 udaf函数代码来自于阿里云官网文档 以下是代码 public class TestSql { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnv =

flink-sql????-??????????state

2020-12-17 文章 ??????
?? flink sql??cdccdc??state?? state?? val config: TableConfig = tabEnv.getConfig

Re: flink sql es写入时,用户名密码认证不支持

2020-12-16 文章 HunterXHunter
是的,需要上传certificate文件,1.12好像没有上传文件的配置 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink SQL中with子句中的配置最终是传给了外部数据源对应的配置中,如果有些配置不能出现在SQL的wtih子句中而要设置一些额外的配置参数(SQL级别不是全局级别的配置参数)给外部数据源的配置中,可以怎么传递?

2020-12-16 文章 邮件帮助中心

Re: flink sql 1.12 写数据到elasticsearch,部署问题

2020-12-15 文章 Yangze Guo
需要放 flink-sql-connector-elasticsearch7_2.11-1.12.0.jar Best, Yangze Guo On Wed, Dec 16, 2020 at 11:34 AM cljb...@163.com wrote: > > hi, > flink sql 1.12版本,写数据到elasticsearch时,本地执行正常,部署到服务器上,报如下错误。 > 检查了打的jar包,里面是包含相应的类的,在flink > lib下也已经放了flink-connector-elasticsearch7_2.

flink sql 1.12 写数据到elasticsearch,部署问题

2020-12-15 文章 cljb...@163.com
hi, flink sql 1.12版本,写数据到elasticsearch时,本地执行正常,部署到服务器上,报如下错误。 检查了打的jar包,里面是包含相应的类的,在flink lib下也已经放了flink-connector-elasticsearch7_2.11-1.12.0.jar 包。 调整了类的加载,试了child-first和parent-first都不行 有遇到类似问题的吗? 谢谢! 错误提示如下: org.apache.flink.client.program.ProgramInvocationException: The main

flink sql数据处理时延的测试方法?

2020-12-15 文章 jindy_liu
请问下,在flink sql里,一般用啥方法去衡量一个任务里,一条mysql cdc流从输入flink,走完flink内部算子,到sink外部系统的整体时延? 或者说整个任务的时延? 总说是实时,目前也不知道处理的实时的量级! -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:Flink sql 列裁剪原理请教

2020-12-15 文章 SmileSmile
, FlinkLogicalCalcRemoveRule.INSTANCE 2. projection push into tablesource 可查看:PushProjectIntoTableSourceScanRule Best, Hailong 在 2020-12-15 20:57:32,"SmileSmile" 写道: >hi,社区的各位,是否有了解flink sql的列裁剪的实现原理? > >通过calcite的rbo可以实现sql优化,calcite的coreRules好像没有实现列裁剪。看一些文章有提到flink有实现projection >pushdow

Flink sql 列裁剪原理请教

2020-12-15 文章 SmileSmile
hi,社区的各位,是否有了解flink sql的列裁剪的实现原理? 通过calcite的rbo可以实现sql优化,calcite的coreRules好像没有实现列裁剪。看一些文章有提到flink有实现projection pushdown。请问下这部分源码对应哪里 Best! | | a511955993 | | 邮箱:a511955...@163.com | 签名由 网易邮箱大师 定制

Re:Re: 关于flink-sql 元数据问题

2020-12-14 文章 夜思流年梦
,bsSettings); Catalog catalog = new HiveCatalog(CATALOG_NAME,DEFAULTDATABASE,HIVECONFDIR); tableEnv.registerCatalog(CATALOG_NAME,catalog); tableEnv.useCatalog("myhive"); tableEnv.executeSql("create table ."); No jobs included in application 目前的场景

Flink-SQL数据倾斜处理

2020-12-14 文章 yanggang_it_job
hello,通过FlinkSQL实现了一个简单的业务:Kafka to hive 但是任务不定期报错,某个TM异常挂掉,经排查可以得到如下日志 Direct buffer memory. The direct out-of-memory error has occurred. This can mean two things: either job(s) require(s) a larger size of JVM direct mOpt> or there is a direct memory leak. The direct memory can be allocated by

Re: 关于flink-sql 元数据问题

2020-12-13 文章 占英华
> 在 2020年12月14日,11:43,Rui Li 写道: > > Hi, > > 调用tableEnv.executeSql("create table > .")以后表就已经创建了,不需要再调用tableEnv.execute。execute方法已经deprecate,建议统一使用executeSql哈 > >> On Fri, Dec 11, 2020 at 7:23 PM JasonLee <17610775...@163.com> wrote: >>

Re: 关于flink-sql 元数据问题

2020-12-13 文章 Rui Li
Hi, 调用tableEnv.executeSql("create table .")以后表就已经创建了,不需要再调用tableEnv.execute。execute方法已经deprecate,建议统一使用executeSql哈 On Fri, Dec 11, 2020 at 7:23 PM JasonLee <17610775...@163.com> wrote: > hi > Flink SQL 建的表支持用 hive 的 catalog 来管理元数据,是否可以满足你的需求 ? > > > &

Re: Re: Flink SQL 怎么为每一个任务分配不同的内存配置

2020-12-13 文章 magichuang
始邮件 -- > 发 件 人:"Kyle Zhang" > 发送时间:2020-12-14 09:25:59 > 收 件 人:user-zh@flink.apache.org > 抄 送: > 主 题:Re: Flink SQL 怎么为每一个任务分配不同的内存配置 > > 一个集群跑一个SQL任务怎么样 > > On Mon, Dec 14, 2020 at 8:42 AM yinghua...@163.com > wrote: > > > Flink 作业在提交时可以通过参数指定JobMana

Re: Flink SQL 怎么为每一个任务分配不同的内存配置

2020-12-13 文章 Kyle Zhang
一个集群跑一个SQL任务怎么样 On Mon, Dec 14, 2020 at 8:42 AM yinghua...@163.com wrote: > Flink 作业在提交时可以通过参数指定JobManager > 和TaskManager的内存配置,但是SQL执行时怎么为每一个任务指定其内存配置,是不是都是读同一个flink-conf.yaml中的配置? > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/config.html#memory-configuration >

Flink SQL 怎么为每一个任务分配不同的内存配置

2020-12-13 文章 yinghua...@163.com
Flink 作业在提交时可以通过参数指定JobManager 和TaskManager的内存配置,但是SQL执行时怎么为每一个任务指定其内存配置,是不是都是读同一个flink-conf.yaml中的配置? https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/config.html#memory-configuration 中内存的配置都是基于flink-conf.yaml文件来操作的,是全局的配置,没有找到基于SQL任务独立配合内存的? yinghua...@163.com

Re: 关于flink-sql 元数据问题

2020-12-11 文章 JasonLee
hi Flink SQL 建的表支持用 hive 的 catalog 来管理元数据,是否可以满足你的需求 ? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL 1.11支持将数据写入到Hive吗?

2020-12-11 文章 JasonLee
hi 可以参考下这篇文章 https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL 1.11支持将数据写入到Hive吗?

2020-12-11 文章 占英华
感谢答复,我再好好试验下 > 在 2020年12月11日,17:36,Jark Wu 写道: > > 1.11的文档: > https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/hive_read_write.html > > 1.12的文档: > https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/ > >> On Fri, 11 Dec 2020 at

??????Flink SQL 1.11????????????????Hive????

2020-12-11 文章 ?n?e?m?a ????????
table apihive hive??catalog ---- ??: "user-zh"

Re: Flink SQL 1.11支持将数据写入到Hive吗?

2020-12-11 文章 Jark Wu
1.11的文档: https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/hive_read_write.html 1.12的文档: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/ On Fri, 11 Dec 2020 at 15:45, yinghua...@163.com wrote: > 看官网介绍是支持的: > >

关于flink-sql 元数据问题

2020-12-11 文章 夜思流年梦
开发者好: 目前想把flink-sql 建表的操作集成到我们自己的平台中,但是发现一个比较尴尬的现象,如果使用Table api ,应用中只有create 语句的话,那么应用执行会报错,报没有定义算子:The main method caused an error: No operators defined in streaming topology. Cannot generate StreamGraph. 但是,这个表却创建成功了,代码如下: final StreamExecutionEnvironment env

Flink SQL 1.11支持将数据写入到Hive吗?

2020-12-10 文章 yinghua...@163.com
看官网介绍是支持的: 但是找对应的连接器是没有Hive,是JDBC?

flink sql 消费kafka,断开连接

2020-12-10 文章 smailxie
有人遇到过这种错吗?kafka一直连不上。但是报错的只是某个topic,其他topic是可以的。 2020-12-1110:51:04,446INFO org.apache.kafka.clients.FetchSessionHandler [] - [Consumer clientId=consumer-v2.realtime.sales.offline.group-23, groupId=v2.realtime.sales.offline.group] Error sending fetch request (sessionId=INVALID,

Re: 使用flink sql cli读取postgres-cdc时,Could not find any factory for identifier 'postgres-cdc' that implements 'org.apache.flink.table.factories.DynamicTableSinkFactory' in the classpath.

2020-12-09 文章 Jark Wu
postgres-cdc 的表只支持读,不支持写。 On Wed, 9 Dec 2020 at 22:49, zhisheng wrote: > sql client 也得重启 > > 王敏超 于2020年12月9日周三 下午4:49写道: > > > 在使用standalone模式,并启动sql > > cli后,报错如下。但是我的lib目录是引入了flink-sql-connector-postgres-cdc-1.1.0.jar, > > 并且重启过集群。同样方式使

Re: flink sql 1.11 kafka cdc与holo sink

2020-12-09 文章 Jark Wu
1. 目前不支持。 已有 issue 跟进支持 https://issues.apache.org/jira/browse/FLINK-20385 2. 配上 canal-json.table.include = 't1' 来过滤表。暂不支持正则过滤。 3. 会 Best, Jark On Wed, 9 Dec 2020 at 11:33, 于洋 <1045860...@qq.com> wrote: > flink sql 1.11 创建kafka source 表 ,kafka数据是canal采集的mysql 信息,'format' = > 'cana

Re: 关于flink sql往postgres写数据遇到的timestamp问题

2020-12-09 文章 李轲
谢谢 发自我的iPhone > 在 2020年12月10日,10:49,Jark Wu 写道: > > 看报错信息,你并没有 insert into postgres,而是只是 select 了 query,这个会将运行结果显式在 sql client > 界面上,而不会插入到 postgres 中。 > > 你的 query 中有 timestamp with local time zone, 而 sql client 的 query运行结果的显式 > 还不支持这个类型。 > > 这个问题的解决可以关注下这个

Re: 关于flink sql往postgres写数据遇到的timestamp问题

2020-12-09 文章 Jark Wu
看报错信息,你并没有 insert into postgres,而是只是 select 了 query,这个会将运行结果显式在 sql client 界面上,而不会插入到 postgres 中。 你的 query 中有 timestamp with local time zone, 而 sql client 的 query运行结果的显式 还不支持这个类型。 这个问题的解决可以关注下这个 issue:https://issues.apache.org/jira/browse/FLINK-17948 Best, Jark On Tue, 8 Dec 2020 at 19:32, 李轲

Re: 使用flink sql cli读取postgres-cdc时,Could not find any factory for identifier 'postgres-cdc' that implements 'org.apache.flink.table.factories.DynamicTableSinkFactory' in the classpath.

2020-12-09 文章 zhisheng
sql client 也得重启 王敏超 于2020年12月9日周三 下午4:49写道: > 在使用standalone模式,并启动sql > cli后,报错如下。但是我的lib目录是引入了flink-sql-connector-postgres-cdc-1.1.0.jar, > 并且重启过集群。同样方式使用mysql cdc是可以的。 > > Caused by: org.apache.flink.table.api.ValidationException: Could not find > any factory for identi

使用flink sql cli读取postgres-cdc时,Could not find any factory for identifier 'postgres-cdc' that implements 'org.apache.flink.table.factories.DynamicTableSinkFactory' in the classpath.

2020-12-09 文章 王敏超
在使用standalone模式,并启动sql cli后,报错如下。但是我的lib目录是引入了flink-sql-connector-postgres-cdc-1.1.0.jar, 并且重启过集群。同样方式使用mysql cdc是可以的。 Caused by: org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'postgres-cdc' that implements

flink sql ??????????????CodeGenException: Unsupported cast from 'ROW' to 'ROW'.

2020-12-08 文章 bigdata
flink1.10.1??error_1006_cnt_permillage sql?? SELECT |DATE_FORMAT(TIMESTAMPADD(HOUR, 8, TUMBLE_START(proctime, INTERVAL '10' SECOND)), '-MM-dd') `day`, |UNIX_TIMESTAMP(DATE_FORMAT(TIMESTAMPADD(HOUR, 8, TUMBLE_START(proctime, INTERVAL '10' SECOND)), '-MM-dd

flink sql ??????????????CodeGenException: Unsupported cast from 'ROW' to 'ROW'.

2020-12-08 文章 bigdata
flink1.10.1??error_1006_cnt_permillage sql?? SELECT |DATE_FORMAT(TIMESTAMPADD(HOUR, 8, TUMBLE_START(proctime, INTERVAL '10' SECOND)), '-MM-dd') `day`, |UNIX_TIMESTAMP(DATE_FORMAT(TIMESTAMPADD(HOUR, 8, TUMBLE_START(proctime, INTERVAL '10' SECOND)), '-MM-dd

Flink SQL读取复杂JSON格式

2020-12-08 文章 破极
Hello,各位大佬: 请教下大佬们,在Flink SQL中读取Kafka中的数据,但Kafka中的数据比较复杂,其中json的data属性中的值是数组,但数组的内容是动态的,没有统一,如果定义create table时候schema呢?我定义了array,想自己定义UDF来处理的,在JsonNode中的asText无法取到数据。 请问各位大佬有啥高招呢?谢谢。 kafka消息样例(data的value是动态的): {"source":"transaction_2020202020200","data":[{&qu

flink sql 1.11 kafka cdc??holo sink

2020-12-08 文章 ????
flink sql 1.11 kafka source ?? ??kafka??canal??mysql ??'format' = 'canal-json'?? ?? 1sourcemsyql??schemadata[{}]??table??ts?? 2??topicmysql binlog??kafka source

Re: flink sql实时计算UpsertStreamTableSink requires that Table has a full primary keys if it is updated

2020-12-08 文章 赵一旦
旧版 'connector.type' = 'jdbc',新版 'connector' = 'jdbc'。 新旧区别,旧版根据查询决定key,新版你只需要定义了key就是upsert了,不需要查询符合一定要求。 Leonard Xu 于2020年12月7日周一 下午5:11写道: > Hi, > 你是不是没有订阅flink的用户邮件列表,所以有些邮件你看不到。 > 你可以发送任意内容的邮件到user-zh-subscr...@flink.apache.org user-zh-subscr...@flink.apache.org>

flink sql ddl????????????java.lang.IncompatibleClassChangeError: Implementing class

2020-12-08 文章 bigdata
??flink1.10.1,pom??

<    4   5   6   7   8   9   10   11   12   13   >