关于FlinkSQL的窗口和触发

2020-08-31 文章 BenChen
Hi all, 在FlinkSQL中,我知道可以通过group by window去做窗口处理,但是如果触发时间和窗口时间不一致,如何去表达呢? 比如说,统计一天的PV和UV,每隔10S更新数据,在StreamingApi里面,可以通过timeWindow(1Day) + trigger(10Seconds)去实现,但是到FlinkSQL上要如何实现呢? 感激不尽。 | | BenChen | | haibin...@163.com | 签名由网易邮箱大师定制

Re: flink checkpoint导致反压严重

2020-08-31 文章 Congxian Qiu
Hi 如果我理解没错的话,这种 单 key 热点的问题,需要算 中位数(无法像 sum/count 这样分步计算的),只能通过现在你写的这种方法,先分布聚合,然后最终再计算中位数。不过或许可以找找数学方法,看有没有近似的算法 Best, Congxian 赵一旦 于2020年9月1日周二 上午10:15写道: > (1)url理论上足够多,也足够随机。而并行度比如是30,url理论上是万、十万、百万、千万级别,理论上不会出现数据倾斜吧。 > (2)如果的确有倾斜,那么你那个方法我看不出有啥用,我看你好像是全缓存下来?这没啥用吧。 >

Re: flink json ddl解析

2020-08-31 文章 zilong xiao
like this: ARRAY>> Dream-底限 于2020年9月1日周二 上午11:40写道: > hi > > 我正在解析json数组,在解析的时候遇到一个问题,当解析的json数组元素为同一类型的时候,我可以使用ddl的array进行存储,但是当json数组元素为不同类型的时候,我没办法做ddl映射,我查看JsonRowSchemaConverter解析json > array的时候,对于不同类型的数组元素解析后可以用row存储,但请问我在ddl时候要怎么做,因为在DDL用row表示数组会抛出异常 > > > private static TypeInformation

flink json ddl解析

2020-08-31 文章 Dream-底限
hi 我正在解析json数组,在解析的时候遇到一个问题,当解析的json数组元素为同一类型的时候,我可以使用ddl的array进行存储,但是当json数组元素为不同类型的时候,我没办法做ddl映射,我查看JsonRowSchemaConverter解析json array的时候,对于不同类型的数组元素解析后可以用row存储,但请问我在ddl时候要怎么做,因为在DDL用row表示数组会抛出异常 private static TypeInformation convertArray(String location, JsonNode node, JsonNode root) { //

Re: FLINK1.11.1 对OGG数据入HIVE的问题咨询

2020-08-31 文章 Qishang
Hi. 我们也遇到一样的场景,现在您是否有一些具体实施和思考可以交流一下吗? USERNAME 于2020年8月13日周四 下午3:27写道: > > > 任务流程: > OGG->KAFKA->FLINK->HIVE > > > KAFKA数据样例: > 其中会有多个 > "table",所以"before","after"中的字段是不一致的,同一个表如果有有DDL变更也会导致"before","after"字段的变更。 > { > "table": "SCOOT.TABLENAME", > "op_type": "U", > "op_ts":

使用orc写动态分区表时,文件大小滚动策略不起作用

2020-08-31 文章 wei.wei
当一个task同时写多个bucket的时候,会因为FIXED_PATH覆盖之前注册的writer callback,导致checkMemory不能回调; https://issues.apache.org/jira/browse/FLINK-18915 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint导致反压严重

2020-08-31 文章 赵一旦
(1)url理论上足够多,也足够随机。而并行度比如是30,url理论上是万、十万、百万、千万级别,理论上不会出现数据倾斜吧。 (2)如果的确有倾斜,那么你那个方法我看不出有啥用,我看你好像是全缓存下来?这没啥用吧。 (3)我的思路,考虑到你是要求1分钟窗口,每个url维度的,response的中位数。所以本质需要url+time维度的全部response数据排序。 由于url数量可能比较少(比如和并行度类似),导致了数据倾斜。所以key不能仅用url,需要分步。

Re: 回复: flink1.11连接mysql问题

2020-08-31 文章 amen...@163.com
如果是mysql5.x以上的版本,url中autoReconnect参数会无效吧, 可以尝试下修改配置文件wait_timeout/interactive_out参数 best, amenhub 发件人: 酷酷的浑蛋 发送时间: 2020-08-31 20:48 收件人: user-zh@flink.apache.org 主题: 回复: flink1.11连接mysql问题 下面是我连接mysql的配置,用的flink-1.11.1,还是报那个错误 CREATE TABLE xx( `xx` varchar, `xx` varchar ) WITH (

Re: flink-1.11.1 Table API /SQL 无法写入hive orc表

2020-08-31 文章 amen...@163.com
hi Jian Wang, 根据我的理解,在flink lib目录下导入官方的flink-sql-connector-hive-2.2.0_2.11-1.11.1.jar是指hive[2.0.0-2.2.0]版本都可以使用此依赖。 关于你的问题我曾经遇到过,hive也是2.1.1,我的demo参考[1]可以运行成功,而不需要额外导入flink-sql-connector-hive-2.2.0_2.11-1.11.1.jar, 只需要把[1]中的依赖改成provided并把其jar包导入flink/lib即可。 希望能帮到你, [1]

Re: 请教 hive streaming 报错

2020-08-31 文章 liangck
遇到同样的问题,请问解决了吗。我是flink-connector-hive和hive-exec打进jar包里提交的。但是 flink-connector-hive里有个org.apache.flink.streaming.api.functions.sink.filesystem.HadoopPathBasedBulkFormatBuilder类,引用了streaming-java包里的org.apache.flink.streaming.api.functions.sink.filesystem.DefaultBucketFactoryImpl。估计是因为类加载器不同导致无法引用报错。

flink-1.11.1 Table API /SQL 无法写入hive orc表

2020-08-31 文章 Jian Wang
Hi all, 我基于flink 1.11 + hadoop 3.0.0 + hive 2.1.1 , flink on yarn模式,在streaming job上的Table API上执行flink sql实时写入hive表。 根据文档 https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/

Re: flink-sql-gateway还会更新吗

2020-08-31 文章 zongsforce
请教一下,我在用flink-sql-gateway的1.11.1版本的SET语法设置hive dialect时(SET table.sql-dialect=hive),flink-sql-gateway出现了报错,同样的语法在sql-client是支持的,那如果我想在session级切换hive dialect我应该怎么做呢? 多谢 我的环境如下: flink-sql-gateway:1.11.1 flink:1.11.1 hive:3.1.2 hadoop:3.0.0 日志如下: 2020-08-31 20:39:56,051 INFO

Re: flink-sql-gateway还会更新吗

2020-08-31 文章 Tio Planto
请教一下,我在用flink-sql-gateway的1.11.1版本的SET语法设置hive dialect时(SET table.sql-dialect=hive),flink-sql-gateway出现了报错,同样的语法在sql-client是支持的,那如果我想在session级切换hive dialect我应该怎么做呢? 多谢 我的环境如下: flink-sql-gateway:1.11.1 flink:1.11.1 hive:3.1.2 hadoop:3.0.0 日志如下: 2020-08-31 20:39:56,051 INFO

flink-1.11连接hive或filesystem问题

2020-08-31 文章 酷酷的浑蛋
1. Create hive表(...)with(...) 我发现写入hive只能根据checkpoint去提交分区?可以按照文件大小或者间隔时间来生成吗? 2. Create table (connector=filesystem,format=json) with(…) 这种方式format只能等于json? 我怎么按照分隔符写入hdfs?

回复: flink1.11连接mysql问题

2020-08-31 文章 酷酷的浑蛋
下面是我连接mysql的配置,用的flink-1.11.1,还是报那个错误 CREATE TABLE xx( `xx` varchar, `xx` varchar ) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://xx/xx?autoReconnect=true=false', 'table-name' = ‘xx', 'driver' = 'com.mysql.jdbc.Driver', 'username' = ‘xx', 'password' = ‘xx',

Re: flink checkpoint导致反压严重

2020-08-31 文章 JasonLee
hi 我理解应该是数据倾斜的问题导致的 可以看下采用加随机数的方式key是否分布的均匀. -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint导致反压严重

2020-08-31 文章 zhanglachun
感谢大佬,现在基本可以确定是数据倾斜导致ck缓慢和反压严重 理由: 1.在webui查看计算子subtasks信息,3个subtask中其中一个的数据量只有其他两个的1/3 2.将key添加随机数后,计算性能直线上升(当然只是为了测试,结算结果显然不是预期的) 之前我做过分布聚合来解决缓解数据倾斜问题 需求:比如有两个字段:url,respontse_time,按url keyby,一分钟时间窗口,计算该url的响应时间(respontse_time)中位数 这里明显几个首页url的访问量会非常大,有些详情页url可能就访问量很小,这就肯定会有数据倾斜 我之前的分布聚合步骤是:

Re: flink1.11连接mysql问题

2020-08-31 文章 Leonard Xu
> 在 2020年8月28日,15:02,酷酷的浑蛋 写道: > > com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: The last packet > successfully received from the server was 52,445,041 milliseconds ago. The > last packet sent successfully to the server was 52,445,045 milliseconds ago. > is longer than the server

Re: 来自李国鹏的邮件

2020-08-31 文章 Leonard Xu
> 在 2020年8月31日,15:55,李国鹏 写道: > > 退订 Hi 是指取消订阅邮件吗? 可以发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org取消订阅来自 user-zh@flink.apache.org 邮件列表的邮件 邮件列表的订阅管理,可以参考[1] 祝好, Leonard Xu [1] https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list

回复:flink1.11连接mysql问题

2020-08-31 文章 酷酷的浑蛋
关键是在sql中怎么设置,connector=jdbc 在2020年08月31日 15:06,13580506953<13580506...@163.com> 写道: 这个问题本质是连接活性问题, 连接数据库超时设置autoReconnect=true(mysql5以上的,设置autoReconnect=true 是无效的 只有4.x版本,起作用) 建议使用连接池druid进行连接活性保持 原始邮件 发件人: 酷酷的浑蛋 收件人: user-zh 发送时间: 2020年8月28日(周五) 15:02 主题: flink1.11连接mysql问题

来自李国鹏的邮件

2020-08-31 文章 李国鹏
退订

来自李国鹏的邮件

2020-08-31 文章 李国鹏
Unsubscribe

回复:flink1.11连接mysql问题

2020-08-31 文章 13580506953
这个问题本质是连接活性问题, 连接数据库超时设置autoReconnect=true(mysql5以上的,设置autoReconnect=true 是无效的 只有4.x版本,起作用) 建议使用连接池druid进行连接活性保持 原始邮件 发件人: 酷酷的浑蛋 收件人: user-zh 发送时间: 2020年8月28日(周五) 15:02 主题: flink1.11连接mysql问题 com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: The last packet successfully received

Re: 如何设置FlinkSQL并行度

2020-08-31 文章 赵一旦
啥情况,你是调整了sql部分实现嘛。有示例嘛。 zilong xiao 于2020年8月29日周六 下午5:19写道: > SQL 算子并行度设置可以自己实现,可以私下交流下,正好在做这块,基本能工作了 > > JasonLee <17610775...@163.com> 于2020年8月23日周日 下午2:07写道: > > > hi > > checkpoint savepoint的问题可以看下这个 > > https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q > > > > > > > > -- > > Sent from:

Re: 关于flink任务的日志收集到kafka,可以在logback配置文件中,加如每个job的id或者name吗?

2020-08-31 文章 zilong xiao
可以用程序来完成的,flink-conf.yaml里可以先用占位符,例如 `env.java.opts: -Djob.name={{job_name}}` 在你提交作业之前,先读到这个模板文件,在代码里去replace该占位符就好,不需要手动去改 Jim Chen 于2020年8月31日周一 下午1:33写道: > 我也是flink1.10.1的版本的,如果按照你的方法,每次启动一个任务,都要在flink-conf.yaml中修改一下`env.java.opts: > -Djob.name=xxx`吗?这样的话,是不是太麻烦了 > > zilong xiao

Re: flink stream sink hive

2020-08-31 文章 Yun Gao
社区的邮件列表应该不支持图片,现在图看不到,要不直接把stack贴上来吧,或者用个图床。 --Original Mail -- Sender:liya...@huimin100.cn Send Date:Thu Aug 27 19:09:51 2020 Recipients:user-zh Subject:flink stream sink hive flink1.11.1 往hive2.1.1 的orc表写数据报的异常,在网上查不到,只能来这里了,麻烦大佬们帮我看看 liya...@huimin100.cn