date:20200831

关于FlinkSQL的窗口和触发

2020-08-31 文章 BenChen

Hi all，在FlinkSQL中，我知道可以通过group by window去做窗口处理，但是如果触发时间和窗口时间不一致，如何去表达呢？比如说，统计一天的PV和UV，每隔10S更新数据，在StreamingApi里面，可以通过timeWindow(1Day) + trigger(10Seconds)去实现，但是到FlinkSQL上要如何实现呢？感激不尽。 | | BenChen | | haibin...@163.com | 签名由网易邮箱大师定制

Re: flink checkpoint导致反压严重

2020-08-31 文章 Congxian Qiu

Hi 如果我理解没错的话，这种单 key 热点的问题，需要算中位数（无法像 sum/count 这样分步计算的），只能通过现在你写的这种方法，先分布聚合，然后最终再计算中位数。不过或许可以找找数学方法，看有没有近似的算法 Best, Congxian 赵一旦于2020年9月1日周二上午10:15写道： > （1）url理论上足够多，也足够随机。而并行度比如是30，url理论上是万、十万、百万、千万级别，理论上不会出现数据倾斜吧。 > （2）如果的确有倾斜，那么你那个方法我看不出有啥用，我看你好像是全缓存下来？这没啥用吧。 >

Re: flink json ddl解析

2020-08-31 文章 zilong xiao

like this: ARRAY>> Dream-底限于2020年9月1日周二上午11:40写道： > hi > > 我正在解析json数组，在解析的时候遇到一个问题，当解析的json数组元素为同一类型的时候，我可以使用ddl的array进行存储，但是当json数组元素为不同类型的时候，我没办法做ddl映射，我查看JsonRowSchemaConverter解析json > array的时候，对于不同类型的数组元素解析后可以用row存储，但请问我在ddl时候要怎么做，因为在DDL用row表示数组会抛出异常 > > > private static TypeInformation

flink json ddl解析

2020-08-31 文章 Dream-底限

hi 我正在解析json数组，在解析的时候遇到一个问题，当解析的json数组元素为同一类型的时候，我可以使用ddl的array进行存储，但是当json数组元素为不同类型的时候，我没办法做ddl映射，我查看JsonRowSchemaConverter解析json array的时候，对于不同类型的数组元素解析后可以用row存储，但请问我在ddl时候要怎么做，因为在DDL用row表示数组会抛出异常 private static TypeInformation convertArray(String location, JsonNode node, JsonNode root) { //

Re: FLINK1.11.1 对OGG数据入HIVE的问题咨询

2020-08-31 文章 Qishang

Hi. 我们也遇到一样的场景，现在您是否有一些具体实施和思考可以交流一下吗？ USERNAME 于2020年8月13日周四下午3:27写道： > > > 任务流程: > OGG->KAFKA->FLINK->HIVE > > > KAFKA数据样例： > 其中会有多个 > "table",所以"before"，"after"中的字段是不一致的，同一个表如果有有DDL变更也会导致"before"，"after"字段的变更。 > { > "table": "SCOOT.TABLENAME", > "op_type": "U", > "op_ts":

使用orc写动态分区表时，文件大小滚动策略不起作用

2020-08-31 文章 wei.wei

当一个task同时写多个bucket的时候，会因为FIXED_PATH覆盖之前注册的writer callback，导致checkMemory不能回调； https://issues.apache.org/jira/browse/FLINK-18915 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint导致反压严重

2020-08-31 文章赵一旦

（1）url理论上足够多，也足够随机。而并行度比如是30，url理论上是万、十万、百万、千万级别，理论上不会出现数据倾斜吧。（2）如果的确有倾斜，那么你那个方法我看不出有啥用，我看你好像是全缓存下来？这没啥用吧。（3）我的思路，考虑到你是要求1分钟窗口，每个url维度的，response的中位数。所以本质需要url+time维度的全部response数据排序。由于url数量可能比较少（比如和并行度类似），导致了数据倾斜。所以key不能仅用url，需要分步。

Re: 回复： flink1.11连接mysql问题

2020-08-31 文章 amen...@163.com

如果是mysql5.x以上的版本，url中autoReconnect参数会无效吧，可以尝试下修改配置文件wait_timeout/interactive_out参数 best, amenhub 发件人：酷酷的浑蛋发送时间： 2020-08-31 20:48 收件人： user-zh@flink.apache.org 主题：回复： flink1.11连接mysql问题下面是我连接mysql的配置，用的flink-1.11.1，还是报那个错误 CREATE TABLE xx( `xx` varchar, `xx` varchar ) WITH (

Re: flink-1.11.1 Table API /SQL 无法写入hive orc表

2020-08-31 文章 amen...@163.com

hi Jian Wang, 根据我的理解，在flink lib目录下导入官方的flink-sql-connector-hive-2.2.0_2.11-1.11.1.jar是指hive[2.0.0-2.2.0]版本都可以使用此依赖。关于你的问题我曾经遇到过，hive也是2.1.1，我的demo参考[1]可以运行成功，而不需要额外导入flink-sql-connector-hive-2.2.0_2.11-1.11.1.jar，只需要把[1]中的依赖改成provided并把其jar包导入flink/lib即可。希望能帮到你， [1]

Re: 请教 hive streaming 报错

2020-08-31 文章 liangck

遇到同样的问题，请问解决了吗。我是flink-connector-hive和hive-exec打进jar包里提交的。但是 flink-connector-hive里有个org.apache.flink.streaming.api.functions.sink.filesystem.HadoopPathBasedBulkFormatBuilder类，引用了streaming-java包里的org.apache.flink.streaming.api.functions.sink.filesystem.DefaultBucketFactoryImpl。估计是因为类加载器不同导致无法引用报错。

flink-1.11.1 Table API /SQL 无法写入hive orc表

2020-08-31 文章 Jian Wang

Hi all, 我基于flink 1.11 + hadoop 3.0.0 + hive 2.1.1 ， flink on yarn模式，在streaming job上的Table API上执行flink sql实时写入hive表。根据文档 https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/

Re: flink-sql-gateway还会更新吗

2020-08-31 文章 zongsforce

请教一下，我在用flink-sql-gateway的1.11.1版本的SET语法设置hive dialect时（SET table.sql-dialect=hive），flink-sql-gateway出现了报错，同样的语法在sql-client是支持的，那如果我想在session级切换hive dialect我应该怎么做呢? 多谢我的环境如下： flink-sql-gateway:1.11.1 flink:1.11.1 hive:3.1.2 hadoop:3.0.0 日志如下： 2020-08-31 20:39:56,051 INFO

Re: flink-sql-gateway还会更新吗

2020-08-31 文章 Tio Planto

请教一下，我在用flink-sql-gateway的1.11.1版本的SET语法设置hive dialect时（SET table.sql-dialect=hive），flink-sql-gateway出现了报错，同样的语法在sql-client是支持的，那如果我想在session级切换hive dialect我应该怎么做呢? 多谢我的环境如下： flink-sql-gateway:1.11.1 flink:1.11.1 hive:3.1.2 hadoop:3.0.0 日志如下： 2020-08-31 20:39:56,051 INFO

flink-1.11连接hive或filesystem问题

2020-08-31 文章酷酷的浑蛋

1. Create hive表(...)with(...) 我发现写入hive只能根据checkpoint去提交分区？可以按照文件大小或者间隔时间来生成吗？ 2. Create table (connector=filesystem，format=json) with(…) 这种方式format只能等于json？我怎么按照分隔符写入hdfs？

回复： flink1.11连接mysql问题

2020-08-31 文章酷酷的浑蛋

下面是我连接mysql的配置，用的flink-1.11.1，还是报那个错误 CREATE TABLE xx( `xx` varchar, `xx` varchar ) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://xx/xx?autoReconnect=true=false', 'table-name' = ‘xx', 'driver' = 'com.mysql.jdbc.Driver', 'username' = ‘xx', 'password' = ‘xx',

Re: flink checkpoint导致反压严重

2020-08-31 文章 JasonLee

hi 我理解应该是数据倾斜的问题导致的可以看下采用加随机数的方式key是否分布的均匀. -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint导致反压严重

2020-08-31 文章 zhanglachun

感谢大佬,现在基本可以确定是数据倾斜导致ck缓慢和反压严重理由: 1.在webui查看计算子subtasks信息,3个subtask中其中一个的数据量只有其他两个的1/3 2.将key添加随机数后,计算性能直线上升(当然只是为了测试,结算结果显然不是预期的) 之前我做过分布聚合来解决缓解数据倾斜问题需求:比如有两个字段:url,respontse_time,按url keyby,一分钟时间窗口,计算该url的响应时间(respontse_time)中位数这里明显几个首页url的访问量会非常大,有些详情页url可能就访问量很小,这就肯定会有数据倾斜我之前的分布聚合步骤是:

Re: flink1.11连接mysql问题

2020-08-31 文章 Leonard Xu

> 在 2020年8月28日，15:02，酷酷的浑蛋写道： > > com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: The last packet > successfully received from the server was 52,445,041 milliseconds ago. The > last packet sent successfully to the server was 52,445,045 milliseconds ago. > is longer than the server

Re: 来自李国鹏的邮件

2020-08-31 文章 Leonard Xu

> 在 2020年8月31日，15:55，李国鹏写道： > > 退订 Hi 是指取消订阅邮件吗？可以发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org取消订阅来自 user-zh@flink.apache.org 邮件列表的邮件邮件列表的订阅管理，可以参考[1] 祝好， Leonard Xu [1] https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list

回复：flink1.11连接mysql问题

2020-08-31 文章酷酷的浑蛋

关键是在sql中怎么设置，connector=jdbc 在2020年08月31日 15:06，13580506953<13580506...@163.com> 写道：这个问题本质是连接活性问题, 连接数据库超时设置autoReconnect=true(mysql5以上的，设置autoReconnect=true 是无效的只有4.x版本，起作用) 建议使用连接池druid进行连接活性保持原始邮件发件人: 酷酷的浑蛋收件人: user-zh 发送时间: 2020年8月28日(周五) 15:02 主题: flink1.11连接mysql问题

来自李国鹏的邮件

2020-08-31 文章李国鹏

退订

来自李国鹏的邮件

2020-08-31 文章李国鹏

Unsubscribe

回复：flink1.11连接mysql问题

2020-08-31 文章 13580506953

这个问题本质是连接活性问题, 连接数据库超时设置autoReconnect=true(mysql5以上的，设置autoReconnect=true 是无效的只有4.x版本，起作用) 建议使用连接池druid进行连接活性保持原始邮件发件人: 酷酷的浑蛋收件人: user-zh 发送时间: 2020年8月28日(周五) 15:02 主题: flink1.11连接mysql问题 com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: The last packet successfully received

Re: 如何设置FlinkSQL并行度

2020-08-31 文章赵一旦

啥情况，你是调整了sql部分实现嘛。有示例嘛。 zilong xiao 于2020年8月29日周六下午5:19写道： > SQL 算子并行度设置可以自己实现，可以私下交流下，正好在做这块，基本能工作了 > > JasonLee <17610775...@163.com> 于2020年8月23日周日下午2:07写道： > > > hi > > checkpoint savepoint的问题可以看下这个 > > https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q > > > > > > > > -- > > Sent from:

Re: 关于flink任务的日志收集到kafka，可以在logback配置文件中，加如每个job的id或者name吗？

2020-08-31 文章 zilong xiao

可以用程序来完成的，flink-conf.yaml里可以先用占位符，例如 `env.java.opts: -Djob.name={{job_name}}` 在你提交作业之前，先读到这个模板文件，在代码里去replace该占位符就好，不需要手动去改 Jim Chen 于2020年8月31日周一下午1:33写道： > 我也是flink1.10.1的版本的，如果按照你的方法，每次启动一个任务，都要在flink-conf.yaml中修改一下`env.java.opts: > -Djob.name=xxx`吗？这样的话，是不是太麻烦了 > > zilong xiao

Re: flink stream sink hive

2020-08-31 文章 Yun Gao

社区的邮件列表应该不支持图片，现在图看不到，要不直接把stack贴上来吧，或者用个图床。 --Original Mail -- Sender:liya...@huimin100.cn Send Date:Thu Aug 27 19:09:51 2020 Recipients:user-zh Subject:flink stream sink hive flink1.11.1 往hive2.1.1 的orc表写数据报的异常，在网上查不到，只能来这里了，麻烦大佬们帮我看看 liya...@huimin100.cn

关于FlinkSQL的窗口和触发

Re: flink checkpoint导致反压严重

Re: flink json ddl解析

flink json ddl解析

Re: FLINK1.11.1 对OGG数据入HIVE的问题咨询

使用orc写动态分区表时，文件大小滚动策略不起作用

Re: flink checkpoint导致反压严重

Re: 回复： flink1.11连接mysql问题

Re: flink-1.11.1 Table API /SQL 无法写入hive orc表

Re: 请教 hive streaming 报错

flink-1.11.1 Table API /SQL 无法写入hive orc表

Re: flink-sql-gateway还会更新吗

Re: flink-sql-gateway还会更新吗

flink-1.11连接hive或filesystem问题

回复： flink1.11连接mysql问题

Re: flink checkpoint导致反压严重

Re: flink checkpoint导致反压严重

Re: flink1.11连接mysql问题

Re: 来自李国鹏的邮件

回复：flink1.11连接mysql问题

来自李国鹏的邮件

来自李国鹏的邮件

回复：flink1.11连接mysql问题

Re: 如何设置FlinkSQL并行度

Re: 关于flink任务的日志收集到kafka，可以在logback配置文件中，加如每个job的id或者name吗？

Re: flink stream sink hive

26 matches

Site Navigation

Mail list logo

Footer information