Re: flink sql 去重算法

2020-03-19 文章 LakeShen
Hi zhisheng, 我之前也遇到类似的问题,Flink 状态默认永久保留,针对这种 SQL 任务,我想到的就是设置状态空闲保留时间。 比如按照天来聚合的,空闲状态的最小保留时间26小时,最大空闲撞他为48小时(具体时间根据业务来设置), 总之肯定要设置一个最小和最大的空闲状态保留时间,不可能让状态永久保留。 对于 Flink 1.10 Blink planner 来说,TTL 时间就是设置的最小空闲状态保留时间,最大的空闲状态保留时间貌似没有用到。 Flink 1.10 默认状态清理机制是 in background 了,对于 RocksDBStateBackend 来说,使用

Re: ddl

2020-03-19 文章 Jingsong Li
Hi, 底层实现的话可以参考下[1] [1] https://github.com/apache/bahir-flink/tree/master/flink-connector-kudu Best, Jingsong Lee On Thu, Mar 19, 2020 at 11:30 PM hiliuxg <736742...@qq.com> wrote: > 你可以自己定义tablesinkfactory,flink已经预留了这个接口 > > > > > --原始邮件-- > 发件人:"LakeShen"

Re: rowtime 的类型序列化问题

2020-03-19 文章 Jingsong Li
Hi lucas, 看起来这个是query event_time字段的bug,TimeIndicatorTypeInfo导致的问题。 如果你用的是1.10,可以建个JIRA来跟踪这个问题。 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:40 AM lucas.wu wrote: > Hi all: > 建表语句 > create table `source_table`( > `SeqNo` varchar, > `Type` varchar, > `Table` varchar, > `ServerId` varchar, >

Re: flink sql 1.10.0 对hive GenericUDF支持,之前的图片在邮件组不显示,重新编辑

2020-03-19 文章 Jingsong Li
Hi, GenericUDFUnixTimeStamp 这个UDF 用上了Hive的SessionState,而我们的hive-integration中目前缺少这部分的支持。 Flink也支持这个函数,你可以考虑先用Flink的函数来支持。 我创建了相关issue,会尽量在1.10.1把它修复了。 [1] https://issues.apache.org/jira/browse/FLINK-16688 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:33 AM Chief wrote: > hi all: >

Re: Flink 1.10 JSON 解析

2020-03-19 文章 宇张
hi, 好的,我这面进行了尝试,将 data 的schema定义需要改成 ARRAY(ROW(FIELD("tracking_numbrer", STRING), FIELD("invoice_no", STRING))) 另外删除 .jsonSchema(...)后,程序数据解析已经没问题了;但是如果保留 .jsonSchema(...)的话会抛出如下异常信息:Exception in thread "main" org.apache.flink.table.api.ValidationException: Type ARRAY> of table field 'data' does

pushgateway内存异常

2020-03-19 文章 yanggang_it_job
Hi: 向大家请教一个使用org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter推送指标到 pushgateway时,pushgateway内存使用异常的问题,具体异常如下 1、实际我们的内存使用在8G左右,但是pushgateway的内存一直在35G左右波动 2、pushgateway曲线波动较大,不是一条平稳的曲线,会有8G左右的波动 希望大家帮忙看看导致以上问题的原因,谢谢...

Re: flink sql 去重算法

2020-03-19 文章 lucas.wu
可以考虑自己实现一个udf ,使用bitmap或者hyperloglog去实现。 原始邮件 发件人:zhishengzhisheng2...@gmail.com 收件人:user-zhuser...@flink.apache.org 发送时间:2020年3月20日(周五) 11:44 主题:Re: flink sql 去重算法 hi, 我发现我们生产有些使用 SQL 的 count distinct 去做去重,当作业跑了很久,作业的 Checkpoint state 很大(我这周就遇到过一个差不多 400G 的,导致 Checkpoint 很容易超时,并且可能会对 HDFS

Re: flink sql 去重算法

2020-03-19 文章 zhisheng
hi, 我发现我们生产有些使用 SQL 的 count distinct 去做去重,当作业跑了很久,作业的 Checkpoint state 很大(我这周就遇到过一个差不多 400G 的,导致 Checkpoint 很容易超时,并且可能会对 HDFS 集群的网卡也有一定的压力),我看官网文档有介绍说使用 query_configuration

Re: Flink 1.10 JSON 解析

2020-03-19 文章 Jark Wu
Hi, 看了你的数据,"data" 是一个 array 的类型,所以 data 的schema定义需要改成 ARRAY(ROW(FIELD("tracking_numbrer", STRING), FIELD("invoice_no", STRING))) 另外建议删除 .jsonSchema(...), 1.10 开始 flink-json 已经支持自动从 table schema 中推断 json schema 了。 Best, Jark On Fri, 20 Mar 2020 at 11:34, 宇张 wrote: > hi: >

rowtime 的类型序列化问题

2020-03-19 文章 lucas.wu
Hi all: 建表语句 create table `source_table`( `SeqNo` varchar, `Type` varchar, `Table` varchar, `ServerId` varchar, `Database` varchar, `OldData` varchar, `GTID` varchar, `Offset` varchar, `event_ts` as to_timestamp(from_unixtime(Data.`FuiUpdateTime`),'-MM-ddHH:mm:ss'), WATERMARK FOR event_ts AS

Flink 1.10 JSON 解析

2020-03-19 文章 宇张
hi: 1、在Json数据解析的时候,请问这里面为什么用的是decimal,而不是bigint [image: image.png] 2、我在使用connect的时候,发现解析Json数组元素出现异常,这是误用导致的还是一个bug

flink sql 1.10.0 ??hive GenericUDF????????????????????????????????????????

2020-03-19 文章 Chief
hi all?? ?? hive ??flink sql 1.10.0flink hive??GenericUDF??flink?? current_timestamp() ??hive select

flink sql 1.10.0 ??hive GenericUDF????

2020-03-19 文章 Chief
hi all?? ?? hive ??flink sql 1.10.0flink hive??GenericUDF??flink?? current_timestamp() ??hive?? ??flink sql org.apache.flink.table.api.ValidationException: SQL

Re: flink sql 去重算法

2020-03-19 文章 Benchao Li
Hi hiliuxg, count distinct 用的MapVIew来做的去重: 在batch场景下,MapView的底层实现就是HashMap; 在streaming场景下,MapView的底层实现是MapState,因为必须要用到state+cp,才能保证任务重启后状态不会丢失。 hiliuxg <736742...@qq.com> 于2020年3月19日周四 下午11:31写道: > hi all: > 请问flink sql count(disitinct) 底层的算法是怎样的? 是bitmap ? > 还是简单通过java的set容器去重的呢? --

Re: flink sql如何支持每隔5分钟触发当日零点到当前5分钟的聚合计算

2020-03-19 文章 Jark Wu
Hi 你可以看下这篇文章是否满足的你需求: http://wuchong.me/blog/2020/02/25/demo-building-real-time-application-with-flink-sql #统计一天每10分钟累计独立用户数 Best, Jark On Thu, 19 Mar 2020 at 23:30, hiliuxg <736742...@qq.com> wrote: > hi all:有这样子一个场景,我想通过每隔5分钟统计当日零点到当前5分钟的pv和uv,用批处理大概大概表达如下: > select > '2020-03-19' as dt , >

flink sql????????????5??????????????????????5??????????????

2020-03-19 文章 hiliuxg
hi all:??5??5??pv??uv select '2020-03-19' as dt , '2020-03-19 12:05:00' as etltime , count(1) as pv , count(distinct userid) as uv from t_user_log where logintime = '2020-03-19 00:00:00' and logintime < '2020-03-19

flink sql ????????

2020-03-19 文章 hiliuxg
hi all?? flink sql count(disitinct) ??bitmap ? java??set??

?????? ddl

2020-03-19 文章 hiliuxg
??tablesinkfactory??flink?? ---- ??:"LakeShen"https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/sourceSinks.html <

The question about the FLIP-45

2020-03-19 文章 LakeShen
Hi community, Now I am reading the FLIP-45 Reinforce Job Stop Semantic, I have three questions about it : 1. What the command to use to stop the Flink task, stop or cancel? 2. If use stop command to stop filnk task , but I see the flink source code , the stop command we can set the savepoint dir

flink????????????????

2020-03-19 文章 512348363
?? DataStream