date:20200319

Re: flink sql 去重算法

2020-03-19 文章 LakeShen

Hi zhisheng, 我之前也遇到类似的问题，Flink 状态默认永久保留，针对这种 SQL 任务，我想到的就是设置状态空闲保留时间。比如按照天来聚合的，空闲状态的最小保留时间26小时，最大空闲撞他为48小时(具体时间根据业务来设置)，总之肯定要设置一个最小和最大的空闲状态保留时间，不可能让状态永久保留。对于 Flink 1.10 Blink planner 来说，TTL 时间就是设置的最小空闲状态保留时间，最大的空闲状态保留时间貌似没有用到。 Flink 1.10 默认状态清理机制是 in background 了，对于 RocksDBStateBackend 来说，使用

Re: ddl

2020-03-19 文章 Jingsong Li

Hi, 底层实现的话可以参考下[1] [1] https://github.com/apache/bahir-flink/tree/master/flink-connector-kudu Best, Jingsong Lee On Thu, Mar 19, 2020 at 11:30 PM hiliuxg <736742...@qq.com> wrote: > 你可以自己定义tablesinkfactory，flink已经预留了这个接口 > > > > > --原始邮件-- > 发件人:"LakeShen"

Re: rowtime 的类型序列化问题

2020-03-19 文章 Jingsong Li

Hi lucas, 看起来这个是query event_time字段的bug，TimeIndicatorTypeInfo导致的问题。如果你用的是1.10，可以建个JIRA来跟踪这个问题。 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:40 AM lucas.wu wrote: > Hi all： > 建表语句 > create table `source_table`( > `SeqNo` varchar, > `Type` varchar, > `Table` varchar, > `ServerId` varchar, >

Re: flink sql 1.10.0 对hive GenericUDF支持，之前的图片在邮件组不显示，重新编辑

2020-03-19 文章 Jingsong Li

Hi, GenericUDFUnixTimeStamp 这个UDF 用上了Hive的SessionState，而我们的hive-integration中目前缺少这部分的支持。 Flink也支持这个函数，你可以考虑先用Flink的函数来支持。我创建了相关issue，会尽量在1.10.1把它修复了。 [1] https://issues.apache.org/jira/browse/FLINK-16688 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:33 AM Chief wrote: > hi all： >

Re: Flink 1.10 JSON 解析

2020-03-19 文章宇张

hi，好的，我这面进行了尝试，将 data 的schema定义需要改成 ARRAY(ROW(FIELD("tracking_numbrer", STRING), FIELD("invoice_no", STRING))) 另外删除 .jsonSchema(...)后，程序数据解析已经没问题了；但是如果保留 .jsonSchema(...)的话会抛出如下异常信息：Exception in thread "main" org.apache.flink.table.api.ValidationException: Type ARRAY> of table field 'data' does

pushgateway内存异常

2020-03-19 文章 yanggang_it_job

Hi：向大家请教一个使用org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter推送指标到 pushgateway时，pushgateway内存使用异常的问题，具体异常如下 1、实际我们的内存使用在8G左右，但是pushgateway的内存一直在35G左右波动 2、pushgateway曲线波动较大，不是一条平稳的曲线，会有8G左右的波动希望大家帮忙看看导致以上问题的原因，谢谢...

Re: flink sql 去重算法

2020-03-19 文章 lucas.wu

可以考虑自己实现一个udf ，使用bitmap或者hyperloglog去实现。原始邮件发件人:zhishengzhisheng2...@gmail.com 收件人:user-zhuser...@flink.apache.org 发送时间:2020年3月20日(周五) 11:44 主题:Re: flink sql 去重算法 hi，我发现我们生产有些使用 SQL 的 count distinct 去做去重，当作业跑了很久，作业的 Checkpoint state 很大（我这周就遇到过一个差不多 400G 的，导致 Checkpoint 很容易超时，并且可能会对 HDFS

Re: flink sql 去重算法

2020-03-19 文章 zhisheng

hi，我发现我们生产有些使用 SQL 的 count distinct 去做去重，当作业跑了很久，作业的 Checkpoint state 很大（我这周就遇到过一个差不多 400G 的，导致 Checkpoint 很容易超时，并且可能会对 HDFS 集群的网卡也有一定的压力），我看官网文档有介绍说使用 query_configuration

Re: Flink 1.10 JSON 解析

2020-03-19 文章 Jark Wu

Hi, 看了你的数据，"data" 是一个 array 的类型，所以 data 的schema定义需要改成 ARRAY(ROW(FIELD("tracking_numbrer", STRING), FIELD("invoice_no", STRING))) 另外建议删除 .jsonSchema(...)， 1.10 开始 flink-json 已经支持自动从 table schema 中推断 json schema 了。 Best, Jark On Fri, 20 Mar 2020 at 11:34, 宇张 wrote: > hi： >

rowtime 的类型序列化问题

2020-03-19 文章 lucas.wu

Hi all：建表语句 create table `source_table`( `SeqNo` varchar, `Type` varchar, `Table` varchar, `ServerId` varchar, `Database` varchar, `OldData` varchar, `GTID` varchar, `Offset` varchar, `event_ts` as to_timestamp(from_unixtime(Data.`FuiUpdateTime`),'-MM-ddHH:mm:ss'), WATERMARK FOR event_ts AS

Flink 1.10 JSON 解析

2020-03-19 文章宇张

hi： 1、在Json数据解析的时候，请问这里面为什么用的是decimal，而不是bigint [image: image.png] 2、我在使用connect的时候，发现解析Json数组元素出现异常，这是误用导致的还是一个bug

flink sql 1.10.0 ??hive GenericUDF????????????????????????????????????????

2020-03-19 文章 Chief

hi all?? ?? hive ??flink sql 1.10.0flink hive??GenericUDF??flink?? current_timestamp() ??hive select

flink sql 1.10.0 ??hive GenericUDF????

2020-03-19 文章 Chief

hi all?? ?? hive ??flink sql 1.10.0flink hive??GenericUDF??flink?? current_timestamp() ??hive?? ??flink sql org.apache.flink.table.api.ValidationException: SQL

Re: flink sql 去重算法

2020-03-19 文章 Benchao Li

Hi hiliuxg， count distinct 用的MapVIew来做的去重：在batch场景下，MapView的底层实现就是HashMap；在streaming场景下，MapView的底层实现是MapState，因为必须要用到state+cp，才能保证任务重启后状态不会丢失。 hiliuxg <736742...@qq.com> 于2020年3月19日周四下午11:31写道： > hi all： > 请问flink sql count(disitinct) 底层的算法是怎样的？是bitmap ? > 还是简单通过java的set容器去重的呢？ --

Re: flink sql如何支持每隔5分钟触发当日零点到当前5分钟的聚合计算

2020-03-19 文章 Jark Wu

Hi 你可以看下这篇文章是否满足的你需求： http://wuchong.me/blog/2020/02/25/demo-building-real-time-application-with-flink-sql #统计一天每10分钟累计独立用户数 Best, Jark On Thu, 19 Mar 2020 at 23:30, hiliuxg <736742...@qq.com> wrote: > hi all:有这样子一个场景，我想通过每隔5分钟统计当日零点到当前5分钟的pv和uv，用批处理大概大概表达如下： > select > '2020-03-19' as dt , >

flink sql????????????5??????????????????????5??????????????

2020-03-19 文章 hiliuxg

hi all:??5??5??pv??uv select '2020-03-19' as dt , '2020-03-19 12:05:00' as etltime , count(1) as pv , count(distinct userid) as uv from t_user_log where logintime = '2020-03-19 00:00:00' and logintime < '2020-03-19

flink sql ????????

2020-03-19 文章 hiliuxg

hi all?? flink sql count(disitinct) ??bitmap ? java??set??

?????? ddl

2020-03-19 文章 hiliuxg

??tablesinkfactory??flink?? ---- ??:"LakeShen"https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/sourceSinks.html <

The question about the FLIP-45

2020-03-19 文章 LakeShen

Hi community, Now I am reading the FLIP-45 Reinforce Job Stop Semantic, I have three questions about it : 1. What the command to use to stop the Flink task, stop or cancel? 2. If use stop command to stop filnk task , but I see the flink source code , the stop command we can set the savepoint dir

flink????????????????

2020-03-19 文章 512348363

?? DataStream

Re: flink sql 去重算法

Re: ddl

Re: rowtime 的类型序列化问题

Re: flink sql 1.10.0 对hive GenericUDF支持，之前的图片在邮件组不显示，重新编辑

Re: Flink 1.10 JSON 解析

pushgateway内存异常

Re: flink sql 去重算法

Re: flink sql 去重算法

Re: Flink 1.10 JSON 解析

rowtime 的类型序列化问题

Flink 1.10 JSON 解析

flink sql 1.10.0 ??hive GenericUDF????????????????????????????????????????

flink sql 1.10.0 ??hive GenericUDF????

Re: flink sql 去重算法

Re: flink sql如何支持每隔5分钟触发当日零点到当前5分钟的聚合计算

flink sql????????????5??????????????????????5??????????????

flink sql ????????

?????? ddl

The question about the FLIP-45

flink????????????????

20 matches

Site Navigation

Mail list logo

Footer information