subject:"Re\: flink sql 去重算法"

Re: flink sql 去重算法

2020-03-20 文章 zhisheng

nd 了，对于 RocksDBStateBackend 来说，使用 > > > Compaction Filter 算法来清理。 > > > > > > 第二个就是使用增量 Checkpoint 方式吧。 > > > > > > Best wishes, > > > LakeShen > > > > > > > > > > > > lucas.wu 于2020年3月20日周五上午11:50写道： > > >

Re: flink sql 去重算法

2020-03-20 文章 zhisheng

11:50写道： > > > 可以考虑自己实现一个udf ，使用bitmap或者hyperloglog去实现。 > > > > > > 原始邮件 > > 发件人:zhishengzhisheng2...@gmail.com > > 收件人:user-zhuser...@flink.apache.org > > 发送时间:2020年3月20日(周五) 11:44 > > 主题:Re: flink sql 去重算法 > > > > > > hi，我发现我们生产有些使用 SQL 的 c

Re: flink sql 去重算法

2020-03-19 文章 LakeShen

Compaction Filter 算法来清理。第二个就是使用增量 Checkpoint 方式吧。 Best wishes, LakeShen lucas.wu 于2020年3月20日周五上午11:50写道： > 可以考虑自己实现一个udf ，使用bitmap或者hyperloglog去实现。 > > > 原始邮件 > 发件人:zhishengzhisheng2...@gmail.com > 收件人:user-zhuser...@flink.apache.org > 发送时间:2020年3月20日(周五) 11:44 &g

Re: flink sql 去重算法

2020-03-19 文章 lucas.wu

可以考虑自己实现一个udf ，使用bitmap或者hyperloglog去实现。原始邮件发件人:zhishengzhisheng2...@gmail.com 收件人:user-zhuser...@flink.apache.org 发送时间:2020年3月20日(周五) 11:44 主题:Re: flink sql 去重算法 hi，我发现我们生产有些使用 SQL 的 count distinct 去做去重，当作业跑了很久，作业的 Checkpoint state 很大（我这周就遇到过一个差不多 400G 的，导致 Checkpoint 很容易超时，并且可能会对 HDFS 集

Re: flink sql 去重算法

2020-03-19 文章 zhisheng

hi，我发现我们生产有些使用 SQL 的 count distinct 去做去重，当作业跑了很久，作业的 Checkpoint state 很大（我这周就遇到过一个差不多 400G 的，导致 Checkpoint 很容易超时，并且可能会对 HDFS 集群的网卡也有一定的压力），我看官网文档有介绍说使用 query_configuration

Re: flink sql 去重算法

2020-03-19 文章 Benchao Li

Hi hiliuxg， count distinct 用的MapVIew来做的去重：在batch场景下，MapView的底层实现就是HashMap；在streaming场景下，MapView的底层实现是MapState，因为必须要用到state+cp，才能保证任务重启后状态不会丢失。 hiliuxg <736742...@qq.com> 于2020年3月19日周四下午11:31写道： > hi all： > 请问flink sql count(disitinct) 底层的算法是怎样的？是bitmap ? > 还是简单通过java的set容器去重的呢？ --

Re: flink sql 去重算法

Re: flink sql 去重算法

Re: flink sql 去重算法

Re: flink sql 去重算法

Re: flink sql 去重算法

Re: flink sql 去重算法

6 matches

Site Navigation

Mail list logo

Footer information