回复:窗口去重

2019-12-10 文章 Jimmy Wong
属于不同的window,是window内去重,window间不去重 | | Jimmy Wong | | wangzmk...@163.com | 签名由网易邮箱大师定制 在2019年12月11日 12:08,梁溪 写道: 去重了为什么还会有两个2 | | 梁溪 | | 邮箱:lx_la...@163.com | 签名由 网易邮箱大师 定制 在2019年12月11日 11:19,Jimmy Wong 写道: Hi, Yuan,Youjun 谢谢。 你这种方案是 SQL 的角度吧,如果用 DataStream 算子要怎么处理呢? | | Jimmy Wong | | w

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-10 文章 JingsongLee
实时性取决于checkpoint时间间隔。 Flink这边的sink没有合并小文件的功能。 Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 21:45 To:JingsongLee Subject:Re: Flink实时数仓落Hive一般用哪种方式好? 我想要的streaming写就是数据实时写入HDFS文件,场景有实时数据仓库等。需要平衡实时性以及小文件过多的问题。目前处理小文件问题的方

Re: Flink RetractStream如何转成AppendStream?

2019-12-10 文章 JingsongLee
目前不能由SQL直接转。 Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 21:48 To:JingsongLee Subject:Re: Flink RetractStream如何转成AppendStream? 代码api的方式我知道怎么转,想知道用sql的方式要如何转?需要先写到一张临时表再sink到目标表?有例子吗? JingsongLee 于2019年12月10日周二 上午10:

Re: flink savepoint checkpoint

2019-12-10 文章 Yun Tang
Hi Checkpoint 是自动的,你可以配置retain checkpoint[1] 然后从checkpoint 恢复[2],可以不需要一定触发Savepoint。 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#retained-checkpoints [2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-

回复:窗口去重

2019-12-10 文章 梁溪
去重了为什么还会有两个2 | | 梁溪 | | 邮箱:lx_la...@163.com | 签名由 网易邮箱大师 定制 在2019年12月11日 11:19,Jimmy Wong 写道: Hi, Yuan,Youjun 谢谢。 你这种方案是 SQL 的角度吧,如果用 DataStream 算子要怎么处理呢? | | Jimmy Wong | | wangzmk...@163.com | 签名由网易邮箱大师定制 在2019年12月11日 09:04,Yuan,Youjun 写道: 第一种情况,用firstvalue这种聚合函数; 第二种情况,用min聚合函数,然后group

flink savepoint checkpoint

2019-12-10 文章 lucas.wu
hi 各位: 有个问题想和大家讨论一下,就是flink的savepoint为什么要设置成手动的?如果在stop程序的时候没有做savepoint的话,在我重启的时候就不能使用之前保存的一些状态信息。为什么不参考spark的方式,定时做checkpoint,然后启动的时候指定ck地址就可以从上次执行的地方继续执行。

回复: 窗口去重

2019-12-10 文章 Jimmy Wong
Hi, Yuan,Youjun 谢谢。 你这种方案是 SQL 的角度吧,如果用 DataStream 算子要怎么处理呢? | | Jimmy Wong | | wangzmk...@163.com | 签名由网易邮箱大师定制 在2019年12月11日 09:04,Yuan,Youjun 写道: 第一种情况,用firstvalue这种聚合函数; 第二种情况,用min聚合函数,然后group by id,是不是就是你要的结果? -邮件原件- 发件人: Jimmy Wong 发送时间: Tuesday, December 10, 2019 4:40 PM 收件人: us

Re: HDFS_DELEGATION_TOKEN自动过期问题

2019-12-10 文章 Paul Lam
Hi, 你需要将 keytab 一并提交到集群,参考 security.kerberos.login.principal 和 security.kerberos.login.keytab 两个配置的说明 [1]。 [1]https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#kerberos-based-security

flink1.9.1 Metrics 上报 PrometheusPushGateway问题

2019-12-10 文章 hb
flink-1.9.1/lib 目录下已有 flink-metrics-prometheus_2.11-1.9.1.jar. PrometheusPushGateway 能收到flink上报的metrics. 但是 JobManager 日志一直报异常 2019-12-0316:37:36,094WARN org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter - Failed to push metrics to PushGateway with jobName flinkJob881bd99bbdcd62

分流

2019-12-10 文章 李军
各位好! 请教一个问题: 例现有如下结构数据: ip,id,mobile,return (一条数据) 做实时统计,想问下怎么把一条数据拆分成不同key的多条数据做统计。如:ip (id,mobile),mobile(ip,id)等 这样子 然后5分钟根据不同key统计结果; 用 flatmap吗? 初学者,希望大佬们解惑。 期待您的回信,祝好! 2019-12-11

回复: 窗口去重

2019-12-10 文章 Yuan,Youjun
第一种情况,用firstvalue这种聚合函数; 第二种情况,用min聚合函数,然后group by id,是不是就是你要的结果? -邮件原件- 发件人: Jimmy Wong 发送时间: Tuesday, December 10, 2019 4:40 PM 收件人: user-zh@flink.apache.org 主题: 窗口去重 Hi,All: 请教一个问题,现在有个实时场景:需要对每 5 分钟内数据进行去重,然后 Sink。 比如: 数据 {ts: 2019-12-10 16:24:00 id: 1} {ts: 2019-12-10 16:22:00 id:

Re: Flink State 过期清除 TTL 问题

2019-12-10 文章 Yun Tang
Hi 王磊 Savepoint目录中的数据的时间戳不会在恢复的时候再更新为当前时间,仍然为之前的时间,从代码上看如果你配置了cleanupFullSnapshot就会生效的,另外配置 cleanupInRocksdbCompactFilter 能让过期清理检查在后台执行,据我所知这个功能是可靠的,有尝试过长时间观察么,另外你们的新增数据量是恒定的么? 祝好 唐云 On 12/10/19, 10:16 AM, "wangl...@geekplus.com.cn" wrote: Hi 唐云, 我的集群已经升到了 1.8.2, cleanupFullS

窗口去重

2019-12-10 文章 Jimmy Wong
Hi,All: 请教一个问题,现在有个实时场景:需要对每 5 分钟内数据进行去重,然后 Sink。 比如: 数据 {ts: 2019-12-10 16:24:00 id: 1} {ts: 2019-12-10 16:22:00 id: 1} {ts: 2019-12-10 16:23:00 id: 2} {ts: 2019-12-10 16:21:00 id: 1} {ts: 2019-12-10 16:29:00 id: 2} {ts: 2019-12-10 16:27:00 id: 3} {ts: 2019-12-10 16:26:00 id: 2} 第一种情景,不考虑时间去重,结果