回复:flink barrier对齐 理解

2020-05-17 文章 了不起的盖茨比
嗯嗯谢谢,我去看看 -- 原始邮件 -- 发件人: tison https://ci.apache.org/projects/flink/flink-docs-master/fig/stream_aligning.svg [2] https://ci.apache.org/projects/flink/flink-docs-master/concepts/stateful-stream-processing.html 了不起的盖茨比 <573693...@qq.com 于2020年5月17日周日

回复:flink barrier对齐 理解

2020-05-17 文章 了不起的盖茨比
我的理解是一条数据,会经过n个算子,只有这个数据到达最后一个算子计算完毕,才能checkpoint,否则会导致前几个算子state改变,但是这个数据的offset没有被提交,导致了重复消费数据。 -- 原始邮件 -- 发件人: Benchao Li

????sql????????????idle??????????????????????????????

2020-05-17 文章 claylin
sqlTableConfigidle timesst??flink-io-8a4ac39d-b8c3-4baa-bd08-a063e6e964e9state??CREATE TABLE yy_yapmnetwork_original ( happenAt BIGINT, uid

?????? ????sql????????????idle??????????????????????????????

2020-05-17 文章 claylin
https://gist.github.com/fairytalelin/e6be097a897d38b816bfe91f7ca8c0d4 ---- ??:"tison"

Re: flink barrier对齐 理解

2020-05-17 文章 tison
Hi, 你可以看一下官网这张经典的图[1][2],snapshot 是按算子级别来看的,跟 source 不 source 没啥关系,全局的 chk 由 jm 上的 checkpoint coordinator 协调。 Best, tison. [1] https://ci.apache.org/projects/flink/flink-docs-master/fig/stream_aligning.svg [2]

Re: 使用sql时候,设置了idle过期时间,但是状态还是一直变大

2020-05-17 文章 tison
考虑把 SQL 贴成 gist 链接? Best, tison. claylin <1012539...@qq.com> 于2020年5月17日周日 下午5:32写道: > sql作业定义如下,也通过TableConfig设置了最大和最小idle > time,但是运行很长时间,查看sst的目录flink-io-8a4ac39d-b8c3-4baa-bd08-a063e6e964e9下,状态还是在一直变打,导致作业线程读写state很耗时间,最后作业处于一直反压状态,求大佬支招CREATE > TABLE yy_yapmnetwork_original ( happenAt

Re: save point容灾方案咨询

2020-05-17 文章 Congxian Qiu
你好 请问这里的 savepoint 容灾的 “容灾” 具体是指什么呢?希望解决什么问题呢? Best, Congxian LakeShen 于2020年5月15日周五 上午10:20写道: > Hi , > > 你可以把你的场景在描述的详细一些。 > > Best, > LakeShen > > 请叫我雷锋 <854194...@qq.com> 于2020年5月14日周四 下午9:42写道: > > > 各位大佬好,请问有啥好的save point容灾方案嘛? > > > > > > > > 发自我的iPhone >

?????? save point????????????

2020-05-17 文章 ??????????
?? savepoint savepoint?? savepoint ?? ---- ??:"Congxian Qiu"

Re: save point容灾方案咨询

2020-05-17 文章 zhisheng
hi 如果做 Checkpoint 或者 Savepoint 的时候可以填两个 HDFS 集群的地址路径(一个是你的主集群/另一个是容灾集群) 是不是就可以解决你现在的问题,达到你想要的需求? Best zhisheng 请叫我雷锋 <854194...@qq.com> 于2020年5月17日周日 下午7:32写道: > 谢谢关注: > > > savepoint 容灾 是指的,每次执行savepoint生成的文件,能够在容灾集群上做备份。当主集群变得不可用时,可以将任务迁移到容灾 > 集群进行根据savepoint 进行任务恢复。 > > >

?????? ?????? ????sql????????????idle??????????????????????????????

2020-05-17 文章 claylin
??10-15??key??kafka2-5M ---- ??:"??"https://gist.github.com/fairytalelin/e6be097a897d38b816bfe91f7ca8c0d4 --nbsp;nbsp;--

回复:save point容灾方案咨询

2020-05-17 文章 1048262223
+1,如果主备都在flink内的话,可能会加倍做checkpoint的负载,个人理解直接在状态后端内部做主备集群同步效率会更高 -- 原始邮件 -- 发件人: tison

Re: save point容灾方案咨询

2020-05-17 文章 tison
这个我理解不在 Flink 的范畴里啊。你 savepoint 存到一个位置,然后外部挂一个同步器在主集群和容灾集群里同步(savepoint 目录)就可以吧。 Best, tison. zhisheng 于2020年5月17日周日 下午8:40写道: > hi > > 如果做 Checkpoint 或者 Savepoint 的时候可以填两个 HDFS 集群的地址路径(一个是你的主集群/另一个是容灾集群) > 是不是就可以解决你现在的问题,达到你想要的需求? > > Best > > zhisheng > > 请叫我雷锋 <854194...@qq.com>

Re: 回复: 使用sql时候,设置了idle过期时间,但是状态还是一直变大

2020-05-17 文章 刘大龙
Hi, 你的状态过期时间设置的是多久?对于普通的group by agg算子,目前使用的是定时器方式实现过期状态的清理,精确的过期时间是状态最后更新时间加上你设置的最小idle,如果状态在一直更新,是不会过期的;另外你的Kafka中的数据量有多大?比如每秒大概有多少条数据?你可以试试把过期时间设置的短一点,观察一下状态是否能比较稳定的不增大 > -原始邮件- > 发件人: claylin <1012539...@qq.com> > 发送时间: 2020-05-17 17:41:13 (星期日) > 收件人: user-zh > 抄送: > 主题: 回复:

回复: flink build-in 的 udf 的源码

2020-05-17 文章 venn
非常感谢大佬,耐心回复 -邮件原件- 发件人: user-zh-return-3567-wxchunjhyy=163@flink.apache.org 代表 Benchao Li 发送时间: 2020年5月16日 21:50 收件人: user-zh 主题: Re: flink build-in 的 udf 的源码 Hi, Flink内置函数的实现方式跟udf不太一样,很多函数是直接用的代码生成来做的。 下面是以blink planner为例,大概说下流程: 1. FlinkSqlOperatorTable

回复: flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'

2020-05-17 文章 wind.fly....@outlook.com
Sorry, 之前建表语句copy错了,应该是这样: CREATE TABLE x.log.yanfa_log ( dt TIMESTAMP(3), conn_id STRING, sequence STRING, trace_id STRING, span_info STRING, service_id STRING, msg_id STRING, servicename STRING, ret_code STRING, duration STRING, req_body MAP,

run flink on edge vs hub

2020-05-17 文章 Eleanore Jin
Hi Community, Currently we are running flink in 'hub' data centers where data is ingested into the platform via kafka, and flink job will read from kafka, do the transformations, and publish to another kafka topic. I would also like to see if the same logic (read input message -> do

Re: 回复: 使用sql时候,设置了idle过期时间,但是状态还是一直变大

2020-05-17 文章 LakeShen
Hi, 你可以描述一下你的 Flink 版本,具体空闲状态保留时间的含义,请参考一下[1]: [1] https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/streaming/query_configuration.html#idle-state-retention-time Best, LakeShen claylin <1012539...@qq.com> 于2020年5月17日周日 下午10:24写道: >

flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'

2020-05-17 文章 wind.fly....@outlook.com
Hi, all: 本人使用的flink 版本为1.10.0,planner为BlinkPlanner,用LEFT JOIN FOR SYSTEM_TIME AS OF 语法关联维表: select TUMBLE_END(l.dt, INTERVAL '30' SECOND) as index_time, l.extra_info['cityCode'] as city_code, v.vehicle_level as vehicle_level, CAST(COUNT(DISTINCT req_body['driverId']) as STRING) as

Re: save point容灾方案咨询

2020-05-17 文章 Congxian Qiu
你好 据我所知,这个在 Flink 不太好支持,你可以试试看存储层是否能够实现类似的需求,另外 FLINK-5763[1] 或许对你有用,FLINK-5763 能够更好地支持 savepoint 在集群间的迁移 [1] https://issues.apache.org/jira/browse/FLINK-5763 Best, Congxian 1048262223 <1048262...@qq.com> 于2020年5月17日周日 下午9:17写道: >

?????? ?????? ????sql????????????idle??????????????????????????????

2020-05-17 文章 claylin
1.10??kafka??2-5M/s ----

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-17 文章 Zhu Zhu
Thanks Yu for being the release manager. Thanks everyone who made this release possible! Thanks, Zhu Zhu Benchao Li 于2020年5月15日周五 下午7:51写道: > Thanks Yu for the great work, and everyone else who made this possible. > > Dian Fu 于2020年5月15日周五 下午6:55写道: > >> Thanks Yu for managing this release

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-17 文章 Leonard Xu
Thanks Yu for being the release manager, and everyone else who made this possible. Best, Leonard Xu > 在 2020年5月18日,10:43,Zhu Zhu 写道: > > Thanks Yu for being the release manager. Thanks everyone who made this > release possible! > > Thanks, > Zhu Zhu > > Benchao Li

Re: flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'

2020-05-17 文章 Benchao Li
你第二次贴的DDL好像也有些问题,是不是`proctime AS PROCTIME(),`? wind.fly@outlook.com 于2020年5月18日周一 上午9:48写道: > Sorry, 之前建表语句copy错了,应该是这样: > CREATE TABLE x.log.yanfa_log ( > dt TIMESTAMP(3), > conn_id STRING, > sequence STRING, > trace_id STRING, > span_info STRING, >

回复: flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'

2020-05-17 文章 wind.fly....@outlook.com
是的,应该是AS PROCTIME(),是我的笔误。但是同样的错误还会报。 发件人: Benchao Li 发送时间: 2020年5月18日 12:59 收件人: user-zh 主题: Re: flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'