Re: Re: 请问一下,flink 1.11 的cdc历史数据问题

2020-08-28 Thread dixingxin...@163.com
里面主要一个问题是很难做到无缝切换,因为不知道确切的 mysql binlog 位点。 Best, Jark On Tue, 25 Aug 2020 at 12:47, dixingxin...@163.com wrote: > Hi: > Leonard Xu 感谢回复 > > 2.debezium是通过jdbc查询源表的数据来加载全量的历史数据吗? 这块会不会对数据库造成瞬时压力? > > 不会,不是直接查询源表,所以不会锁表,加载全量历史数据时只是读取binlog的一个offset > > 这里恰好是我的疑问,之前看debez

回复: Re: 请问一下,flink 1.11 的cdc历史数据问题

2020-08-24 Thread dixingxin...@163.com
Hi: Leonard Xu 感谢回复 > 2.debezium是通过jdbc查询源表的数据来加载全量的历史数据吗? 这块会不会对数据库造成瞬时压力? > 不会,不是直接查询源表,所以不会锁表,加载全量历史数据时只是读取binlog的一个offset 这里恰好是我的疑问,之前看debezium代码,没有找到使用jdbc加载全量历史数据的代码,debezium的snapshot看起来只是保存了表的schema变更记录,这样重新消费binlog时,可以为每条binlog数据找到正确schema,达到正确解析历史数据的目的。

请问一下,flink 1.11 的cdc历史数据问题

2020-08-24 Thread dixingxin...@163.com
Hi all: Flink1.11 的cdc是支持加载历史数据的,有两个问题想求证一下: 1.底层是使用了debezium来加载历史数据的吗? 2.debezium是通过jdbc查询源表的数据来加载全量的历史数据吗? 这块会不会对数据库造成瞬时压力? 希望能帮忙解答一下,谢谢。 Best, Xingxing Di

Re: Re: Flink catalog的几个疑问

2020-07-21 Thread dixingxin...@163.com
; 2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive > > catalog写新的meta。 > > 是否会转为默认catalog,据我所知,目前没有。 > > 3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。 > > > > Best, > > Godfrey > > > > dixingxin...@163.com 于2020年7月21日周二 下午11:30写道: > > >

Flink catalog的几个疑问

2020-07-21 Thread dixingxin...@163.com
Hi Flink社区: 有几个疑问希望社区小伙伴们帮忙解答一下: 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗? 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。 Best, Xingxing Di

Re: Re: 如何做checkpoint的灾备

2020-06-16 Thread dixingxin...@163.com
历 checkpoint meta 文件来进行判断。 对于希望从 checkpoint 恢复的场景来说,可以考虑下能否在你们的场景中把 checkpoint meta 统一存储到某个地方,这样后续直接从这个地方读取即可。 Best, Congxian dixingxin...@163.com 于2020年6月15日周一 上午12:06写道: > @Congxian Qiu 感谢你的回复! > 1.先回答你的疑问,我们目前checkpoint跨机房容灾的需求比较强烈,是需要上生产的;关于flink 1.11 > 的savepoint,我们后面可以尝试一下,

回复: Re: 如何做checkpoint的灾备

2020-06-14 Thread dixingxin...@163.com
] https://github.com/apache/flink/blob/481c509f2e034c912e5e5d278e0b3f3d29a21f2b/flink-runtime/src/main/java/org/apache/flink/runtime/state/CheckpointStreamWithResultProvider.java#L91 [2] https://issues.apache.org/jira/browse/FLINK-5763 Best, Congxian dixingxin...@163.com 于2020年6月11日周四 下午8:21写道

如何做checkpoint的灾备

2020-06-11 Thread dixingxin...@163.com
Hi Flink社区, 目前我们在调研checkpoint 跨机房容灾的方案,目标是把checkpoint备份到hdfs2上,当hdfs1故障时,可以快速从hdfs2恢复flink作业。 本来我们打算使用hadoop的distcp命令定期把hdfs1上的checkpoint备份到hdfs2上,但是运维同学反馈distcp命令会报错,因为checkpoint路径下文件变动太频繁。 1.想问下大家在这种文件频繁创建的场景下,是如何做hdfs间的增量文件拷贝的,有没有现成的工具或成熟的方案? 2.改造flink代码,支持checkpoint异步双写是否是一个可行的方案? Best,

????: ?????? ??flink-connector-kafka??????????Subscribe????

2020-04-22 Thread dixingxin...@163.com
??kafka balance??PK?? kafka partition??offset??kafka balance dixingxin...@163.com i'mpossible ?? 2020-04-22 17

Re: Re: Flink streaming sql是否支持两层group by聚合

2020-04-18 Thread dixingxin...@163.com
@Benchao @Jark thank you very much. We have use flink 1.9 for a while , and we will try 1.9 + minibatch. dixingxin...@163.com Sender: Jark Wu Send Time: 2020-04-18 21:38 Receiver: Benchao Li cc: dixingxing85; user; user-zh Subject: Re: Flink streaming sql是否支持两层group by聚合 Hi, I will use

Flink streaming sql是否支持两层group by聚合

2020-04-17 Thread dixingxin...@163.com
(GeneralRedisSinkFunction.invoke:169) - receive data(false,0,86,20200417) 2020-04-17 22:28:39,328INFO groupBy xx -> to: Tuple2 -> Sink: Unnamed (1/1) (GeneralRedisSinkFunction.invoke:169) - receive data(true,0,131,20200417) 我们使用的是1.7.2, 测试作业的并行度为1。 这是对应的 issue: https://issues.apache.org/ji

Flink streaming sql是否支持两层group by聚合

2020-04-17 Thread dixingxin...@163.com
(GeneralRedisSinkFunction.invoke:169) - receive data(false,0,86,20200417) 2020-04-17 22:28:39,328INFO groupBy xx -> to: Tuple2 -> Sink: Unnamed (1/1) (GeneralRedisSinkFunction.invoke:169) - receive data(true,0,131,20200417) 我们使用的是1.7.2, 测试作业的并行度为1。 这是对应的 issue: https://issues.apache.org/ji