flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least once,结合hudi的upsert语义,最终实现exactly once.

2021-04-17 文章 王敏超
flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least
once,结合hudi的upsert语义,最终实现exactly once.

问题:
在使用flink cdc写入hudi时,由于hudi的flush to
storage需要在chk触发,因此在大表全量同步期间,没有chk的所有的数据积攒在内存中导致Caused by:
java.lang.OutOfMemoryError: GC overhead limit exceeded.

期望:
flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least
once,结合hudi的upsert语义,最终实现exactly once.



--
Sent from: http://apache-flink.147419.n8.nabble.com/

退订

2021-04-17 文章 maozhaolin
退订


| |
mao18698726900
|
|
邮箱:mao18698726...@163.com
|

签名由 网易邮箱大师 定制

Re: flink1.12.2 StreamingFileSink 问题

2021-04-17 文章 张锴
请问是用flink CLI的方式写hive,还是用code方式呢,暂时没用过flink sql 不知道标准开发是怎样

LiangbinZhang  于2021年4月16日周五 下午6:57写道:

> Hi,张锴
> Flink1.12支持sql直接写hive表,可以做到分钟级的数据查询,不知道符不符合你的业务需求。
>
>
>
> 张锴 wrote
> >
> flink用的1.12.2,要sink到hdfs,选用了StreamingFileSink,导入依赖的时候maven仓库并没有1.12.2的flink-connector-filesystem的jar包,我应该选用哪个版本合适
>
>
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/