Hi,
Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?", *checking out
ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about
solution of disordering problems in KeyBy shuffling.
Best,
Shuo
On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote:
>
>
Hi, all
以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream
API实现了上述功能。
使用SQL实现的作业中IntervalJoin算子的状态会逐渐增大,直到checkpoint失败。原因是在8个Source分区中输出水位线差距很大。
使用API实现的作业,在使用Flink15版本的水位线对齐后可以保证正常读取topic内的所有数据。
如果想保证每次写入 mysql 的事件是最新的,需要在 Flink 内部针对事件时间排序取 TOP 1, 可以参考[1]。 但是需要注意这需要使用
state,你可以需要指定合适的 TTL[2] 来保证 state 不会过大
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql/queries/topn/
[2]
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best regards,
Weijie
宋品如 于2023年2月22日周三 11:37写道:
> 退订
>
>
>
>
>
>
>
>
>
>
> --
>
> 祝工作顺利,生活愉快!
> 发件人:宋品如
> 岗位:大数据开发
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best regards,
Weijie
646208563 于2023年2月22日周三 11:39写道:
> 退订
如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话,Flink如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?
在 2023-02-20 09:50:50,"Shengkai Fang" 写道:
>我理解如果sink 表上带有 pk,就会主动 keyby 的[1]。
>
>Best,
>Shengkai
>
>[1]
非常感谢,切换账户之后,有些job是能dump下来,但是有些job还是会报相同的错误,并且已经确认过flink作业的user和运行linux命令的user是一致的。
在 2023-02-21 11:26:07,"Biao Geng" 写道:
>Hi,
>这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
>可能和flink关系不大。
>我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux
Hi,
Maybe you can use CURRENT_WATERMARK()[1] to handle some late data.
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/
Best,
Weihua
On Tue, Feb 21, 2023 at 1:46 PM wang <24248...@163.com> wrote:
> Hi dear engineers,
>
> One question as