最近看了 云邪 大佬关于flink cdc sql的视频,并且动手操作了 例子
https://github.com/ververica/flink-cdc-connectors/wiki/%E4%B8%AD%E6%96%87%E6%95%99%E7%A8%8B
感受到了flink sql 在实时流计算的便捷性以及强大,但同时也有一些疑问。如下:
flink  connector cdc 直接对接订单表,物流表,商品表表的binlog
1、通过flink进行3流join的时候,这个join是对应flink底层api的哪种join,是否受窗口大小以及时间现在?
2、假如是全量join , 这些数据是全部保存在内存中吗?如果业务表的数据很大或者每天的增量很大,flink使用这种方式,内存是否有瓶颈?
3、如果是具有窗口属性的join,假如流1join流2,如果流2延迟了,是否有可能导致join数据不正确(流2的数据由于延迟被丢下了)
4、flink sql join的时候对应的哪种join是否可以指定?
5、假如job失败了重启,这些join后的数据有state吗?
感谢!

回复