flink sql join 内存占用以及数据延迟问题咨询

董建 Sun, 11 Apr 2021 23:38:07 -0700

最近看了 云邪 大佬关于flink cdc sql的视频，并且动手操作了 例子
https://github.com/ververica/flink-cdc-connectors/wiki/%E4%B8%AD%E6%96%87%E6%95%99%E7%A8%8B
感受到了flink sql 在实时流计算的便捷性以及强大，但同时也有一些疑问。如下:
flink  connector cdc 直接对接订单表，物流表，商品表表的binlog
1、通过flink进行3流join的时候，这个join是对应flink底层api的哪种join，是否受窗口大小以及时间现在？
2、假如是全量join , 这些数据是全部保存在内存中吗？如果业务表的数据很大或者每天的增量很大，flink使用这种方式，内存是否有瓶颈？
3、如果是具有窗口属性的join，假如流1join流2，如果流2延迟了，是否有可能导致join数据不正确(流2的数据由于延迟被丢下了)
4、flink sql join的时候对应的哪种join是否可以指定？
5、假如job失败了重启，这些join后的数据有state吗？
感谢！

flink sql join 内存占用以及数据延迟问题咨询

回复