最近看了 云邪 大佬关于flink cdc sql的视频,并且动手操作了 例子 https://github.com/ververica/flink-cdc-connectors/wiki/%E4%B8%AD%E6%96%87%E6%95%99%E7%A8%8B 感受到了flink sql 在实时流计算的便捷性以及强大,但同时也有一些疑问。如下: flink connector cdc 直接对接订单表,物流表,商品表表的binlog 1、通过flink进行3流join的时候,这个join是对应flink底层api的哪种join,是否受窗口大小以及时间现在? 2、假如是全量join , 这些数据是全部保存在内存中吗?如果业务表的数据很大或者每天的增量很大,flink使用这种方式,内存是否有瓶颈? 3、如果是具有窗口属性的join,假如流1join流2,如果流2延迟了,是否有可能导致join数据不正确(流2的数据由于延迟被丢下了) 4、flink sql join的时候对应的哪种join是否可以指定? 5、假如job失败了重启,这些join后的数据有state吗? 感谢!
- flink sql join 内存占用以及数据延迟问题咨询 董建
