你是用的Filesystem 
connector读写hdfs的吗?数据序列化和反序列化的时间也有差异,而且source和sink的并发度也有很大差异,为了控制小文件数量,减少了sink的并发度,那写入速度肯定也是有限的。
由于source和sink的并发已经确定了,中间不管哪个阶段进行shuffle,其实对首尾的处理速度应该影响不大。
以上是个人愚见,欢迎大佬指正。

> 2020年10月30日 下午2:30,Husky Zeng <568793...@qq.com> 写道:
> 
> 我们的场景是这样的:
> 
> 从hive读数据,计算后写回hive。
> 
> 从hive读数据,为了加快速度,使用了650个并发subTask。
> 
> 向hive写数据,为了减少小文件,需要控制并发subTask数量。
> 
> 因此需要找一个环节进行shuffle。
> 
> 所以有上面的疑问。
> 
> 
> 
> 
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

回复