你是用的Filesystem connector读写hdfs的吗?数据序列化和反序列化的时间也有差异,而且source和sink的并发度也有很大差异,为了控制小文件数量,减少了sink的并发度,那写入速度肯定也是有限的。 由于source和sink的并发已经确定了,中间不管哪个阶段进行shuffle,其实对首尾的处理速度应该影响不大。 以上是个人愚见,欢迎大佬指正。
> 2020年10月30日 下午2:30,Husky Zeng <568793...@qq.com> 写道: > > 我们的场景是这样的: > > 从hive读数据,计算后写回hive。 > > 从hive读数据,为了加快速度,使用了650个并发subTask。 > > 向hive写数据,为了减少小文件,需要控制并发subTask数量。 > > 因此需要找一个环节进行shuffle。 > > 所以有上面的疑问。 > > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/