Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

admin Thu, 29 Oct 2020 23:47:31 -0700

你是用的Filesystem 
connector读写hdfs的吗？数据序列化和反序列化的时间也有差异，而且source和sink的并发度也有很大差异，为了控制小文件数量，减少了sink的并发度，那写入速度肯定也是有限的。
由于source和sink的并发已经确定了，中间不管哪个阶段进行shuffle，其实对首尾的处理速度应该影响不大。
以上是个人愚见，欢迎大佬指正。


> 2020年10月30日 下午2:30，Husky Zeng <568793...@qq.com> 写道：
> 
> 我们的场景是这样的：
> 
> 从hive读数据，计算后写回hive。
> 
> 从hive读数据，为了加快速度，使用了650个并发subTask。
> 
> 向hive写数据，为了减少小文件，需要控制并发subTask数量。
> 
> 因此需要找一个环节进行shuffle。
> 
> 所以有上面的疑问。
> 
> 
> 
> 
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

回复