你是用的Filesystem connector读写hdfs的吗? >>>>>>>是的
由于source和sink的并发已经确定了,中间不管哪个阶段进行shuffle,其实对首尾的处理速度应该影响不大。 >>>>>>>现状是首尾处理速度的确影响不大,但是"shuffle个过程的数据传输速度" 在 "不同的位置" 差异很大。 当我把shuffle加到cal和sort中间时, source(640并发)-->cal(640并发)-- (rebalance)->sort(64并发)--->SinkConversionToRow(64并发)--->sink(64并发) shuffle的数据传输IO速度是3G/s,370G文件传输花费2分钟。 当我把shuffle加到SinkConversionToRow和sink中间时, source(640并发)-->cal(640并发)-- ->sort(640并发)--->SinkConversionToRow(640并发)--(rebalance)-->sink(64并发) shuffle的数据传输IO速度是0.1G/s,250G文件传输花费40分钟。 -- Sent from: http://apache-flink.147419.n8.nabble.com/
