[GitHub] [flink] wanglijie95 commented on a diff in pull request #21570: [FLINK-29666][runtime] Let adaptive batch scheduler divide subpartition range according to amount of data

GitBox Thu, 05 Jan 2023 00:00:05 -0800


wanglijie95 commented on code in PR #21570:
URL: https://github.com/apache/flink/pull/21570#discussion_r1062196039



##########
flink-runtime/src/main/java/org/apache/flink/runtime/scheduler/adaptivebatch/DefaultVertexParallelismDecider.java:
##########
@@ -150,6 +193,202 @@ private int calculateParallelism(List<BlockingResultInfo> 
consumedResults) {
         return parallelism;
     }
 
+    private ParallelismAndInputInfos loadBalanceForAllToAllInputs(
+            List<BlockingResultInfo> inputs, int parallelism) {
+        checkArgument(parallelism == ExecutionConfig.PARALLELISM_DEFAULT);
+        checkArgument(!inputs.isEmpty());
+        inputs.forEach(resultInfo -> checkState(!resultInfo.isPointwise()));
+
+        final List<BlockingResultInfo> nonBroadcastInputs = 
getNonBroadcastResultInfos(inputs);
+        long broadcastBytes = getReasonableBroadcastBytes(inputs);
+        long nonBroadcastBytes = getNonBroadcastBytes(inputs);
+
+        int subpartitionNum = checkAndGetSubpartitionNum(nonBroadcastInputs);
+
+        long nonBroadcastBytesPerTaskLimit = dataVolumePerTask - 
broadcastBytes;
+        long[] nonBroadcastBytesBySubpartition = new long[subpartitionNum];
+        Arrays.fill(nonBroadcastBytesBySubpartition, 0L);
+        for (BlockingResultInfo resultInfo : nonBroadcastInputs) {
+            List<Long> subpartitionBytes =
+                    ((AllToAllBlockingResultInfo) 
resultInfo).getAggregatedSubpartitionBytes();
+            for (int i = 0; i < subpartitionNum; ++i) {
+                nonBroadcastBytesBySubpartition[i] += subpartitionBytes.get(i);
+            }
+        }
+
+        // compute subpartition ranges
+        List<IndexRange> subpartitionRanges =
+                computeSubpartitionRanges(
+                        nonBroadcastBytesBySubpartition, 
nonBroadcastBytesPerTaskLimit);
+
+        if (subpartitionRanges.size() < minParallelism) {
+            long minSubpartitionBytes =
+                    
Arrays.stream(nonBroadcastBytesBySubpartition).min().getAsLong();
+            // find a legal limit so that the computed parallelism >= 
minParallelism
+            long adjustLimit =
+                    BisectionSearchUtils.findMaxLegalValue(
+                            value ->
+                                    
computeParallelism(nonBroadcastBytesBySubpartition, value)
+                                            >= minParallelism,
+                            minSubpartitionBytes,
+                            nonBroadcastBytesPerTaskLimit);
+
+            // the smaller the limit, the more even the distribution
+            final long expectedParallelism =
+                    computeParallelism(nonBroadcastBytesBySubpartition, 
adjustLimit);
+            adjustLimit =
+                    BisectionSearchUtils.findMinLegalValue(
+                            value ->
+                                    
computeParallelism(nonBroadcastBytesBySubpartition, value)
+                                            <= expectedParallelism,
+                            minSubpartitionBytes,
+                            adjustLimit);
+
+            subpartitionRanges =
+                    computeSubpartitionRanges(nonBroadcastBytesBySubpartition, 
adjustLimit);
+        } else if (subpartitionRanges.size() > maxParallelism) {
+            // find a legal limit so that the computed parallelism <= 
minParallelism
+            long adjustLimit =
+                    BisectionSearchUtils.findMinLegalValue(
+                            value ->
+                                    
computeParallelism(nonBroadcastBytesBySubpartition, value)
+                                            <= maxParallelism,
+                            nonBroadcastBytesPerTaskLimit,
+                            nonBroadcastBytes);

Review Comment:
   Yes, in this case, we should fall back to the previous compute algorithm



-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

[GitHub] [flink] wanglijie95 commented on a diff in pull request #21570: [FLINK-29666][runtime] Let adaptive batch scheduler divide subpartition range according to amount of data

Reply via email to