[GitHub] [spark] ulysses-you commented on a diff in pull request #39556: [SPARK-42049][SQL] Improve AliasAwareOutputExpression

GitBox Fri, 13 Jan 2023 20:36:32 -0800


ulysses-you commented on code in PR #39556:
URL: https://github.com/apache/spark/pull/39556#discussion_r1070214949



##########
sql/core/src/main/scala/org/apache/spark/sql/execution/AliasAwareOutputExpression.scala:
##########
@@ -16,48 +16,45 @@
  */
 package org.apache.spark.sql.execution
 
-import org.apache.spark.sql.catalyst.expressions.{Alias, Expression, 
NamedExpression, SortOrder}
-import org.apache.spark.sql.catalyst.plans.physical.{HashPartitioning, 
Partitioning, PartitioningCollection, UnknownPartitioning}
-
-/**
- * A trait that provides functionality to handle aliases in the 
`outputExpressions`.
- */
-trait AliasAwareOutputExpression extends UnaryExecNode {
-  protected def outputExpressions: Seq[NamedExpression]
-
-  private lazy val aliasMap = outputExpressions.collect {
-    case a @ Alias(child, _) => child.canonicalized -> a.toAttribute
-  }.toMap
-
-  protected def hasAlias: Boolean = aliasMap.nonEmpty
-
-  protected def normalizeExpression(exp: Expression): Expression = {
-    exp.transformDown {
-      case e: Expression => aliasMap.getOrElse(e.canonicalized, e)
-    }
-  }
-}
+import org.apache.spark.sql.catalyst.expressions.Expression
+import org.apache.spark.sql.catalyst.plans.{AliasAwareOutputExpression, 
AliasAwareQueryOutputOrdering}
+import org.apache.spark.sql.catalyst.plans.physical.{Partitioning, 
PartitioningCollection, UnknownPartitioning}
 
 /**
  * A trait that handles aliases in the `outputExpressions` to produce 
`outputPartitioning` that
  * satisfies distribution requirements.
  */
-trait AliasAwareOutputPartitioning extends AliasAwareOutputExpression {
+trait AliasAwareOutputPartitioning extends UnaryExecNode
+  with AliasAwareOutputExpression {
   final override def outputPartitioning: Partitioning = {
     val normalizedOutputPartitioning = if (hasAlias) {
       child.outputPartitioning match {
         case e: Expression =>
-          normalizeExpression(e).asInstanceOf[Partitioning]
+          val normalized = normalizeExpression(e, (replacedExpr, 
outputExpressionSet) => {
+            assert(replacedExpr.isInstanceOf[Partitioning])
+            // It's hard to deduplicate partitioning inside 
`PartitioningCollection` at
+            // `AliasAwareOutputExpression`, so here we should do distinct.
+            val pruned = 
flattenPartitioning(replacedExpr.asInstanceOf[Partitioning]).filter {
+              case e: Expression => e.references.subsetOf(outputExpressionSet)
+              case _ => true
+            }.distinct
+            if (pruned.isEmpty) {
+              None
+            } else {
+              Some(PartitioningCollection(pruned))
+            }
+          })
+          PartitioningCollection(normalized.asInstanceOf[Seq[Partitioning]])
         case other => other
       }
     } else {
       child.outputPartitioning
     }
 
     flattenPartitioning(normalizedOutputPartitioning).filter {
-      case hashPartitioning: HashPartitioning => 
hashPartitioning.references.subsetOf(outputSet)
+      case e: Expression => e.references.subsetOf(outputSet)

Review Comment:
   to also handle such as RangePartitioning



-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]


---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[GitHub] [spark] ulysses-you commented on a diff in pull request #39556: [SPARK-42049][SQL] Improve AliasAwareOutputExpression

Reply via email to