[GitHub] [iceberg] mcgray opened a new issue, #8045: rewrite_position_delete_files leads to error

via GitHub Tue, 11 Jul 2023 15:42:24 -0700


mcgray opened a new issue, #8045:
URL: https://github.com/apache/iceberg/issues/8045


   ### Apache Iceberg version
   
   1.3.0 (latest release)
   
   ### Query engine
   
   Spark
   
   ### Please describe the bug 🐞
   
   While testing 
https://iceberg.apache.org/docs/latest/spark-procedures/#rewrite_position_delete_files
 I see the following error:
   ```
   23/07/10 21:07:26 WARN RewritePositionDeleteFilesSparkAction: Failure during 
rewrite process for group FileGroupInfo{globalIndex=2, partitionIndex=1, 
partition=org.apache.iceberg.util.StructProjection@4fdf7e57}
   org.apache.spark.sql.AnalysisException: 
[DATATYPE_MISMATCH.BINARY_OP_DIFF_TYPES] Cannot resolve "(partition.ts_day = 
19498)" due to data type mismatch: the left and right operands of the binary 
operator have incompatible types ("DATE" and "INT").;
   'Filter ((partition#703.et = FIND.PRODUCT) AND (partition#703.ts_day = 
19498))
   +- RelationV2[content#699, file_path#700, file_format#701, spec_id#702, 
partition#703, record_count#704L, file_size_in_bytes#705L, column_sizes#706, 
value_counts#707, null_value_counts#708, nan_value_counts#709, 
lower_bounds#710, upper_bounds#711, key_metadata#712, split_offsets#713, 
equality_ids#714, sort_order_id#715, readable_metrics#716]  
internal_catalog.fanflow2iceberg.fanflow_event.data_files
        at 
org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.dataTypeMismatch(package.scala:73)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$5(CheckAnalysis.scala:269)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$5$adapted(CheckAnalysis.scala:256)
        at 
org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:295)
        at 
org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$foreachUp$1(TreeNode.scala:294)
        at 
org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$foreachUp$1$adapted(TreeNode.scala:294)
        at scala.collection.Iterator.foreach(Iterator.scala:943)
        at scala.collection.Iterator.foreach$(Iterator.scala:943)
        at scala.collection.AbstractIterator.foreach(Iterator.scala:1431)
        at scala.collection.IterableLike.foreach(IterableLike.scala:74)
        at scala.collection.IterableLike.foreach$(IterableLike.scala:73)
        at scala.collection.AbstractIterable.foreach(Iterable.scala:56)
        at 
org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:294)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$4(CheckAnalysis.scala:256)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$4$adapted(CheckAnalysis.scala:256)
        at scala.collection.immutable.Stream.foreach(Stream.scala:533)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$1(CheckAnalysis.scala:256)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.$anonfun$checkAnalysis0$1$adapted(CheckAnalysis.scala:163)
        at 
org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:295)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.checkAnalysis0(CheckAnalysis.scala:163)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.checkAnalysis0$(CheckAnalysis.scala:160)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis0(Analyzer.scala:188)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.checkAnalysis(CheckAnalysis.scala:156)
        at 
org.apache.spark.sql.catalyst.analysis.CheckAnalysis.checkAnalysis$(CheckAnalysis.scala:146)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:188)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.$anonfun$executeAndCheck$1(Analyzer.scala:211)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.markInAnalyzer(AnalysisHelper.scala:330)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.executeAndCheck(Analyzer.scala:208)
        at 
org.apache.spark.sql.execution.QueryExecution.$anonfun$analyzed$1(QueryExecution.scala:76)
        at 
org.apache.spark.sql.catalyst.QueryPlanningTracker.measurePhase(QueryPlanningTracker.scala:111)
        at 
org.apache.spark.sql.execution.QueryExecution.$anonfun$executePhase$2(QueryExecution.scala:202)
        at 
org.apache.spark.sql.execution.QueryExecution$.withInternalError(QueryExecution.scala:526)
        at 
org.apache.spark.sql.execution.QueryExecution.$anonfun$executePhase$1(QueryExecution.scala:202)
        at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827)
        at 
org.apache.spark.sql.execution.QueryExecution.executePhase(QueryExecution.scala:201)
   ```
   
   Partition specification:
   
   ```
   "spec-id" : 2,
       "fields" : [ {
         "name" : "et",
         "transform" : "identity",
         "source-id" : 3,
         "field-id" : 1000
       }, {
         "name" : "ts_day",
         "transform" : "day",
         "source-id" : 2,
         "field-id" : 1001
   ```
   Source fields:
   
   ```
         "id" : 2,
         "name" : "ts",
         "required" : false,
         "type" : "timestamptz"
       }, {
         "id" : 3,
         "name" : "et",
         "required" : false,
         "type" : "string"
       }, {
   ```
   


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]


---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[GitHub] [iceberg] mcgray opened a new issue, #8045: rewrite_position_delete_files leads to error

Reply via email to