[GitHub] [hudi] dm-tran commented on issue #2020: [SUPPORT] Compaction fails with "java.io.FileNotFoundException"

GitBox Tue, 25 Aug 2020 00:54:57 -0700


dm-tran commented on issue #2020:
URL: https://github.com/apache/hudi/issues/2020#issuecomment-679866696



   @bvaradar I ran the structured streaming job with 
`hoodie.consistency.check.enabled = true`, starting from the earliest offsets 
in Kafka, and got the same error: a `java.io.FileNotFoundException` when the 
compaction is retried.
   
   **Summary**
   
   The structured streaming job ran during 3 hours:
   - at some point, some executors were lost because of an OutOfMemory error
   - then the spark driver failed because of the consistency check failed
   
   The spark application was then retried by YARN, and the 2nd attempt failed 
with `Caused by: java.io.FileNotFoundException: No such file or directory` when 
the compaction was retried.
   
   **Stacktraces**
   
   Stracktrace of the first attempt:
   ```
   20/08/25 06:51:39 WARN HiveConf: HiveConf of name hive.server2.thrift.url 
does not exist
   20/08/25 06:51:40 WARN ProcessingTimeExecutor: Current batch is falling 
behind. The trigger interval is 300000 milliseconds, but spent 800229 
milliseconds
   20/08/25 06:56:24 WARN BlockManagerMasterEndpoint: No more replicas 
available for rdd_1775_40 !
   20/08/25 06:56:24 WARN BlockManagerMasterEndpoint: No more replicas 
available for rdd_1785_53 !
   [...]
   20/08/25 06:56:24 WARN BlockManagerMasterEndpoint: No more replicas 
available for rdd_1785_35 !
   20/08/25 06:56:24 WARN BlockManagerMasterEndpoint: No more replicas 
available for rdd_1785_50 !
   20/08/25 06:56:24 WARN YarnAllocator: Container from a bad node: 
container_1594796531644_1833_01_000002 on host: 
ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal. Exit status: 143. 
Diagnostics: [2020-08-25 06:56:24.636]Container killed on request. Exit code is 
143
   [2020-08-25 06:56:24.636]Container exited with a non-zero exit code 143. 
   [2020-08-25 06:56:24.637]Killed by external signal
   .
   20/08/25 06:56:24 WARN YarnSchedulerBackend$YarnSchedulerEndpoint: 
Requesting driver to remove executor 1 for reason Container from a bad node: 
container_1594796531644_1833_01_000002 on host: 
ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal. Exit status: 143. 
Diagnostics: [2020-08-25 06:56:24.636]Container killed on request. Exit code is 
143
   [2020-08-25 06:56:24.636]Container exited with a non-zero exit code 143. 
   [2020-08-25 06:56:24.637]Killed by external signal
   .
   20/08/25 06:56:24 ERROR YarnClusterScheduler: Lost executor 1 on 
ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal: Container from a bad node: 
container_1594796531644_1833_01_000002 on host: 
ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal. Exit status: 143. 
Diagnostics: [2020-08-25 06:56:24.636]Container killed on request. Exit code is 
143
   [2020-08-25 06:56:24.636]Container exited with a non-zero exit code 143. 
   [2020-08-25 06:56:24.637]Killed by external signal
   .
   20/08/25 06:56:24 WARN TaskSetManager: Lost task 1.0 in stage 816.0 (TID 
50626, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
ExecutorLostFailure (executor 1 exited caused by one of the running tasks) 
Reason: Container from a bad node: container_1594796531644_1833_01_000002 on 
host: ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal. Exit status: 143. 
Diagnostics: [2020-08-25 06:56:24.636]Container killed on request. Exit code is 
143
   [2020-08-25 06:56:24.636]Container exited with a non-zero exit code 143. 
   [2020-08-25 06:56:24.637]Killed by external signal
   .
   20/08/25 06:56:24 WARN TaskSetManager: Lost task 0.0 in stage 816.0 (TID 
50625, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
ExecutorLostFailure (executor 1 exited caused by one of the running tasks) 
Reason: Container from a bad node: container_1594796531644_1833_01_000002 on 
host: ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal. Exit status: 143. 
Diagnostics: [2020-08-25 06:56:24.636]Container killed on request. Exit code is 
143
   [2020-08-25 06:56:24.636]Container exited with a non-zero exit code 143. 
   [2020-08-25 06:56:24.637]Killed by external signal
   .
   20/08/25 06:56:24 WARN ExecutorAllocationManager: Attempted to mark unknown 
executor 1 idle
   20/08/25 07:07:51 ERROR MicroBatchExecution: Query [id = 
6ea738ee-0886-4014-a2b2-f51efd693c45, runId = 
97c16ef4-d610-4d44-a0e9-a9d24ed5e0cf] terminated with error
   org.apache.hudi.exception.HoodieCommitException: Failed to complete commit 
20200825065331 due to finalize errors.
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.finalizeWrite(AbstractHoodieWriteClient.java:204)
       at 
org.apache.hudi.client.HoodieWriteClient.doCompactionCommit(HoodieWriteClient.java:1142)
       at 
org.apache.hudi.client.HoodieWriteClient.commitCompaction(HoodieWriteClient.java:1102)
       at 
org.apache.hudi.client.HoodieWriteClient.runCompaction(HoodieWriteClient.java:1085)
       at 
org.apache.hudi.client.HoodieWriteClient.compact(HoodieWriteClient.java:1056)
       at 
org.apache.hudi.client.HoodieWriteClient.lambda$forceCompact$13(HoodieWriteClient.java:1171)
       at org.apache.hudi.common.util.Option.ifPresent(Option.java:96)
       at 
org.apache.hudi.client.HoodieWriteClient.forceCompact(HoodieWriteClient.java:1168)
       at 
org.apache.hudi.client.HoodieWriteClient.postCommit(HoodieWriteClient.java:503)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:157)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:101)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:92)
       at 
org.apache.hudi.HoodieSparkSqlWriter$.checkWriteStatus(HoodieSparkSqlWriter.scala:268)
       at 
org.apache.hudi.HoodieSparkSqlWriter$.write(HoodieSparkSqlWriter.scala:188)
       at org.apache.hudi.DefaultSource.createRelation(DefaultSource.scala:108)
       at 
org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86)
       at 
org.apache.spark.sql.execution.SparkPlan.$anonfun$execute$1(SparkPlan.scala:131)
       at 
org.apache.spark.sql.execution.SparkPlan.$anonfun$executeQuery$1(SparkPlan.scala:156)
       at 
org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
       at 
org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
       at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
       at 
org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:83)
       at 
org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:83)
       at 
org.apache.spark.sql.DataFrameWriter.$anonfun$runCommand$1(DataFrameWriter.scala:676)
       at 
org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:84)
       at 
org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:165)
       at 
org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:74)
       at 
org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:676)
       at 
org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:290)
       at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:271)
       at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:229)
       at 
aaa.dataprocessor.writer.EventsWriter$.saveToHudiTable(EventsWriter.scala:145)
       at aaa.dataprocessor.MainProcessor$.processBatch(MainProcessor.scala:162)
       at 
aaa.dataprocessor.MainProcessor$.$anonfun$main$4(MainProcessor.scala:90)
       at 
aaa.dataprocessor.MainProcessor$.$anonfun$main$4$adapted(MainProcessor.scala:82)
       at 
org.apache.spark.sql.execution.streaming.sources.ForeachBatchSink.addBatch(ForeachBatchSink.scala:35)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runBatch$15(MicroBatchExecution.scala:537)
       at 
org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:84)
       at 
org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:165)
       at 
org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:74)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runBatch$14(MicroBatchExecution.scala:536)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:351)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:349)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:58)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.runBatch(MicroBatchExecution.scala:535)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$2(MicroBatchExecution.scala:198)
       at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:351)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:349)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:58)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$1(MicroBatchExecution.scala:166)
       at 
org.apache.spark.sql.execution.streaming.ProcessingTimeExecutor.execute(TriggerExecutor.scala:56)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.runActivatedStream(MicroBatchExecution.scala:160)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:281)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution$$anon$1.run(StreamExecution.scala:193)
   Caused by: org.apache.hudi.exception.HoodieIOException: Consistency check 
failed to ensure all files APPEAR
       at 
org.apache.hudi.table.HoodieTable.waitForAllFiles(HoodieTable.java:431)
       at 
org.apache.hudi.table.HoodieTable.cleanFailedWrites(HoodieTable.java:379)
       at org.apache.hudi.table.HoodieTable.finalizeWrite(HoodieTable.java:315)
       at 
org.apache.hudi.table.HoodieMergeOnReadTable.finalizeWrite(HoodieMergeOnReadTable.java:319)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.finalizeWrite(AbstractHoodieWriteClient.java:195)
       ... 57 more
   ```
   
   Stracktrace of the second attempt:
   ```
   SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
   20/08/25 07:07:56 WARN YarnSchedulerBackend$YarnSchedulerEndpoint: Attempted 
to request executors before the AM has registered!
   20/08/25 07:10:02 ERROR HoodieMergeOnReadTable: Rolling back instant 
[==>20200825065331__compaction__INFLIGHT]
   20/08/25 07:10:07 WARN HoodieCopyOnWriteTable: Rollback finished without 
deleting inflight instant file. 
Instant=[==>20200825065331__compaction__INFLIGHT]
   20/08/25 07:17:12 WARN TaskSetManager: Lost task 2.0 in stage 41.0 (TID 
2539, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
org.apache.hudi.exception.HoodieException: java.io.FileNotFoundException: No 
such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:207)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdate(HoodieCopyOnWriteTable.java:190)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.compact(HoodieMergeOnReadTableCompactor.java:139)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.lambda$compact$644ebad7$1(HoodieMergeOnReadTableCompactor.java:98)
       at 
org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1040)
       at scala.collection.Iterator$$anon$10.next(Iterator.scala:459)
       at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:484)
       at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:490)
       at 
org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:221)
       at 
org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:349)
       at 
org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1182)
       at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1091)
       at 
org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1156)
       at 
org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:882)
       at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
       at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
       at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
       at org.apache.spark.scheduler.Task.run(Task.scala:123)
       at 
org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:411)
       at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
       at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
       at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
       at java.lang.Thread.run(Thread.java:748)
   Caused by: java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:617)
       at 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.getFileStatus(EmrFileSystem.java:553)
       at 
org.apache.parquet.hadoop.ParquetReader$Builder.build(ParquetReader.java:300)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:202)
       ... 26 more
   
   20/08/25 07:17:13 WARN TaskSetManager: Lost task 3.0 in stage 41.0 (TID 
2540, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
org.apache.hudi.exception.HoodieException: java.io.FileNotFoundException: No 
such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/56be5da5-f5f3-4675-8dec-433f3656f839-0_3-816-50630_20200825065331.parquet'
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:207)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdate(HoodieCopyOnWriteTable.java:190)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.compact(HoodieMergeOnReadTableCompactor.java:139)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.lambda$compact$644ebad7$1(HoodieMergeOnReadTableCompactor.java:98)
       at 
org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1040)
       at scala.collection.Iterator$$anon$10.next(Iterator.scala:459)
       at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:484)
       at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:490)
       at 
org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:221)
       at 
org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:349)
       at 
org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1182)
       at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1091)
       at 
org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1156)
       at 
org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:882)
       at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
       at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
       at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
       at org.apache.spark.scheduler.Task.run(Task.scala:123)
       at 
org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:411)
       at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
       at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
       at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
       at java.lang.Thread.run(Thread.java:748)
   Caused by: java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/56be5da5-f5f3-4675-8dec-433f3656f839-0_3-816-50630_20200825065331.parquet'
       at 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:617)
       at 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.getFileStatus(EmrFileSystem.java:553)
       at 
org.apache.parquet.hadoop.ParquetReader$Builder.build(ParquetReader.java:300)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:202)
       ... 26 more
   
   20/08/25 07:17:18 ERROR TaskSetManager: Task 2 in stage 41.0 failed 4 times; 
aborting job
   20/08/25 07:17:18 ERROR MicroBatchExecution: Query [id = 
6ea738ee-0886-4014-a2b2-f51efd693c45, runId = 
9afd92cc-2ced-47e9-a34b-9574dd82c229] terminated with error
   org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in 
stage 41.0 failed 4 times, most recent failure: Lost task 2.3 in stage 41.0 
(TID 2546, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
org.apache.hudi.exception.HoodieException: java.io.FileNotFoundException: No 
such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:207)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdate(HoodieCopyOnWriteTable.java:190)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.compact(HoodieMergeOnReadTableCompactor.java:139)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.lambda$compact$644ebad7$1(HoodieMergeOnReadTableCompactor.java:98)
       at 
org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1040)
       at scala.collection.Iterator$$anon$10.next(Iterator.scala:459)
       at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:484)
       at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:490)
       at 
org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:221)
       at 
org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:349)
       at 
org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1182)
       at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1091)
       at 
org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1156)
       at 
org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:882)
       at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
       at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
       at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
       at org.apache.spark.scheduler.Task.run(Task.scala:123)
       at 
org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:411)
       at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
       at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
       at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
       at java.lang.Thread.run(Thread.java:748)
   Caused by: java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:617)
       at 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.getFileStatus(EmrFileSystem.java:553)
       at 
org.apache.parquet.hadoop.ParquetReader$Builder.build(ParquetReader.java:300)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:202)
       ... 26 more
   
   Driver stacktrace:
       at 
org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2041)
       at 
org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2029)
       at 
org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2028)
       at 
scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
       at 
scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)
       at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49)
       at 
org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2028)
       at 
org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:966)
       at 
org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:966)
       at scala.Option.foreach(Option.scala:407)
       at 
org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:966)
       at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2262)
       at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2211)
       at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2200)
       at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
       at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:777)
       at org.apache.spark.SparkContext.runJob(SparkContext.scala:2061)
       at org.apache.spark.SparkContext.runJob(SparkContext.scala:2082)
       at org.apache.spark.SparkContext.runJob(SparkContext.scala:2101)
       at org.apache.spark.SparkContext.runJob(SparkContext.scala:2126)
       at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:945)
       at 
org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
       at 
org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
       at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
       at org.apache.spark.rdd.RDD.collect(RDD.scala:944)
       at org.apache.spark.api.java.JavaRDDLike.collect(JavaRDDLike.scala:361)
       at org.apache.spark.api.java.JavaRDDLike.collect$(JavaRDDLike.scala:360)
       at 
org.apache.spark.api.java.AbstractJavaRDDLike.collect(JavaRDDLike.scala:45)
       at 
org.apache.hudi.client.HoodieWriteClient.doCompactionCommit(HoodieWriteClient.java:1134)
       at 
org.apache.hudi.client.HoodieWriteClient.commitCompaction(HoodieWriteClient.java:1102)
       at 
org.apache.hudi.client.HoodieWriteClient.runCompaction(HoodieWriteClient.java:1085)
       at 
org.apache.hudi.client.HoodieWriteClient.compact(HoodieWriteClient.java:1056)
       at 
org.apache.hudi.client.HoodieWriteClient.lambda$forceCompact$13(HoodieWriteClient.java:1171)
       at org.apache.hudi.common.util.Option.ifPresent(Option.java:96)
       at 
org.apache.hudi.client.HoodieWriteClient.forceCompact(HoodieWriteClient.java:1168)
       at 
org.apache.hudi.client.HoodieWriteClient.postCommit(HoodieWriteClient.java:503)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:157)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:101)
       at 
org.apache.hudi.client.AbstractHoodieWriteClient.commit(AbstractHoodieWriteClient.java:92)
       at 
org.apache.hudi.HoodieSparkSqlWriter$.checkWriteStatus(HoodieSparkSqlWriter.scala:268)
       at 
org.apache.hudi.HoodieSparkSqlWriter$.write(HoodieSparkSqlWriter.scala:188)
       at org.apache.hudi.DefaultSource.createRelation(DefaultSource.scala:108)
       at 
org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
       at 
org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86)
       at 
org.apache.spark.sql.execution.SparkPlan.$anonfun$execute$1(SparkPlan.scala:131)
       at 
org.apache.spark.sql.execution.SparkPlan.$anonfun$executeQuery$1(SparkPlan.scala:156)
       at 
org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
       at 
org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
       at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
       at 
org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:83)
       at 
org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:83)
       at 
org.apache.spark.sql.DataFrameWriter.$anonfun$runCommand$1(DataFrameWriter.scala:676)
       at 
org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:84)
       at 
org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:165)
       at 
org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:74)
       at 
org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:676)
       at 
org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:290)
       at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:271)
       at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:229)
       at 
aaa.dataprocessor.writer.EventsWriter$.saveToHudiTable(EventsWriter.scala:145)
       at aaa.dataprocessor.MainProcessor$.processBatch(MainProcessor.scala:162)
       at 
aaa.dataprocessor.MainProcessor$.$anonfun$main$4(MainProcessor.scala:90)
       at 
aaa.dataprocessor.MainProcessor$.$anonfun$main$4$adapted(MainProcessor.scala:82)
       at 
org.apache.spark.sql.execution.streaming.sources.ForeachBatchSink.addBatch(ForeachBatchSink.scala:35)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runBatch$15(MicroBatchExecution.scala:537)
       at 
org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:84)
       at 
org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:165)
       at 
org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:74)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runBatch$14(MicroBatchExecution.scala:536)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:351)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:349)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:58)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.runBatch(MicroBatchExecution.scala:535)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$2(MicroBatchExecution.scala:198)
       at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:351)
       at 
org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:349)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:58)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$1(MicroBatchExecution.scala:166)
       at 
org.apache.spark.sql.execution.streaming.ProcessingTimeExecutor.execute(TriggerExecutor.scala:56)
       at 
org.apache.spark.sql.execution.streaming.MicroBatchExecution.runActivatedStream(MicroBatchExecution.scala:160)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:281)
       at 
org.apache.spark.sql.execution.streaming.StreamExecution$$anon$1.run(StreamExecution.scala:193)
   Caused by: org.apache.hudi.exception.HoodieException: 
java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:207)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdate(HoodieCopyOnWriteTable.java:190)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.compact(HoodieMergeOnReadTableCompactor.java:139)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.lambda$compact$644ebad7$1(HoodieMergeOnReadTableCompactor.java:98)
       at 
org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1040)
       at scala.collection.Iterator$$anon$10.next(Iterator.scala:459)
       at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:484)
       at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:490)
       at 
org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:221)
       at 
org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:349)
       at 
org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1182)
       at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1091)
       at 
org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1156)
       at 
org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:882)
       at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
       at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
       at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
       at org.apache.spark.scheduler.Task.run(Task.scala:123)
       at 
org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:411)
       at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
       at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
       at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
       at java.lang.Thread.run(Thread.java:748)
   Caused by: java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:617)
       at 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.getFileStatus(EmrFileSystem.java:553)
       at 
org.apache.parquet.hadoop.ParquetReader$Builder.build(ParquetReader.java:300)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:202)
       ... 26 more
   20/08/25 07:17:18 WARN TaskSetManager: Lost task 3.3 in stage 41.0 (TID 
2547, ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
TaskKilled (Stage cancelled)
   20/08/25 07:17:18 ERROR ApplicationMaster: User class threw exception: 
org.apache.spark.sql.streaming.StreamingQueryException: Job aborted due to 
stage failure: Task 2 in stage 41.0 failed 4 times, most recent failure: Lost 
task 2.3 in stage 41.0 (TID 2546, 
ip-xxx-xxx-xxx-xxx.ap-northeast-1.compute.internal, executor 1): 
org.apache.hudi.exception.HoodieException: java.io.FileNotFoundException: No 
such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:207)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdate(HoodieCopyOnWriteTable.java:190)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.compact(HoodieMergeOnReadTableCompactor.java:139)
       at 
org.apache.hudi.table.compact.HoodieMergeOnReadTableCompactor.lambda$compact$644ebad7$1(HoodieMergeOnReadTableCompactor.java:98)
       at 
org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1040)
       at scala.collection.Iterator$$anon$10.next(Iterator.scala:459)
       at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:484)
       at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:490)
       at 
org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:221)
       at 
org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:349)
       at 
org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1182)
       at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1091)
       at 
org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1156)
       at 
org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:882)
       at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
       at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
       at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
       at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
       at org.apache.spark.scheduler.Task.run(Task.scala:123)
       at 
org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:411)
       at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
       at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
       at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
       at java.lang.Thread.run(Thread.java:748)
   Caused by: java.io.FileNotFoundException: No such file or directory 
's3://myBucket/absolute_path_to/daas_date=2020/ff707f6d-0e41-405e-9623-f7302600765b-0_2-816-50629_20200825065331.parquet'
       at 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:617)
       at 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.getFileStatus(EmrFileSystem.java:553)
       at 
org.apache.parquet.hadoop.ParquetReader$Builder.build(ParquetReader.java:300)
       at 
org.apache.hudi.table.HoodieCopyOnWriteTable.handleUpdateInternal(HoodieCopyOnWriteTable.java:202)
       ... 26 more
   
   ```


----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

For queries about this service, please contact Infrastructure at:
[email protected]

[GitHub] [hudi] dm-tran commented on issue #2020: [SUPPORT] Compaction fails with "java.io.FileNotFoundException"

Reply via email to