Re: Flink HIve 文件压缩报错

周瑞 Wed, 11 Aug 2021 04:52:20 -0700

您好：
&nbsp; 这个文件确实不存在了，这种情况目前怎样设置可以让作业继续跑
&nbsp;
&nbsp;
------------------&nbsp;Original&nbsp;------------------
From: &nbsp;"Rui Li"<[email protected]&gt;;
Date: &nbsp;Wed, Aug 11, 2021 07:49 PM
To: &nbsp;"user-zh"<[email protected]&gt;;


Subject: &nbsp;Re: Flink HIve 文件压缩报错

&nbsp;

这个文件是确实不在了么？是不是被别的进程删掉了呢，可以通过hdfs的audit log来判断一下。

目前flink这边写文件的exactly
once语义是依赖HDFS的一致性保证的，如果之前写到HDFS的数据丢掉了就会破坏这个语义了（不过我们可以考虑在这种情况下让作业能继续跑）。

On Tue, Aug 10, 2021 at 7:45 PM 周瑞 <[email protected]&gt; wrote:

&gt; 您好：Flink
&gt; 
写入Hive的时候，在压缩文件的时候有个待压缩的文件丢失了，导致Flink程序一直在不断重启，请问文件丢失是什么原因导致的，这种情况怎么能够让Flink程序正常启动
&gt; 2021-08-10 19:34:19 java.io.UncheckedIOException:
&gt; java.io.FileNotFoundException: File does not exist:
&gt; 
hdfs://mycluster/user/hive/warehouse/test.db/offer_69/pt_dt=2021-8-10-72/.uncompacted-part-b2108114-b92b-4c37-b204-45f0150236f4-0-3
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.lambda$coordinate$1(CompactCoordinator.java:163)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; org.apache.flink.table.runtime.util.BinPacking.pack(BinPacking.java:38)
&gt;&nbsp;&nbsp; at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.lambda$coordinate$2(CompactCoordinator.java:173)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at 
java.util.HashMap.forEach(HashMap.java:1288)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
 at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.coordinate(CompactCoordinator.java:169)
&gt; at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.commitUpToCheckpoint(CompactCoordinator.java:151)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.processElement(CompactCoordinator.java:141)
&gt;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.streaming.runtime.tasks.OneInputStreamTask$StreamTaskNetworkOutput.emitRecord(OneInputStreamTask.java:205)
&gt; at 
org.apache.flink.streaming.runtime.io.AbstractStreamTaskNetworkInput.processElement(AbstractStreamTaskNetworkInput.java:134)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at 
org.apache.flink.streaming.runtime.io.AbstractStreamTaskNetworkInput.emitNext(AbstractStreamTaskNetworkInput.java:105)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at 
org.apache.flink.streaming.runtime.io.StreamOneInputProcessor.processInput(StreamOneInputProcessor.java:66)
&gt; at
&gt; 
org.apache.flink.streaming.runtime.tasks.StreamTask.processInput(StreamTask.java:423)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor.runMailboxLoop(MailboxProcessor.java:204)
&gt; at
&gt; 
org.apache.flink.streaming.runtime.tasks.StreamTask.runMailboxLoop(StreamTask.java:681)
&gt;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.streaming.runtime.tasks.StreamTask.executeInvoke(StreamTask.java:636)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.streaming.runtime.tasks.StreamTask.runWithCleanUpOnFail(StreamTask.java:647)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:620)
&gt;&nbsp;&nbsp;&nbsp;&nbsp; at 
org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:779)
&gt;&nbsp; at 
org.apache.flink.runtime.taskmanager.Task.run(Task.java:566)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
 at
&gt; java.lang.Thread.run(Thread.java:748) Caused by:
&gt; java.io.FileNotFoundException: File does not exist:
&gt; 
hdfs://mycluster/user/hive/warehouse/test.db/offer_69/pt_dt=2021-8-10-72/.uncompacted-part-b2108114-b92b-4c37-b204-45f0150236f4-0-3
&gt;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.hadoop.hdfs.DistributedFileSystem$29.doCall(DistributedFileSystem.java:1583)
&gt;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.hadoop.hdfs.DistributedFileSystem$29.doCall(DistributedFileSystem.java:1576)
&gt;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
&gt; at
&gt; 
org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1591)
&gt; at
&gt; 
org.apache.flink.hive.shaded.fs.hdfs.HadoopFileSystem.getFileStatus(HadoopFileSystem.java:85)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; at
&gt; 
org.apache.flink.table.filesystem.stream.compact.CompactCoordinator.lambda$coordinate$1(CompactCoordinator.java:161)
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ... 19 more



-- 
Best regards!
Rui Li

Re: Flink HIve 文件压缩报错

回复