Hello,图挂了,可以搞个图床了挂链接到邮件列表。。。 另外问下为什么不从最新的cp开始恢复作业呢?这样我理解会有脏数据吧。
> 在 2020年4月19日,23:23,Yun Gao <yungao...@aliyun.com.INVALID> 写道: > > Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~? > > > ------------------------------------------------------------------ > From:酷酷的浑蛋 <apach...@163.com> > Send Time:2020 Apr. 18 (Sat.) 20:32 > To:user-zh <user-zh@flink.apache.org> > Subject:关于StreamingFileSink > > > 我在用StreamingFileSink > 往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况: > > > 其中part-4-9/part-4-13/part-4-14 > 这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressxxxxx/part-4-14.inprogressxxxxxxxxx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗 >