回复:env.readFile 递归监控目录 如何清理状态(历史目录)

2020-06-18 文章 star
感谢您的建议!如果我把hdfs目录删掉,flink里对应的状态也会清掉吗? 发自我的iPhone -- 原始邮件 -- 发件人: Jark Wu https://issues.apache.org/jira/browse/FLINK-18357; 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。 Best, Jark On Wed, 17 Jun 2020 at 14:04, star

Re: env.readFile 递归监控目录 如何清理状态(历史目录)

2020-06-18 文章 Jark Wu
Hi, 我觉得这个也许可以先从业务上解决。比如你可以有另一个作业定期去 HDFS 上把过期的数据清理掉(比如半个月前的?)。 另外,我也开了一个 issue 去跟进这个问题,看看社区里面对这块比较熟的同学有没有更好的建议。FLINK-18357 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。 Best, Jark On Wed, 17 Jun