hi,还是这个问题,请问有什么确定的方法能确认某个文件属于无用,还是有用吗。 比如一种复杂的方式是:判定任务当前运行到什么时间点,比如14点,认为12点的数据已经完整了,则12点对应的分区中.开头文件都可以删除。但这种判定需要结合任务的watermark看任务跑到什么时间等,复杂性较高。 话说success文件可行吗,compact结束才有success?还是先有success后再慢慢compact呢。如果是前者,我可以写个ct脚本,遍历目录下存在success的情况下,则可以删除该目录下.开头的全部文件。
yidan zhao <[email protected]> 于2021年11月17日周三 上午10:22写道: > 还有基于检查点启动,首先数据完整性最终实际没问题对吧。 > > yidan zhao <[email protected]> 于2021年11月17日周三 上午10:22写道: > >> 出错原因是因为机器不稳定,tm超时等。 >> 话说这种有什么判别方法用于定期清理吗。 >> >> Caizhi Weng <[email protected]> 于2021年11月17日周三 上午9:50写道: >> >>> Hi! >>> >>> 因为 compact 是在每次 checkpoint 的时候进行的,在做 checkpoint 之前产生的文件都是以 . >>> 开头的,表示当前不可见。只有 >>> checkpoint >>> 之后才会重命名为可见文件。因此如果任务频繁出现错误,这些不可见文件就会留在目录里,导致文件数增加。建议首先把任务为什么频繁出错查出来。 >>> >>> yidan zhao <[email protected]> 于2021年11月16日周二 下午5:36写道: >>> >>> > >>> > >>> 如题,目前没有具体看是没生效,还是来不及compact。任务正常情况没问题,但是如果任务出现频繁错误,导致过一会重启一次,这种情况导致文件数暴增,compact功能不生效。 >>> > >>> >>
