Re: 回复: 回复: 本地checkpoint 文件190G了

2019-12-01 文章 Yun Tang
Hi 

为什么你知道本地checkpoint文件达到190GB了,具体是哪个目录撑到了190GB?

如果没有启用 state.backend.local-recovery:
* 使用FsSateBackend/Memory StateBackend, 
本地不应该有什么checkpoint文件残留,因为执行checkpoint时,直接写HDFS了
* 使用 RocksDB state backend,无论是否开启incremental 
checkpoint本地也不应该有任何checkpoint文件残留(因为会被及时清理掉),除非你的DB目录本身就达到了190GB

如果启用了 state.backend.local-recovery:
* 使用Memory StateBackend:与不启用时等效,因为Memory StateBackend不支持local recovery
* 
使用FsStateBackend/RocksDBStateBackend:存有本地checkpoint备份,目前只能等到有一个checkpoint完成才能及时清理无用的文件,需要等
 FLINK-8871 fix 才能及时清理本地无用文件

我所能怀疑的就是你的作业长时间checkpoint没有成功,导致本地的local recovery目录不断增大。
另外,retain checkpoint(默认为1)是分布式checkpoint store中保留几个checkpoint的概念,与task 
manager端本地的checkpoint保留几个无关。

祝好
唐云


On 11/30/19, 2:15 PM, "sun" <1392427...@qq.com> wrote:

感谢,我这样在生产上试试看-- 原始邮件 --
发件人: "tison"
发送时间: 2019年11月30日(星期六) 下午2:12
收件人: "user-zh";
主题: Re: 回复: 本地checkpoint 文件190G了


retain 调小是你的场景比较简单的方法,1 2 3 都行,你可以试试...

Best,
tison.


sun <1392427...@qq.com> 于2019年11月30日周六 下午2:08写道:

> 好的,我主要想知道,怎么定时清理那些我用不到的checkpoint 文,怎么让我的本地checkpoint
> 不会一直长大-- 原始邮 --
> 发人: "tangjunli...@huitongjy.com"
> 发送时间: 2019年11月30日(星期六) 下午2:06
> 收人: "user-zh";
> 主题: 回复: 回复: 本地checkpoint 文190G了
>
>
> 如果处理数据没有达到一定量级,建议state.backend.incremental 设为false
>
>
>
> tangjunli...@huitongjy.com
>
> 发人: sun
> 发送时间: 2019-11-30 14:05
> 收人: user-zh
> 主题: 回复: 本地checkpoint 文190G了
> rocksdb ,设置的true-- 原始邮 --
> 发人: "tangjunli...@huitongjy.com"
> 发送时间: 2019年11月30日(星期六) 下午2:03
> 收人: "user-zh";
> 主题: 回复: 本地checkpoint 文190G了
>
>
> 用的什么backend? state.backend.incremental  这个参数设置的什么?
>
>
>
> tangjunli...@huitongjy.com
> 发人: sun
> 发送时间: 2019-11-30 10:13
> 收人: flink; user-zh-subscribe
> 主题: 本地checkpoint 文190G了
> 求助,我的文夹一直在长大
>
>
>
>
> 发自我的iPhone



Re: 回复: 本地checkpoint 文件190G了

2019-11-29 文章 tison
retain 调小是你的场景比较简单的方法,1 2 3 都行,你可以试试...

Best,
tison.


sun <1392427...@qq.com> 于2019年11月30日周六 下午2:08写道:

> 好的,我主要想知道,怎么定时清理那些我用不到的checkpoint 文件,怎么让我的本地checkpoint
> 不会一直长大-- 原始邮件 --
> 发件人: "tangjunli...@huitongjy.com"
> 发送时间: 2019年11月30日(星期六) 下午2:06
> 收件人: "user-zh";
> 主题: 回复: 回复: 本地checkpoint 文件190G了
>
>
> 如果处理数据没有达到一定量级,建议state.backend.incremental 设为false
>
>
>
> tangjunli...@huitongjy.com
>
> 发人: sun
> 发送时间: 2019-11-30 14:05
> 收人: user-zh
> 主题: 回复: 本地checkpoint 文190G了
> rocksdb ,设置的true-- 原始邮 --
> 发人: "tangjunli...@huitongjy.com"
> 发送时间: 2019年11月30日(星期六) 下午2:03
> 收人: "user-zh";
> 主题: 回复: 本地checkpoint 文190G了
>
>
> 用的什么backend? state.backend.incremental  这个参数设置的什么?
>
>
>
> tangjunli...@huitongjy.com
> 发人: sun
> 发送时间: 2019-11-30 10:13
> 收人: flink; user-zh-subscribe
> 主题: 本地checkpoint 文190G了
> 求助,我的文夹一直在长大
>
>
>
>
> 发自我的iPhone


Re:回复: 本地checkpoint 文件190G了

2019-11-29 文章 Henry


太多了, 只保留最新的哪个checkpoint或者保留2、3个就好了。






在 2019-11-30 10:33:37,"sun" <1392427...@qq.com> 写道:
>retain 配置的20,还需要在程序里面配置什么吗,increase已经开启了,请问程序要怎么配置 -- 原始邮件 
>--
>发件人: "tison"
>发送时间: 2019年11月30日(星期六) 上午10:31
>收件人: "user-zh";
>主题: Re: 本地checkpoint 文件190G了
>
>
>你的 retain 数量设置是多少,然后程序里 state 本身写了多大的 state,有没开启 incremental checkpoint
>
>Best,
>tison.
>
>
>sun <1392427...@qq.com> 于2019年11月30日周六 上午10:28写道:
>
>> 花了两天时间-- 原始邮 --
>> 发人: "Henry"
>> 发送时间: 2019年11月30日(星期六) 上午10:25
>> 收人: "user-zh";
>> 主题: Re:本地checkpoint 文190G了
>>
>>
>>
>> 是不是很快就增长到那么多了?
>>
>>
>>
>>
>>
>> 在 2019-11-30 10:13:27,"sun" <1392427...@qq.com> 写道:
>>
>> 求助,我的文夹一直在长大
>>
>>
>>
>>
>> 发自我的iPhone