Re: Re:HistoryServer完成任务丢失的问题
hi,我使用 1.10 测试过,发现 history server 查到 cancel job 的时间比较长(超过默认的 10s),但是最终还是会出现的。 如图:http://zhisheng-blog.oss-cn-hangzhou.aliyuncs.com/2020-10-14-033612.png [image: image.png] 刘建刚 于2020年9月28日周一 下午4:13写道: > 修复方案为:https://issues.apache.org/jira/browse/FLINK-18959 > > xiao cai 于2020年9月27日周日 下午6:42写道: > > > 貌似是个bug,我的版本是1.11.0 > > > > > > > > > https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22 > > > > > > 原始邮件 > > 发件人: xiao cai > > 收件人: user-zh > > 发送时间: 2020年9月27日(周日) 18:41 > > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > > > > 貌似是个bug > > > > > > 原始邮件 > > 发件人: xiao cai > > 收件人: user-zh > > 发送时间: 2020年9月27日(周日) 18:31 > > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > > > > 是在history server中没有,但是yarn > > logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history > > server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael > > Ran 收件人: user-zh 发送时间: > > 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 > 你的意思是,日志彻底消失了?完全找不到? > > 不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao > > cai" 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 > > >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran< > > greemqq...@163.com> >收件人: user-zh >发送时间: > > 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history > > 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" 写道: > > >Hi: >flink 1.11.0 > > > >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history > > server中却找不到这个任务。同时我尝试了再yarn中kill > > application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history > > server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao. >
Re: Re:HistoryServer完成任务丢失的问题
修复方案为:https://issues.apache.org/jira/browse/FLINK-18959 xiao cai 于2020年9月27日周日 下午6:42写道: > 貌似是个bug,我的版本是1.11.0 > > > > https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22 > > > 原始邮件 > 发件人: xiao cai > 收件人: user-zh > 发送时间: 2020年9月27日(周日) 18:41 > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > 貌似是个bug > > > 原始邮件 > 发件人: xiao cai > 收件人: user-zh > 发送时间: 2020年9月27日(周日) 18:31 > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > 是在history server中没有,但是yarn > logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history > server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael > Ran 收件人: user-zh 发送时间: > 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到? > 不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao > cai" 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 > >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran< > greemqq...@163.com> >收件人: user-zh >发送时间: > 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history > 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" 写道: > >Hi: >flink 1.11.0 > >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history > server中却找不到这个任务。同时我尝试了再yarn中kill > application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history > server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.
Re:HistoryServer完成任务丢失的问题
是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 问题是cancel的那次job,并没有上传日志信息到归档目录里。 原始邮件 发件人: Michael Ran 收件人: user-zh 发送时间: 2020年9月27日(周日) 16:45 主题: Re:HistoryServer完成任务丢失的问题 history 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" 写道: >Hi: >flink 1.11.0 >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history server中却找不到这个任务。同时我尝试了再yarn中kill application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.
Re:HistoryServer完成任务丢失的问题
history 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" 写道: >Hi: >flink 1.11.0 >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history >server中却找不到这个任务。同时我尝试了再yarn中kill >application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history >server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.