Re: flink on yarn 模式 日志问题

2019-04-08 文章 Yang Peng
flink的historyserver 貌似只能查看completed jobs 不能查看日志,这个跟spark的historyserver有差别吧

Biao Liu  于2019年4月8日周一 下午3:43写道:

> 1. 这个日志确实会存在,如果你觉得5秒打印两行不能接受的话,我能想到的几种解决方法
>   1.1. 加大 checkpoint 间隔
>   1.2. 单独指定该 logger 的 level,修改
>
> log4j.properties,增加一行:log4j.logger.org.apache.flink.runtime.checkpoint.CheckpointCoordinator=WARN
>   1.3. 修改源代码重新编译
> 2. 确实在 YARN 模式下,日志的位置不固定,和你的需求不匹配,standalone 模式可能更友好些。硬核一点的方法,可以扩展 log4j
> appender,不只打到文件,可以搜一下有没有现成的解决方案
> 3. Flink session/job 挂掉的话,仍可以通过 YARN 获取日志,只是无法和 Flink task
> 映射,需要自己分析对应关系来排查问题。可以考虑使用 Flink history server 来协助排查,参见:
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/historyserver.html
>
> 1900 <575209...@qq.com> 于2019年4月4日周四 下午1:42写道:
>
> > 很高兴回复的这么详细,以后问题会继续描述详细点
> >
> >
> > 现在目前flink用的版本是社区版1.7.2,hadoop版本是2.8.5,采用flink on yarn ha部署,服务启动采用 run a
> > job on yarn
> >
> >
> > 1.代码中配置了env.enableCheckpointing(5000);想屏蔽的日志如下
> >
> >
> > 2019-04-04 13:23:50,176 INFO
> > org.apache.flink.runtime.checkpoint.CheckpointCoordinator -
> Triggering
> > checkpoint 2707 @ 1554355430174 for job c6028596fef272ae93bf4cfb625a48c9.
> > 2019-04-04 13:23:50,218 INFO
> > org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed
> > checkpoint 2707 for job c6028596fef272ae93bf4cfb625a48c9 (13472 bytes in
> 33
> > ms).
> >
> >
> >
> > 假设配置的checkpoint时间为5秒,那么时间会会越来越大,在yarn 的控台查看jobmanager.log会越来越卡,一天下来就打不开了
> >
> >
> > 如 页面通过点击如下面查看
> > jobmanager.err : Total file length is 573 bytes.
> > jobmanager.log : Total file length is 363370 bytes.
> > jobmanager.out : Total file length is 0 bytes.
> >
> >
> >
> >
> >
> 3.是想通过其他日志搜集服务,将日志搜集到其他服务器作为监控(比如放到es里等),现在根据第二个回答,找到路径了,这种情况下,每次启动都随机生成container_id,路径是随机变化的,
> > 这样貌似不怎么好搜集把?大家是什么处理日志的?
> >
> >
> 4.根据上面的,突然想到个问题是,假设现在flink任务挂了或者停了,就没法在yarn控台继续跟踪了(想通过日志追踪到底发生了什么错误),没法映射过去,这个该怎么设置了?或者用上面第3种进行搜集汇总到日志服务器上?
> >
> >
> >
> >
> >
> >
> >
> >
> > -- 原始邮件 --
> > 发件人: "Biao Liu";
> > 发送时间: 2019年4月4日(星期四) 中午11:14
> > 收件人: "user-zh";
> >
> > 主题: Re: flink on yarn 模式 日志问题
> >
> >
> >
> > Hi,
> > 首先,Flink 框架的日志应该不多,不知道具体涉及到 checkpoint 的是哪些 log
> 呢?(建议以后提问给出尽可能详细的信息,例如使用版本和
> > log 文件)
> > 1. log 是通过 log4j/logback 等第三方系统控制,conf 文件夹中有相应配置文件,可以调整整体或单个 logger 的
> > level,建议查阅相关系统资料
> > 2. Flink on YARN 模式下,一般访问 log 是通过 Flink web UI 跳转查看。如果坚持想找到具体 log
> > 文件,Application 结束前在本地文件,可通过 container 进程启动命令看到具体 log 文件,结束后可能归档到 HDFS
> 上,请查阅
> > YARN 相关资料
> > 3. log 使用方式,建议阅读官网文档,详见
> >
> >
> https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/logging.html
> > ,另,Flink
> > 本身不带“日志监控系统”,日志路径详见上述第二个回答
> >
> > 1900 <575209...@qq.com> 于2019年4月4日周四 上午10:45写道:
> >
> > > 程序中设置了检查点,env.enableCheckpointing(5000);
> > > 日志中就不断的有日志,时间长了日志就会越来越大,在yarn控台 看job日志,会越来越大,根本就不能看了
> > > 1.请问检查点日志打印可以关闭吗?或者有其他方式看吗?
> > > 2.请问在这种模式下,如何去找日志文件存放文件路径,目前找不到,是不是在hdfs中
> > > 3.请问flink任务中大家是怎么打印日志的?假设slf4j+logback,在on yarn
> > > 模式下如何设置,日志会打到什么地方,能不能被搜集到监控系统中搜集到(日志文件在具体某个路径下,还是在hdfs中)
>


Re: flink on yarn 模式 日志问题

2019-04-08 文章 Biao Liu
1. 这个日志确实会存在,如果你觉得5秒打印两行不能接受的话,我能想到的几种解决方法
  1.1. 加大 checkpoint 间隔
  1.2. 单独指定该 logger 的 level,修改
log4j.properties,增加一行:log4j.logger.org.apache.flink.runtime.checkpoint.CheckpointCoordinator=WARN
  1.3. 修改源代码重新编译
2. 确实在 YARN 模式下,日志的位置不固定,和你的需求不匹配,standalone 模式可能更友好些。硬核一点的方法,可以扩展 log4j
appender,不只打到文件,可以搜一下有没有现成的解决方案
3. Flink session/job 挂掉的话,仍可以通过 YARN 获取日志,只是无法和 Flink task
映射,需要自己分析对应关系来排查问题。可以考虑使用 Flink history server 来协助排查,参见:
https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/historyserver.html

1900 <575209...@qq.com> 于2019年4月4日周四 下午1:42写道:

> 很高兴回复的这么详细,以后问题会继续描述详细点
>
>
> 现在目前flink用的版本是社区版1.7.2,hadoop版本是2.8.5,采用flink on yarn ha部署,服务启动采用 run a
> job on yarn
>
>
> 1.代码中配置了env.enableCheckpointing(5000);想屏蔽的日志如下
>
>
> 2019-04-04 13:23:50,176 INFO
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering
> checkpoint 2707 @ 1554355430174 for job c6028596fef272ae93bf4cfb625a48c9.
> 2019-04-04 13:23:50,218 INFO
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed
> checkpoint 2707 for job c6028596fef272ae93bf4cfb625a48c9 (13472 bytes in 33
> ms).
>
>
>
> 假设配置的checkpoint时间为5秒,那么时间会会越来越大,在yarn 的控台查看jobmanager.log会越来越卡,一天下来就打不开了
>
>
> 如 页面通过点击如下面查看
> jobmanager.err : Total file length is 573 bytes.
> jobmanager.log : Total file length is 363370 bytes.
> jobmanager.out : Total file length is 0 bytes.
>
>
>
>
> 3.是想通过其他日志搜集服务,将日志搜集到其他服务器作为监控(比如放到es里等),现在根据第二个回答,找到路径了,这种情况下,每次启动都随机生成container_id,路径是随机变化的,
> 这样貌似不怎么好搜集把?大家是什么处理日志的?
>
> 4.根据上面的,突然想到个问题是,假设现在flink任务挂了或者停了,就没法在yarn控台继续跟踪了(想通过日志追踪到底发生了什么错误),没法映射过去,这个该怎么设置了?或者用上面第3种进行搜集汇总到日志服务器上?
>
>
>
>
>
>
>
>
> ------ 原始邮件 --
> 发件人: "Biao Liu";
> 发送时间: 2019年4月4日(星期四) 中午11:14
> 收件人: "user-zh";
>
> 主题: Re: flink on yarn 模式 日志问题
>
>
>
> Hi,
> 首先,Flink 框架的日志应该不多,不知道具体涉及到 checkpoint 的是哪些 log 呢?(建议以后提问给出尽可能详细的信息,例如使用版本和
> log 文件)
> 1. log 是通过 log4j/logback 等第三方系统控制,conf 文件夹中有相应配置文件,可以调整整体或单个 logger 的
> level,建议查阅相关系统资料
> 2. Flink on YARN 模式下,一般访问 log 是通过 Flink web UI 跳转查看。如果坚持想找到具体 log
> 文件,Application 结束前在本地文件,可通过 container 进程启动命令看到具体 log 文件,结束后可能归档到 HDFS 上,请查阅
> YARN 相关资料
> 3. log 使用方式,建议阅读官网文档,详见
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/logging.html
> ,另,Flink
> 本身不带“日志监控系统”,日志路径详见上述第二个回答
>
> 1900 <575209...@qq.com> 于2019年4月4日周四 上午10:45写道:
>
> > 程序中设置了检查点,env.enableCheckpointing(5000);
> > 日志中就不断的有日志,时间长了日志就会越来越大,在yarn控台 看job日志,会越来越大,根本就不能看了
> > 1.请问检查点日志打印可以关闭吗?或者有其他方式看吗?
> > 2.请问在这种模式下,如何去找日志文件存放文件路径,目前找不到,是不是在hdfs中
> > 3.请问flink任务中大家是怎么打印日志的?假设slf4j+logback,在on yarn
> > 模式下如何设置,日志会打到什么地方,能不能被搜集到监控系统中搜集到(日志文件在具体某个路径下,还是在hdfs中)


Re: flink on yarn 模式 日志问题

2019-04-03 文章 Biao Liu
Hi,
首先,Flink 框架的日志应该不多,不知道具体涉及到 checkpoint 的是哪些 log 呢?(建议以后提问给出尽可能详细的信息,例如使用版本和
log 文件)
1. log 是通过 log4j/logback 等第三方系统控制,conf 文件夹中有相应配置文件,可以调整整体或单个 logger 的
level,建议查阅相关系统资料
2. Flink on YARN 模式下,一般访问 log 是通过 Flink web UI 跳转查看。如果坚持想找到具体 log
文件,Application 结束前在本地文件,可通过 container 进程启动命令看到具体 log 文件,结束后可能归档到 HDFS 上,请查阅
YARN 相关资料
3. log 使用方式,建议阅读官网文档,详见
https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/logging.html,另,Flink
本身不带“日志监控系统”,日志路径详见上述第二个回答

1900 <575209...@qq.com> 于2019年4月4日周四 上午10:45写道:

> 程序中设置了检查点,env.enableCheckpointing(5000);
> 日志中就不断的有日志,时间长了日志就会越来越大,在yarn控台 看job日志,会越来越大,根本就不能看了
> 1.请问检查点日志打印可以关闭吗?或者有其他方式看吗?
> 2.请问在这种模式下,如何去找日志文件存放文件路径,目前找不到,是不是在hdfs中
> 3.请问flink任务中大家是怎么打印日志的?假设slf4j+logback,在on yarn
> 模式下如何设置,日志会打到什么地方,能不能被搜集到监控系统中搜集到(日志文件在具体某个路径下,还是在hdfs中)