Re: flink on yarn 模式日志问题

Biao Liu Mon, 08 Apr 2019 00:44:03 -0700

1. 这个日志确实会存在，如果你觉得5秒打印两行不能接受的话，我能想到的几种解决方法
  1.1. 加大 checkpoint 间隔
  1.2. 单独指定该 logger 的 level，修改
log4j.properties，增加一行：log4j.logger.org.apache.flink.runtime.checkpoint.CheckpointCoordinator=WARN
  1.3. 修改源代码重新编译
2. 确实在 YARN 模式下，日志的位置不固定，和你的需求不匹配，standalone 模式可能更友好些。硬核一点的方法，可以扩展 log4j
appender，不只打到文件，可以搜一下有没有现成的解决方案
3. Flink session/job 挂掉的话，仍可以通过 YARN 获取日志，只是无法和 Flink task
映射，需要自己分析对应关系来排查问题。可以考虑使用 Flink history server 来协助排查，参见：
https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/historyserver.html


1900 <575209...@qq.com> 于2019年4月4日周四 下午1:42写道：

> 很高兴回复的这么详细，以后问题会继续描述详细点
>
>
> 现在目前flink用的版本是社区版1.7.2，hadoop版本是2.8.5,采用flink on yarn ha部署，服务启动采用 run a
> job on yarn
>
>
> 1.代码中配置了env.enableCheckpointing(5000);想屏蔽的日志如下
>
>
> 2019-04-04 13:23:50,176 INFO
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering
> checkpoint 2707 @ 1554355430174 for job c6028596fef272ae93bf4cfb625a48c9.
> 2019-04-04 13:23:50,218 INFO
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed
> checkpoint 2707 for job c6028596fef272ae93bf4cfb625a48c9 (13472 bytes in 33
> ms).
>
>
>
> 假设配置的checkpoint时间为5秒，那么时间会会越来越大，在yarn 的控台查看jobmanager.log会越来越卡，一天下来就打不开了
>
>
> 如 页面通过点击如下面查看
> jobmanager.err : Total file length is 573 bytes.
> jobmanager.log : Total file length is 363370 bytes.
> jobmanager.out : Total file length is 0 bytes.
>
>
>
>
> 3.是想通过其他日志搜集服务，将日志搜集到其他服务器作为监控（比如放到es里等），现在根据第二个回答，找到路径了，这种情况下，每次启动都随机生成container_id,路径是随机变化的，
> 这样貌似不怎么好搜集把？大家是什么处理日志的？
>
> 4.根据上面的，突然想到个问题是，假设现在flink任务挂了或者停了，就没法在yarn控台继续跟踪了(想通过日志追踪到底发生了什么错误)，没法映射过去，这个该怎么设置了？或者用上面第3种进行搜集汇总到日志服务器上？
>
>
>
>
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人: "Biao Liu"<mmyy1...@gmail.com>;
> 发送时间: 2019年4月4日(星期四) 中午11:14
> 收件人: "user-zh"<user-zh@flink.apache.org>;
>
> 主题: Re: flink on yarn 模式 日志问题
>
>
>
> Hi,
> 首先，Flink 框架的日志应该不多，不知道具体涉及到 checkpoint 的是哪些 log 呢？(建议以后提问给出尽可能详细的信息，例如使用版本和
> log 文件)
> 1. log 是通过 log4j/logback 等第三方系统控制，conf 文件夹中有相应配置文件，可以调整整体或单个 logger 的
> level，建议查阅相关系统资料
> 2. Flink on YARN 模式下，一般访问 log 是通过 Flink web UI 跳转查看。如果坚持想找到具体 log
> 文件，Application 结束前在本地文件，可通过 container 进程启动命令看到具体 log 文件，结束后可能归档到 HDFS 上，请查阅
> YARN 相关资料
> 3. log 使用方式，建议阅读官网文档，详见
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/logging.html
> ，另，Flink
> 本身不带“日志监控系统”，日志路径详见上述第二个回答
>
> 1900 <575209...@qq.com> 于2019年4月4日周四 上午10:45写道：
>
> > 程序中设置了检查点，env.enableCheckpointing(5000);
> > 日志中就不断的有日志，时间长了日志就会越来越大，在yarn控台 看job日志，会越来越大，根本就不能看了
> > 1.请问检查点日志打印可以关闭吗？或者有其他方式看吗？
> > 2.请问在这种模式下，如何去找日志文件存放文件路径，目前找不到，是不是在hdfs中
> > 3.请问flink任务中大家是怎么打印日志的？假设slf4j+logback，在on yarn
> > 模式下如何设置，日志会打到什么地方，能不能被搜集到监控系统中搜集到（日志文件在具体某个路径下，还是在hdfs中）

Re: flink on yarn 模式 日志问题

回复

Re: flink on yarn 模式日志问题