答复: flink metrics的 Reporter 问题
好的,感谢 发件人: Xintong Song 发送时间: 2019年5月15日 21:17 收件人: user-zh@flink.apache.org 主题: Re: flink metrics的 Reporter 问题 取hostname的第一部分是为了和hdfs的用法保持一致,可以参考一下当时的issue,作者专门提到了为什么要这么做。 https://issues.apache.org/jira/browse/FLINK-1170?focusedCommentId=14175285=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-14175285 Thank you~ Xintong Song On Wed, May 15, 2019 at 9:11 PM Yun Tang wrote: > Hi 嘉诚 > > 不清楚你使用的Flink具体版本,不过这个显示host-name第一部分的逻辑是一直存在的,因为大部分场景下host-name只需要取第一部分即可表征。具体实现代码可以参阅 > [1] 和 [2] 。 > > 受到你的启发,我创建了一个JIRA [3] 来追踪这个问题,解法是提供一个metrics > options,使得你们场景下可以展示metrics的完整hostname > > 祝好 > 唐云 > > > [1] > https://github.com/apache/flink/blob/master/flink-runtime/src/main/java/org/apache/flink/runtime/taskexecutor/TaskManagerRunner.java#L365 > [2] > https://github.com/apache/flink/blob/505b54c182867ccac5d1724d72f4085425ac08a8/flink-core/src/main/java/org/apache/flink/util/NetUtils.java#L59 > [3] https://issues.apache.org/jira/browse/FLINK-12520 > > From: 戴嘉诚 > Sent: Wednesday, May 15, 2019 20:24 > To: user-zh@flink.apache.org > Subject: flink metrics的 Reporter 问题 > > 大家好: > 我按照官网的文档,调试了flink metrics 的 reporter > ,加载了Slf4jReporter,这个Reporter运行是正常了,但是发现了个问题, > 在taskManager中打印里面的信息的时候,打印出来的是: > ambari.taskmanager.container_e31_1557826320302_0005_01_02.Status.JVM.ClassLoader.ClassesLoaded: > 12044 > 这里的格式范围,我看了源码应该是.taskmanager..: > > > 但是这里就存在了个问题了,这里的host,显示的是ambari,我服务器上配置的计算机名称应该是全量的ambari.host12.yy,这里的host把后面的给全部省略掉了。这样,我就无法判断这条记录是来自哪个机器了。 > > 同时,我在jobManager中看到jobmanager打印出来的日志中,是一个全量的机器名称,如下: > ambari.host02.yy.jobmanager.Status.JVM.Memory.NonHeap.Max: -1 > > 请问如果我要在taskmanager的reporter中获取到全量的机器名称,我这里需要如何处理?这里是一个bug吗?还是我的使用有误 >
答复: flink metrics的 Reporter 问题
Hi 唐云 我用的是flink1.8 感谢你的解答,我刚刚也找到了源码里面的[2]方式截取方式。目前来说,应该只能自己在report中,调用系统变量来获取主机名称了。 发件人: Yun Tang 发送时间: 2019年5月15日 21:11 收件人: user-zh@flink.apache.org 主题: Re: flink metrics的 Reporter 问题 Hi 嘉诚 不清楚你使用的Flink具体版本,不过这个显示host-name第一部分的逻辑是一直存在的,因为大部分场景下host-name只需要取第一部分即可表征。具体实现代码可以参阅 [1] 和 [2] 。 受到你的启发,我创建了一个JIRA [3] 来追踪这个问题,解法是提供一个metrics options,使得你们场景下可以展示metrics的完整hostname 祝好 唐云 [1] https://github.com/apache/flink/blob/master/flink-runtime/src/main/java/org/apache/flink/runtime/taskexecutor/TaskManagerRunner.java#L365 [2] https://github.com/apache/flink/blob/505b54c182867ccac5d1724d72f4085425ac08a8/flink-core/src/main/java/org/apache/flink/util/NetUtils.java#L59 [3] https://issues.apache.org/jira/browse/FLINK-12520 From: 戴嘉诚 Sent: Wednesday, May 15, 2019 20:24 To: user-zh@flink.apache.org Subject: flink metrics的 Reporter 问题 大家好: 我按照官网的文档,调试了flink metrics 的 reporter ,加载了Slf4jReporter,这个Reporter运行是正常了,但是发现了个问题, 在taskManager中打印里面的信息的时候,打印出来的是: ambari.taskmanager.container_e31_1557826320302_0005_01_02.Status.JVM.ClassLoader.ClassesLoaded: 12044 这里的格式范围,我看了源码应该是.taskmanager..: 但是这里就存在了个问题了,这里的host,显示的是ambari,我服务器上配置的计算机名称应该是全量的ambari.host12.yy,这里的host把后面的给全部省略掉了。这样,我就无法判断这条记录是来自哪个机器了。 同时,我在jobManager中看到jobmanager打印出来的日志中,是一个全量的机器名称,如下: ambari.host02.yy.jobmanager.Status.JVM.Memory.NonHeap.Max: -1 请问如果我要在taskmanager的reporter中获取到全量的机器名称,我这里需要如何处理?这里是一个bug吗?还是我的使用有误
Re: flink metrics的 Reporter 问题
取hostname的第一部分是为了和hdfs的用法保持一致,可以参考一下当时的issue,作者专门提到了为什么要这么做。 https://issues.apache.org/jira/browse/FLINK-1170?focusedCommentId=14175285=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-14175285 Thank you~ Xintong Song On Wed, May 15, 2019 at 9:11 PM Yun Tang wrote: > Hi 嘉诚 > > 不清楚你使用的Flink具体版本,不过这个显示host-name第一部分的逻辑是一直存在的,因为大部分场景下host-name只需要取第一部分即可表征。具体实现代码可以参阅 > [1] 和 [2] 。 > > 受到你的启发,我创建了一个JIRA [3] 来追踪这个问题,解法是提供一个metrics > options,使得你们场景下可以展示metrics的完整hostname > > 祝好 > 唐云 > > > [1] > https://github.com/apache/flink/blob/master/flink-runtime/src/main/java/org/apache/flink/runtime/taskexecutor/TaskManagerRunner.java#L365 > [2] > https://github.com/apache/flink/blob/505b54c182867ccac5d1724d72f4085425ac08a8/flink-core/src/main/java/org/apache/flink/util/NetUtils.java#L59 > [3] https://issues.apache.org/jira/browse/FLINK-12520 > > From: 戴嘉诚 > Sent: Wednesday, May 15, 2019 20:24 > To: user-zh@flink.apache.org > Subject: flink metrics的 Reporter 问题 > > 大家好: > 我按照官网的文档,调试了flink metrics 的 reporter > ,加载了Slf4jReporter,这个Reporter运行是正常了,但是发现了个问题, > 在taskManager中打印里面的信息的时候,打印出来的是: > ambari.taskmanager.container_e31_1557826320302_0005_01_02.Status.JVM.ClassLoader.ClassesLoaded: > 12044 > 这里的格式范围,我看了源码应该是.taskmanager..: > > > 但是这里就存在了个问题了,这里的host,显示的是ambari,我服务器上配置的计算机名称应该是全量的ambari.host12.yy,这里的host把后面的给全部省略掉了。这样,我就无法判断这条记录是来自哪个机器了。 > > 同时,我在jobManager中看到jobmanager打印出来的日志中,是一个全量的机器名称,如下: > ambari.host02.yy.jobmanager.Status.JVM.Memory.NonHeap.Max: -1 > > 请问如果我要在taskmanager的reporter中获取到全量的机器名称,我这里需要如何处理?这里是一个bug吗?还是我的使用有误 >
Re: flink metrics的 Reporter 问题
Hi 嘉诚 不清楚你使用的Flink具体版本,不过这个显示host-name第一部分的逻辑是一直存在的,因为大部分场景下host-name只需要取第一部分即可表征。具体实现代码可以参阅 [1] 和 [2] 。 受到你的启发,我创建了一个JIRA [3] 来追踪这个问题,解法是提供一个metrics options,使得你们场景下可以展示metrics的完整hostname 祝好 唐云 [1] https://github.com/apache/flink/blob/master/flink-runtime/src/main/java/org/apache/flink/runtime/taskexecutor/TaskManagerRunner.java#L365 [2] https://github.com/apache/flink/blob/505b54c182867ccac5d1724d72f4085425ac08a8/flink-core/src/main/java/org/apache/flink/util/NetUtils.java#L59 [3] https://issues.apache.org/jira/browse/FLINK-12520 From: 戴嘉诚 Sent: Wednesday, May 15, 2019 20:24 To: user-zh@flink.apache.org Subject: flink metrics的 Reporter 问题 大家好: 我按照官网的文档,调试了flink metrics 的 reporter ,加载了Slf4jReporter,这个Reporter运行是正常了,但是发现了个问题, 在taskManager中打印里面的信息的时候,打印出来的是: ambari.taskmanager.container_e31_1557826320302_0005_01_02.Status.JVM.ClassLoader.ClassesLoaded: 12044 这里的格式范围,我看了源码应该是.taskmanager..: 但是这里就存在了个问题了,这里的host,显示的是ambari,我服务器上配置的计算机名称应该是全量的ambari.host12.yy,这里的host把后面的给全部省略掉了。这样,我就无法判断这条记录是来自哪个机器了。 同时,我在jobManager中看到jobmanager打印出来的日志中,是一个全量的机器名称,如下: ambari.host02.yy.jobmanager.Status.JVM.Memory.NonHeap.Max: -1 请问如果我要在taskmanager的reporter中获取到全量的机器名称,我这里需要如何处理?这里是一个bug吗?还是我的使用有误
flink metrics的 Reporter 问题
大家好: 我按照官网的文档,调试了flink metrics 的 reporter ,加载了Slf4jReporter,这个Reporter运行是正常了,但是发现了个问题, 在taskManager中打印里面的信息的时候,打印出来的是: ambari.taskmanager.container_e31_1557826320302_0005_01_02.Status.JVM.ClassLoader.ClassesLoaded: 12044 这里的格式范围,我看了源码应该是.taskmanager..: 但是这里就存在了个问题了,这里的host,显示的是ambari,我服务器上配置的计算机名称应该是全量的ambari.host12.yy,这里的host把后面的给全部省略掉了。这样,我就无法判断这条记录是来自哪个机器了。 同时,我在jobManager中看到jobmanager打印出来的日志中,是一个全量的机器名称,如下: ambari.host02.yy.jobmanager.Status.JVM.Memory.NonHeap.Max: -1 请问如果我要在taskmanager的reporter中获取到全量的机器名称,我这里需要如何处理?这里是一个bug吗?还是我的使用有误
Re:Re: flink-kafka Trigger 无法触发问题
非常感谢您的答复。接下来按照您提供的思路进行排查 在 2019-05-15 16:23:04,"Terry Wang" 写道: >有可能是并行度设置大时,source的部分并发没有数据,导致eventTime未更新。可以排查下是否是这个问题 > >> 在 2019年5月15日,下午2:18,13341000780 <13341000...@163.com> 写道: >> >> hi, 各位大牛好! >> 自定义了窗口触发器trigger,在onElement函数中注册了EventTimeTimer。出现了很离奇的问题,当并行度Parallelism >> 设置的比slots数和CPU核数小时,能成功触发onEventTime函数,当大于slots数或者大于CPU核数时,发现无法触发onEventTime,已确定元素能成功进入窗口,即onElement函数能成功触发。有人遇到过类似的问题吗,求解答。 >> >> >> 非常感谢. >> >> >> >> >> >
Re: flink-kafka Trigger 无法触发问题
有可能是并行度设置大时,source的部分并发没有数据,导致eventTime未更新。可以排查下是否是这个问题 > 在 2019年5月15日,下午2:18,13341000780 <13341000...@163.com> 写道: > > hi, 各位大牛好! > 自定义了窗口触发器trigger,在onElement函数中注册了EventTimeTimer。出现了很离奇的问题,当并行度Parallelism > 设置的比slots数和CPU核数小时,能成功触发onEventTime函数,当大于slots数或者大于CPU核数时,发现无法触发onEventTime,已确定元素能成功进入窗口,即onElement函数能成功触发。有人遇到过类似的问题吗,求解答。 > > > 非常感谢. > > > > >
flink-kafka Trigger 无法触发问题
hi, 各位大牛好! 自定义了窗口触发器trigger,在onElement函数中注册了EventTimeTimer。出现了很离奇的问题,当并行度Parallelism 设置的比slots数和CPU核数小时,能成功触发onEventTime函数,当大于slots数或者大于CPU核数时,发现无法触发onEventTime,已确定元素能成功进入窗口,即onElement函数能成功触发。有人遇到过类似的问题吗,求解答。 非常感谢.