Re:Re: Flink 的 log 文件夹下产生了 44G 日志

2019-07-18 文章 Henry
明白啦,谢谢哈。 我以为会显示图片呢。 我贴链接下次。 在 2019-07-18 12:03:57,"zhisheng" 写道: >尴尬了,之前回复的邮件难道都是空白,Henry >你可以把报错信息放到哪个博客里面,然后再这里提供个链接,邮件看不到你的截图错误信息,你可以先根据错误信息定位问题所在,把错误的问题先解决掉,然后再来合理的配置重启策略。 > >Biao Liu 于2019年7月18日周四 上午1:15写道: > >> Hi Henry, >> >> 邮件列表貌似不能支持直接贴图,所以无法理解“里面不停的在产生 error >>

checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 陈冬林
state_checkpoints_dir/2d93ffacbddcf363b960317816566552/chk-2903/1e95606a-8f70-4876-ad6f-95e5cc38af86 state_checkpoints_dir/2d93ffacbddcf363b960317816566552/chk-2903/2a012214-734a-4c2b-804b-d96f4f3dddf8

Re: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 Yun Tang
Hi A1: chk-x文件下面的文件个数是跟operator个数并行度是有关系的,主要是operator state的文件。对于checkpoint场景,_metadata只是元数据,真实的operator数据都是在其他文件内。 A2: 不可以将这些文件合并在一起。因为_metadata内主要记录了文件路径,如果合并的话,找不到原始路径会有问题,无法从checkpoint进行restore 祝好 唐云 From: 陈冬林 <874269...@qq.com> Sent: Thursday, July 18,

Fwd: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 陈冬林
谢谢您的解答, 那些文件的数量是只和operator的并行度相关吗?是不是还有key 的个数等相关?有没有具体的公式呢?我没有在源码里找到这块的逻辑 还有一个最重要的问题,这些文件即然不能合并,state小文件合并指的是那些文件呢? 祝安 Andrew > 下面是被转发的邮件: > > 发件人: Yun Tang > 主题: 回复: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗? > 日期: 2019年7月18日 GMT+8 下午3:24:57 > 收件人: "user-zh@flink.apache.org" >

Re: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 Yun Tang
Hi 源码部分可以参考[1] DefaultOperatorStateBackendSnapshotStrategy 执行完成的时候,每个operator state backend 都只会产生至多一个文件。 state小文件合并,你指的应该是FLINK-11937 吧,这里的所谓合并是每个rocksDB state backend创建checkpoint的时候,在一定阈值内,若干sst文件的序列化结果都写到一个文件内。由于keyed

Fwd: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 陈冬林
好的,非常感谢您的解答。 > 下面是被转发的邮件: > > 发件人: Yun Tang > 主题: 回复: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗? > 日期: 2019年7月18日 GMT+8 下午4:06:59 > 收件人: "user-zh@flink.apache.org" > 回复-收件人: user-zh@flink.apache.org > > Hi > > 源码部分可以参考[1] DefaultOperatorStateBackendSnapshotStrategy 执行完成的时候,每个operator >

Re: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 Yun Tang
hi 首先先要确定是否是大量创造文件导致你的namenode RPC相应堆积多,RPC请求有很多种,例如每个task创建checkpoint目录也是会向namenode发送大量RPC请求的(参见 [https://issues.apache.org/jira/browse/FLINK-11696]);也有可能是你的checkpoint interval太小,导致文件不断被创建和删除(subsume old checkpoint),先找到NN压力大的root cause吧。

请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 highfei2011
Hi 各位, 晚上好! 以下名词在翻译 Glossary 章节时,有必要翻译成中文吗?名词列表如下: Flink Application Cluster Flink Cluster Event ExecutionGraph Function Instance Flink Job JobGraph Flink JobManager Logical Graph Managed State Flink Master Operator Operator Chain Partition Physical Graph

Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 Zili Chen
没有可援引的通译出处建议专有名词不要翻译。Glossary 的解释部分可以解释得详尽一点,上面像 record task 这些有比较普遍共识的还有商讨空间,像 transformation "operator chain" 强行翻译很可能是懂的人本来就看得懂,不懂的人看了还是不懂。现在不翻译在有通译之后可以改,先根据个人喜好翻译了以后就不好改了。 一点拙见。 Best, tison. highfei2011 于2019年7月18日周四 下午11:35写道: > Hi 各位, > 晚上好! > 以下名词在翻译 Glossary 章节时,有必要翻译成中文吗?名词列表如下:

Re:请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 highfei2011
Hi,Zili Chen: 早上好,你讲的没错,谢谢。另外我发现,Glossary 英文文档中没有 Slot 和 Parallelism 的说明,建议添加。这样可以方便初学者和用户的学习和使用! 祝好 Original Message Subject: Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗? From: Zili Chen To: user-zh@flink.apache.org CC: 没有可援引的通译出处建议专有名词不要翻译。Glossary 的解释部分可以解释得详尽一点,上面像

Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 Zili Chen
Hi, 欢迎有 PR 后同步到这个 thread 上 :-) Best, tison. highfei2011 于2019年7月19日周五 上午8:34写道: > Hi,Zili Chen: > 早上好,你讲的没错,谢谢。另外我发现,Glossary 英文文档中没有 Slot 和 Parallelism > 的说明,建议添加。这样可以方便初学者和用户的学习和使用! > > 祝好 > > > > Original Message > Subject: Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗? >

Flink 的 log 文件夹下产生了 44G 日志

2019-07-18 文章 Henry
大家好,之前那个报错图片大家没看到,重新弄一下。 报错图片链接: https://img-blog.csdnimg.cn/20190719092540880.png https://img-blog.csdnimg.cn/20190719092848500.png 我看报错的原因是,我这里Source用的是ActiveMQ,从昨天早上9点开始运行Flink任务接收消息,到今天早上8点都很正常。然后在今天早上8点4分的时候开始猛报错flink往log文件夹下写日志。第二个图是报错开始,显示ActiveMQ好像超时,然后就是消费者关闭一直猛写log。

Re: checkpoint 文件夹Chk-no 下面文件个数是能计算出来的吗?

2019-07-18 文章 Yun Tang
Hi [https://issues.apache.org/jira/browse/FLINK-11696] 里面目前的PR是我们的生产代码,你可以用。但是你现在的问题的root cause不是这个,而是创建文件和删除文件的请求太多了。可以统计一下目前你们几百个作业的checkpoint interval,一般而言3~5min的间隔就完全足够了,没必要将interval调整得太小,这是一个影响你们整个集群使用的配置,必要时需要告知用户正确的配置。

Re: Flink 的 log 文件夹下产生了 44G 日志

2019-07-18 文章 Caizhi Weng
Hi Henry, 这个 source 看起来不像是 Flink 提供的 source,应该是 source 本身实现的问题。你可能需要修改 source 的源码让它出错后关闭或者进行其它处理... Henry 于2019年7月19日周五 上午9:31写道: > 大家好,之前那个报错图片大家没看到,重新弄一下。 > 报错图片链接: > https://img-blog.csdnimg.cn/20190719092540880.png > https://img-blog.csdnimg.cn/20190719092848500.png > > >

Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 Jark Wu
Hi highfei, Thanks for bringing up this discussion. I would suggest to move the discussion to the Glossary translation JIRA FLINK-13037 . Thanks, Jark On Fri, 19 Jul 2019 at 09:00, Zili Chen wrote: > Hi, > > 欢迎有 PR 后同步到这个 thread 上 :-) > >

Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 Jark Wu
Hi, Just find the Glossary translation PR is created [1]. Let's move the discussion there. [1]. https://github.com/apache/flink/pull/9173 On Fri, 19 Jul 2019 at 11:22, Jark Wu wrote: > Hi highfei, > > Thanks for bringing up this discussion. I would suggest to move the > discussion to the

could rest api : /jobs/:jobid/yarn-cancel trigger the savepoint?

2019-07-18 文章 LakeShen
Hi community, I have a question is that could rest api : /jobs/:jobid/yarn-cancel trigger the savepoint? I saw the fink src code, and I find it didn't trigger the savepoint, is it right? Thank you to reply .

Re:Re: 请问这些名词,在翻译 Glossary 时,有必要翻译成中文吗?

2019-07-18 文章 杨继飞
Hi, Jark Wu ,Thanks I am discussing in there . 在 2019-07-19 11:22:53,"Jark Wu" 写道: >Hi, > >Just find the Glossary translation PR is created [1]. Let's move the >discussion there. > >[1]. https://github.com/apache/flink/pull/9173 > >On Fri, 19 Jul 2019 at 11:22, Jark Wu wrote: > >> Hi