Re: flink 1.7.2集群异常退出

Yun ppp Wed, 13 Mar 2019 00:04:03 -0700

确实没有配置checkpoint，加上后跑了超过三个小时没出问题了，感谢大神！期待尽快合并


________________________________
From: Yun Tang <[email protected]>
Sent: Tuesday, March 12, 2019 19:52
To: ppp Yun; [email protected]
Subject: Re: flink 1.7.2集群异常退出

Hi

你是不是没有配置checkpoint 
path，且没有显式的配置FsStateBackend或者RocksDBStateBackend，这应该是一个MemoryStateBackend 
在配置HA却没有配置checkpoint path时候的bug，参见我之前创建的JIRA 
https://issues.apache.org/jira/browse/FLINK-11107

相关PR已经提交了，不过社区认为MemoryStateBackend更多的是debug用 或者 
实验性质的toy，不会有生产环境直接使用，加之最近忙于release-1.8的发布，所以暂时还没有review代码。

祝好
唐云
________________________________
From: ppp Yun <[email protected]>
Sent: Wednesday, March 13, 2019 10:24
To: user-zh
Subject: flink 1.7.2集群异常退出

Hi，ALL

         写了个测试程序，大概跑了不到三个小时，flink集群就挂了，所有节点退出，报错如下：

2019-03-12 20:45:14,623 INFO  
org.apache.flink.runtime.executiongraph.ExecutionGraph        - Job Tbox from 
Kafka Sink To Kafka And Print (21949294d4750b869b341c5d2942d499) switched from 
state RUNNING to FAILING.
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException):
 The directory item limit of /tmp/ha is exceeded: limit=1048576 items=1048576


hdfs count结果：

2097151            4          124334563 hdfs://banma/tmp/ha


下面是flink-conf.yaml的配置：

[hdfs@qa-hdpdn06 flink-1.7.2]$ cat conf/flink-conf.yaml |grep ^[^#]
jobmanager.rpc.address: 10.4.11.252
jobmanager.rpc.port: 6123
jobmanager.heap.size: 1024m
taskmanager.heap.size: 1024m
taskmanager.numberOfTaskSlots: 10
parallelism.default: 1
 high-availability: zookeeper
 high-availability.storageDir: hdfs://banma/tmp/ha
 high-availability.zookeeper.quorum: qa-hdpdn05.ebanma.com:2181
rest.port: 8081

flink版本：官方最新的flink 1,7.2

为什么 high-availability.storageDir的目录会产生如此多的子目录？里面存的都是什么？什么情况下回触发这些存储操作？如何避免这个问题？

谢谢！

Re: flink 1.7.2集群异常退出

回复