你好: 对于这个问题,为什么 high-availability.storageDir的目录会产生如此多的子目录? 因为在HA时,你的作业可能因为各种原因切换HA 的Attempt ID可能是不停切换导致的。 对于HA的配置我是这样配置的。
flink-conf.yaml taskmanager.heap.mb: 3072 taskmanager.numberOfTaskSlots: 4 parallelism.default: 2 taskmanager.tmp.dirs: /tmp jobmanager.heap.mb: 1024 jobmanager.web.port: 8081 jobmanager.rpc.port: 6123 yarn.application-attempts: 8 env.java.home: /usr/java/jdk1.8.0_111 high-availability: zookeeper high-availability.zookeeper.quorum: cdh1:2181,cdh2:2181,cdh3:2181 high-availability.storageDir: hdfs://cdh1:9000/flink/recovery high-availability.zookeeper.path.root: /flink state.backend: filesystem state.backend.fs.checkpointdir: hdfs://cdh1:9000/flink/checkpoints taskmanager.network.numberOfBuffers: 1024 fs.hdfs.hadoopconf: /usr/local/hadoop-2.7.4/etc/hadoop 配置hadoop(yarn-site.xml) <property> <name>yarn.resourcemanager.am.max-attempts</name> <value>4</value> </property> 以上是我的配置,希望对你有帮助。 Best, Fei Han ------------------------------------------------------------------ 发件人:ppp Yun <[email protected]> 发送时间:2019年3月13日(星期三) 10:24 收件人:user-zh <[email protected]> 主 题:flink 1.7.2集群异常退出 Hi,ALL 写了个测试程序,大概跑了不到三个小时,flink集群就挂了,所有节点退出,报错如下: 2019-03-12 20:45:14,623 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph - Job Tbox from Kafka Sink To Kafka And Print (21949294d4750b869b341c5d2942d499) switched from state RUNNING to FAILING. org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /tmp/ha is exceeded: limit=1048576 items=1048576 hdfs count结果: 2097151 4 124334563 hdfs://banma/tmp/ha 下面是flink-conf.yaml的配置: [hdfs@qa-hdpdn06 flink-1.7.2]$ cat conf/flink-conf.yaml |grep ^[^#] jobmanager.rpc.address: 10.4.11.252 jobmanager.rpc.port: 6123 jobmanager.heap.size: 1024m taskmanager.heap.size: 1024m taskmanager.numberOfTaskSlots: 10 parallelism.default: 1 high-availability: zookeeper high-availability.storageDir: hdfs://banma/tmp/ha high-availability.zookeeper.quorum: qa-hdpdn05.ebanma.com:2181 rest.port: 8081 flink版本:官方最新的flink 1,7.2 为什么 high-availability.storageDir的目录会产生如此多的子目录?里面存的都是什么?什么情况下回触发这些存储操作?如何避免这个问题? 谢谢!
