shell里敲 list_peers
sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 下午9:33写道: > hi > 感谢您的回复,日志中没有Replication的ERROR信息,replication peer是啥状态?这句话的意思是? 截图放在附件中,麻烦查收 > > hbase(main):002:0> list_peers > PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES > TABLE_CFS BANDWIDTH SERIAL > 1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase ENABLED true > 0 true > 1 row(s) > Took 0.0463 seconds > > > => #<Java::JavaUtil::ArrayList:0x79d49790> > > hbase(main):003:0> status 'replication' > version 2.1.0-cdh6.3.2 > 5 live servers > centos-bigdata-datanode-10-2-5-197.intsig.internal: > SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640, > TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication > Lag=17631 > SINK : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04 > 21:30:01 CST 2021 > centos-bigdata-datanode-10-2-5-198.intsig.internal: > SOURCE: PeerID=1, AgeOfLastShippedOp=40642518, > SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST > 2021, Replication Lag=40642518 > SINK : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04 > 21:30:01 CST 2021 > centos-bigdata-datanode-10-2-5-199.intsig.internal: > SOURCE: PeerID=1, AgeOfLastShippedOp=40761400, > SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST > 2021, Replication Lag=40761400 > SINK : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04 > 21:30:01 CST 2021 > centos-bigdata-datanode-10-2-5-200.intsig.internal: > SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857, > TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979 > SINK : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04 > 21:30:01 CST 2021 > centos-bigdata-datanode-10-2-5-205.intsig.internal: > SOURCE: PeerID=1, AgeOfLastShippedOp=40698192, > SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST > 2021, Replication Lag=40698192 > SINK : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan > 04 21:30:01 CST 2021 > Took 0.0439 seconds > > > => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df> > > > > ------------------ 原始邮件 ------------------ > *发件人:* "user-zh" <palomino...@gmail.com>; > *发送时间:* 2021年1月4日(星期一) 晚上9:22 > *收件人:* "user-zh"<user-zh@hbase.apache.org>; > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > 你这个只有第一条是和replication直接相关的,这个就是说queue太长了,有replication报错的日志吗? > > 另外你具体的replication peer是啥状态? > > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午11:27写道: > > > hi > > 刚刚截取了一些日志中频繁打印的与Replication相关的日志信息,您帮忙看看对分析问题是否有帮助。图片在附件,对应文字在下文 > > > > 上午11点21:01.959分 WARN ReplicationSource > > > > WAL group > centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0 > queue size: 86709 exceeds value of replication.source.log.queue.warn: 2 > > > > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper > > > > complete file > /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231 > not finished, retry = 0 > > > > 上午11点21:02.736分 INFO AbstractFSWAL > > > > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s): > ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98 > > > > 上午11点21:02.736分 WARN LogRoller > > > > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a, > region=null, requester=null > > > > 上午11点21:02.736分 WARN LogRoller > > > > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98, > region=null, requester=null > > > > > > ------------------ 原始邮件 ------------------ > > *发件人:* "sudo rm -rf /*" <2326130...@qq.com>; > > *发送时间:* 2021年1月4日(星期一) 中午11:21 > > *收件人:* "user-zh"<user-zh@hbase.apache.org>; > > *抄送:* "user-zh"<user-zh@hbase.apache.org>; > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > > > hi > > 感谢您的回复,图片我已经再次放到附件中了,日志里没有什么有用的信息,数据根本推不过去,WAL log > > > 卡在复制队列中不动,某一RegionServer复制队列中已经有8万多个文件在排队发送,oldWALs是所有regionserver的日志都在堆积,因为我们线上所有表都开启了REPLICATION_SCOPE=1,如果您那边方便的话,是否可以耽误您点时间,开一个简单的远程会议,详细了解下我们这边的情况,帮我们分析下这个问题,这个问题已经困扰我们一年多了,一直无法解决,非常感谢 > > > > > > ------------------ 原始邮件 ------------------ > > *发件人:* "user-zh" <palomino...@gmail.com>; > > *发送时间:* 2021年1月4日(星期一) 中午11:05 > > *收件人:* "user-zh"<user-zh@hbase.apache.org>; > > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > > > 图片还是看不到。。。 > > > > 日志里有什么有用的信息吗?是根本推不过去还是推的很慢?oldWALs是所有regionserver的日志都在堆积,还是只有某些在堆积? > > > > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午10:45写道: > > > > > hi, > > > 非常抱歉,需要再次打扰,HBase replication 目前处于阻塞状态,某一WAL > > > log已经卡在一端有三个多月,我截图了ReplicationSource > > > 相关线程的一些WATTING和BLOCKED的状态,需要社区帮忙分析定位一下原因。 > > > 图片请查看附件,感谢感谢 > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > *发件人:* "user-zh" <18031...@qq.com>; > > > *发送时间:* 2021年1月2日(星期六) 晚上7:43 > > > *收件人:* "user-zh"<user-zh@hbase.apache.org>; > > > *主题:* 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > > > > > 记得之前你问过这个问题,我也回复过。 > > > 你们的主主模式,是同时会往2个集群写,还是同一时刻只会往单个集群写? > > > > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > 发件人: > > > "user-zh" > > > <2326130...@qq.com>; > > > 发送时间: 2020年12月31日(星期四) 下午2:27 > > > 收件人: "user-zh"<user-zh@hbase.apache.org>; > > > > > > 主题: 回复: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > > > > > > > > > > > hi > > > 非常感谢您的回复,正文中的图片貌似还是无法显示,只能把截图放在附件中,麻烦查收,感谢 > > > > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > 发件人: > > > "user-zh" > > > <weic...@cloudera.com.INVALID>; > > > 发送时间: 2020年12月31日(星期四) 下午2:21 > > > 收件人: "user-zh"<user-zh@hbase.apache.org>; > > > > > > 主题: Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象 > > > > > > > > > > > > 圖片似乎還是無法顯示 煩請重發一次 > > > > > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130...@qq.com> > > > wrote: > > > > > > > hi > > > > > > > > 刚刚那封邮件图片显示可能有问题,重发一次。 > > > > > > > > 我们线上HBase为主备两个集群,主备集群开启replication,模式为主主模式,即可以互相同步数据。HBase版本 > > > > hbase2.1.0-cdh-6.3.2 > > > > > > > > 目前多次遇到以下异常现象。 > > > > > > > > 第一:replication 积压,replication队列持续堆积不会减少,目前存在九月份的WAL > > > Log还在replication队列中。如下图 > > > > > > > > > > > > > > > > > > > > > > > > 图中积压的replication数据时间戳显示九月份 > > > > > > > > 第二个异常,WALs oldWals目录异常庞大 > > > > > > > > 主集群 > > > > > > > > > > > > 备集群 > > > > > > > > > > > > Replication相关线程的信息如下图 > > > > > > > > 希望得到社区的帮助,帮忙提供问题分析的思路,感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对 > > > > > > > > > > > > > > > > > >