Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Duo Zhang Mon, 04 Jan 2021 05:58:35 -0800

shell里敲

list_peers


sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 下午9:33写道：

> hi
>  感谢您的回复，日志中没有Replication的ERROR信息，replication peer是啥状态？这句话的意思是? 截图放在附件中，麻烦查收
>
> hbase(main):002:0> list_peers
>  PEER_ID CLUSTER_KEY ENDPOINT_CLASSNAME STATE REPLICATE_ALL NAMESPACES
> TABLE_CFS BANDWIDTH SERIAL
>  1 10.2.5.206:2181,10.2.5.208:2181,10.2.5.209:2181:/hbase  ENABLED true
>  0 true
> 1 row(s)
> Took 0.0463 seconds
>
>
> => #<Java::JavaUtil::ArrayList:0x79d49790>
>
> hbase(main):003:0> status 'replication'
> version 2.1.0-cdh6.3.2
> 5 live servers
>     centos-bigdata-datanode-10-2-5-197.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=0, SizeOfLogQueue=11640,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:44 CST 2021, Replication
> Lag=17631
>        SINK  : AgeOfLastAppliedOp=90, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-198.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40642518,
> SizeOfLogQueue=36125, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:49 CST
> 2021, Replication Lag=40642518
>        SINK  : AgeOfLastAppliedOp=42, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-199.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40761400,
> SizeOfLogQueue=15745, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:55 CST
> 2021, Replication Lag=40761400
>        SINK  : AgeOfLastAppliedOp=86, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-200.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=4, SizeOfLogQueue=86857,
> TimeStampsOfLastShippedOp=Mon Jan 04 21:29:59 CST 2021, Replication Lag=2979
>        SINK  : AgeOfLastAppliedOp=85, TimeStampsOfLastAppliedOp=Mon Jan 04
> 21:30:01 CST 2021
>     centos-bigdata-datanode-10-2-5-205.intsig.internal:
>        SOURCE: PeerID=1, AgeOfLastShippedOp=40698192,
> SizeOfLogQueue=15046, TimeStampsOfLastShippedOp=Mon Jan 04 21:29:45 CST
> 2021, Replication Lag=40698192
>        SINK  : AgeOfLastAppliedOp=927, TimeStampsOfLastAppliedOp=Mon Jan
> 04 21:30:01 CST 2021
> Took 0.0439 seconds
>
>
> => #<Java::JavaUtil::Collections::UnmodifiableSet:0x397a10df>
>
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <palomino...@gmail.com>;
> *发送时间:* 2021年1月4日(星期一) 晚上9:22
> *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
>
> 你这个只有第一条是和replication直接相关的，这个就是说queue太长了，有replication报错的日志吗？
>
> 另外你具体的replication peer是啥状态？
>
> sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午11:27写道：
>
> > hi
> >  刚刚截取了一些日志中频繁打印的与Replication相关的日志信息，您帮忙看看对分析问题是否有帮助。图片在附件，对应文字在下文
> >
> > 上午11点21:01.959分 WARN ReplicationSource
> >
> > WAL group
> centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0
> queue size: 86709 exceeds value of replication.source.log.queue.warn: 2
> >
> > 上午11点21:01.979分 WARN FanOutOneBlockAsyncDFSOutputHelper
> >
> > complete file
> /hbase/WALs/centos-bigdata-datanode-10-2-5-200.intsig.internal,16020,1599665626397/centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.centos-bigdata-datanode-10-2-5-200.intsig.internal%2C16020%2C1599665626397.regiongroup-0.1609730220231
> not finished, retry = 0
> >
> > 上午11点21:02.736分 INFO AbstractFSWAL
> >
> > Too many WALs; count=16512, max=256; forcing flush of 2 regions(s):
> ce7c15393f6021611c12eb8f7739c55a, a9e65042043cf6c122785aee3dd52d98
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of ce7c15393f6021611c12eb8f7739c55a,
> region=null, requester=null
> >
> > 上午11点21:02.736分 WARN LogRoller
> >
> > Failed to schedule flush of a9e65042043cf6c122785aee3dd52d98,
> region=null, requester=null
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "sudo rm -rf /*" <2326130...@qq.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:21
> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> > *抄送:* "user-zh"<user-zh@hbase.apache.org>;
> > *主题:* 回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > hi
> >     感谢您的回复，图片我已经再次放到附件中了，日志里没有什么有用的信息，数据根本推不过去，WAL log
> >
> 卡在复制队列中不动，某一RegionServer复制队列中已经有8万多个文件在排队发送，oldWALs是所有regionserver的日志都在堆积，因为我们线上所有表都开启了REPLICATION_SCOPE=1，如果您那边方便的话，是否可以耽误您点时间，开一个简单的远程会议，详细了解下我们这边的情况，帮我们分析下这个问题，这个问题已经困扰我们一年多了，一直无法解决，非常感谢
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <palomino...@gmail.com>;
> > *发送时间:* 2021年1月4日(星期一) 中午11:05
> > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> > *主题:* Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> >
> > 图片还是看不到。。。
> >
> > 日志里有什么有用的信息吗？是根本推不过去还是推的很慢？oldWALs是所有regionserver的日志都在堆积，还是只有某些在堆积？
> >
> > sudo rm -rf /* <2326130...@qq.com> 于2021年1月4日周一 上午10:45写道：
> >
> > > hi,
> > >     非常抱歉，需要再次打扰，HBase replication 目前处于阻塞状态，某一WAL
> > > log已经卡在一端有三个多月，我截图了ReplicationSource
> > > 相关线程的一些WATTING和BLOCKED的状态，需要社区帮忙分析定位一下原因。
> > > 图片请查看附件，感谢感谢
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > *发件人:* "user-zh" <18031...@qq.com>;
> > > *发送时间:* 2021年1月2日(星期六) 晚上7:43
> > > *收件人:* "user-zh"<user-zh@hbase.apache.org>;
> > > *主题:* 回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > > 记得之前你问过这个问题，我也回复过。
> > > 你们的主主模式，是同时会往2个集群写，还是同一时刻只会往单个集群写？
> > >
> > >
> > >
> > >
> > > ------------------&nbsp;原始邮件&nbsp;------------------
> > > 发件人:
> > > "user-zh"
> > > <2326130...@qq.com&gt;;
> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:27
> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> > >
> > > 主题:&nbsp;回复： 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > hi
> > > 非常感谢您的回复，正文中的图片貌似还是无法显示，只能把截图放在附件中，麻烦查收，感谢
> > >
> > >
> > >
> > >
> > > ------------------ 原始邮件 ------------------
> > > 发件人:
> > > "user-zh"
> > > <weic...@cloudera.com.INVALID&gt;;
> > > 发送时间:&nbsp;2020年12月31日(星期四) 下午2:21
> > > 收件人:&nbsp;"user-zh"<user-zh@hbase.apache.org&gt;;
> > >
> > > 主题:&nbsp;Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象
> > >
> > >
> > >
> > > 圖片似乎還是無法顯示 煩請重發一次
> > >
> > > On Wed, Dec 30, 2020 at 7:05 PM sudo rm -rf /* <2326130...@qq.com&gt;
> > > wrote:
> > >
> > > &gt; hi
> > > &gt;
> > > &gt; 刚刚那封邮件图片显示可能有问题，重发一次。
> > > &gt;
> > > &gt; 我们线上HBase为主备两个集群，主备集群开启replication，模式为主主模式，即可以互相同步数据。HBase版本
> > > &gt; hbase2.1.0-cdh-6.3.2
> > > &gt;
> > > &gt; 目前多次遇到以下异常现象。
> > > &gt;
> > > &gt; 第一：replication 积压，replication队列持续堆积不会减少，目前存在九月份的WAL
> > > Log还在replication队列中。如下图
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt; 图中积压的replication数据时间戳显示九月份
> > > &gt;
> > > &gt; 第二个异常，WALs oldWals目录异常庞大
> > > &gt;
> > > &gt; 主集群
> > > &gt;
> > > &gt;
> > > &gt; 备集群
> > > &gt;
> > > &gt;
> > > &gt; Replication相关线程的信息如下图
> > > &gt;
> > > &gt; 希望得到社区的帮助，帮忙提供问题分析的思路，感谢感谢。目前不知道是replication的BUG还是我们的使用姿势不对
> > > &gt;
> > > &gt;
> > > &gt;
> > >
> >
>

Re: 求助HBase社区关于HBase2.1.0 主备复制的一系列异常现象

Reply via email to