Re: hosts unreachables

Cyril Scetbon Thu, 31 May 2012 12:11:07 -0700

I'm still having region nodes that crash :(

You can see reasons on 2 region nodes :


*node1 :*

2012-05-31 17:57:03,937 INFOorg.apache.hadoop.hbase.regionserver.HRegion: Starting compaction onregion ise,ID-TST-100-1Rw6ue7L8i

FMpWMqMmZYxDdoRLCIzI70e5kVMrgLrXW,1338486988233.aaaa5b0661020d1107eb31e982d71126.

2012-05-31 17:57:03,938 INFO org.apache.hadoop.hbase.regionserver.Store:Started compaction of 2 file(s) in cf=core, hasReferences=true, intohdfs://hb-zk1:54310/hbase/ise/aaaa5b0661020d1107eb31e982d71126/.tmp,seqid=995472, totalSize=256.5m2012-05-31 17:58:24,860 WARN org.apache.hadoop.hdfs.DFSClient:DFSOutputStream ResponseProcessor exception for block blk_989994740052943354_38499java.net.SocketTimeoutException: 72000 millis timeoutwhile waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/10.0.0.16:45314remote=/10.0.0.16:50010]atorg.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:164)atorg.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:155)atorg.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:128)

        at java.io.FilterInputStream.read(FilterInputStream.java:116)
        at java.io.DataInputStream.readFully(DataInputStream.java:178)
        at java.io.DataInputStream.readLong(DataInputStream.java:399)

atorg.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.readFields(DataTransferProtocol.java:120)atorg.apache.hadoop.hdfs.DFSClient$DFSOutputStream$ResponseProcessor.run(DFSClient.java:3049)2012-05-31 17:59:11,655 INFO org.apache.zookeeper.ClientCnxn: Unable toread additional data from server sessionid 0x337a359bb980015, likely server has closed socket, closing socket connection andattempting reconnect2012-05-31 17:59:11,687 WARN org.apache.hadoop.hdfs.DFSClient: ErrorRecovery for block blk_989994740052943354_38499 bad datanode[

0] 10.0.0.16:50010

2012-05-31 17:59:11,689 WARN org.apache.hadoop.hdfs.DFSClient: ErrorRecovery for block blk_989994740052943354_38499 in pipeline 10.0.0.16:50010, 10.0.0.13:50010, 10.0.0.11:50010, 10.0.0.15:50010: baddatanode 10.0.0.16:500102012-05-31 17:59:11,688 FATALorg.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING regionserver serverName=hb-d6,60020,1338475673130, load=(requests=0,regions=13, usedHeap=434, maxHeap=4091): Unhandled exception:org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected;currently processing hb-d6,60020,1338475673130 as dead serverorg.apache.hadoop.hbase.YouAreDeadException:org.apache.hadoop.hbase.YouAreDeadException: Server REPORT rejected;currently processing hb-d6,60020,1338475673130 as dead serveratsun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)atsun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)atsun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)

        at java.lang.reflect.Constructor.newInstance(Constructor.java:513)

atorg.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)atorg.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:79)atorg.apache.hadoop.hbase.regionserver.HRegionServer.tryRegionServerReport(HRegionServer.java:749)


*node2 :
*

2012-05-31 18:26:44,339 INFO org.apache.zookeeper.ClientCnxn: Openingsocket connection to server hb-zk1/10.0.0.50:21812012-05-31 18:26:44,340 INFO org.apache.zookeeper.ClientCnxn: Socketconnection established to hb-zk1/10.0.0.50:2181, initiating s

ession

2012-05-31 18:26:44,343 INFOorg.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation:This client just lost it

's session with ZooKeeper, trying to reconnect.

2012-05-31 18:26:44,343 INFOorg.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation:Trying to reconnect to z

ookeeper.

2012-05-31 18:26:44,450 INFO org.apache.zookeeper.ZooKeeper: Session:0x237a35960010023 closed2012-05-31 18:26:44,450 INFOorg.apache.hadoop.hbase.regionserver.HRegionServer: Waiting on 1 regionsto close2012-05-31 18:26:44,451 INFO org.apache.zookeeper.ZooKeeper: Initiatingclient connection, connectString=hb-zk2:2181,hb-zk1:2181,h

b-zk3:2181 sessionTimeout=180000 watcher=hconnection

2012-05-31 18:26:44,459 INFO org.apache.zookeeper.ClientCnxn: Openingsocket connection to server hb-zk3/10.0.1.50:21812012-05-31 18:26:44,490 INFO org.apache.zookeeper.ClientCnxn: Socketconnection established to hb-zk3/10.0.1.50:2181, initiating s

ession

2012-05-31 18:26:44,552 INFOorg.apache.hadoop.hbase.regionserver.HRegion: compaction interrupted:java.io.InterruptedIOException: Aborting compaction of store core inregion ise,ID-TST-100-P8xzKBeOhD3p9z9iRQTws5X454eyixFONbKmFSAKxNy,1338488671506.774822fbcfa2ab325b31c3c800d72f24. because it wasinterrupted.atorg.apache.hadoop.hbase.regionserver.Store.compact(Store.java:1008)atorg.apache.hadoop.hbase.regionserver.Store.compact(Store.java:789)atorg.apache.hadoop.hbase.regionserver.HRegion.compactStores(HRegion.java:810)atorg.apache.hadoop.hbase.regionserver.HRegion.compactStores(HRegion.java:750)atorg.apache.hadoop.hbase.regionserver.CompactSplitThread.run(CompactSplitThread.java:81)2012-05-31 18:26:44,553 INFOorg.apache.hadoop.hbase.regionserver.HRegion: aborted compaction onregion ise,ID-TST-100-P8xzKBeOhD3p9z9iRQTws5X454eyixFONbKmFSAKxNy,1338488671506.774822fbcfa2ab325b31c3c800d72f24.after 2mins, 12sec2012-05-31 18:26:44,553 INFOorg.apache.hadoop.hbase.regionserver.CompactSplitThread:regionserver60020.compactor exiting2012-05-31 18:26:44,555 INFOorg.apache.hadoop.hbase.regionserver.HRegion: Closedise,ID-TST-100-P8xzKBeOhD3p9z9iRQTws5X454eyixFON

bKmFSAKxNy,1338488671506.774822fbcfa2ab325b31c3c800d72f24.

2012-05-31 18:26:44,650 INFO org.apache.zookeeper.ClientCnxn: Sessionestablishment complete on server hb-zk3/10.0.1.50:2181, sess

ionid = 0x337a359bb980024, negotiated timeout = 40000

2012-05-31 18:26:44,659 INFOorg.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation:Reconnected successfully. This disconnect could have been caused by a network partition or along-running GC pause, either way it's recommended that you v

erify your environment.

2012-05-31 18:26:44,659 INFO org.apache.zookeeper.ClientCnxn:EventThread shut down2012-05-31 18:26:45,006 INFO org.apache.zookeeper.ClientCnxn: Openingsocket connection to server hb-zk2/10.0.0.51:21812012-05-31 18:26:45,009 INFO org.apache.zookeeper.ClientCnxn: Socketconnection established to hb-zk2/10.0.0.51:2181, initiating session2012-05-31 18:26:45,012 INFO org.apache.zookeeper.ClientCnxn: Unable toreconnect to ZooKeeper service, session 0x337a359bb980001 has expired,closing socket connection2012-05-31 18:26:45,012 FATALorg.apache.hadoop.hbase.regionserver.HRegionServer: ABORTING regionserver serverName=hb-d1,60020,1338475437868, load=(requests=145,regions=17, usedHeap=499, maxHeap=4091):regionserver:60020-0x337a359bb980001regionserver:60020-0x337a359bb980001 received expired from ZooKeeper,abortingorg.apache.zookeeper.KeeperException$SessionExpiredException:KeeperErrorCode = Session expiredatorg.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.connectionEvent(ZooKeeperWatcher.java:361)atorg.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.process(ZooKeeperWatcher.java:279)atorg.apache.zookeeper.ClientCnxn$EventThread.processEvent(ClientCnxn.java:526)atorg.apache.zookeeper.ClientCnxn$EventThread.run(ClientCnxn.java:502)

As I understand, node 2 failed cause of a long compaction, but I don'tknow how I can fix it. And for node 1 I don't really understand thecause and how to fix it too :(

I'm using hbase 0.90 from cdh3 packages (cloudera). I don't understandwhy a node that is considered as dead if there is an error can't comeback after that ...


thanks

On 5/29/12 5:17 PM, Cyril Scetbon wrote:

Hi,

I've installed hbase on the following configuration :

12 x (rest hbase + regionserver hbase + datanode hadoop)
2 x (zookeeper + hbase master)
1 x (zookeeper + hbase master + namenode hadoop)

OS used is ubuntu lucid (10.04)
The issue is that when I try to load data using rest api, some hostsbecome unreachable even if I can ping them. I can no longer connect tothem and even monitoring tools can not work during a laps of time. Forexample, I use SAR on each host and you can see that between 7:10 and7:35 pm the host does not write any information :
06:45:01 PM all 0.18 0.00 0.37 3.61 0.2595.5806:45:01 PM 0 0.24 0.00 0.54 6.62 0.3592.2506:45:01 PM 1 0.12 0.00 0.20 0.61 0.1598.9206:50:02 PM all 5.69 0.00 1.79 4.23 1.9486.3606:50:02 PM 0 5.68 0.00 3.00 7.91 2.2181.2106:50:02 PM 1 5.70 0.00 0.59 0.55 1.6691.5106:55:01 PM all 0.68 0.00 0.14 1.62 0.2397.3306:55:01 PM 0 0.87 0.00 0.20 3.19 0.3195.4406:55:01 PM 1 0.49 0.00 0.08 0.05 0.1599.2206:58:36 PM all 0.03 0.00 0.02 0.45 0.0799.4306:58:36 PM 0 0.01 0.00 0.02 0.40 0.1399.4306:58:36 PM 1 0.04 0.00 0.01 0.51 0.0099.4307:05:01 PM all 0.03 0.00 0.00 0.10 0.0799.8007:05:01 PM 0 0.02 0.00 0.00 0.10 0.1099.7807:05:01 PM 1 0.04 0.00 0.01 0.09 0.0399.83 <--- last measure before host becomes reachable07:40:07 PM all 14.72 0.00 17.93 0.02 13.3154.02 <--- new measure after host becomes reachable07:40:07 PM 0 29.43 0.00 35.87 0.00 26.578.1307:40:07 PM 1 0.00 0.00 0.00 0.04 0.0499.9107:45:01 PM all 0.55 0.00 0.25 0.04 0.2798.8907:45:01 PM 0 0.54 0.00 0.14 0.05 0.2199.0707:45:01 PM 1 0.55 0.00 0.36 0.04 0.3398.7207:50:01 PM all 0.11 0.00 0.05 0.18 0.0699.6007:50:01 PM 0 0.12 0.00 0.06 0.13 0.0999.6007:50:01 PM 1 0.11 0.00 0.04 0.23 0.0499.5907:55:01 PM all 0.00 0.00 0.01 0.05 0.0799.8807:55:01 PM 0 0.00 0.00 0.01 0.01 0.1399.8407:55:01 PM 1 0.00 0.00 0.00 0.08 0.0099.9108:05:01 PM all 0.01 0.00 0.00 0.00 0.0599.9408:05:01 PM 0 0.00 0.00 0.00 0.00 0.0899.9108:05:01 PM 1 0.03 0.00 0.00 0.00 0.0199.96
I suppose it's caused by a high load but I don't have any proof :( Isthere a known bug about that ? I had a similar issue with Cassandrathat forced me to upgrade to linux kernel > 3.0
thanks.



--
Cyril SCETBON

Re: hosts unreachables

Reply via email to