datanode timeout

Frédéric Fondement Mon, 25 Jun 2012 02:01:51 -0700

Hi all !

I'm getting trouble with my HBase as the following error appears moreand more often (each 2 to 15 mins on each node):

2012-06-25 10:25:30,646 WARNorg.apache.hadoop.hdfs.server.datanode.DataNode:DatanodeRegistration(10.120.0.5:50010,storageID=DS-1339564791-127.0.0.1-50010-1296151113818, infoPort=50075,ipcPort=50020):Got exception while servingblk_4839251368515801234_555101 to /10.120.0.5:java.net.SocketTimeoutException: 480000 millis timeout while waiting forchannel to be ready for write. ch :java.nio.channels.SocketChannel[connected local=/10.120.0.5:50010remote=/10.120.0.5:42564]atorg.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:246)atorg.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)atorg.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:198)atorg.apache.hadoop.hdfs.server.datanode.BlockSender.sendChunks(BlockSender.java:397)atorg.apache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.java:493)atorg.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.java:267)atorg.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:163)

2012-06-25 10:25:30,646 ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode:DatanodeRegistration(10.120.0.5:50010,storageID=DS-1339564791-127.0.0.1-50010-1296151113818, infoPort=50075,ipcPort=50020):DataXceiverjava.net.SocketTimeoutException: 480000 millis timeout while waiting forchannel to be ready for write. ch :java.nio.channels.SocketChannel[connected local=/10.120.0.5:50010remote=/10.120.0.5:42564]atorg.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:246)atorg.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)atorg.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:198)atorg.apache.hadoop.hdfs.server.datanode.BlockSender.sendChunks(BlockSender.java:397)atorg.apache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.java:493)atorg.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.java:267)atorg.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:163)

You might have guessed that local machine is 10.120.0.5. Unsuprisingly,process on port 50010 is the datanode. Port 42564 is changing dependingon the error instance, and seems to correspond to the regionserverprocess. If I ask for processes connected to port 50010 using an 'lsof-i :50010', I have an impressive number of sockets (#400). Is it normal ?


I need to add that current load (requests, IOs, CPU, ...) is rather slow.

I can't find any other error in namenode or regionserver logs.

All the best,

Frédéric.

datanode timeout

Reply via email to