Re: how many output files can support by MultipleOutputs?

Jun Young Kim Mon, 21 Feb 2011 18:19:01 -0800

hi,

I think the third error pattern is are not caused by xceiver key.


org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle 
in fetcher#5
        at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:124)
        at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:362)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:217)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at 
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)
        at org.apache.hadoop.mapred.Child.main(Child.java:211)
Caused by: java.lang.OutOfMemoryError: Java heap space
        at 
org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:58)
        at 
org.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:45)
        at 
org.apache.hadoop.mapreduce.task.reduce.MapOutput.<init>(MapOutput.java:104)
        at 
org.apache.hadoop.mapreduce.task.reduce.MergeManager.unconditionalReserve(MergeManager.java:267)
        at org.apache.hadoop.mapreduce.task.re


by the google, this is by wrong ip entires which is  the one of my cluster.

but, I've checked several times again. ip addresses of my cluster arenormal.


my cluster size is 9 (1 master, 8 slaves)

this is my mapred-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>mapreduce.job.tracker</name>
<value>thadpm01.scast:54311</value>
<description>The host and port that the MapReduce job tracker runs
  at.  If "local", then jobs are run in-process as a single map
  and reduce task.
</description>
</property>
<property>
<name>mapreduce.jobtracker.taskscheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>
<property>
<name>mapreduce.child.java.opts</name>
<value>-Xmx1024m</value>
<final>true</final>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx1024m</value>
<final>true</final>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx1024m</value>
<final>true</final>
</property>
<property>
<name>mapreduce.tasktracker.map.tasks.maximum</name>
<value>83</value>
<final>true</final>
</property>
<property>
<name>mapreduce.tasktracker.reduce.tasks.maximum</name>
<value>11</value>
<final>true</final>
</property>
<property>
<property>
<name>mapreduce.jobtracker.handler.count</name>
<value>20</value>
<final>true</final>
</property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopies</name>
<value>10</value>
<final>true</final>
</property>
<property>
<name>mapreduce.task.io.sort.factor</name>
<value>100</value>
<final>true</final>
</property>
<property>
<name>mapreduce.task.io.sort.mb</name>
<value>400</value>
<final>true</final>
</property>
</configuration>

error log on stdout:

attempt_201102181827_0113_r_000000_1: 2011-02-22 10:24:28[WARN][Child.java]main()(234) : Exception running child :org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error inshuffle in fetcher#8attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:124)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:362)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapred.Child$4.run(Child.java:217)attempt_201102181827_0113_r_000000_1: atjava.security.AccessController.doPrivileged(Native Method)attempt_201102181827_0113_r_000000_1: atjavax.security.auth.Subject.doAs(Subject.java:396)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapred.Child.main(Child.java:211)attempt_201102181827_0113_r_000000_1: Caused by:java.lang.OutOfMemoryError: Java heap spaceattempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:58)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.io.BoundedByteArrayOutputStream.<init>(BoundedByteArrayOutputStream.java:45)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.MapOutput.<init>(MapOutput.java:104)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.MergeManager.unconditionalReserve(MergeManager.java:267)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.MergeManager.reserve(MergeManager.java:257)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:305)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:251)attempt_201102181827_0113_r_000000_1: atorg.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:149)attempt_201102181827_0113_r_000000_1: 2011-02-22 10:24:28[INFO][Task.java]taskCleanup()(996) : Runnning cleanup for the task

11/02/22 10:24:44 INFO mapreduce.Job:  map 21% reduce 0%
11/02/22 10:24:54 INFO mapreduce.Job:  map 22% reduce 0%


thanks.

Junyoung Kim ([email protected])


On 02/21/2011 10:47 AM, Yifeng Jiang wrote:

We were using 0.20.2 when the issue occurred, then we set it to 2048,and the failure was fixed.
Now we are using 0.20-append (HBase requires it), it works well too.

On 2011/02/21 10:35, Jun Young Kim wrote:
hi, yifeng.

Coung I know which version of a hadoop you are using?

thanks for your response.

Junyoung Kim ([email protected])


On 02/21/2011 10:28 AM, Yifeng Jiang wrote:
Hi,

We have met the same issue.
It seems that this error occurs, when the threads connected to theDatanode reaches the maximum # of server threads, defined by"dfs.datanode.max.xcievers" in hdfs-site.xmlOur solution is to increase the it from the default value (256) to abigger one, such as 2048.
On 2011/02/21 10:17, Jun Young Kim wrote:
hi,

in an application, I read many files in many directories.
additionally, by using MultipleOutputs class, I try to writethousands of output files in many directories.
during reduce processing(reduce task count is 1),
almost my job(average job counts in parallel are 20) are failed.

almost error types are like
java.io.IOException: Bad connect ack with firstBadLink as10.25.241.101:50010 atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:889)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:820)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:427)
java.io.EOFException atjava.io.DataInputStream.readShort(DataInputStream.java:298) atorg.apache.hadoop.hdfs.protocol.DataTransferProtocol$Status.read(DataTransferProtocol.java:113)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:881)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:820)atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:427)
org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: Errorwhile doing final merge atorg.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:159)at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:362) atorg.apache.hadoop.mapred.Child$4.run(Child.java:217) atjava.security.AccessController.doPrivileged(Native Method) atjavax.security.auth.Subject.doAs(Subject.java:396) atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)at org.apache.hadoop.mapred.Child.main(Child.java:211) Caused by:org.apache.hadoop.util.DiskChecker$DiskErrorException: Could notfind any valid local directory for output/map_869.out atorg.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:351)atorg.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:132)atorg.apache.hadoop.mapred.MapOutputFile.getInputFileForWrite(MapOutputFile.java:182)at org.apache.hadoop.mapreduce.task.reduce.MergeMa
currenly, I suspect this is caused by limitations of hadoop tosupport output file descriptor count.(I am using a linux server to support this job, serverconfiguration is
$> cat /proc/sys/fs/file-max
327680

Re: how many output files can support by MultipleOutputs?

Reply via email to