Shark queries fail after 10% completion with UnknownHostException

David Rosenstrauch Wed, 17 Sep 2014 18:00:58 -0700

We're stumped on something really odd.

We run a simple shark job. (A simple query against an external table,with the data residing on HDFS - 256 part files, each approximately ofsize 3.75GB.) The job runs successfully until it gets to about 10%completion (200+ tasks out of approximately 2000). Then suddenly one ofthe nodes starts throwing a bunch of UnknownHostException's saying thatit can't resolve the master node's hostname and the job fails - which isobviously very strange, since for 10% of the job it could resolve thehostname just fine.

If I try it again a few minutes later the same thing happens - only it'sa different worker node that throws the exceptions.

We're running spark 0.9.1. (And shark 0.9.1; though this doesn't lookto be a shark issue.)

Stack traces appended below. Anyone have any ideas what could becausing this?


Thanks,

DR

---

Shark shell output

shark> select count(*) from exportedall;

org.apache.spark.SparkException: Job aborted: Task 3.0:517 failed 4times (most recent failure: Exception failure:java.lang.IllegalArgumentException: java.net.UnknownHostException:ip-10-101-200-186.ec2.internal)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1028)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1026)atscala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)atscala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)atorg.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$abortStage(DAGScheduler.scala:1026)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$processEvent$10.apply(DAGScheduler.scala:619)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$processEvent$10.apply(DAGScheduler.scala:619)

        at scala.Option.foreach(Option.scala:236)

atorg.apache.spark.scheduler.DAGScheduler.processEvent(DAGScheduler.scala:619)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$start$1$$anon$2$$anonfun$receive$1.applyOrElse(DAGScheduler.scala:207)

        at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)
        at akka.actor.ActorCell.invoke(ActorCell.scala:456)
        at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)
        at akka.dispatch.Mailbox.run(Mailbox.scala:219)

atakka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)atscala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)atscala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)atscala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)atscala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

FAILED: Execution Error, return code -101 from shark.execution.SparkTask


Stack trace from spark worker stderr

14/09/17 23:05:18 INFO executor.CoarseGrainedExecutorBackend: Gotassigned task 450

14/09/17 23:05:18 INFO executor.Executor: Running task ID 450
14/09/17 23:05:18 INFO storage.BlockManager: Found block broadcast_0 locally

14/09/17 23:05:18 INFO rdd.HadoopRDD: Input split:hdfs://ip-10-101-200-186.ec2.internal/user/sense/exported0.5/20140913/30/part-r-00056:1073741824+536870912

14/09/17 23:05:18 ERROR executor.Executor: Exception in task ID 422

java.lang.IllegalArgumentException: java.net.UnknownHostException:ip-10-101-200-186.ec2.internalatorg.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:377)atorg.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:237)atorg.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:141)

        at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:576)
        at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:521)

atorg.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:146)atorg.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2397)

        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:89)

atorg.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2431)

        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2413)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:368)
        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)

atorg.apache.hadoop.mapred.LineRecordReader.<init>(LineRecordReader.java:107)atorg.apache.hadoop.mapred.TextInputFormat.getRecordReader(TextInputFormat.java:67)atorg.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:156)

        at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:149)
        at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:64)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
        at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)

atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:34)

        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)

atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:34)

        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)

atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:34)

        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)

atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:34)

        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)

atorg.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:161)atorg.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:102)

        at org.apache.spark.scheduler.Task.run(Task.scala:53)

atorg.apache.spark.executor.Executor$TaskRunner$$anonfun$run$1.apply$mcV$sp(Executor.scala:213)atorg.apache.spark.deploy.SparkHadoopUtil$$anon$1.run(SparkHadoopUtil.scala:42)atorg.apache.spark.deploy.SparkHadoopUtil$$anon$1.run(SparkHadoopUtil.scala:41)

        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1554)atorg.apache.spark.deploy.SparkHadoopUtil.runAsUser(SparkHadoopUtil.scala:41)atorg.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:178)atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

        at java.lang.Thread.run(Thread.java:744)
Caused by: java.net.UnknownHostException: ip-10-101-200-186.ec2.internal
        ... 48 more

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Shark queries fail after 10% completion with UnknownHostException

Reply via email to