Re: Fwd: Spark forum question

Philip Ogren Wed, 11 Dec 2013 09:57:05 -0800

You might try a more standard windows path. I typically write to alocal directory such as "target/spark-output".


On 12/11/2013 10:45 AM, Nathan Kronenfeld wrote:

We are trying to test out running Spark 0.8.0 on a Windows box, andwhile we can get it to run all the examples that don't output resultsto disk, we can't get it to write output..
Has anyone been able to write out to a local file on a single nodewindows install without using hdfs?
Here is our test code:

object FileWritingTest {
    def main (args: Array[String]): Unit = {
val sc = new SparkContext("local[1]", "File Writing Test", null,null, null, null);val res = sc.parallelize(Range(0, 10), 10).flatMap(p =>"%d".format(p * 10)) //generate some work to dores.saveAsTextFile("file:///c:/somepath") //save the resultsout to a file
    }
}
This works as expected using a unix based system. However, when tryingto run on a windows cmd shell I get the following errors:
[WARN] 11 Dec 2013 12:00:33 - org.apache.hadoop.util.NativeCodeLoader- Unable to load native-hadoop library for your platform... usingbuiltin-java classes where applicable[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Savingas hadoop file of type (NullWritable, Text)[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class -Starting job: saveAsTextFile at Test.scala:19[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Got job0 (saveAsTextFile at Test.scala:19) with 10 output partitions(allowLocal=false)[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Finalstage: Stage 0 (saveAsTextFile at Test.scala:19)[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Parentsof final stage: List()[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Missingparents: List()[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class -Submitting Stage 0 (MappedRDD[2] at saveAsTextFile at Test.scala:19),which has no missing parents[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class -Submitting 10 missing tasks from Stage 0 (MappedRDD[2] atsaveAsTextFile at Test.scala:19)[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Size oftask 0 is 5966 bytes
[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Running 0
[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Losswas due to org.apache.hadoop.util.Shell$ExitCodeExceptionorg.apache.hadoop.util.Shell$ExitCodeException: chmod: gettingattributes of`/cygdrive/c/somepath/_temporary/_attempt_201312111200_0000_m_000000_0/part-00000':No such file or directory
        at org.apache.hadoop.util.Shell.runCommand(Shell.java:261)
        at org.apache.hadoop.util.Shell.run(Shell.java:188)
atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:381)
        at org.apache.hadoop.util.Shell.execCommand(Shell.java:467)
        at org.apache.hadoop.util.Shell.execCommand(Shell.java:450)
atorg.apache.hadoop.fs.RawLocalFileSystem.execCommand(RawLocalFileSystem.java:593)atorg.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:584)atorg.apache.hadoop.fs.FilterFileSystem.setPermission(FilterFileSystem.java:427)atorg.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:465)atorg.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:433)
        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:886)
        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:781)
atorg.apache.hadoop.mapred.TextOutputFormat.getRecordWriter(TextOutputFormat.java:118)atorg.apache.hadoop.mapred.SparkHadoopWriter.open(SparkHadoopWriter.scala:86)atorg.apache.spark.rdd.PairRDDFunctions.writeToFile$1(PairRDDFunctions.scala:667)atorg.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$2.apply(PairRDDFunctions.scala:680)atorg.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$2.apply(PairRDDFunctions.scala:680)
        at org.apache.spark.scheduler.ResultTask.run(ResultTask.scala:99)
atorg.apache.spark.scheduler.local.LocalScheduler.runTask(LocalScheduler.scala:198)atorg.apache.spark.scheduler.local.LocalActor$$anonfun$launchTask$1$$anon$1.run(LocalScheduler.scala:68)atjava.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
        at java.util.concurrent.FutureTask.run(FutureTask.java:262)
atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:744)
[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - RemoveTaskSet 0.0 from pool[INFO] 11 Dec 2013 12:00:33 - org.apache.spark.Logging$class - Failedto run saveAsTextFile at Test.scala:19Exception in thread "main" org.apache.spark.SparkException: Jobfailed: Task 0.0:0 failed more than 4 times; aborting joborg.apache.hadoop.util.Shell$ExitCodeException: chmod: gettingattributes of`/cygdrive/c/somepath/_temporary/_attempt_201312111200_0000_m_000000_0/part-00000':No such file or directoryatorg.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:760)atorg.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:758)atscala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:60)atscala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)atorg.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:758)atorg.apache.spark.scheduler.DAGScheduler.processEvent(DAGScheduler.scala:379)at org.apache.spark.scheduler.DAGScheduler.org<http://org.apache.spark.scheduler.DAGScheduler.org>$apache$spark$scheduler$DAGScheduler$$run(DAGScheduler.scala:441)atorg.apache.spark.scheduler.DAGScheduler$$anon$1.run(DAGScheduler.scala:149)
The fact that it's using a cygwin path(/cygdrive/c/somepath/_temporary/_attempt_201312111200_0000_m_000000_0/part-00000)seems suspect since I'm running from a cmd shell. Running from acygwin shell leads to other errors.
Has anyone's been able to get simple file output to run from either acygwin shell or the windows cmd shell?
Does anyone knwo if it is Spark or Hadoop that is transforming the path?




--
Nathan Kronenfeld
Senior Visualization Developer
Oculus Info Inc
2 Berkeley Street, Suite 600,
Toronto, Ontario M5A 4J5
Phone:  +1-416-203-3003 x 238
Email: [email protected] <mailto:[email protected]>

Re: Fwd: Spark forum question

Reply via email to