NPE when trying to run job

Samik Raychaudhuri Fri, 12 Sep 2014 02:28:58 -0700

Hello,

I am able to run a count of a PCollection from a bunch of avro filesjust fine, but when I try to execute an MR job on the PCollection, I amgetting an NPE.


The following runs fine:

PCollection<Event> events = pipeline.read(From.avroFile("/raw/*.avro",Avros.specifics(Event.class)));

        PipelineResult result = pipeline.done();
        System.out.println("Event count: " + events.getSize());

And I get the events count.

But the following doesn't (methods from a bunch of POJO from the avroschema is used here):

PCollection<Event> events = pipeline.read(From.avroFile("/raw/*.avro",Avros.specifics(Event.class)));// Now create a PTable based on client and event type. Alsohave a long for counting purpose.PTable<Pair<String, String>, Long> eventsByClient =events.parallelDo(

            new MapFn<Event, Pair<Pair<String, String>, Long>>()
            {
                @Override
                public Pair<Pair<String, String>, Long> map(Event event)
                {

String eventType =event.getBody().getTypeSpecificBody().getBody().getClass().getName();eventType =eventType.substring(eventType.lastIndexOf('.') + 1);returnPair.of(Pair.of(event.getHeader().getClientId(), eventType), 1L);

}, Avros.tableOf(Avros.pairs(Avros.strings(),Avros.strings()), Avros.longs())

);

PTable<Pair<String, String>, Long> eventCountsByClient =eventsByClient.groupByKey().combineValues(Aggregators.SUM_LONGS());

        pipeline.writeTextFile(eventCountsByClient, "/user/samikr/output");
        PipelineResult result = pipeline.done();

I am getting the following exception:

1 job failure(s) occurred:

Collect Data Info: Avro(/raw/... ID=1 (1/1)(1):java.lang.NullPointerException

    at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
    at org.apache.hadoop.util.Shell.run(Shell.java:455)

atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)

    at org.apache.hadoop.util.Shell.execCommand(Shell.java:791)
    at org.apache.hadoop.util.Shell.execCommand(Shell.java:774)

atorg.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:646)atorg.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:434)atorg.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)atorg.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)atorg.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)

    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1282)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)

    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1282)

atorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchControlledJob.submit(CrunchControlledJob.java:329)atorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchJobControl.startReadyJobs(CrunchJobControl.java:204)atorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchJobControl.pollJobStatusAndStartNewOnes(CrunchJobControl.java:238)atorg.apache.crunch.impl.mr.exec.MRExecutor.monitorLoop(MRExecutor.java:112)atorg.apache.crunch.impl.mr.exec.MRExecutor.access$000(MRExecutor.java:55)

    at org.apache.crunch.impl.mr.exec.MRExecutor$1.run(MRExecutor.java:83)
    at java.lang.Thread.run(Thread.java:745)

Not sure what is causing the NPE though. From the stack trace, it lookslike it is some permission issue. I have checked the "hadoop.tmp.dir"and it seem to have write permission etc., and I have also noticed thata folder named "samik.r1802905367" gets created for the job within thatdirectory. I have tried giving one specific avro file in pipeline.readrather than *.avro, but that results in the same exception. Using hadoop2.5.0, avro 1.7.7 and crunch 0.10.0-hadoop2 on the client side and CDH5(2.3.0) on the server side.


Any pointers?
Regards.

NPE when trying to run job

Reply via email to