error using generate in 2.x

kaveh minooie Thu, 28 Mar 2013 19:05:47 -0700

Hi everyone

anybody has any idea why i am getting this error when i run generateright after i inject to a new crawlId in local mode (that is not to saythat this doesn't happen in deploy mode or on a preexisting crawlID, ijust haven't test those)

2013-03-28 11:06:21,911 INFO crawl.AbstractFetchSchedule -maxInterval=51840002013-03-28 11:06:21,963 INFO regex.RegexURLNormalizer - can't findrules for scope 'generate_host_count', using default2013-03-28 11:06:25,158 INFO store.HBaseStore - Keyclass and nameclassmatch but mismatching table names mappingfile schema is 'webpage' vsactual schema 't1_webpage' , assuming they are the same.2013-03-28 11:06:25,166 INFO mapreduce.GoraRecordWriter -gora.buffer.write.limit = 100002013-03-28 11:06:25,286 WARN mapred.FileOutputCommitter - Output pathis null in cleanup

2013-03-28 11:06:25,287 WARN  mapred.LocalJobRunner - job_local_0001
java.lang.NullPointerException
        at org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:235)

atorg.apache.gora.mapreduce.GoraRecordWriter.write(GoraRecordWriter.java:60)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.write(ReduceTask.java:588)atorg.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)atorg.apache.nutch.crawl.GeneratorReducer.reduce(GeneratorReducer.java:79)atorg.apache.nutch.crawl.GeneratorReducer.reduce(GeneratorReducer.java:40)

        at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:176)

atorg.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:650)

        at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418)

atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:260)2013-03-28 11:06:26,255 ERROR crawl.GeneratorJob - GeneratorJob:java.lang.RuntimeException: job failed: name=[t1]generate:1364493979-1392803250, jobid=job_local_0001atorg.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)

        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:193)

atorg.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:219)

        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:264)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:272)



error seems to be comeing from here:

(https://github.com/apache/gora/blob/trunk/gora-hbase/src/main/java/org/apache/gora/hbase/store/HBaseStore.java)



if(o instanceof StatefulMap) {
              StatefulHashMap<Utf8, ?> map = (StatefulHashMap<Utf8, ?>) o;
              for (Entry<Utf8, State> e : map.states().entrySet()) {
                Utf8 mapKey = e.getKey();
                switch (e.getValue()) {
                  case DIRTY:
--->>>>>            byte[] qual = Bytes.toBytes(mapKey.toString());

byte[] val = toBytes(map.get(mapKey),field.schema().getValueType());

                    put.add(hcol.getFamily(), qual, val);
                    hasPuts = true;
                    break;
                  case DELETED:
                    qual = Bytes.toBytes(mapKey.toString());
                    hasDeletes = true;
                    delete.deleteColumn(hcol.getFamily(), qual);
                    break;
                }
              }
            }

thanks,

error using generate in 2.x

Reply via email to