Exception in NUTCH 2.2.1

rk_sharma Wed, 18 Dec 2013 13:41:44 -0800

Hi i am using nutch on rhel-5 and facing an exception 

[root@localhost local]# bin/nutch crawl urls -dir crawl -depth 3 -topN 5
InjectorJob: Using class org.apache.gora.memory.store.MemStore as the Gora
storage class.
Exception in thread "main"
org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does
not exist: file:/root/Desktop/apache-nutch-2.2.1/runtime/local/crawl
        at
org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:235)
        at
org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:252)
        at
org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:1054)
        at
org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1071)
        at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
        at
org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:550)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:580)
        at
org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:50)
        at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233)
        at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:136)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)


but when i manually create crawl folder in ${NUTCH_HOME}/local then i get
following exception

[root@localhost local]# bin/nutch crawl urls -dir crawl -depth 3 -topN 5
InjectorJob: Using class org.apache.gora.memory.store.MemStore as the Gora
storage class.
InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and
filtering: 0
Exception in thread "main" java.lang.RuntimeException: job failed:
name=generate: null, jobid=job_local892109497_0002
        at
org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
        at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
 
P.S. can anyone tell me what step should i follow to remove these exception.
Is there any link between previous exception on this exception



--
View this message in context: 
http://lucene.472066.n3.nabble.com/Exception-in-NUTCH-2-2-1-tp4107326.html
Sent from the Nutch - User mailing list archive at Nabble.com.

Exception in NUTCH 2.2.1

Reply via email to