parse data directory not found after merge

Dean Pullen Thu, 05 Jan 2012 09:29:22 -0800

Hi all,

I'm upgrading from nutch 1 to 1.4 and am having problems runninginvertlinks.


Error:

LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path doesnot exist: file:/opt/nutch/data/crawl/segments/20120105172548/parse_dataatorg.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)atorg.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)atorg.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)atorg.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)atorg.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)

    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)

I notice that the parse_data directories are produced after a fetch(with fetcher.parse set to true), but after the merge the parse_datadirectory doesn't exist.

What behaviour has changed since 1.0 and does anyone have a solution forthe above?


Thanks in advance,

Dean.

parse data directory not found after merge

Reply via email to