[jira] Commented: (NUTCH-266) hadoop bug when doing updatedb

KuroSaka TeruHiko (JIRA) Tue, 20 Jun 2006 10:50:58 -0700

    [ 
http://issues.apache.org/jira/browse/NUTCH-266?page=comments#action_12416945 ]


KuroSaka TeruHiko commented on NUTCH-266:
-----------------------------------------

I am experiencing pretty much the same symptom with the nighly builds of 
5/31/2006 up to 6/14/2006, which I tested the last time.
Here's the result of my "nutch crawl" run with DEBUG level log turned on.

2006-06-16 17:04:05,932 INFO  mapred.LocalJobRunner 
(LocalJobRunner.java:progress(140)) - 
C:/opt/nutch-060614/test/index/segments/20060616170358/crawl_parse/part-00000:0+62
2006-06-16 17:04:05,948 WARN  mapred.LocalJobRunner 
(LocalJobRunner.java:run(119)) - job_4wsxze
java.io.IOException: Couldn't rename 
/tmp/hadoop/mapred/local/map_5n5aid/part-0.out
        at 
org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:102)
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:342)
        at org.apache.nutch.crawl.CrawlDb.update(CrawlDb.java:55)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:114)

Prior to this fatal exception, I've seen many occurances of this exception:
2006-06-16 17:04:05,854 INFO  conf.Configuration
(Configuration.java:loadResource(397)) - parsing 
file:/C:/opt/nutch-060614/conf/hadoop-site.xml
2006-06-16 17:04:05,870 DEBUG conf.Configuration 
(Configuration.java:<init>(67)) - java.io.IOException: config()
        at org.apache.hadoop.conf.Configuration.<init>(Configuration.java:67)
        at org.apache.hadoop.mapred.JobConf.<init>(JobConf.java:115)
        at 
org.apache.hadoop.mapred.LocalJobRunner$Job.<init>(LocalJobRunner.java:61)
        at 
org.apache.hadoop.mapred.LocalJobRunner.submitJob(LocalJobRunner.java:181)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:277)
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:312)
        at org.apache.nutch.crawl.CrawlDb.update(CrawlDb.java:55)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:114)

I am not intend to run hadoop at all, so this hadoop-site.xlm is empty.
It just has this empty element:
<configuration>
</configuration>



> hadoop bug when doing updatedb
> ------------------------------
>
>          Key: NUTCH-266
>          URL: http://issues.apache.org/jira/browse/NUTCH-266
>      Project: Nutch
>         Type: Bug

>     Versions: 0.8-dev
>  Environment: windows xp, JDK 1.4.2_04
>     Reporter: Eugen Kochuev

>
> I constantly get the following error message
> 060508 230637 Running job: job_pbhn3t
> 060508 230637 
> c:/nutch/crawl-20060508230625/crawldb/current/part-00000/data:0+245
> 060508 230637 
> c:/nutch/crawl-20060508230625/segments/20060508230628/crawl_fetch/part-00000/data:0+296
> 060508 230637 
> c:/nutch/crawl-20060508230625/segments/20060508230628/crawl_parse/part-00000:0+5258
> 060508 230637 job_pbhn3t
> java.io.IOException: Target 
> /tmp/hadoop/mapred/local/reduce_qnd5sx/map_qjp7tf.out already exists
>         at org.apache.hadoop.fs.FileUtil.checkDest(FileUtil.java:162)
>         at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:62)
>         at 
> org.apache.hadoop.fs.LocalFileSystem.renameRaw(LocalFileSystem.java:191)
>         at org.apache.hadoop.fs.FileSystem.rename(FileSystem.java:306)
>         at 
> org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:101)
> Exception in thread "main" java.io.IOException: Job failed!
>         at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:341)
>         at org.apache.nutch.crawl.CrawlDb.update(CrawlDb.java:54)
>         at org.apache.nutch.crawl.Crawl.main(Crawl.java:114)

-- 
This message is automatically generated by JIRA.
-
If you think it was sent incorrectly contact one of the administrators:
   http://issues.apache.org/jira/secure/Administrators.jspa
-
For more information on JIRA, see:
   http://www.atlassian.com/software/jira

[jira] Commented: (NUTCH-266) hadoop bug when doing updatedb

Reply via email to