Hello - it might be the case that over time, due to additional URL filters, the CrawlDB loses URL's (which can go 404), but are never deleted from the index, and stay there forever.
If you really hate 404ยด s, I'd just never delete the index, but keep a low fetch interval, and have Nutch delete 404's as it finds them. -----Original message----- > From:Jigal van Hemert | alterNET internet BV <[email protected]> > Sent: Wednesday 5th October 2016 9:22 > To: user <[email protected]> > Subject: Re: 404 removal not working and title mysteriously appearing in > content > > Hi, > > 2016-09-14 16:27 GMT+02:00 Jigal van Hemert | alterNET internet BV < > > [email protected]>: > > > 2016-09-13 04:41:36,541 INFO indexer.CleaningJob - CleaningJob: deleted a > > total of 2 documents > > 2016-09-13 04:41:36,545 WARN mapred.FileOutputCommitter - Output path is > > null in cleanup > > 2016-09-13 04:41:37,313 INFO indexer.CleaningJob - CleaningJob: finished > > at 2016-09-13 04:41:37, elapsed: 00:00:06 > > > > It claims to have deleted 2 documents, but there are plenty of 404 pages > > still in the index. > > > > I think it's quite an old version of Nutch. There is a > > lib/apache-nutch-1.8.jar file :-) > > > > > As a workaround I now simply remove all documents which are indexed before > today (as all pages are crawled and updated daily) by calling the update > handler with a delete query. This is however not as it should work, or is > it? > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > [email protected] > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >

