Hi Sebastian, Thanks for the reply.
On 13 September 2016 at 17:14, Sebastian Nagel <[email protected]> wrote: > are you indexing with > bin/nutch index ... -deleteGone > No, I'm using: bin/crawl urls/[projectname] crawls/[projectname] http://solr_server.tld/solr/[projectname] 2 > Purging 404s from CrawlDb should be done only from time to time > to keep the CrawlDb small. Normally, 404s are recorded to avoid > that they are refetched frequently. > I'm not too concerned about 404s in CrawlDb, but about the fact that they are not removed from the solr index. It's only a few hundred URLs that need to be indexed and even if it were thousands of 404 items it would not be a problem for a looooong time :-) > > > Another issue is that the title tag contents appears at the beginning of > > the "content" field before the actualy page contents. > > Yes, this is the case. In general, it's not wrong if "content" is a pure > search field and not used as display field. It's a known feature request > [1], > so let's implement it know as a configurable option. If you have time > to work on it that's fine. If not I could get it done the next days. > Good to know that I didn't miss a setting :-) Unfortunately I have zero knowledge about Java coding (I'm a PHP guy who spends a lot of free time on the FOSS project TYPO3). For the time being I can report back that it's hardcoded and that it can't be configured. Thanks for that information (really; no sarcasm)! -- Met vriendelijke groet, Jigal van Hemert | Ontwikkelaar Langesteijn 124 3342LG Hendrik-Ido-Ambacht T. +31 (0)78 635 1200 F. +31 (0)848 34 9697 KvK. 23 09 28 65 [email protected] www.alternet.nl Disclaimer: Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan direct per e-mail of telefoon contact op met de verzender en verwijder dit bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op welke wijze dan ook te delen met derden of anderszins openbaar te maken zonder schriftelijke toestemming van alterNET Internet BV. U wordt geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg van virussen. Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan dit bericht kunnen geen rechten worden ontleend. ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

