Hi Sebastian,

Thanks for the reply.

On 13 September 2016 at 17:14, Sebastian Nagel <[email protected]>
wrote:

> are you indexing with
>   bin/nutch index ... -deleteGone
>

No, I'm using:

bin/crawl urls/[projectname] crawls/[projectname]
http://solr_server.tld/solr/[projectname] 2


> Purging 404s from CrawlDb should be done only from time to time
> to keep the CrawlDb small. Normally, 404s are recorded to avoid
> that they are refetched frequently.
>

I'm not too concerned about 404s in CrawlDb, but about the fact that they
are not removed from the solr index.
It's only a few hundred URLs that need to be indexed and even if it were
thousands of 404 items it would not be a problem for a looooong time :-)


>
> > Another issue is that the title tag contents appears at the beginning of
> > the "content" field before the actualy page contents.
>
> Yes, this is the case. In general, it's not wrong if "content" is a pure
> search field and not used as display field. It's a known feature request
> [1],
> so let's implement it know as a configurable option. If you have time
> to work on it that's fine. If not I could get it done the next days.
>

Good to know that I didn't miss a setting :-)
Unfortunately I have zero knowledge about Java coding (I'm a PHP guy who
spends a lot of free time on the FOSS project TYPO3).

For the time being I can report back that it's hardcoded and that it can't
be configured. Thanks for that information (really; no sarcasm)!


-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

[email protected]
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Reply via email to