https://issues.apache.org/jira/browse/NUTCH-1958
-----Original message-----
> From:Markus Jelsma <[email protected]>
> Sent: Wednesday 11th March 2015 10:55
> To: [email protected]
> Subject: RE: Nutch documents have huge scores in Solr
>
> Hello Jigal - every distribution of Nutch configuration should in my opinion
> disable OPIC-scoring. In fact, i think we should remove it from
> nutch-default.xml altogether.
> Markus
>
> -----Original message-----
> > From:Jigal van Hemert | alterNET internet BV <[email protected]>
> > Sent: Wednesday 11th March 2015 9:40
> > To: user <[email protected]>
> > Subject: Re: Nutch documents have huge scores in Solr
> >
> > Hi Markus,
> >
> > On 10 March 2015 at 13:11, Markus Jelsma <[email protected]> wrote:
> >
> > > Hello - Adaptive OPIC [1] is supposed to solve the drawbacks OPIC has with
> > > incremental crawling, scores will continue to grow. Nutch writes the boost
> > > to the document as weight so you will see it in the norms. It also writes
> > > the score to the boost field. You need to either switch off norms, which
> > > has a tremendous impact on relevance, or stop using OPIC and reset all
> > > scores back to 0, or reindex all document with the doc.setWeight(score)
> > > disabled in IndexerMapReduce.
> > >
> >
> > Thanks for the pointers. If I understand the concept correctly, it tries to
> > apply some weight to documents based on their relation to other documents
> > in the index and the weight of the related documents.
> > I also suspect that this not done for the documents submitted to the solr
> > server from the CMS.
> >
> > This can indeed lead to unbalanced search results.
> >
> > I'll make a suggestion to leave out the opic plugin from the Nutch for
> > TYPO3 distribution.
> >
> > --
> >
> >
> > Met vriendelijke groet,
> >
> >
> > Jigal van Hemert | Ontwikkelaar
> >
> >
> >
> > Langesteijn 124
> > 3342LG Hendrik-Ido-Ambacht
> >
> > T. +31 (0)78 635 1200
> > F. +31 (0)848 34 9697
> > KvK. 23 09 28 65
> >
> > [email protected]
> > www.alternet.nl
> >
> >
> > Disclaimer:
> > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> > direct per e-mail of telefoon contact op met de verzender en verwijder dit
> > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> > welke wijze dan ook te delen met derden of anderszins openbaar te maken
> > zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> > van virussen.
> >
> > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> > dit bericht kunnen geen rechten worden ontleend.
> >
> > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> >
>