Hello Jigal - every distribution of Nutch configuration should in my opinion 
disable OPIC-scoring. In fact, i think we should remove it from 
nutch-default.xml altogether.
Markus

-----Original message-----
> From:Jigal van Hemert | alterNET internet BV <[email protected]>
> Sent: Wednesday 11th March 2015 9:40
> To: user <[email protected]>
> Subject: Re: Nutch documents have huge scores in Solr
> 
> Hi Markus,
> 
> On 10 March 2015 at 13:11, Markus Jelsma <[email protected]> wrote:
> 
> > Hello - Adaptive OPIC [1] is supposed to solve the drawbacks OPIC has with
> > incremental crawling, scores will continue to grow. Nutch writes the boost
> > to the document as weight so you will see it in the norms. It also writes
> > the score to the boost field. You need to either switch off norms, which
> > has a tremendous impact on relevance, or stop using OPIC and reset all
> > scores back to 0, or reindex all document with the doc.setWeight(score)
> > disabled in IndexerMapReduce.
> >
> 
> Thanks for the pointers. If I understand the concept correctly, it tries to
> apply some weight to documents based on their relation to other documents
> in the index and the weight of the related documents.
> I also suspect that this not done for the documents submitted to the solr
> server from the CMS.
> 
> This can indeed lead to unbalanced search results.
> 
> I'll make a suggestion to leave out the opic plugin from the Nutch for
> TYPO3 distribution.
> 
> -- 
> 
> 
> Met vriendelijke groet,
> 
> 
> Jigal van Hemert | Ontwikkelaar
> 
> 
> 
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
> 
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
> 
> [email protected]
> www.alternet.nl
> 
> 
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> direct per e-mail of telefoon contact op met de verzender en verwijder dit
> bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> welke wijze dan ook te delen met derden of anderszins openbaar te maken
> zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> van virussen.
> 
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> dit bericht kunnen geen rechten worden ontleend.
> 
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> 

Reply via email to