Hello - Adaptive OPIC [1] is supposed to solve the drawbacks OPIC has with incremental crawling, scores will continue to grow. Nutch writes the boost to the document as weight so you will see it in the norms. It also writes the score to the boost field. You need to either switch off norms, which has a tremendous impact on relevance, or stop using OPIC and reset all scores back to 0, or reindex all document with the doc.setWeight(score) disabled in IndexerMapReduce.
Markus [1]: http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html -----Original message----- > From:Jigal van Hemert | alterNET internet BV <[email protected]> > Sent: Tuesday 10th March 2015 13:01 > To: user <[email protected]> > Subject: Re: Nutch documents have huge scores in Solr > > Hi Markus, > > On 10 March 2015 at 10:45, Markus Jelsma <[email protected]> wrote: > > > Hello Jigal - reading OPIC gives it away. You can check Nutch record, they > > must have a very high score, which is added to the NutchDocument as boost > > field. If, in Solr, you actually use it, this is what you get. Do not use > > OPIC, unless you have a reason to. > > > > > Thanks for the quick reply. The OPIC plugin has always been in the > configuration (it was recently removed from the default Nutch configuration > IIRC to make it possible to use Nutch without a Solr index somehow) and > never gave a problem. > Do you happen to know some explanation (online documentation?) on why these > scores can be high? Is the score the value that is visible in the fieldNorm > field? Is it safe to remove it and re-index everything that was indexed by > Nutch? > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > [email protected] > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >

