Hello Jigal - every distribution of Nutch configuration should in my opinion disable OPIC-scoring. In fact, i think we should remove it from nutch-default.xml altogether. Markus
-----Original message----- > From:Jigal van Hemert | alterNET internet BV <[email protected]> > Sent: Wednesday 11th March 2015 9:40 > To: user <[email protected]> > Subject: Re: Nutch documents have huge scores in Solr > > Hi Markus, > > On 10 March 2015 at 13:11, Markus Jelsma <[email protected]> wrote: > > > Hello - Adaptive OPIC [1] is supposed to solve the drawbacks OPIC has with > > incremental crawling, scores will continue to grow. Nutch writes the boost > > to the document as weight so you will see it in the norms. It also writes > > the score to the boost field. You need to either switch off norms, which > > has a tremendous impact on relevance, or stop using OPIC and reset all > > scores back to 0, or reindex all document with the doc.setWeight(score) > > disabled in IndexerMapReduce. > > > > Thanks for the pointers. If I understand the concept correctly, it tries to > apply some weight to documents based on their relation to other documents > in the index and the weight of the related documents. > I also suspect that this not done for the documents submitted to the solr > server from the CMS. > > This can indeed lead to unbalanced search results. > > I'll make a suggestion to leave out the opic plugin from the Nutch for > TYPO3 distribution. > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > [email protected] > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >

