Hi,

On 20 September 2017 at 06:36, Michael Coffey <[email protected]>
wrote:

> I am trying do develop a news crawler and I want to prohibit it from
> wandering too far away from the seed list that I provide.
> It seems like I should use the DepthScoringFilter, but I am having trouble
> getting it to work. After a few crawl cycles, all the _depth_ metadata say
> either 1 or 1000. Scores, meanwhile, vary from 0 to 1 and mostly don't look
> like depths.
> I have added a scoring.depth.max property to nutch-site.xml.
> <property>
>   <name>scoring.depth.max</name>
>   <value>3</value>
> </property>
>
>
I use the same plugin to only index seed plus one level below. The value
for this is 2 so your setup crawls seed plus two levels below.

I never looked at the values for the _depth_ metadata and frankly, because
it does what it's supposed to do, I personally don't care what it stores in
its metadata here.

What do I need to do to limit the crawl frontier so it won't go more than N
> hops from the seed list, if that is possible?
>
>
As said above, it should be enough to set the value to N+1.

-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

[email protected]
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Reply via email to