Hi,

2014-09-17 16:43 GMT+02:00 Jigal van Hemert | alterNET internet BV
<[email protected]>:
> Hi,
>
> 2014-09-16 16:15 GMT+02:00 Markus Jelsma <[email protected]>:
>> You can check the bin/nutch parsechecker tool to see if the URL's are 
>> properly extracted from webpages. Then use the bin/nutch 
>> org.apache.nutch.net.URLFilterChecker -allCombined tool to see some filter 
>> removes your URL's. They may also be normalized to something undesirable but 
>> that's not usually the case.
>
> Nice tools! Didn't know about them.
>
> Output from parsechecker: http://pastebin.com/EJYNVuVx
>
> Then the URLFilterChecker:
>
> echo "http://lochem.raadsinformatie.nl/sitemap/meetings/2013/"; |
> bin/nutch org.apache.nutch.net.URLFilterChecker -allCombined
> Checking combination of all URLFilters available
> +http://lochem.raadsinformatie.nl/sitemap/meetings/2013/
>
> Anything strange in this output?

I did another Nutch configuration the other day and it successfully
indexed a couple of sites. The mystery remains why on the same server
with the same software (just slightly different configuration, but
nothing significant) one set of seed URLs still doesn't want to work.
All checks (see above) seem to work correctly, but after the fetching
part nothing is reported for parsing and subsequent runs just say they
don't have anything to do.

Any pointers to debugging the fetching process and finding out what is
queued for parsing is highly appreciated.

-- 

Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

[email protected]
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke
informatie bevatten. Als u niet de beoogde ontvanger bent van dit
bericht, neem dan direct per e-mail of telefoon contact op met de
verzender en verwijder dit bericht van uw systeem. Het is niet
toegestaan de inhoud van dit bericht op welke wijze dan ook te delen
met derden of anderszins openbaar te maken zonder schriftelijke
toestemming van alterNET Internet BV. U wordt geadviseerd altijd
bijlagen te scannen op virussen. AlterNET kan op geen enkele wijze
verantwoordelijk worden gesteld voor geleden schade als gevolg van
virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl.
reiskosten. Op al onze prijsopgaven, offertes, overeenkomsten, en
diensten zijn, met uitzondering van alle andere voorwaarden, de
Algemene Voorwaarden van alterNET Internet B.V. van toepassing. Op al
onze domeinregistraties en hostingactiviteiten zijn tevens onze
aanvullende hostingvoorwaarden van toepassing. Dit bericht is
uitsluitend bedoeld voor de geadresseerde. Aan dit bericht kunnen geen
rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Reply via email to