Hi - it is usually a problem with URL filters, which by default do not accept 
query strings etc. Check your URL filters.
Markus



 
 
-----Original message-----
> From:Jigal van Hemert | alterNET internet BV <[email protected] 
> <mailto:[email protected]> >
> Sent: Tuesday 16th September 2014 12:24
> To: [email protected] <mailto:[email protected]> 
> Subject: Why are specific URLs not fetched?
> 
> Hi,
> 
> First of all sorry for the long signature, but it's configured by an
> administrator.
> 
> I'm using pre-configured Nutch package [1] which contains some plugins
> and configuration to add fields which are used for integration with
> TYPO3 CMS. Nutch 1.8 is used and in most cases it works like a charm.
> 
> For one server the whole process basically ends after fetching the
> seed URLs. Nothing is listed in the parsing fase. Any run after the
> first one ends immediatly with the notification that there was nothing
> to do.
> The seed URLs are publically accessible (publications from a local
> government) and do not produce any errors in browser dev tools. The
> content can be fetched by wget from the same server where nutch is
> running.
> 
> I'm looking for a way to find out what went wrong here. Where can I
> find information on what goes wrong during the fetch phase?
> 
> I tried the IRC channel a few times, but at those times my only
> company was ChanServ ;-)
> 
> Thanks in advance for any pointers!
> 
> [1] https://github.com/dkd/nutch-typo3-cms
> 
> -- 
> 
> 
> Met vriendelijke groet,
> 
> 
> Jigal van Hemert | Ontwikkelaar
> 
> 
> 
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
> 
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
> 
> [email protected] <mailto:[email protected]> 
> www.alternet.nl <http://www.alternet.nl> 
> 
> 
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke
> informatie bevatten. Als u niet de beoogde ontvanger bent van dit
> bericht, neem dan direct per e-mail of telefoon contact op met de
> verzender en verwijder dit bericht van uw systeem. Het is niet
> toegestaan de inhoud van dit bericht op welke wijze dan ook te delen
> met derden of anderszins openbaar te maken zonder schriftelijke
> toestemming van alterNET Internet BV. U wordt geadviseerd altijd
> bijlagen te scannen op virussen. AlterNET kan op geen enkele wijze
> verantwoordelijk worden gesteld voor geleden schade als gevolg van
> virussen.
> 
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl.
> reiskosten. Op al onze prijsopgaven, offertes, overeenkomsten, en
> diensten zijn, met uitzondering van alle andere voorwaarden, de
> Algemene Voorwaarden van alterNET Internet B.V. van toepassing. Op al
> onze domeinregistraties en hostingactiviteiten zijn tevens onze
> aanvullende hostingvoorwaarden van toepassing. Dit bericht is
> uitsluitend bedoeld voor de geadresseerde. Aan dit bericht kunnen geen
> rechten worden ontleend.
> 
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> 

Reply via email to