Hi - it is usually a problem with URL filters, which by default do not accept query strings etc. Check your URL filters. Markus
-----Original message----- > From:Jigal van Hemert | alterNET internet BV <[email protected] > <mailto:[email protected]> > > Sent: Tuesday 16th September 2014 12:24 > To: [email protected] <mailto:[email protected]> > Subject: Why are specific URLs not fetched? > > Hi, > > First of all sorry for the long signature, but it's configured by an > administrator. > > I'm using pre-configured Nutch package [1] which contains some plugins > and configuration to add fields which are used for integration with > TYPO3 CMS. Nutch 1.8 is used and in most cases it works like a charm. > > For one server the whole process basically ends after fetching the > seed URLs. Nothing is listed in the parsing fase. Any run after the > first one ends immediatly with the notification that there was nothing > to do. > The seed URLs are publically accessible (publications from a local > government) and do not produce any errors in browser dev tools. The > content can be fetched by wget from the same server where nutch is > running. > > I'm looking for a way to find out what went wrong here. Where can I > find information on what goes wrong during the fetch phase? > > I tried the IRC channel a few times, but at those times my only > company was ChanServ ;-) > > Thanks in advance for any pointers! > > [1] https://github.com/dkd/nutch-typo3-cms > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > [email protected] <mailto:[email protected]> > www.alternet.nl <http://www.alternet.nl> > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke > informatie bevatten. Als u niet de beoogde ontvanger bent van dit > bericht, neem dan direct per e-mail of telefoon contact op met de > verzender en verwijder dit bericht van uw systeem. Het is niet > toegestaan de inhoud van dit bericht op welke wijze dan ook te delen > met derden of anderszins openbaar te maken zonder schriftelijke > toestemming van alterNET Internet BV. U wordt geadviseerd altijd > bijlagen te scannen op virussen. AlterNET kan op geen enkele wijze > verantwoordelijk worden gesteld voor geleden schade als gevolg van > virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. > reiskosten. Op al onze prijsopgaven, offertes, overeenkomsten, en > diensten zijn, met uitzondering van alle andere voorwaarden, de > Algemene Voorwaarden van alterNET Internet B.V. van toepassing. Op al > onze domeinregistraties en hostingactiviteiten zijn tevens onze > aanvullende hostingvoorwaarden van toepassing. Dit bericht is > uitsluitend bedoeld voor de geadresseerde. Aan dit bericht kunnen geen > rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >

