Hi, On 22 June 2016 at 14:15, Markus Jelsma <[email protected]> wrote:
> You can use custom regex files etc, but no config. I recommend to just > have separate Nutch instances and working directories. We also separate all > our customers. > Well, actually you can (with some restrictions). The environment variable NUTCH_CONF_DIR can point to the directory where the configuration is located. I have for example cron jobs like this: cd /opt/solr-tomcat/nutchdirectory/ export JAVA_HOME=/usr/lib/jvm/jre export NUTCH_CONF_DIR=/opt/solr-tomcat/nutchdirectory/configurations/core_one bin/crawl urls/core_one crawls/core_one 127.0.0.1/solr/core_one 3 >/dev/null 2>&1 In the directory where nutch is installed I have extra directories urls, crawls, configurations where each job has separate subdirectories. All files from the normal conf directory were copied to each of the configuration directories and customized for each job. The only restriction is that I haven't been able to make sure that the environment variables of different cron jobs aren't affecting the other cron jobs. Therefore I make sure they run in sequence. With only 4 jobs (for the development, test, accepting and production stages of a website) they are all executed during the night, so there is no problem. > > Markus > > > > -----Original message----- > > From:Jose-Marcio Martins da Cruz <[email protected] > > > > Sent: Tuesday 21st June 2016 11:50 > > To: [email protected] > > Subject: nutch 1.12 - different options for each crawldb > > > > > > Hello, > > > > I'm using nutch 1.12/solr to index sites of our organisation, and I'd > like to divide them in some different classes, > > e.g. public and private servers. > > > > This works fine with different crawldb databases, each one with its own > set of seeds. > > > > But I'd like to have different configuration files, e.g., > regex-urlfilter.txt, nutch-site.xml, ... or, eventually, have > > one "conf" directory for crawldb > > > > Is it possible and if yes, how can I do this ? > > > > Thanks for your help. > > > > Regards > > > > -- > > > -- Met vriendelijke groet, Jigal van Hemert | Ontwikkelaar Langesteijn 124 3342LG Hendrik-Ido-Ambacht T. +31 (0)78 635 1200 F. +31 (0)848 34 9697 KvK. 23 09 28 65 [email protected] www.alternet.nl Disclaimer: Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan direct per e-mail of telefoon contact op met de verzender en verwijder dit bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op welke wijze dan ook te delen met derden of anderszins openbaar te maken zonder schriftelijke toestemming van alterNET Internet BV. U wordt geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg van virussen. Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan dit bericht kunnen geen rechten worden ontleend. ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

