Please correct me if I'm wrong, but don't you achieve the same functionality using the db.ignore.external.links property in nutch-default.xml?
<property> <name>db.ignore.external.links</name> <value>true</value> <description>If true, outlinks leading from a page to external hosts will be ignored. This is an effective way to limit the crawl to include only initially injected hosts, without creating complex URLFilters. </description> </property> As specified in : http://wiki.apache.org/nutch/FAQ#Is_it_possible_to_fetch_only_pages_from_some_specific_domains.3F Disclaimer: I'm still a newbie to nutch! On 24 June 2010 19:01, Max Lynch <[email protected]> wrote: > On Wed, Jun 23, 2010 at 5:27 PM, Dennis Kubes <[email protected]> wrote: > >> You may still see some urls that *seem* to be outside of your domains list >> while using the domain urlfilter. Remember the following: >> >> 1. Urls are checked in order of domain suffix, domain name, and >> hostname. If you have .com and something.net, urls in >> something.com will also get picked up. >> 2. This doesn't handle redirects, it only handles generated urls. If >> your domain urls file has something.com and the original url is >> http://something.com/something.html but redirects to >> http://ww2.something.net/redirect/login.html for example, the url >> will still get crawled and saved. >> >> For verification grep through the logs to be sure. Be aware of the >> redirects if you see a few urls that don't match your patterns. If you see >> a lot that don't match then something isn't working. >> >> Dennis >> >> > Thanks Dennis, that makes sense. The domain filter seems to be working and > is all I need for now. > > -Max > -- Joan Espasa Arxer anpro21 902 026 217 / www.anpro21.com / [email protected] Nota: Usted ha recibido este mensaje al estar en la libreta de direcciones del remitente, en los archivos de la empresa o mediante el sistema de “responder” al ser usted la persona que contacto por este medio con el remitente. En caso de no querer recibir ningún email mas del remitente o de cualquier miembro de la organización a la que pertenece, por favor, responda a este email solicitando la baja de su dirección en nuestros archivos. Advertencia legal: Este mensaje y, en su caso, los ficheros anexos son confidenciales, especialmente en lo que respecta a los datos personales, y se dirigen exclusivamente al destinatario referenciado. Si usted no lo es y lo ha recibido por error o tiene conocimiento del mismo por cualquier motivo, le rogamos que nos lo comunique por este medio y proceda a destruirlo o borrarlo, y que en todo caso se abstenga de utilizar, reproducir, alterar, archivar o comunicar a terceros el presente mensaje y ficheros anexos, todo ello bajo pena de incurrir en responsabilidades legales

