Please correct me if I'm wrong, but don't you achieve the same
functionality using the db.ignore.external.links property in
nutch-default.xml?

<property>
  <name>db.ignore.external.links</name>
  <value>true</value>
  <description>If true, outlinks leading from a page to external hosts
  will be ignored. This is an effective way to limit the crawl to include
  only initially injected hosts, without creating complex URLFilters.
  </description>
</property>

As specified in :
http://wiki.apache.org/nutch/FAQ#Is_it_possible_to_fetch_only_pages_from_some_specific_domains.3F

Disclaimer: I'm still a newbie to nutch!

On 24 June 2010 19:01, Max Lynch <[email protected]> wrote:
> On Wed, Jun 23, 2010 at 5:27 PM, Dennis Kubes <[email protected]> wrote:
>
>> You may still see some urls that *seem* to be outside of your domains list
>> while using the domain urlfilter.  Remember the following:
>>
>>  1. Urls are checked in order of domain suffix, domain name, and
>>     hostname.  If you have .com and something.net, urls in
>>     something.com will also get picked up.
>>  2. This doesn't handle redirects, it only handles generated urls.  If
>>     your domain urls file has something.com and the original url is
>>     http://something.com/something.html but redirects to
>>     http://ww2.something.net/redirect/login.html for example, the url
>>     will still get crawled and saved.
>>
>> For verification grep through the logs to be sure.  Be aware of the
>> redirects if you see a few urls that don't match your patterns.  If you see
>> a lot that don't match then something isn't working.
>>
>> Dennis
>>
>>
> Thanks Dennis, that makes sense.  The domain filter seems to be working and
> is all I need for now.
>
> -Max
>



-- 

Joan Espasa Arxer
 anpro21

902 026 217 / www.anpro21.com / [email protected]

Nota:
Usted ha recibido este mensaje al estar en la libreta de direcciones
del remitente, en los archivos de la empresa o mediante el sistema de
“responder” al ser usted la persona que contacto por este medio con el
remitente. En caso de no querer recibir ningún email mas del remitente
o de cualquier miembro de la organización a la que pertenece, por
favor, responda a este email solicitando la baja de su dirección en
nuestros archivos.

Advertencia legal:
Este mensaje y, en su caso, los ficheros anexos son confidenciales,
especialmente en lo que respecta a los datos personales, y se dirigen
exclusivamente al destinatario referenciado. Si usted no lo es y lo ha
recibido por error o tiene conocimiento del mismo por cualquier
motivo, le rogamos que nos lo comunique por este medio y proceda a
destruirlo o borrarlo, y que en todo caso se abstenga de utilizar,
reproducir, alterar, archivar o comunicar a terceros el presente
mensaje y ficheros anexos, todo ello bajo pena de incurrir en
responsabilidades legales

Reply via email to