about canonical pages to avoid duplicates pages

Eyeris Rodriguez Rueda Wed, 26 Oct 2016 13:02:45 -0700

Hi all.
Im using nutch 1.12 and solr 4.10.3. in local mode.
I have detected a lot of duplicates pages on crawlDB. Maybe using canonical 
atribute i can reduce duplicate pages on crawldb.
I have read a old post(see below),that is an intersting topic.
https://issues.apache.org/jira/browse/NUTCH-710


Is this feature supported by nutch or not ?.

about canonical pages to avoid duplicates pages

Reply via email to