Hi, exclusion of DOM elements is not (yet) part of the Nutch package (1.9). You need to patch Nutch, see https://issues.apache.org/jira/browse/NUTCH-585
Sebastian 2014-11-12 9:31 GMT+01:00 Jigal van Hemert | alterNET internet BV < [email protected]>: > On 11 November 2014 09:12, Moumita Dhar01 <[email protected]> > wrote: > > > Hi, > > > > I am using Nutch 1.9 and Solr 4.6 to index a web application with > > approximately 100 distinct URL and contents. > > > > Nutch is used to fetch the urls, links and the crawl the entire web > > application to extract all the content for all pages, and send the > content > > to Solr. > > > > The problem that I have now is that the first 1000 or so characters and > > the last 400 or so characters of the pages which are common header and > > footer are showing up in the search results. > > > > Is there a way to ignore the links or keep only the static text in the > > content? > > > > You can exclude parts of the page before it's added to the index. In > nutch-site.xml you can put (example configuration, adjust to your > situation) > > <property> > <name>parser.html.NodesToExclude</name> > <value></value> > <description> > A list of nodes whose content will not be indexed separated by "|". > Use this to tell the HTML parser to ignore, for example, site > navigation text. > > Each node has three elements, separated by semi-colon: > the first one is the tag name, > the second one the attribute name, > the third one the value of the attribute. > > Example: table;summary;header|div;id;navigation > > Note that nodes with these attributes, and their children, will be > silently ignored by the parser so verify the indexed content > with Luke to confirm results. > </description> > </property> > > In the value part you add your configuration. The description part is just > to explain. > > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > [email protected] > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >

