Hi,

The daily indexing seems to be working so far (field "indexed" is updated),
but pages that return a 404 are not removed from the solr index. The
content they return is also no included in the index. They just seem tot be
ingnored.
At first db.update.purge.404 was set to true, but upon reading a bit
further on that setting it seemed to me that this would remove the pages
from the Nutch db, essentially leaving them alone without updating the solr
index. So I changed it to false, hoping that they would now be removed from
the index. Alas, nothing changed.

Another issue is that the title tag contents appears at the beginning of
the "content" field before the actualy page contents. This looks a bit
silly so I searched for a place where it might be configured. Nothing in
schema.xml, schema-solr4.xml and solrindex-mapping.xml.
Maybe I've overlooked something, but I couldn't find any setting that might
explain this.
Is there a way to remove the title tag contents from the "content" field?

-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

[email protected]
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Reply via email to