Re: solr.WordDelimiterFilterFactory

Mike Klaas Thu, 20 Nov 2008 13:36:00 -0800


On 20-Nov-08, at 6:20 AM, Daniel Rosher wrote:

Hi,
I'm trying to index some content that has things like 'java/J2EE'but with
solr.WordDelimiterFilterFactory and parameters [generateWordParts="1"
generateNumberParts="0" catenateWords="0" catenateNumbers="0"
catenateAll="0" splitOnCaseChange="0"] this ends up tokenized as
'java','j','2',EE'

Does anyone know a way of having this tokenized as 'java','j2ee'.
Perhaps this filter need something like a protected list of tokensnot to
tokenize like EnglishPorterFilter ?

That's a possibility. Another is to add code to filter out shorttokens from being generated, and use catenateAll=true


-Mike

Re: solr.WordDelimiterFilterFactory

Reply via email to