Re: Filter before tokenize ?

Paul Taylor Sat, 12 Sep 2009 13:07:03 -0700

AHMET ARSLAN wrote:

--- On Sat, 9/12/09, Paul Taylor <[email protected]> wrote:

From: Paul Taylor <[email protected]>
Subject: Filter before tokenize ?
To: [email protected]
Date: Saturday, September 12, 2009, 9:39 PM
Is it possible to filter before
tokenize, or is that not a good idea.
I want to convert '&' to 'and' , so they are dealt with
the same way, but the StandardTokenizer I am using removes
the &, I could change the tokenizer but  because
I'm not too clear on jflex syntax it would seem easier to
just apply a CharFilter before tokenizing, but is that
possible


May be you can use WhitespaceTokenizer that won't remove &?
Why and's (&) are import for you? Do you need to search them?
Replacing &'s before indexing (by preprocessing) can be a option?


Filter before tokenizer can be simulated by using:

1-)KeywordTokenizer2-)Your CharFilter

3-)A token filter that tokenizes input token's text using StandardTokenizer

But i think this is not a good idea.

Hope this helps.

Yes, I want to search them and I want to be able to search using either'&' or 'and' and get the same results. Ive just been playing with thisand using a CharFilter before the Tokenizer did work, the only problemwas modifications required for reusableTokenStream because CharFilterdoesn't have a reset(Reader) method like tokenizer, so I guess Irecreate this bit and then reset tokenizer, seems to work okay so thatswhat Im going with, if this is wronmg please someone let me know.

Because of this problem I also tried modifying the StandardTokenizerjflex file so that it didn't remove &s, but then realised CharFilter HASto be before a tokenizer it cant work on a tokenizers output. I thentried making a modiofication to StandardFilter, but because this onlyremoves characters it wasnt clear how tro add a case for adding characters.


Paul

public class StandardUnaccentAnalyzer extends Analyzer {

private NormalizeCharMap charConvertMap;

private void setCharConvertMap() {
charConvertMap = new NormalizeCharMap();
charConvertMap.add("&","and");
}

public StandardUnaccentAnalyzer() {
setCharConvertMap();
}

public TokenStream tokenStream(String fieldName, Reader reader) {
CharFilter mappingCharFilter = new MappingCharFilter(charConvertMap,reader);
StandardTokenizer tokenStream = new StandardTokenizer(mappingCharFilter);

TokenStream result = new ICUTransformFilter(tokenStream,Transliterator.getInstance("[ー[:Script=Katakana:]]Katakana-Hiragana"));

result = new StandardFilter(result);
result = new AccentFilter(result);
result = new LowerCaseFilter(result);
return result;
}

private static final class SavedStreams {
CharFilter preFilter;
StandardTokenizer tokenStream;
TokenStream filteredTokenStream;
}

public TokenStream reusableTokenStream(String fieldName, Reader reader)throws IOException {

SavedStreams streams = (SavedStreams)getPreviousTokenStream();
if (streams == null) {
streams = new SavedStreams();
setPreviousTokenStream(streams);
streams.preFilter = new MappingCharFilter(charConvertMap,reader);
streams.tokenStream = new StandardTokenizer(streams.preFilter);

streams.filteredTokenStream = newICUTransformFilter(streams.tokenStream, Transliterator.getInstance("[ー[:Script=Katakana:]]Katakana-Hiragana"));streams.filteredTokenStream = newStandardFilter(streams.filteredTokenStream);

streams.filteredTokenStream = new AccentFilter(streams.filteredTokenStream);

streams.filteredTokenStream = newLowerCaseFilter(streams.filteredTokenStream);

}
else {
streams.preFilter = new MappingCharFilter(charConvertMap,reader);
streams.tokenStream.reset(streams.preFilter);
}
return streams.filteredTokenStream;
}


---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Re: Filter before tokenize ?

Reply via email to