Re: [Dspace-tech] Accent differences in discovery

ORIOL OLIVE COMADIRA Wed, 07 Nov 2012 00:32:29 -0800

Hi Elvi,

If you use "discovery" for searching,
you need to add some new filters to solr search schema.


Edit file [dspace]/solr/search/conf/schema.xml

In "fieldType" named "text" you can put:
<charFilter class="solr.MappingCharFilterFactory" 
mapping="mapping-FoldToASCII.txt"/>
at all analyzers.


At the end it looks like:

    <fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">

        <!-- added for ignore accents -->
        <charFilter class="solr.MappingCharFilterFactory" 
mapping="mapping-FoldToASCII.txt"/>

        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" 
ignoreCase="true" expand="false"/>
        -->
        <!-- Case insensitive stop word removal.
          add enablePositionIncrements=true in both the index and query
          analyzers to leave a 'gap' for more accurate phrase queries.
        -->
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" 
generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" 
splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory" 
protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">

        <!-- added for ignore accents -->
        <charFilter class="solr.MappingCharFilterFactory" 
mapping="mapping-FoldToASCII.txt"/>

        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" 
ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" 
generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" 
splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory" 
protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>



Then, you need to create the file 
[dspace]/solr/search/conf/mapping-FoldToASCII.txt
You can find it at:
http://code.google.com/p/eaditor/source/browse/branches/solr-home/indexes/published/conf/mapping-FoldToASCII.txt?r=258



Hope that helps,

Al 07/11/2012 06:06, En/na Nemiz, Elvi ha escrit:

Dear all,

Hello, is it possible for discovery to ignore accents when searching? E.g., if I
search for the word Nuñez, search results will return Nuñez and Nunez. We are
using dspace 1.8.2. Thanks in advance.

Cheers,
Elvi

------------------------------------------------------------------------------
LogMeIn Central: Instant, anywhere, Remote PC access and management.
Stay in control, update software, and manage PCs from one command center
Diagnose problems and improve visibility into emerging IT issues
Automate, monitor and manage. Do more in less time with Central
http://p.sf.net/sfu/logmein12331_d2d

_______________________________________________
DSpace-tech mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/dspace-tech

Re: [Dspace-tech] Accent differences in discovery

Reply via email to