Hi all,

The following is the SpanishAnalyzer I'm using so far. It's simple but
enough for my purposes. It behaves the way the StandardAnalyzer does
and removes stop words.

Cheers,

---------------------------------------------------------------------------------------------
from PyLucene import StandardTokenizer, StandardFilter,
LowerCaseFilter, StopFilter


class SpanishAnalyzer(object):
        """ Spanish Analyzer """
        
        SPANISH_STOP_WORDS = u"""a añadió aún actualmente adelante además
afirmó agregó
        ahí ahora al algún algo alguna algunas alguno algunos alrededor ambos 
ante
        anterior antes apenas aproximadamente aquí así aseguró aunque ayer bajo 
bien
        buen buena buenas bueno buenos cómo cada casi cerca cierto cinco 
comentó como
        con conocer consideró considera contra cosas creo cual cuales cualquier 
cuando
        cuanto cuatro cuenta da dado dan dar de debe deben debido decir dejó 
del demás
        dentro desde después dice dicen dicho dieron diferente diferentes 
dijeron dijo
        dio donde dos durante e ejemplo el él ella ellas ello ellos embargo
en encuentra
        entonces entre era eran es esa esas ese eso esos ésta está están esta 
estaba
        estaban estamos estar estará estas éstas este éste esto estos éstos 
estoy
        estuvo ex existe existen explicó expresó fin fue fuera fueron gran 
grandes ha
        había habían haber habrá hace hacen hacer hacerlo hacia haciendo han 
hasta hay
        haya he hecho hemos hicieron hizo hoy hubo igual incluso indicó informó 
junto
        la lado las le les llegó lleva llevar lo los luego lugar más manera 
manifestó
        mayor me mediante mejor mencionó menos mi mientras misma mismas mismo 
mismos
        momento mucha muchas mucho muchos muy nada nadie ni ningún ninguna 
ningunas
        ninguno ningunos no nos nosotras nosotros nuestra nuestras nuestro 
nuestros
        nueva nuevas nuevo nuevos nunca o ocho otra otras otro otros para 
parece parte
        partir pasada pasado pero pesar poca pocas poco pocos podemos podrá 
podrán
        podría podrían poner por porque posible próximo próximos primer
primera primero
        primeros principalmente propia propias propio propios pudo pueda puede 
pueden
        pues qué que quedó queremos quién quien quienes quiere realizó realizado
        realizar respecto sí sólo se señaló sea sean según segunda segundo seis 
ser
        será serán sería si sido siempre siendo siete sigue siguiente sin sino 
sobre
        sola solamente solas solo solos son su sus tal también tampoco tan 
tanto tenía
        tendrá tendrán tenemos tener tenga tengo tenido tercera tiene tienen 
toda
        todas todavía todo todos total tras trata través tres tuvo última 
últimas
        último últimos un una unas uno unos usted va vamos van varias varios 
veces
        ver vez y ya yo""".split()
        
        def tokenStream(self, field, reader):
                result = StandardTokenizer(reader)
                result = StandardFilter(result)
                result = LowerCaseFilter(result)
                result = StopFilter(result, self.SPANISH_STOP_WORDS)
                return result
---------------------------------------------------------------------------------------------




--
Víctor Peinado || <vitojph /> || http://nlp.uned.es/~victor
¡Ningún investigador sin contrato! http://www.precarios-madrid.org
_______________________________________________
pylucene-dev mailing list
[email protected]
http://lists.osafoundation.org/mailman/listinfo/pylucene-dev

Reply via email to