Hi all,
The following is the SpanishAnalyzer I'm using so far. It's simple but
enough for my purposes. It behaves the way the StandardAnalyzer does
and removes stop words.
Cheers,
---------------------------------------------------------------------------------------------
from PyLucene import StandardTokenizer, StandardFilter,
LowerCaseFilter, StopFilter
class SpanishAnalyzer(object):
""" Spanish Analyzer """
SPANISH_STOP_WORDS = u"""a añadió aún actualmente adelante además
afirmó agregó
ahí ahora al algún algo alguna algunas alguno algunos alrededor ambos
ante
anterior antes apenas aproximadamente aquí así aseguró aunque ayer bajo
bien
buen buena buenas bueno buenos cómo cada casi cerca cierto cinco
comentó como
con conocer consideró considera contra cosas creo cual cuales cualquier
cuando
cuanto cuatro cuenta da dado dan dar de debe deben debido decir dejó
del demás
dentro desde después dice dicen dicho dieron diferente diferentes
dijeron dijo
dio donde dos durante e ejemplo el él ella ellas ello ellos embargo
en encuentra
entonces entre era eran es esa esas ese eso esos ésta está están esta
estaba
estaban estamos estar estará estas éstas este éste esto estos éstos
estoy
estuvo ex existe existen explicó expresó fin fue fuera fueron gran
grandes ha
había habían haber habrá hace hacen hacer hacerlo hacia haciendo han
hasta hay
haya he hecho hemos hicieron hizo hoy hubo igual incluso indicó informó
junto
la lado las le les llegó lleva llevar lo los luego lugar más manera
manifestó
mayor me mediante mejor mencionó menos mi mientras misma mismas mismo
mismos
momento mucha muchas mucho muchos muy nada nadie ni ningún ninguna
ningunas
ninguno ningunos no nos nosotras nosotros nuestra nuestras nuestro
nuestros
nueva nuevas nuevo nuevos nunca o ocho otra otras otro otros para
parece parte
partir pasada pasado pero pesar poca pocas poco pocos podemos podrá
podrán
podría podrían poner por porque posible próximo próximos primer
primera primero
primeros principalmente propia propias propio propios pudo pueda puede
pueden
pues qué que quedó queremos quién quien quienes quiere realizó realizado
realizar respecto sí sólo se señaló sea sean según segunda segundo seis
ser
será serán sería si sido siempre siendo siete sigue siguiente sin sino
sobre
sola solamente solas solo solos son su sus tal también tampoco tan
tanto tenía
tendrá tendrán tenemos tener tenga tengo tenido tercera tiene tienen
toda
todas todavía todo todos total tras trata través tres tuvo última
últimas
último últimos un una unas uno unos usted va vamos van varias varios
veces
ver vez y ya yo""".split()
def tokenStream(self, field, reader):
result = StandardTokenizer(reader)
result = StandardFilter(result)
result = LowerCaseFilter(result)
result = StopFilter(result, self.SPANISH_STOP_WORDS)
return result
---------------------------------------------------------------------------------------------
--
Víctor Peinado || <vitojph /> || http://nlp.uned.es/~victor
¡Ningún investigador sin contrato! http://www.precarios-madrid.org
_______________________________________________
pylucene-dev mailing list
[email protected]
http://lists.osafoundation.org/mailman/listinfo/pylucene-dev