Stemmer

mvillarino Tue, 12 Aug 2008 15:51:27 +0200 (CEST)

Olá, teño unha dúbida algo diferente das habituais.

A dúbida é esta:


Supoñamos que quero facer o seguinte:
1.-Comprobar que para cada expresión, e se non casa con expresión,
palabra, no texto inicio, o texto termo contén unha das traducións
"autorizadas" segundo un ficheiro de glosario dado.

2.-Comprobar que para cada expresión, e se non casa con expresión,
palabra, no texto termo, o texto inicio contén unha das palabras ou
expresións para as cais expresión ou palabra é unha das traducións
"admitidas" segundo un ficheiro de glosario dado.

Como nos ficheiros de glosario normalmente non se meten formas
conxugadas/declinadas/o_que_sexa, senón a forma "base, como o
infinitivo no caso dos verbos, e o singular masculino/neutro no dos
substantivos e adxectivos, resulta que antes de facer 1) ou 2) debo
reducir a palabra --por simplificar-- que aparece no texto inicial á
forma base, e analogamente co texto termo, e despois aplicar 1) ou 2).

Despois do rollo, as perguntas:

1.- É isto lematizar?
2.- É isto o traballo dun stemmer?
3.- É isto realizábel?
4.- Que tal é o stemmer ese de PERL
(http://search.cpan.org/~xern/Lingua-PT-Stemmer-0.01/lib/Lingua/GL/Stemmer.pm)
?
5.- PERL é ilexíbel, hai algún en Python?
6.- Python non é rápido, hay algún utilizábel como biblioteca C++?

Por non liarme moito: ten alguén feito xa algo semellante ?
(para ser utilizado desde unha extensión realizada mediante o sistema
de pluggin-in, nun programa escrito en C++)

TIA,
--
Best regards
MV

Stemmer

Responderlle a