O Mar, 12-08-2008 ás 15:51 +0200, mvillarino escribiu: > Olá, teño unha dúbida algo diferente das habituais. > > A dúbida é esta: > > Supoñamos que quero facer o seguinte: > 1.-Comprobar que para cada expresión, e se non casa con expresión, > palabra, no texto inicio, o texto termo contén unha das traducións > "autorizadas" segundo un ficheiro de glosario dado. > > 2.-Comprobar que para cada expresión, e se non casa con expresión, > palabra, no texto termo, o texto inicio contén unha das palabras ou > expresións para as cais expresión ou palabra é unha das traducións > "admitidas" segundo un ficheiro de glosario dado. > > Como nos ficheiros de glosario normalmente non se meten formas > conxugadas/declinadas/o_que_sexa, senón a forma "base, como o > infinitivo no caso dos verbos, e o singular masculino/neutro no dos > substantivos e adxectivos, resulta que antes de facer 1) ou 2) debo > reducir a palabra --por simplificar-- que aparece no texto inicial á > forma base, e analogamente co texto termo, e despois aplicar 1) ou 2). > > Despois do rollo, as perguntas: > > 1.- É isto lematizar? > 2.- É isto o traballo dun stemmer? > 3.- É isto realizábel? > 4.- Que tal é o stemmer ese de PERL > (http://search.cpan.org/~xern/Lingua-PT-Stemmer-0.01/lib/Lingua/GL/Stemmer.pm) > ? > 5.- PERL é ilexíbel, hai algún en Python? > 6.- Python non é rápido, hay algún utilizábel como biblioteca C++? > > Por non liarme moito: ten alguén feito xa algo semellante ? > (para ser utilizado desde unha extensión realizada mediante o sistema > de pluggin-in, nun programa escrito en C++)
Non estaría nada mal algo así aínda que implementalo sería moi moi chungo. Saúdos. > > TIA, > -- > Best regards > MV > >
signature.asc
Description: Esta é unha parte de mensaxe asinada dixitalmente