2008/8/12 Susana Sotelo Docio <[email protected]>: >> 1.- É isto lematizar? > > Si. Digamos que un lematizador, dado o texto > > "a nena come a mazá na rúa" > > devolvería > > "o neno comer o mazá en o rúa" > > Vén sendo o procedemento de normalización máis simple. >
[...] > Este software é o que se emprega en LanguageTool > (http://www.languagetool.org) para a lematización. Aínda non hai soporte > para galego (e polo tanto tampouco dicionario), pero agora mesmo estou > traballando neste tema. Conto con ter un dicionario máis ou menos > decente en setembro/outubro. mmmmmmm, creo que me acabas de alegrar o día. O language tool pode utilizarse, e está a utilizarse, dentro de _algúns_ equipos de tradución de KDE para pasar unha corrección gramatical dos textos termo, nomeadamente serbios, franceses e xaponeses Para iso fai falla instalalo como programa independente (stand-alone application), e si, tira de Java. >> 5.- PERL é ilexíbel, hai algún en Python? > > Baahh, ilexíbel. Moito visio é o que hai :) Mande?? > Coido que para o que buscas o mellor sería freeling, que é C++ e > tamén utilizábel como biblioteca. E rápido. Mesmo se podería ver a > posibilidade de entrenalo usando como corpus cadeas de ficheiros PO, > aínda que levaría o seu tempo. Nin papas. Eu o único que ando a procurar é por un sistema que permita facer a comparación bi-direccional entre as expresións e palabras contidas en dous textos face a un ficheiro de "dicionario bilingüe", e que avise cando non haxa aparición de "tradución legal" no texto termo para unha das palabras ou expresións que estexan no texto orixe e no dicionario. A ver se acho algo acerca de freeling.

