> 2008/8/12 mvillarino <mvillar...@gmail.com>:
Invirto a orden do correo

> Nacho, isto está incluido no que viria sendo o meu programa de apoio á
> localización perfecto. Pero teño que recoñecer que se non falei disto
> é porque o vexo moi complicado. Tamén debo dicir que con todo isto de
> lematizar, etc... pérdome :)
Non te jode!, e no meu tamén, por iso falo diso.

BTW: como se dí "lematizar" en inglés? Precísoo para o meterlle un RFE
a Shafforo (desenvolvente do Lokalise)

>>> Hai un tempo na Facultade de Filoloxía da USC propuxérase un proxecto de
>>> investigación que viña a facer algo similar, extraendo termos e as súas
>>> equivalencias e tratando de integrar este recurso nas ferramentas libres
>>> de axuda á localización, pero non fora aprobado.
>>
>> Vaia mágoa.
>
> E íano programar eles? Dan alí clases de programación para que despois
> nos veñan quitar o traballo ós informáticos?

Pois parece que de Perl si. E non o vexo tan raro, cando eu estudaba
oferecíanse clase de programación no cacti.


>>> Xa. Se por exemplo tes un dicionario bilingüe que diga
>>>
>>> file  ficheiro

Algo máis complicado será mellor exemplo:

ADVERTENCIA: Isto é imaxinario, non apliquei un programa real ao asunto.

Texto orixe: "By checking this box you will enable several
<name>Pandora</name>'s boxes opening; do it under your own liability"
Texto termo: "Se sinala esta opción, permitirá a abertura da caixa de
<name>Pandora</name>. Fágao baixo a súa propria responsabilidade"

Glosario (máis ou menos):
   Check: sinalar
   Check: comprobar
   Check: verificar
   Enable: activar
   Enable: Verificar
   Box: Casiña
   Box: Opción [nota: non inclúo caixa como tradución de box
intencionalmente, amais de que non me parece correcto dado que é o
vocábulo común]
   Liability: pasivos [nota: conceito contábel inverso a activos]
   Pandora's box: Caixa dos tronos [nota: vale, é que precisaba dunha expresión]

Lematizamos:
    Texto orixe: "By check this box you enable several Pandora box ope
do it under your own liability" ; nótese a supresión da etiquetaxe.
    Texto termo: "Se sinalar esta opción, permitir o abertura de o
caixa de Pandora. Facer o baixo o seu proprio responsabilidade";
ibidem.

Claro, agora non aparece "Pandora's box" no texto orixe, pero se
lematizamos o glosario tamén:

Glosario lematixado:
   Check: sinalar
   Check: comprobar
   Check: verificar
   Enable: activar
   Enable: verificar
   Box: Casa [nota: haber que tocar o carallo]
   Box: Opción
   Liability: pasivo
   Pandora box: Caixa de o trono

Entón, se facemos unha pasada de expresións regulares (non ansiosas
(N. do. T. : "eager")), esta casará/coincidirá/poña aquí a súa
tradución de "match":
   No texto orixe: "By check this box you will enable several Pandora
box ope do it under your own liability"
       procurando por: "check", "enable", "box", "liability" e "pandora box",
       debería achar máis ou menos (en maiúsculas):
                        "by CHECK(1) this BOX(2) you ENABLE(3) several
PANDORA_BOX(4) ope do it under your own LIABILITY(5)"
                   e para cada achádega, irá a facer as procuras
correspondentes, mediante regex no texto termo lematizado:
                         por non ler arriba "Se sinalar esta opción,
permitir o abertura de o caixa de Pandora. Facer o baixo o seu proprio
responsabilidade"
                         CHECK (1): sinalar (non saca erro)
                         BOX (2): opción (non saca erro)
                         ENABLE(3): erro (saca erro, por non conter
nen ACTIVAR nen VERIFICAR)
                         PANDORA BOX (4): erro (saca erro, por non
conter "CAIXA DE O TRONO")
                         LIABILITY(5): erro (saca erro, por non conter "PASIVO")

O proceso inverso: o mesmo, permutando os textos termo e orixe, e no
glosario, as componentes de cada entrada do glosario.

>>> precisarías usar freeling sobre os textos galego e inglés para verificar
>>> a equivalencia.
>>>
>>> $ analyzer -f /usr/share/FreeLing/config/en.cfg
>>> Open open NN
>>> file file NN
>>>
>>> $ analyzer -f /usr/share/FreeLing/config/gl.cfg
>>> Abrir abrir VMN01S0
>>> arquivo arquivo NCMS000
>>>
>>> A primeira columna é a forma, a segunda o lema e a terceira a etiqueta

Entón teño que concatenar a segunda coluna da saída do analyzer, nada
que non se poda facer con awk, ou outros comandos estándar, para ter
os textos lematizados.

>>> O problema vén cando non hai equivalencia palabra a palabra, senón que
>>> hai diferentes estruturas implicadas:
>>>
>>> subst + subst [en] = subst + prep + subst [gl]
>>>
>>> Network Folders = Cartafoles de rede
>>>
>>> Aquí terías que traballar con termos, por exemplo usando un extractor
>>> como
>>>
>>> http://gramatica.usc.es/~gamallo/gale-extra/index2.0.htm

Haberá que votarlle un ollo, pero deixareino por agora.

Responderlle a