Ola Leandro, 

Un millón de grazas pola información e pola revisión do tbx. 

Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
que está en http://www.ttt.org/tbx).

Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
aí a exportación a tbx.

En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
probablemente será esta:
http://creativecommons.org/licenses/by-sa/3.0/deed.gl


En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
avísame, vale?) :-)

1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
é todo o que che podo dicir.

2. Efectivamente, non hai definicións, como acontece na práctica totalidade
dos vocabularios que nós elaboramos.

3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
"phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
acaído para casos como "memoria caché", vista a definición das ISO
(http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
which frequently cannot be deduced based on the combined sense of the words
making up the phrase'.
Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
mesma forma ca as palabras simples, optamos por deixalo así.

4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
seguinte mensaxe de erro:
Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
processed. See line 11.
Term C001gl2 is lacking an element necessary for TBX-Basic.
    To make it valid for human use only, add one of:
        a definition (at the language level)
        an example of use in context (at the term level).
    To make it valid for human or machine processing, add its part of
speech (at the term level).
See line 11.

5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
vou seguir a túa recomendación e eliminar á man as etiquetas <descripGrp> e
</descripGrp>. Porque é iso o que me estás recomendando, non?

Un saúdo e mil grazas outra vez.


Xusto A. Rodríguez
SNL da USC

-----Mensaje original-----
De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] 
Enviado el: mércores, 05 de decembro de 2012 16:15
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

2012/12/5 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>:
>
> Ola,

Ola Xusto.

> Aproveitando que tedes experiencia na publicación de glosarios
> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
> para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
> básicos de arquitectura de computadores" (676 conceptos) e queriamos
> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
> tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
> ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
> relevante.

Descoñecía esa ferramenta. É a ferramenta da que falan en
http://www.ttt.org/tbx ou vén sendo outra?

Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe.

> Mil grazas

A ti.

> Xusto
> SNL da USC
>
> ---Mostra do ficheiro tbx-------------------
>
> <?xml version='1.0' encoding="UTF-8"?>
> <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd">
> <martif type="TBX-Basic-V1" xml:lang="gl">
> <martifHeader>
> <fileDesc>
> <titleStmt>
> <title>termbase from MRC file</title>
> </titleStmt>
> <sourceDesc>
> <p>generated by mrc2tbx version 3.3</p>
> </sourceDesc>
> <sourceDesc>
> <p>Antelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
> arquitectura de computadores. Santiago de Compostela : Universidade</p>
> </sourceDesc>
> </fileDesc>
> <encodingDesc>
> <p type="DCSName">TBXBasicXCSV02.xcs</p>
> </encodingDesc>
> </martifHeader>
> <text>
> <body>
> <termEntry id="C001">
> <descripGrp>
>     <descrip type="subjectField">Sistemas de interconexión</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C001gl1">
> <term>acceso directo a memoria remota</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> <tig id="C001gl2">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C001es1">
> <term>acceso directo a memoria remota</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C001es2">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C001en1">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> <tig id="C001en2">
> <term>remote direct memory access</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> </termEntry>
> <termEntry id="C002">
> <descripGrp>
>     <descrip type="subjectField">Procesador. Memoria caché</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C002gl1">
> <term>acceso non uniforme a memoria</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> <tig id="C002gl2">
> <term>arquitectura NUMA</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">feminine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C002es1">
> <term>acceso no uniforme a memoria</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002es2">
> <term>arquitectura NUMA</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002es3">
> <term>NUMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C002en1">
> <term>non-uniform memory access</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002en2">
> <term>non-uniform memory architecture</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002en3">
> <term>NUMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> </termEntry>
> <termEntry id="C003">
> <descripGrp>
>     <descrip type="subjectField">Procesador. Memoria caché</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C003gl1">
> <term>acerto de escritura na memoria caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C003es1">
> <term>acierto de escritura en la caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C003es2">
> <term>acierto de escritura en la memoria caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C003en1">
> <term>write cache hit</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> </termEntry>
> [...]
> </body>
> </text>
> </martif>

Agora os comentarios sobre o exemplo.

O primeiro que me chama a atención é que parece haber erros de
codificación, por exemplo «caché» en vez de «caché». Igual é debido a
que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un
anexo, pero coméntoo por se acaso, non vaia ser o demo...

Segundo, non hai definicións? Sorpréndeme un chisco.

Terceiro, cando o termo é unha frase utilízase:

<termNote type="termType">fullForm</termNote>
<termNote type="partOfSpeech">noun</termNote>

cando conviría usar simplemente:

<termNote type="termType">phrase</termNote>

que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é
«phraselogicalUnit» e non «phrase»).

Cuarto, creo que non se debería poñer partOfSpeech cando é unha
abreviación (aínda que tecnicamente non está mal):

<termNote type="termType">abbreviation</termNote>
<termNote type="partOfSpeech">other</termNote>

Quinto, utilízase a etiqueta descripGrp:

<descripGrp>
  <descrip type="subjectField">Sistemas de interconexión</descrip>
</descripGrp>

e o certo é que para agrupar unha única etiqueta descrip, pois non é
necesario e de feito en TBX-Basic recomendan non facelo así a menos
que sexa imprescindible. Ademais evitar a utilización de descripGrp
nestes casos reducirá o tamaño o do ficheiro e farao máis lexible.

Creo que isto é todo.

Antes de que me esqueza, creo que non metín a zoca en nada, pero non o
descarto aínda que estiven mirando referencias para comprobar boa
parte das cousas que escribín.

Deica


_______________________________________________
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto

Responderlle a