2012/12/5 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>:
>
> Ola,

Ola Xusto.

> Aproveitando que tedes experiencia na publicación de glosarios
> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
> para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
> básicos de arquitectura de computadores" (676 conceptos) e queriamos
> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
> tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
> ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
> relevante.

Descoñecía esa ferramenta. É a ferramenta da que falan en
http://www.ttt.org/tbx ou vén sendo outra?

Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe.

> Mil grazas

A ti.

> Xusto
> SNL da USC
>
> ---Mostra do ficheiro tbx-------------------
>
> <?xml version='1.0' encoding="UTF-8"?>
> <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd">
> <martif type="TBX-Basic-V1" xml:lang="gl">
> <martifHeader>
> <fileDesc>
> <titleStmt>
> <title>termbase from MRC file</title>
> </titleStmt>
> <sourceDesc>
> <p>generated by mrc2tbx version 3.3</p>
> </sourceDesc>
> <sourceDesc>
> <p>Antelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
> arquitectura de computadores. Santiago de Compostela : Universidade</p>
> </sourceDesc>
> </fileDesc>
> <encodingDesc>
> <p type="DCSName">TBXBasicXCSV02.xcs</p>
> </encodingDesc>
> </martifHeader>
> <text>
> <body>
> <termEntry id="C001">
> <descripGrp>
>     <descrip type="subjectField">Sistemas de interconexión</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C001gl1">
> <term>acceso directo a memoria remota</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> <tig id="C001gl2">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C001es1">
> <term>acceso directo a memoria remota</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C001es2">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C001en1">
> <term>RDMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> <tig id="C001en2">
> <term>remote direct memory access</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> </termEntry>
> <termEntry id="C002">
> <descripGrp>
>     <descrip type="subjectField">Procesador. Memoria caché</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C002gl1">
> <term>acceso non uniforme a memoria</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> <tig id="C002gl2">
> <term>arquitectura NUMA</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">feminine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C002es1">
> <term>acceso no uniforme a memoria</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002es2">
> <term>arquitectura NUMA</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002es3">
> <term>NUMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C002en1">
> <term>non-uniform memory access</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002en2">
> <term>non-uniform memory architecture</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C002en3">
> <term>NUMA</term>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
> </tig>
> </langSet>
> </termEntry>
> <termEntry id="C003">
> <descripGrp>
>     <descrip type="subjectField">Procesador. Memoria caché</descrip>
> </descripGrp>
> <langSet xml:lang="gl">
> <tig id="C003gl1">
> <term>acerto de escritura na memoria caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> <termNote type="grammaticalGender">masculine</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="es">
> <tig id="C003es1">
> <term>acierto de escritura en la caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> <tig id="C003es2">
> <term>acierto de escritura en la memoria caché</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> <langSet xml:lang="en">
> <tig id="C003en1">
> <term>write cache hit</term>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
> </tig>
> </langSet>
> </termEntry>
> [...]
> </body>
> </text>
> </martif>

Agora os comentarios sobre o exemplo.

O primeiro que me chama a atención é que parece haber erros de
codificación, por exemplo «caché» en vez de «caché». Igual é debido a
que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un
anexo, pero coméntoo por se acaso, non vaia ser o demo...

Segundo, non hai definicións? Sorpréndeme un chisco.

Terceiro, cando o termo é unha frase utilízase:

<termNote type="termType">fullForm</termNote>
<termNote type="partOfSpeech">noun</termNote>

cando conviría usar simplemente:

<termNote type="termType">phrase</termNote>

que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é
«phraselogicalUnit» e non «phrase»).

Cuarto, creo que non se debería poñer partOfSpeech cando é unha
abreviación (aínda que tecnicamente non está mal):

<termNote type="termType">abbreviation</termNote>
<termNote type="partOfSpeech">other</termNote>

Quinto, utilízase a etiqueta descripGrp:

<descripGrp>
  <descrip type="subjectField">Sistemas de interconexión</descrip>
</descripGrp>

e o certo é que para agrupar unha única etiqueta descrip, pois non é
necesario e de feito en TBX-Basic recomendan non facelo así a menos
que sexa imprescindible. Ademais evitar a utilización de descripGrp
nestes casos reducirá o tamaño o do ficheiro e farao máis lexible.

Creo que isto é todo.

Antes de que me esqueza, creo que non metín a zoca en nada, pero non o
descarto aínda que estiven mirando referencias para comprobar boa
parte das cousas que escribín.

Deica
_______________________________________________
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto

Responderlle a