2012/12/7 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>:
> Ola Leandro,
>
> Un millón de grazas pola información e pola revisión do tbx.
>
> Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
> algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
> que está en http://www.ttt.org/tbx).
>
> Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
> integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
> aí a exportación a tbx.

O certo é que agora mesmo só admite a importación desde TBX. Xa me
reclamaron insistentemente que poña tamén a importación desde CSV e
heino facer en canto teña algo de tempo libre.

> En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
> probablemente será esta:
> http://creativecommons.org/licenses/by-sa/3.0/deed.gl

Esa licenza sería perfecta para permitir a súa reutilización.

> En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
> menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
> avísame, vale?) :-)
>
> 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
> para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
> tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
> é todo o que che podo dicir.

En todo caso o ficheiro resultante pódese converter a outra
codificación en caso de ser necesario.

> 2. Efectivamente, non hai definicións, como acontece na práctica totalidade
> dos vocabularios que nós elaboramos.

Ah. Vale. Aínda que me segue parecendo raro.v Realmente tería máis
utilidade con definicións.

> 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que
> "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis
> acaído para casos como "memoria caché", vista a definición das ISO
> (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
> which frequently cannot be deduced based on the combined sense of the words
> making up the phrase'.

Precisamente polo que di ISO é polo que se debería usar "phrase". Só
con "memoria" ou só con "caché" non se pode entender claramente o
termo, polo menos ata certo punto.

> Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
> mesma forma ca as palabras simples, optamos por deixalo así.

Eu en caso de dúbida non poñería o termType e vía. Pero sigo pensando
que debería ser "phrase" neses casos.

> 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
> seguinte mensaxe de erro:
> Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
> processed. See line 11.
> Term C001gl2 is lacking an element necessary for TBX-Basic.
>         To make it valid for human use only, add one of:
>                 a definition (at the language level)
>                 an example of use in context (at the term level).
>         To make it valid for human or machine processing, add its part of
> speech (at the term level).
> See line 11.

Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
desenvolvedor e comentarllo, porque igual o fai así por algunha razón
que descoñezo. Habería que probar ademais a ver se falla se lle pos
definicións e lle quitas o partOfSpeech.

> 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
> vou seguir a túa recomendación e eliminar á man as etiquetas <descripGrp> e
> </descripGrp>. Porque é iso o que me estás recomendando, non?

Exactamente.

> Un saúdo e mil grazas outra vez.

De nada.

> Xusto A. Rodríguez
> SNL da USC
>
> -----Mensaje original-----
> De: Leandro Regueiro [mailto:leandro.regue...@gmail.com]
> Enviado el: mércores, 05 de decembro de 2012 16:15
> Para: proxecto@trasno.net
> Asunto: Re: Unha petición e unha consulta
>
> 2012/12/5 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>:
>>
>> Ola,
>
> Ola Xusto.
>
>> Aproveitando que tedes experiencia na publicación de glosarios
>> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
>> para xerar os ficheiros .tbx e de que estrutura de datos partides.
>
> Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
> en Python para conversións ad-hoc complicadas. Outras veces só teño
> que converter un ficheiro XML e polo tanto realizo tres ou catro
> substitucións co editor de texto Gedit porque me é moito máis sinxelo.
>
> Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
> do Translate Toolkit e que permite converter ficheiros CSV a formato
> TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
> non funciona, aínda que non vexo ningún bug relacionado con isto en
> http://bugs.locamotion.org/ nin teño confirmación de primeira man de
> que realmente non funcione.
>
> Outra alternativa é usar
> http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
> _terminology_mistakes/Create_a_dictionary.htm#Calc
> para converter follas de cálculo desde OpenOffice (e creo que
> LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
> me consta) e funciona, aínda que polo visto é necesario realizar
> algunhas modificacións posteriores a man no ficheiro xerado para que
> funcione con ferramentas como Virtaal.
>
> Para realizar comprobacións sobre ficheiros TBX e ver se realmente
> cumpren a especificación pódese utilizar TBXChecker
> http://sourceforge.net/projects/tbxutil/
>
> E claro, tamén utilizo o Terminator, unha ferramenta web para a
> xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
> TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
> activo e espero que nos vindeiros meses reciba diversas melloras,
> aínda que agora xa é funcional. O código está dispoñible en
> http://gitorious.org/terminator Ademais hai unha instancia en
> funcionamento en http://terminator.trasno.net/
>
>> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos
>> básicos de arquitectura de computadores" (676 conceptos) e queriamos
>> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.
>
> Que licenza Creative Commons exactamente?
>
>> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
>> tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
>> ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
>> relevante.
>
> Descoñecía esa ferramenta. É a ferramenta da que falan en
> http://www.ttt.org/tbx ou vén sendo outra?
>
> Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe.
>
>> Mil grazas
>
> A ti.
>
>> Xusto
>> SNL da USC
>>
>> ---Mostra do ficheiro tbx-------------------
>>
>> <?xml version='1.0' encoding="UTF-8"?>
>> <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd">
>> <martif type="TBX-Basic-V1" xml:lang="gl">
>> <martifHeader>
>> <fileDesc>
>> <titleStmt>
>> <title>termbase from MRC file</title>
>> </titleStmt>
>> <sourceDesc>
>> <p>generated by mrc2tbx version 3.3</p>
>> </sourceDesc>
>> <sourceDesc>
>> <p>Antelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
>> arquitectura de computadores. Santiago de Compostela : Universidade</p>
>> </sourceDesc>
>> </fileDesc>
>> <encodingDesc>
>> <p type="DCSName">TBXBasicXCSV02.xcs</p>
>> </encodingDesc>
>> </martifHeader>
>> <text>
>> <body>
>> <termEntry id="C001">
>> <descripGrp>
>>         <descrip type="subjectField">Sistemas de interconexión</descrip>
>> </descripGrp>
>> <langSet xml:lang="gl">
>> <tig id="C001gl1">
>> <term>acceso directo a memoria remota</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> <termNote type="grammaticalGender">masculine</termNote>
>> </tig>
>> <tig id="C001gl2">
>> <term>RDMA</term>
>> <termNote type="termType">abbreviation</termNote>
>> <termNote type="partOfSpeech">other</termNote>
>> <termNote type="grammaticalGender">masculine</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="es">
>> <tig id="C001es1">
>> <term>acceso directo a memoria remota</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C001es2">
>> <term>RDMA</term>
>> <termNote type="termType">abbreviation</termNote>
>> <termNote type="partOfSpeech">other</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="en">
>> <tig id="C001en1">
>> <term>RDMA</term>
>> <termNote type="termType">abbreviation</termNote>
>> <termNote type="partOfSpeech">other</termNote>
>> </tig>
>> <tig id="C001en2">
>> <term>remote direct memory access</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> </langSet>
>> </termEntry>
>> <termEntry id="C002">
>> <descripGrp>
>>         <descrip type="subjectField">Procesador. Memoria caché</descrip>
>> </descripGrp>
>> <langSet xml:lang="gl">
>> <tig id="C002gl1">
>> <term>acceso non uniforme a memoria</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> <termNote type="grammaticalGender">masculine</termNote>
>> </tig>
>> <tig id="C002gl2">
>> <term>arquitectura NUMA</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> <termNote type="grammaticalGender">feminine</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="es">
>> <tig id="C002es1">
>> <term>acceso no uniforme a memoria</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C002es2">
>> <term>arquitectura NUMA</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C002es3">
>> <term>NUMA</term>
>> <termNote type="termType">abbreviation</termNote>
>> <termNote type="partOfSpeech">other</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="en">
>> <tig id="C002en1">
>> <term>non-uniform memory access</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C002en2">
>> <term>non-uniform memory architecture</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C002en3">
>> <term>NUMA</term>
>> <termNote type="termType">abbreviation</termNote>
>> <termNote type="partOfSpeech">other</termNote>
>> </tig>
>> </langSet>
>> </termEntry>
>> <termEntry id="C003">
>> <descripGrp>
>>         <descrip type="subjectField">Procesador. Memoria caché</descrip>
>> </descripGrp>
>> <langSet xml:lang="gl">
>> <tig id="C003gl1">
>> <term>acerto de escritura na memoria caché</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> <termNote type="grammaticalGender">masculine</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="es">
>> <tig id="C003es1">
>> <term>acierto de escritura en la caché</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> <tig id="C003es2">
>> <term>acierto de escritura en la memoria caché</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> </langSet>
>> <langSet xml:lang="en">
>> <tig id="C003en1">
>> <term>write cache hit</term>
>> <termNote type="termType">fullForm</termNote>
>> <termNote type="partOfSpeech">noun</termNote>
>> </tig>
>> </langSet>
>> </termEntry>
>> [...]
>> </body>
>> </text>
>> </martif>
>
> Agora os comentarios sobre o exemplo.
>
> O primeiro que me chama a atención é que parece haber erros de
> codificación, por exemplo «caché» en vez de «caché». Igual é debido a
> que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un
> anexo, pero coméntoo por se acaso, non vaia ser o demo...
>
> Segundo, non hai definicións? Sorpréndeme un chisco.
>
> Terceiro, cando o termo é unha frase utilízase:
>
> <termNote type="termType">fullForm</termNote>
> <termNote type="partOfSpeech">noun</termNote>
>
> cando conviría usar simplemente:
>
> <termNote type="termType">phrase</termNote>
>
> que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é
> «phraselogicalUnit» e non «phrase»).
>
> Cuarto, creo que non se debería poñer partOfSpeech cando é unha
> abreviación (aínda que tecnicamente non está mal):
>
> <termNote type="termType">abbreviation</termNote>
> <termNote type="partOfSpeech">other</termNote>
>
> Quinto, utilízase a etiqueta descripGrp:
>
> <descripGrp>
>     <descrip type="subjectField">Sistemas de interconexión</descrip>
> </descripGrp>
>
> e o certo é que para agrupar unha única etiqueta descrip, pois non é
> necesario e de feito en TBX-Basic recomendan non facelo así a menos
> que sexa imprescindible. Ademais evitar a utilización de descripGrp
> nestes casos reducirá o tamaño o do ficheiro e farao máis lexible.
>
> Creo que isto é todo.
>
> Antes de que me esqueza, creo que non metín a zoca en nada, pero non o
> descarto aínda que estiven mirando referencias para comprobar boa
> parte das cousas que escribín.

Por certo, pasóuseme comentar que non sei se a repetición da etiqueta
<sourceDesc> é admisible. Sería cuestión de comprobalo co tbxchecker.

Deica
_______________________________________________
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto

Responderlle a