Ola Leandro, Un millón de grazas pola información e pola revisión do tbx.
Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a que está en http://www.ttt.org/tbx). Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como integrar un traballo xa elaborado (como ocorre neste caso) para facer desde aí a exportación a tbx. En relación co da licenza CC, aínda non está decidido cal se vai usar, pero probablemente será esta: http://creativecommons.org/licenses/by-sa/3.0/deed.gl En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou menos entendo (se digo algunha burrada, disimula; se é moi moi grande, avísame, vale?) :-) 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso é todo o que che podo dicir. 2. Efectivamente, non hai definicións, como acontece na práctica totalidade dos vocabularios que nós elaboramos. 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis acaído para casos como "memoria caché", vista a definición das ISO (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of which frequently cannot be deduced based on the combined sense of the words making up the phrase'. Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da mesma forma ca as palabras simples, optamos por deixalo así. 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a seguinte mensaxe de erro: Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine processed. See line 11. Term C001gl2 is lacking an element necessary for TBX-Basic. To make it valid for human use only, add one of: a definition (at the language level) an example of use in context (at the term level). To make it valid for human or machine processing, add its part of speech (at the term level). See line 11. 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que vou seguir a túa recomendación e eliminar á man as etiquetas <descripGrp> e </descripGrp>. Porque é iso o que me estás recomendando, non? Un saúdo e mil grazas outra vez. Xusto A. Rodríguez SNL da USC -----Mensaje original----- De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] Enviado el: mércores, 05 de decembro de 2012 16:15 Para: proxecto@trasno.net Asunto: Re: Unha petición e unha consulta 2012/12/5 Xusto Rodriguez Rio <xusto.rodrig...@usc.es>: > > Ola, Ola Xusto. > Aproveitando que tedes experiencia na publicación de glosarios > terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades > para xerar os ficheiros .tbx e de que estrutura de datos partides. Eu adoito empregar diversos métodos, pero moitas veces escribo scripts en Python para conversións ad-hoc complicadas. Outras veces só teño que converter un ficheiro XML e polo tanto realizo tres ou catro substitucións co editor de texto Gedit porque me é moito máis sinxelo. Ademais disto existe unha ferramenta chamada csv2tbx que forma parte do Translate Toolkit e que permite converter ficheiros CSV a formato TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit non funciona, aínda que non vexo ningún bug relacionado con isto en http://bugs.locamotion.org/ nin teño confirmación de primeira man de que realmente non funcione. Outra alternativa é usar http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for _terminology_mistakes/Create_a_dictionary.htm#Calc para converter follas de cálculo desde OpenOffice (e creo que LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo me consta) e funciona, aínda que polo visto é necesario realizar algunhas modificacións posteriores a man no ficheiro xerado para que funcione con ferramentas como Virtaal. Para realizar comprobacións sobre ficheiros TBX e ver se realmente cumpren a especificación pódese utilizar TBXChecker http://sourceforge.net/projects/tbxutil/ E claro, tamén utilizo o Terminator, unha ferramenta web para a xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros TBX correctos baixo demanda. A ferramenta segue en desenvolvemento activo e espero que nos vindeiros meses reciba diversas melloras, aínda que agora xa é funcional. O código está dispoñible en http://gitorious.org/terminator Ademais hai unha instancia en funcionamento en http://terminator.trasno.net/ > Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos > básicos de arquitectura de computadores" (676 conceptos) e queriamos > difundilo baixo licenza Creative Commons e en formatos .pdf e tbx. Que licenza Creative Commons exactamente? > Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato > tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do > ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro > relevante. Descoñecía esa ferramenta. É a ferramenta da que falan en http://www.ttt.org/tbx ou vén sendo outra? Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe. > Mil grazas A ti. > Xusto > SNL da USC > > ---Mostra do ficheiro tbx------------------- > > <?xml version='1.0' encoding="UTF-8"?> > <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd"> > <martif type="TBX-Basic-V1" xml:lang="gl"> > <martifHeader> > <fileDesc> > <titleStmt> > <title>termbase from MRC file</title> > </titleStmt> > <sourceDesc> > <p>generated by mrc2tbx version 3.3</p> > </sourceDesc> > <sourceDesc> > <p>Antelo Suárez, E.; X. A. RodrÃguez RÃo (2012) Termos esenciais de > arquitectura de computadores. Santiago de Compostela : Universidade</p> > </sourceDesc> > </fileDesc> > <encodingDesc> > <p type="DCSName">TBXBasicXCSV02.xcs</p> > </encodingDesc> > </martifHeader> > <text> > <body> > <termEntry id="C001"> > <descripGrp> > <descrip type="subjectField">Sistemas de interconexión</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C001gl1"> > <term>acceso directo a memoria remota</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > <tig id="C001gl2"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C001es1"> > <term>acceso directo a memoria remota</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C001es2"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C001en1"> > <term>RDMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > <tig id="C001en2"> > <term>remote direct memory access</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > </termEntry> > <termEntry id="C002"> > <descripGrp> > <descrip type="subjectField">Procesador. Memoria caché</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C002gl1"> > <term>acceso non uniforme a memoria</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > <tig id="C002gl2"> > <term>arquitectura NUMA</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">feminine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C002es1"> > <term>acceso no uniforme a memoria</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002es2"> > <term>arquitectura NUMA</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002es3"> > <term>NUMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C002en1"> > <term>non-uniform memory access</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002en2"> > <term>non-uniform memory architecture</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C002en3"> > <term>NUMA</term> > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > </tig> > </langSet> > </termEntry> > <termEntry id="C003"> > <descripGrp> > <descrip type="subjectField">Procesador. Memoria caché</descrip> > </descripGrp> > <langSet xml:lang="gl"> > <tig id="C003gl1"> > <term>acerto de escritura na memoria caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > <termNote type="grammaticalGender">masculine</termNote> > </tig> > </langSet> > <langSet xml:lang="es"> > <tig id="C003es1"> > <term>acierto de escritura en la caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > <tig id="C003es2"> > <term>acierto de escritura en la memoria caché</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > <langSet xml:lang="en"> > <tig id="C003en1"> > <term>write cache hit</term> > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > </tig> > </langSet> > </termEntry> > [...] > </body> > </text> > </martif> Agora os comentarios sobre o exemplo. O primeiro que me chama a atención é que parece haber erros de codificación, por exemplo «caché» en vez de «caché». Igual é debido a que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un anexo, pero coméntoo por se acaso, non vaia ser o demo... Segundo, non hai definicións? Sorpréndeme un chisco. Terceiro, cando o termo é unha frase utilízase: <termNote type="termType">fullForm</termNote> <termNote type="partOfSpeech">noun</termNote> cando conviría usar simplemente: <termNote type="termType">phrase</termNote> que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é «phraselogicalUnit» e non «phrase»). Cuarto, creo que non se debería poñer partOfSpeech cando é unha abreviación (aínda que tecnicamente non está mal): <termNote type="termType">abbreviation</termNote> <termNote type="partOfSpeech">other</termNote> Quinto, utilízase a etiqueta descripGrp: <descripGrp> <descrip type="subjectField">Sistemas de interconexión</descrip> </descripGrp> e o certo é que para agrupar unha única etiqueta descrip, pois non é necesario e de feito en TBX-Basic recomendan non facelo así a menos que sexa imprescindible. Ademais evitar a utilización de descripGrp nestes casos reducirá o tamaño o do ficheiro e farao máis lexible. Creo que isto é todo. Antes de que me esqueza, creo que non metín a zoca en nada, pero non o descarto aínda que estiven mirando referencias para comprobar boa parte das cousas que escribín. Deica _______________________________________________ Proxecto mailing list Proxecto@trasno.net http://listas.trasno.net/listinfo/proxecto