2012/12/7 Xusto Rodriguez Rio <[email protected]>: > Ola Leandro, > > Un millón de grazas pola información e pola revisión do tbx. > > Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo > algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a > que está en http://www.ttt.org/tbx). > > Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como > integrar un traballo xa elaborado (como ocorre neste caso) para facer desde > aí a exportación a tbx.
O certo é que agora mesmo só admite a importación desde TBX. Xa me reclamaron insistentemente que poña tamén a importación desde CSV e heino facer en canto teña algo de tempo libre. > En relación co da licenza CC, aínda non está decidido cal se vai usar, pero > probablemente será esta: > http://creativecommons.org/licenses/by-sa/3.0/deed.gl Esa licenza sería perfecta para permitir a súa reutilización. > En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou > menos entendo (se digo algunha burrada, disimula; se é moi moi grande, > avísame, vale?) :-) > > 1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt > para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o > tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso > é todo o que che podo dicir. En todo caso o ficheiro resultante pódese converter a outra codificación en caso de ser necesario. > 2. Efectivamente, non hai definicións, como acontece na práctica totalidade > dos vocabularios que nós elaboramos. Ah. Vale. Aínda que me segue parecendo raro.v Realmente tería máis utilidade con definicións. > 3. As "phrase" e as "phraseologicalUnit".- Non acabo de ter claro que > "phraseologicalUnit" -e por extensión "phrase" e n tbx-basic- sexa o máis > acaído para casos como "memoria caché", vista a definición das ISO > (http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of > which frequently cannot be deduced based on the combined sense of the words > making up the phrase'. Precisamente polo que di ISO é polo que se debería usar "phrase". Só con "memoria" ou só con "caché" non se pode entender claramente o termo, polo menos ata certo punto. > Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da > mesma forma ca as palabras simples, optamos por deixalo así. Eu en caso de dúbida non poñería o termType e vía. Pero sigo pensando que debería ser "phrase" neses casos. > 4. "partOfSpeech" en abreviacións. Se non llas inclúo, o mrc2tbx dáme a > seguinte mensaxe de erro: > Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine > processed. See line 11. > Term C001gl2 is lacking an element necessary for TBX-Basic. > To make it valid for human use only, add one of: > a definition (at the language level) > an example of use in context (at the term level). > To make it valid for human or machine processing, add its part of > speech (at the term level). > See line 11. Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co desenvolvedor e comentarllo, porque igual o fai así por algunha razón que descoñezo. Habería que probar ademais a ver se falla se lle pos definicións e lle quitas o partOfSpeech. > 5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que > vou seguir a túa recomendación e eliminar á man as etiquetas <descripGrp> e > </descripGrp>. Porque é iso o que me estás recomendando, non? Exactamente. > Un saúdo e mil grazas outra vez. De nada. > Xusto A. Rodríguez > SNL da USC > > -----Mensaje original----- > De: Leandro Regueiro [mailto:[email protected]] > Enviado el: mércores, 05 de decembro de 2012 16:15 > Para: [email protected] > Asunto: Re: Unha petición e unha consulta > > 2012/12/5 Xusto Rodriguez Rio <[email protected]>: >> >> Ola, > > Ola Xusto. > >> Aproveitando que tedes experiencia na publicación de glosarios >> terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades >> para xerar os ficheiros .tbx e de que estrutura de datos partides. > > Eu adoito empregar diversos métodos, pero moitas veces escribo scripts > en Python para conversións ad-hoc complicadas. Outras veces só teño > que converter un ficheiro XML e polo tanto realizo tres ou catro > substitucións co editor de texto Gedit porque me é moito máis sinxelo. > > Ademais disto existe unha ferramenta chamada csv2tbx que forma parte > do Translate Toolkit e que permite converter ficheiros CSV a formato > TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit > non funciona, aínda que non vexo ningún bug relacionado con isto en > http://bugs.locamotion.org/ nin teño confirmación de primeira man de > que realmente non funcione. > > Outra alternativa é usar > http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for > _terminology_mistakes/Create_a_dictionary.htm#Calc > para converter follas de cálculo desde OpenOffice (e creo que > LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo > me consta) e funciona, aínda que polo visto é necesario realizar > algunhas modificacións posteriores a man no ficheiro xerado para que > funcione con ferramentas como Virtaal. > > Para realizar comprobacións sobre ficheiros TBX e ver se realmente > cumpren a especificación pódese utilizar TBXChecker > http://sourceforge.net/projects/tbxutil/ > > E claro, tamén utilizo o Terminator, unha ferramenta web para a > xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros > TBX correctos baixo demanda. A ferramenta segue en desenvolvemento > activo e espero que nos vindeiros meses reciba diversas melloras, > aínda que agora xa é funcional. O código está dispoñible en > http://gitorious.org/terminator Ademais hai unha instancia en > funcionamento en http://terminator.trasno.net/ > >> Isto vén a conto de que nas vindeiras semanas imos editar uns "Termos >> básicos de arquitectura de computadores" (676 conceptos) e queriamos >> difundilo baixo licenza Creative Commons e en formatos .pdf e tbx. > > Que licenza Creative Commons exactamente? > >> Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato >> tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do >> ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro >> relevante. > > Descoñecía esa ferramenta. É a ferramenta da que falan en > http://www.ttt.org/tbx ou vén sendo outra? > > Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe. > >> Mil grazas > > A ti. > >> Xusto >> SNL da USC >> >> ---Mostra do ficheiro tbx------------------- >> >> <?xml version='1.0' encoding="UTF-8"?> >> <!DOCTYPE martif SYSTEM "TBXBasiccoreStructV02.dtd"> >> <martif type="TBX-Basic-V1" xml:lang="gl"> >> <martifHeader> >> <fileDesc> >> <titleStmt> >> <title>termbase from MRC file</title> >> </titleStmt> >> <sourceDesc> >> <p>generated by mrc2tbx version 3.3</p> >> </sourceDesc> >> <sourceDesc> >> <p>Antelo Suárez, E.; X. A. RodrÃguez RÃo (2012) Termos esenciais de >> arquitectura de computadores. Santiago de Compostela : Universidade</p> >> </sourceDesc> >> </fileDesc> >> <encodingDesc> >> <p type="DCSName">TBXBasicXCSV02.xcs</p> >> </encodingDesc> >> </martifHeader> >> <text> >> <body> >> <termEntry id="C001"> >> <descripGrp> >> <descrip type="subjectField">Sistemas de interconexión</descrip> >> </descripGrp> >> <langSet xml:lang="gl"> >> <tig id="C001gl1"> >> <term>acceso directo a memoria remota</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> <termNote type="grammaticalGender">masculine</termNote> >> </tig> >> <tig id="C001gl2"> >> <term>RDMA</term> >> <termNote type="termType">abbreviation</termNote> >> <termNote type="partOfSpeech">other</termNote> >> <termNote type="grammaticalGender">masculine</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="es"> >> <tig id="C001es1"> >> <term>acceso directo a memoria remota</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C001es2"> >> <term>RDMA</term> >> <termNote type="termType">abbreviation</termNote> >> <termNote type="partOfSpeech">other</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="en"> >> <tig id="C001en1"> >> <term>RDMA</term> >> <termNote type="termType">abbreviation</termNote> >> <termNote type="partOfSpeech">other</termNote> >> </tig> >> <tig id="C001en2"> >> <term>remote direct memory access</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> </langSet> >> </termEntry> >> <termEntry id="C002"> >> <descripGrp> >> <descrip type="subjectField">Procesador. Memoria caché</descrip> >> </descripGrp> >> <langSet xml:lang="gl"> >> <tig id="C002gl1"> >> <term>acceso non uniforme a memoria</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> <termNote type="grammaticalGender">masculine</termNote> >> </tig> >> <tig id="C002gl2"> >> <term>arquitectura NUMA</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> <termNote type="grammaticalGender">feminine</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="es"> >> <tig id="C002es1"> >> <term>acceso no uniforme a memoria</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C002es2"> >> <term>arquitectura NUMA</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C002es3"> >> <term>NUMA</term> >> <termNote type="termType">abbreviation</termNote> >> <termNote type="partOfSpeech">other</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="en"> >> <tig id="C002en1"> >> <term>non-uniform memory access</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C002en2"> >> <term>non-uniform memory architecture</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C002en3"> >> <term>NUMA</term> >> <termNote type="termType">abbreviation</termNote> >> <termNote type="partOfSpeech">other</termNote> >> </tig> >> </langSet> >> </termEntry> >> <termEntry id="C003"> >> <descripGrp> >> <descrip type="subjectField">Procesador. Memoria caché</descrip> >> </descripGrp> >> <langSet xml:lang="gl"> >> <tig id="C003gl1"> >> <term>acerto de escritura na memoria caché</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> <termNote type="grammaticalGender">masculine</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="es"> >> <tig id="C003es1"> >> <term>acierto de escritura en la caché</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> <tig id="C003es2"> >> <term>acierto de escritura en la memoria caché</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> </langSet> >> <langSet xml:lang="en"> >> <tig id="C003en1"> >> <term>write cache hit</term> >> <termNote type="termType">fullForm</termNote> >> <termNote type="partOfSpeech">noun</termNote> >> </tig> >> </langSet> >> </termEntry> >> [...] >> </body> >> </text> >> </martif> > > Agora os comentarios sobre o exemplo. > > O primeiro que me chama a atención é que parece haber erros de > codificación, por exemplo «caché» en vez de «caché». Igual é debido a > que pegaches o exemplo no corpo da mensaxe en vez de incluílo como un > anexo, pero coméntoo por se acaso, non vaia ser o demo... > > Segundo, non hai definicións? Sorpréndeme un chisco. > > Terceiro, cando o termo é unha frase utilízase: > > <termNote type="termType">fullForm</termNote> > <termNote type="partOfSpeech">noun</termNote> > > cando conviría usar simplemente: > > <termNote type="termType">phrase</termNote> > > que creo que é mellor (isto supoñendo TBX-Basic porque en TBX é > «phraselogicalUnit» e non «phrase»). > > Cuarto, creo que non se debería poñer partOfSpeech cando é unha > abreviación (aínda que tecnicamente non está mal): > > <termNote type="termType">abbreviation</termNote> > <termNote type="partOfSpeech">other</termNote> > > Quinto, utilízase a etiqueta descripGrp: > > <descripGrp> > <descrip type="subjectField">Sistemas de interconexión</descrip> > </descripGrp> > > e o certo é que para agrupar unha única etiqueta descrip, pois non é > necesario e de feito en TBX-Basic recomendan non facelo así a menos > que sexa imprescindible. Ademais evitar a utilización de descripGrp > nestes casos reducirá o tamaño o do ficheiro e farao máis lexible. > > Creo que isto é todo. > > Antes de que me esqueza, creo que non metín a zoca en nada, pero non o > descarto aínda que estiven mirando referencias para comprobar boa > parte das cousas que escribín. Por certo, pasóuseme comentar que non sei se a repetición da etiqueta <sourceDesc> é admisible. Sería cuestión de comprobalo co tbxchecker. Deica _______________________________________________ Proxecto mailing list [email protected] http://listas.trasno.net/listinfo/proxecto

