RE: Unha petición e unha consulta

2012-12-11 Conversa Xusto Rodriguez Rio
Esa era máis ou menos a conclusión á que eu chegara: partOfSpeech, si ou si. 


Xusto A. Rodríguez
SNL da USC

-Mensaje original-
De: mvillarino [mailto:mvillar...@kde-espana.es] 
Enviado el: luns, 10 de decembro de 2012 13:51
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

 4. partOfSpeech en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
 seguinte mensaxe de erro:
 Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
 processed. See line 11.
 Term C001gl2 is lacking an element necessary for TBX-Basic.
 To make it valid for human use only, add one of:
 a definition (at the language level)
 an example of use in context (at the term level).
 To make it valid for human or machine processing, add its part of
 speech (at the term level).
 See line 11.

 Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
 desenvolvedor e comentarllo, porque igual o fai así por algunha razón
 que descoñezo. Habería que probar ademais a ver se falla se lle pos
 definicións e lle quitas o partOfSpeech.

Nunha das ligazóns que dades pode descargarse un .zip que contén un
documento coa especificación do Tbx-basic en formato pdf.
Nese ficheiro dise literalmente
«
7. Compliance
A terminology resource (database, file, or repository) is compliant
with TBX-Basic if it meets all of the followingconditions:
[...]
[...]
[...]
[...]
●Each entry contains at least one language section (langSet
xml:lang='xx-XX') and at least one Term(term)
●One of the following conditions has been met:
○If the resource is intended to be submitted to any form of machine
processing (see definition below), eachterm level (tig) has a Part
of speech explicitly indicated through a termNotetype=partOfSpeech
element.
○If the resource is only intended for human consultation, the Part of
speech may be omitted if either aDefinition or a Context is provided.
»

Logo se o ficheiro que queredes producir está destinado a uso por
humanos, e os termos non conteñen definicións, deben necesariamente
conter o campo partOfSpeech. Se por contra o ficheiro está destinado
a ser usado programaticamente, debe necesariamente conter o
partOfSpeech.

A consecuencia prática é que hai que meter un partOfSpeech por collós,
dado que see lle pós definicións e lle quitas o partOfSpeech,
legalmente calquera ferramenta de TAO pode non cargar o ficheiro
porque si.


___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


Re: Unha petición e unha consulta

2012-12-11 Conversa Leandro Regueiro
2012/12/11 Xusto Rodriguez Rio xusto.rodrig...@usc.es:
 Esa era máis ou menos a conclusión á que eu chegara: partOfSpeech, si ou si.

Sinceramente non lle vexo sentido, pero non vou discutir que non sexa así.

Deica

 Xusto A. Rodríguez
 SNL da USC

 -Mensaje original-
 De: mvillarino [mailto:mvillar...@kde-espana.es]
 Enviado el: luns, 10 de decembro de 2012 13:51
 Para: proxecto@trasno.net
 Asunto: Re: Unha petición e unha consulta

 4. partOfSpeech en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
 seguinte mensaxe de erro:
 Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
 processed. See line 11.
 Term C001gl2 is lacking an element necessary for TBX-Basic.
 To make it valid for human use only, add one of:
 a definition (at the language level)
 an example of use in context (at the term level).
 To make it valid for human or machine processing, add its part of
 speech (at the term level).
 See line 11.

 Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
 desenvolvedor e comentarllo, porque igual o fai así por algunha razón
 que descoñezo. Habería que probar ademais a ver se falla se lle pos
 definicións e lle quitas o partOfSpeech.

 Nunha das ligazóns que dades pode descargarse un .zip que contén un
 documento coa especificación do Tbx-basic en formato pdf.
 Nese ficheiro dise literalmente
 «
 7. Compliance
 A terminology resource (database, file, or repository) is compliant
 with TBX-Basic if it meets all of the followingconditions:
 [...]
 [...]
 [...]
 [...]
 ●Each entry contains at least one language section (langSet
 xml:lang='xx-XX') and at least one Term(term)
 ●One of the following conditions has been met:
 ○If the resource is intended to be submitted to any form of machine
 processing (see definition below), eachterm level (tig) has a Part
 of speech explicitly indicated through a termNotetype=partOfSpeech
 element.
 ○If the resource is only intended for human consultation, the Part of
 speech may be omitted if either aDefinition or a Context is provided.
 »

 Logo se o ficheiro que queredes producir está destinado a uso por
 humanos, e os termos non conteñen definicións, deben necesariamente
 conter o campo partOfSpeech. Se por contra o ficheiro está destinado
 a ser usado programaticamente, debe necesariamente conter o
 partOfSpeech.

 A consecuencia prática é que hai que meter un partOfSpeech por collós,
 dado que see lle pós definicións e lle quitas o partOfSpeech,
 legalmente calquera ferramenta de TAO pode non cargar o ficheiro
 porque si.


 ___
 Proxecto mailing list
 Proxecto@trasno.net
 http://listas.trasno.net/listinfo/proxecto
___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


Re: Unha petición e unha consulta

2012-12-10 Conversa mvillarino
 4. partOfSpeech en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
 seguinte mensaxe de erro:
 Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
 processed. See line 11.
 Term C001gl2 is lacking an element necessary for TBX-Basic.
 To make it valid for human use only, add one of:
 a definition (at the language level)
 an example of use in context (at the term level).
 To make it valid for human or machine processing, add its part of
 speech (at the term level).
 See line 11.

 Curioso. Pode que sexa un bug no mrc2tbx. Habería que contactar co
 desenvolvedor e comentarllo, porque igual o fai así por algunha razón
 que descoñezo. Habería que probar ademais a ver se falla se lle pos
 definicións e lle quitas o partOfSpeech.

Nunha das ligazóns que dades pode descargarse un .zip que contén un
documento coa especificación do Tbx-basic en formato pdf.
Nese ficheiro dise literalmente
«
7. Compliance
A terminology resource (database, file, or repository) is compliant
with TBX-Basic if it meets all of the followingconditions:
[...]
[...]
[...]
[...]
●Each entry contains at least one language section (langSet
xml:lang='xx-XX') and at least one Term(term)
●One of the following conditions has been met:
○If the resource is intended to be submitted to any form of machine
processing (see definition below), eachterm level (tig) has a Part
of speech explicitly indicated through a termNotetype=partOfSpeech
element.
○If the resource is only intended for human consultation, the Part of
speech may be omitted if either aDefinition or a Context is provided.
»

Logo se o ficheiro que queredes producir está destinado a uso por
humanos, e os termos non conteñen definicións, deben necesariamente
conter o campo partOfSpeech. Se por contra o ficheiro está destinado
a ser usado programaticamente, debe necesariamente conter o
partOfSpeech.

A consecuencia prática é que hai que meter un partOfSpeech por collós,
dado que see lle pós definicións e lle quitas o partOfSpeech,
legalmente calquera ferramenta de TAO pode non cargar o ficheiro
porque si.
___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


RE: Unha petición e unha consulta

2012-12-07 Conversa Xusto Rodriguez Rio
Ola Leandro, 

Un millón de grazas pola información e pola revisión do tbx. 

Vou ir mirando con calma as ferramentas que me recomendas, a ver se atopo
algunha que me sexa máis funcional ca que estamos usando (efectivamente, é a
que está en http://www.ttt.org/tbx).

Terminator xa o coñezo -moi por riba, a verdade-, pero non vexo como
integrar un traballo xa elaborado (como ocorre neste caso) para facer desde
aí a exportación a tbx.

En relación co da licenza CC, aínda non está decidido cal se vai usar, pero
probablemente será esta:
http://creativecommons.org/licenses/by-sa/3.0/deed.gl


En relación cos teus comentarios, vou intentar aclarar aquilo que máis ou
menos entendo (se digo algunha burrada, disimula; se é moi moi grande,
avísame, vale?) :-)

1. A codificación.- Cando gardei o ficheiro anterior (un .rtf) como .txt
para desde aí xerar o .tbx gardeino con codificación UTF-8. E cando vexo o
tbx co Caderno de notas de Windows os erros que mencionas non aparecen. Iso
é todo o que che podo dicir.

2. Efectivamente, non hai definicións, como acontece na práctica totalidade
dos vocabularios que nós elaboramos.

3. As phrase e as phraseologicalUnit.- Non acabo de ter claro que
phraseologicalUnit -e por extensión phrase e n tbx-basic- sexa o máis
acaído para casos como memoria caché, vista a definición das ISO
(http://www.isocat.org/rest/dc/339) . Fíxate que di que 'the meaning of
which frequently cannot be deduced based on the combined sense of the words
making up the phrase'.
Se a iso lle sumamos que nos vocabularios do SNL tratamos esas expresións da
mesma forma ca as palabras simples, optamos por deixalo así.

4. partOfSpeech en abreviacións. Se non llas inclúo, o mrc2tbx dáme a
seguinte mensaxe de erro:
Term C001gl2 lacks a partOfSpeech row. This TBX file may not be machine
processed. See line 11.
Term C001gl2 is lacking an element necessary for TBX-Basic.
To make it valid for human use only, add one of:
a definition (at the language level)
an example of use in context (at the term level).
To make it valid for human or machine processing, add its part of
speech (at the term level).
See line 11.

5. Etiquetas descripGrp.- Pois a verdade é que non teño nin idea, así que
vou seguir a túa recomendación e eliminar á man as etiquetas descripGrp e
/descripGrp. Porque é iso o que me estás recomendando, non?

Un saúdo e mil grazas outra vez.


Xusto A. Rodríguez
SNL da USC

-Mensaje original-
De: Leandro Regueiro [mailto:leandro.regue...@gmail.com] 
Enviado el: mércores, 05 de decembro de 2012 16:15
Para: proxecto@trasno.net
Asunto: Re: Unha petición e unha consulta

2012/12/5 Xusto Rodriguez Rio xusto.rodrig...@usc.es:

 Ola,

Ola Xusto.

 Aproveitando que tedes experiencia na publicación de glosarios
 terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
 para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for
_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

 Isto vén a conto de que nas vindeiras semanas imos editar uns Termos
 básicos de arquitectura de computadores (676 conceptos) e queriamos
 difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

 Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
 tbx-basic, e

Unha petición e unha consulta

2012-12-05 Conversa Xusto Rodriguez Rio

Ola,

Aproveitando que tedes experiencia na publicación de glosarios
terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
para xerar os ficheiros .tbx e de que estrutura de datos partides.

Isto vén a conto de que nas vindeiras semanas imos editar uns Termos
básicos de arquitectura de computadores (676 conceptos) e queriamos
difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
relevante.

Mil grazas

Xusto
SNL da USC

---Mostra do ficheiro tbx---

?xml version='1.0' encoding=UTF-8?
!DOCTYPE martif SYSTEM TBXBasiccoreStructV02.dtd
martif type=TBX-Basic-V1 xml:lang=gl
martifHeader
fileDesc
titleStmt
titletermbase from MRC file/title
/titleStmt
sourceDesc
pgenerated by mrc2tbx version 3.3/p
/sourceDesc
sourceDesc
pAntelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
arquitectura de computadores. Santiago de Compostela : Universidade/p
/sourceDesc
/fileDesc
encodingDesc
p type=DCSNameTBXBasicXCSV02.xcs/p
/encodingDesc
/martifHeader
text
body
termEntry id=C001
descripGrp
descrip type=subjectFieldSistemas de interconexión/descrip
/descripGrp
langSet xml:lang=gl
tig id=C001gl1
termacceso directo a memoria remota/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
termNote type=grammaticalGendermasculine/termNote
/tig
tig id=C001gl2
termRDMA/term
termNote type=termTypeabbreviation/termNote
termNote type=partOfSpeechother/termNote
termNote type=grammaticalGendermasculine/termNote
/tig
/langSet
langSet xml:lang=es
tig id=C001es1
termacceso directo a memoria remota/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C001es2
termRDMA/term
termNote type=termTypeabbreviation/termNote
termNote type=partOfSpeechother/termNote
/tig
/langSet
langSet xml:lang=en
tig id=C001en1
termRDMA/term
termNote type=termTypeabbreviation/termNote
termNote type=partOfSpeechother/termNote
/tig
tig id=C001en2
termremote direct memory access/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
/langSet
/termEntry
termEntry id=C002
descripGrp
descrip type=subjectFieldProcesador. Memoria caché/descrip
/descripGrp
langSet xml:lang=gl
tig id=C002gl1
termacceso non uniforme a memoria/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
termNote type=grammaticalGendermasculine/termNote
/tig
tig id=C002gl2
termarquitectura NUMA/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
termNote type=grammaticalGenderfeminine/termNote
/tig
/langSet
langSet xml:lang=es
tig id=C002es1
termacceso no uniforme a memoria/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C002es2
termarquitectura NUMA/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C002es3
termNUMA/term
termNote type=termTypeabbreviation/termNote
termNote type=partOfSpeechother/termNote
/tig
/langSet
langSet xml:lang=en
tig id=C002en1
termnon-uniform memory access/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C002en2
termnon-uniform memory architecture/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C002en3
termNUMA/term
termNote type=termTypeabbreviation/termNote
termNote type=partOfSpeechother/termNote
/tig
/langSet
/termEntry
termEntry id=C003
descripGrp
descrip type=subjectFieldProcesador. Memoria caché/descrip
/descripGrp
langSet xml:lang=gl
tig id=C003gl1
termacerto de escritura na memoria caché/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
termNote type=grammaticalGendermasculine/termNote
/tig
/langSet
langSet xml:lang=es
tig id=C003es1
termacierto de escritura en la caché/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
tig id=C003es2
termacierto de escritura en la memoria caché/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
/langSet
langSet xml:lang=en
tig id=C003en1
termwrite cache hit/term
termNote type=termTypefullForm/termNote
termNote type=partOfSpeechnoun/termNote
/tig
/langSet
/termEntry
[...]
/body
/text
/martif


___
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto


Re: Unha petición e unha consulta

2012-12-05 Conversa Leandro Regueiro
2012/12/5 Xusto Rodriguez Rio xusto.rodrig...@usc.es:

 Ola,

Ola Xusto.

 Aproveitando que tedes experiencia na publicación de glosarios
 terminolóxicos en formato TBX, quería preguntarvos qué aplicación usades
 para xerar os ficheiros .tbx e de que estrutura de datos partides.

Eu adoito empregar diversos métodos, pero moitas veces escribo scripts
en Python para conversións ad-hoc complicadas. Outras veces só teño
que converter un ficheiro XML e polo tanto realizo tres ou catro
substitucións co editor de texto Gedit porque me é moito máis sinxelo.

Ademais disto existe unha ferramenta chamada csv2tbx que forma parte
do Translate Toolkit e que permite converter ficheiros CSV a formato
TBX. Polo que me comentaron, nas últimas versións do Translate Toolkit
non funciona, aínda que non vexo ningún bug relacionado con isto en
http://bugs.locamotion.org/ nin teño confirmación de primeira man de
que realmente non funcione.

Outra alternativa é usar
http://www.qa-distiller.com/support/How_To_Use_QA_Distiller/How_to_check_for_terminology_mistakes/Create_a_dictionary.htm#Calc
para converter follas de cálculo desde OpenOffice (e creo que
LibreOffice tamén) a TBX. Este método probouno Antón Méixome (segundo
me consta) e funciona, aínda que polo visto é necesario realizar
algunhas modificacións posteriores a man no ficheiro xerado para que
funcione con ferramentas como Virtaal.

Para realizar comprobacións sobre ficheiros TBX e ver se realmente
cumpren a especificación pódese utilizar TBXChecker
http://sourceforge.net/projects/tbxutil/

E claro, tamén utilizo o Terminator, unha ferramenta web para a
xestión de terminoloxía que desenvolvín eu mesmo, e que xera ficheiros
TBX correctos baixo demanda. A ferramenta segue en desenvolvemento
activo e espero que nos vindeiros meses reciba diversas melloras,
aínda que agora xa é funcional. O código está dispoñible en
http://gitorious.org/terminator Ademais hai unha instancia en
funcionamento en http://terminator.trasno.net/

 Isto vén a conto de que nas vindeiras semanas imos editar uns Termos
 básicos de arquitectura de computadores (676 conceptos) e queriamos
 difundilo baixo licenza Creative Commons e en formatos .pdf e tbx.

Que licenza Creative Commons exactamente?

 Usando a aplicación mrc2tbx elaboramos unha primeira versión en formato
 tbx-basic, e agradeceríavos que lle botarades un ollo a unha mostra do
 ficheiro (engádoa a seguir) e me dixésedes se lle vedes algún erro
 relevante.

Descoñecía esa ferramenta. É a ferramenta da que falan en
http://www.ttt.org/tbx ou vén sendo outra?

Poño os comentarios que teño sobre a mostra do ficheiro ao final da mensaxe.

 Mil grazas

A ti.

 Xusto
 SNL da USC

 ---Mostra do ficheiro tbx---

 ?xml version='1.0' encoding=UTF-8?
 !DOCTYPE martif SYSTEM TBXBasiccoreStructV02.dtd
 martif type=TBX-Basic-V1 xml:lang=gl
 martifHeader
 fileDesc
 titleStmt
 titletermbase from MRC file/title
 /titleStmt
 sourceDesc
 pgenerated by mrc2tbx version 3.3/p
 /sourceDesc
 sourceDesc
 pAntelo Suárez, E.; X. A. Rodríguez Río (2012) Termos esenciais de
 arquitectura de computadores. Santiago de Compostela : Universidade/p
 /sourceDesc
 /fileDesc
 encodingDesc
 p type=DCSNameTBXBasicXCSV02.xcs/p
 /encodingDesc
 /martifHeader
 text
 body
 termEntry id=C001
 descripGrp
 descrip type=subjectFieldSistemas de interconexión/descrip
 /descripGrp
 langSet xml:lang=gl
 tig id=C001gl1
 termacceso directo a memoria remota/term
 termNote type=termTypefullForm/termNote
 termNote type=partOfSpeechnoun/termNote
 termNote type=grammaticalGendermasculine/termNote
 /tig
 tig id=C001gl2
 termRDMA/term
 termNote type=termTypeabbreviation/termNote
 termNote type=partOfSpeechother/termNote
 termNote type=grammaticalGendermasculine/termNote
 /tig
 /langSet
 langSet xml:lang=es
 tig id=C001es1
 termacceso directo a memoria remota/term
 termNote type=termTypefullForm/termNote
 termNote type=partOfSpeechnoun/termNote
 /tig
 tig id=C001es2
 termRDMA/term
 termNote type=termTypeabbreviation/termNote
 termNote type=partOfSpeechother/termNote
 /tig
 /langSet
 langSet xml:lang=en
 tig id=C001en1
 termRDMA/term
 termNote type=termTypeabbreviation/termNote
 termNote type=partOfSpeechother/termNote
 /tig
 tig id=C001en2
 termremote direct memory access/term
 termNote type=termTypefullForm/termNote
 termNote type=partOfSpeechnoun/termNote
 /tig
 /langSet
 /termEntry
 termEntry id=C002
 descripGrp
 descrip type=subjectFieldProcesador. Memoria caché/descrip
 /descripGrp
 langSet xml:lang=gl
 tig id=C002gl1
 termacceso non uniforme a memoria/term
 termNote type=termTypefullForm/termNote
 termNote type=partOfSpeechnoun/termNote
 termNote type=grammaticalGendermasculine/termNote
 /tig
 tig id=C002gl2
 termarquitectura NUMA/term
 termNote type=termTypefullForm/termNote
 termNote type=partOfSpeechnoun/termNote
 termNote type=grammaticalGenderfeminine/termNote
 /tig
 /langSet
 langSet xml:lang=es
 tig id=C002es1
 termacceso no uniforme a memoria/term