Ola,

Hai unhas semanas falei con varios de vós sobre a utilidade de termos
unha MT da tradución de Ubuntu. Por moitas razóns e máis neste
momento, pero especialmente polo seu volume e por ser o proxecto onde
máis traducións conflúen de todos nosoutros e doutros tamén.

A cousa parecía complicada pero finalmente encontrei o xeito. Acabo de
publicala: http://trasno.net/ficheiros/upload/memorias/TM_TodoUbuntu1204.tmx

Enténdese que se trata da tradución real e dispoñíbel cando se instala
Ubuntu desde 0, sen ningunha actualización e sen ningún software a
maiores. Isto permitiría facer comparacións futuras (cara atrás ou
cara adiante).

Creo lembrar que para termos unha versión futura de Ubuntu en galego
hai que manter o 80% traducido.
Actualmente a trad. de Ubuntu atópase no 66% cando non hai moito tempo
chegaramos ao 100% e cando se publicou a 12.04, oficialmente tiñamos
un 96% de obra feita. Ocupabamos o posto 18 naquel momento e
curiosamente agora estamos no 17º, pero a posición na clasificación é
moito menos importante que o volume de cadeas pendentes: 114.000
A caída é brutal aínda que haxa que facer matizacións que explican sen
problema un 15 % de volume polo aumento de ficheiros producido
probablemente polas innovacións no escritorio e outras...

... Ao que vou, anuncio a dispoñibilidade da MT de Ubuntu e creo que
co que hai e algunhas máis que se sumarán estamos en posición de crear
todo tipo de derivados (terminoloxias, dicionarios, tradutores
automáticos, etc) e de perfeccionar o noso sistema de tradución para
facelo máis produtivo, fácil e de maior calidade.

O conxunto xa é impresionante:

Temos     3.625.161 palabras
                  691.498 cadeas (ou UT, unidades de tradución,
propiamente dito)

Naturalmente, o corpus bilingüe de tradución real é bastante superior
xa que as tmx só teñen unha única instancia de cada parella que se
repite. Tamén é certo que unha tmx unificada sería un pouco menor,
pero moi pouco.

Por iso, na realidade xa temos un "patrimonio", un recurso de
localización ao galego bastante superior ao de

Corpus LOGALIZA de localización de software inglés-galego (3.706.242 palabras)
284341 unidades de tradución: 1928368 palabras (galego) x 1777874
palabras (inglés)

Se non me equivoco, o noso parece ser case o TRIPLE de grande e, por
suposto, actualizado, e isto hai que facelo chegar a quen corresponde.




Notas sobre a  MT de Ubuntu
=========================


Refírense ás traducións oficiais do SO Ubuntu en funcionamento a día
de hoxe, e que se recollen nun paquete con data
2012-04-18 09:18:28 CEST
https://translations.launchpad.net/ubuntu/precise/+language-packs

1066 ficheiros  145 MB


Operacións

anton@pc:~/Dropbox/Traducion/Ubuntu12.04/rosetta-precise/gl/LC_MESSAGES$
find *.po > TodoUbuntu1204.txt

...


anton@pc:~/Dropbox/Traducion/Ubuntu12.04/rosetta-precise/gl/LC_MESSAGES$
msgcat -f TodoUbuntu1204.txt -u -o TodoUbuntu1204.po
alsa-utils.po:684: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
alsa-utils.po:684: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
alsa-utils.po:700: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
alsa-utils.po:700: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2836: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2846: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2846: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
dia.po:2855: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
diffutils.po:878: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\r'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:2255: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:3175: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:3175: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
e2fsprogs.po:3175: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\a'
libc.po:131: warning: as mensaxes internacionalizadas non deben
conte-la secuencia de escape `\v'

...


Estatísticas: TodoUbuntu1204.po 32.206,8 KB

Palabras (total)        1.280.073
        Sen traducir    394.262         30.8%
        Traducido       885.811         69.2%

Cadeas (total)          210.759
        Sen traducir    50.216          23.8%
        Traducido       160.543         76.2%


...

anton@pc:~/Dropbox/Traducion/Ubuntu12.04/rosetta-precise/gl/LC_MESSAGES$
po2tmx -l gl TodoUbuntu1204.po TodoUbuntu1204.tmx
processing 1 files...
[###########################################] 100%


Estatísticas: TodoUbuntu.tmx

Palabras (total)        877.303
        Traducido       877.303         100%

Cadeas (total)          160.543
        Traducido       160.543         100%


....

Datos de tradución en bruto
anton@pc:~/Dropbox/Traducion/Ubuntu12.04/rosetta-precise/gl/LC_MESSAGES$
pocompendium TodoUbuntu1204_compendiobruto.po *.po

Estatísticas: TodoUbuntu1204_compendiobruto.po  38.387,2 KB

Palabras (total)        1.328.292

        Sen traducir    394.673         29.7%
        Precisan mellorar       17.732  1.3%
        Traducido       915.887         69%

Cadeas (total)          225.245
        
        Sen traducir    50.376          22.4%
        Precisan mellorar       5.192   2.3%
        Traducido       169.677         75.3%

As traducións "precisan mellorar" son aquelas nas que hai conflito: a)
A mesma cadea en inglés con diferentes traducións en galego; b) Varias
cadeas de inglés traducidaas da mesma maneira en galego. Aparentemente
no pocompendium recóllense só as de tipo a) tomando como "base" as
cadeas únicas en inglés. É dicir, no pocompendium non estań TODAS as
cadeas traducidas senón as cadeas únicas do ingles e as
correspondentes traducións. Isto altera notablemente o número total do
traballo realizado sobre Ubuntu, ao mesmo tempo que explica en gran
parte a diferencia de número de cadeas que presenta Launchpad para
traducir realmente. Como tampouco mostra a MT real que contén
Launchpad onde hai miles de traducións antigas, axustes e correccións
por parte dos distintos tradutores e de distintas versións, só se
teñen en conta as traducións últimas e activas de cada cadea de cada
ficheiro. Polo contrario, Launchpad ao ter o control de versións,
consérvaas todas.

Esas cadeas son as detectadas polas funcións de pocompendium
http://translate.sourceforge.net/wiki/toolkit/pocompendium

O avultado número de 5.192 cadeas en conflito débese a que se contan
todas as cadeas dun idioma implicadas nun mesmo conflito como
elementos que se suman. Ese número non indica pois o número de
discrepancias senón o numero de cadeas afectadas.

Exemplo:

en

        CD-ROM
          ../libbrasero-media/brasero-medium.c:66 k3bdeviceglobals.cpp:33
k3bdeviceglobals.cpp:150

gl

        #-#-#-#-#  brasero.po (brasero-master-po-gl-6740)  #-#-#-#-#
        CDROM
        #-#-#-#-#  libk3bdevice.po (libk3bdevice)  #-#-#-#-#
        CD-ROM
        #-#-#-#-#  solid_qt.po  #-#-#-#-#
        CD-ROM
        #-#-#-#-#  gnome-vfs-2.0.po (gnome-vfs-master-po-gl-33738)  #-#-#-#-#
        CD-ROM
        #-#-#-#-#  gvfs.po (gvfs-master-po-gl-70600.merged)  #-#-#-#-#
        CD-ROM

Neste caso só existe 1 discrepancia, CD-ROM/CDROM, pero as cadeas
implicadas son cinco

Isto tamén implica que de aplicarse unha MT afinada e unha tradución
automática sobre as cadeas novas de Launchpad, estes erros
desaparecerían e reduciriase significativamente o traballo de
tradución "nova" (proceso msgmerge) feito con pomigrate2

http://translate.sourceforge.net/wiki/toolkit/pomigrate2



A data de hoxe en Launchpad

Ficheiros 1243

Cadeas

Overall statistics:     337376  66.0260362326% translated 33.9739637674%
untranslated    114620  138     7762
                        Length  Status                  Untranslated            
        Need review     Changed

Priorización de tradución segundo Launchpad

https://translations.launchpad.net/ubuntu/precise/+templates
_______________________________________________
Proxecto mailing list
Proxecto@trasno.net
http://listas.trasno.net/listinfo/proxecto

Responderlle a