Re: Sobre o corrector ortográfico hunspell para o galego

2021-02-24 Conversa Xosé
O mar., 23 de feb. de 2021 ás 16:33, Adrian Chaves ()
escribiu:

> Notas pola miña parte:
>
> - Creo que é moi importante que se tome esta decisión, e que se tome en
> comunidade. A construción predeterminada actual segue o meu criterio
> persoal, e é unha decisión da que me arrepinto.
>

É este un tema máis de lingüística que de informática?
Miramos como se fai noutros idiomas?


> - Creo que deberíamos seleccionar uns contidos predeterminados para o
> corrector que sexan axeitados para a persoa media. Evitaría escoller un
> contido pensando en nós quen traducimos, que o temos máis doado para
> compilar unha versión a medida do corrector. Dito isto, creo que o
> módulo de «trasno» é útil para a persoa media. Pero no pasado tivemos
> cousas, como por exemplo os códigos ISO de idiomas e países, que creo
> que non son útiles para a persoa media.
>

De acordo. O destinatario obxectivo debe ser o usuario final sen
coñecementos de informática que escribe un traballo escolar, unha
presentación de empresa, un artigo xornalístico, unha novela. Os demais,
como alguén xa dixo, xa sabemos. A activación de módulos específicos (unha
bioquímica, por exemplo, debe verse corrixido se acentúa
«desoxirribonucleico») probabelmente debería ser algo que posibilitasen as
aplicacións finais, pero nós deberiámolo poder ter en conta. Os topónimos
entran neste caso: «Galicia» non debe aparecer como incorrecto.


> - Os módulos de Wikipedia e Wiktionary creeinos no seu momento, durante
> a separación do contido do corrector en módulos, para dar cabida a
> vocabulario que estaba presente no corrector pero non viña do VOLGa ou
> do DRAG, como nomes e apelidos, nomes de lugar, e nomes de produtos ou
> empresas popularmente coñecidos. Pero creo que podería non ser boa idea
> incluír eses contidos, ou polo menos non todos, porque pode darse o caso
> de palabras que se marquen como correctas aínda que non o sexan porque
> forman parte de deses módulos. Creo que deberiamos ter un criterio claro
> para decidir cales destas palabras van no corrector predeterminado e
> cales non. Pero non teño nin idea de como escoller ese criterio.
>

Concordo, mais tamén me parece un tema principalmente lingüístico.

>
> - A raíz de vocabulario que faltaba no corrector que atoparon Fran e
> Xosé, creei un novo módulo para Tergal. Paréceme un recurso fiable e en
> liña co DRAG, e creo que tería sentido incluír o seu vocabulario no
> corrector predeterminado.
>

Si, porque o DRAG é moi limitado. É posíbel falar con eles?



> O traballo no corrector adoita ser bastante solitario e pouco



> agradecido (botar moito tempo para cousas con pouco impacto), e as súas
>
achegas resultan, canto menos, motivadoras.
>
> Certo, pero para min é dos máis importantes porque afecta a todo. Grazas
polo teu labor.

Xosé

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed=7399=3c25b12b63b4f9e15421fc8c1534f2fc6769a176=1651655386



Re: Sobre o corrector ortográfico hunspell para o galego

2021-02-23 Conversa Adrian Chaves
Entendo que queda fóra do foco do corrector tanto o guionizador como o 
dicionario de sinónimos, non?

Entendo que serían proxectos separados, en tanto que Hunspell como 
tecnoloxía non serve para esas finalidades. Pero se atopamos recursos 
que teña sentido compartir entre os proxectos, podemos buscar formas de 
evitar duplicar traballo.

On 2021-02-23 20:18, Antón Méixome wrote:

> É un traballo complexo e moi solitario, desde logo.
> O que non se pode dicir é que non teña impacto. Teno e moito.
> Fáltanos ter unha rutina, un proceso claro para informar de novas e 
> publicar cada certo tempo unha chamada de atención.
> 
> Desde logo o que non se empaquete dalgunha maneira vai quedar moi 
> agochado e é unha pena.
> Agora temos unha gran oportunidade para melloralo polo procesamento de 
> grandes corpus de textos.
> Se agora estás con moita carga de traballo podemos deixar pasar unha 
> semana para esa reflexión da comunidade e imos anotando cousas.
> 
> En canto se poña a andar as gravacións de Common Voice, a ver se podo 
> volver axudar.
> 
> Entendo que queda fóra do foco do corrector tanto o guionizador como o 
> dicionario de sinónimos, non?
> 
> Antón
> 
> O mar., 23 de feb. de 2021 ás 16:33, Adrian Chaves () 
> escribiu:
> 
>> Notas pola miña parte:
>> 
>> - Para quen non estea familiarizado co corrector, desde hai un tempo o
>> seu contido (listas de palabras, suxestións, e regras de formación de
>> palabras) está separado en "módulos" (cartafoles, ficheiros) divididos
>> por autoridade (RAG, comunidade, trasno, etc.) e dentro das 
>> autoridades
>> por outros criterios. Ao construírse o corrector, pódese escoller
>> calquera combinación de módulos, que determina as palabras e as
>> suxestións do corrector. Aquí estamos falando dos módulos que queremos
>> que vaian na versión predeterminada do corrector. Logo cada quen pode
>> construírse versións a medida.
>> 
>> - Creo que é moi importante que se tome esta decisión, e que se tome 
>> en
>> comunidade. A construción predeterminada actual segue o meu criterio
>> persoal, e é unha decisión da que me arrepinto.
>> 
>> - Creo que deberíamos seleccionar uns contidos predeterminados para o
>> corrector que sexan axeitados para a persoa media. Evitaría escoller 
>> un
>> contido pensando en nós quen traducimos, que o temos máis doado para
>> compilar unha versión a medida do corrector. Dito isto, creo que o
>> módulo de «trasno» é útil para a persoa media. Pero no pasado tivemos
>> cousas, como por exemplo os códigos ISO de idiomas e países, que creo
>> que non son útiles para a persoa media.
>> 
>> - Os módulos de Wikipedia e Wiktionary creeinos no seu momento, 
>> durante
>> a separación do contido do corrector en módulos, para dar cabida a
>> vocabulario que estaba presente no corrector pero non viña do VOLGa ou
>> do DRAG, como nomes e apelidos, nomes de lugar, e nomes de produtos ou
>> empresas popularmente coñecidos. Pero creo que podería non ser boa 
>> idea
>> incluír eses contidos, ou polo menos non todos, porque pode darse o 
>> caso
>> de palabras que se marquen como correctas aínda que non o sexan porque
>> forman parte de deses módulos. Creo que deberiamos ter un criterio 
>> claro
>> para decidir cales destas palabras van no corrector predeterminado e
>> cales non. Pero non teño nin idea de como escoller ese criterio.
>> 
>> - A raíz de vocabulario que faltaba no corrector que atoparon Fran e
>> Xosé, creei un novo módulo para Tergal. Paréceme un recurso fiable e 
>> en
>> liña co DRAG, e creo que tería sentido incluír o seu vocabulario no
>> corrector predeterminado.
>> 
>> - Para quen queira consultar o vocabulario que temos, é relativamente
>> fácil de ler directamente das fontes en
>> https://gitlab.com/proxecto-trasno/hunspell-gl/-/tree/master/src
>> navegando polos cartafoles. Non é tan doado de editar ao principio (o
>> máis cómodo é buscar termos parecidos e copiar e pegar), pero 
>> procurarei
>> ir mellorando a documentación a medida que aparezan dúbidas comúns.
>> 
>> - Non teño moito tempo estes días, pero procurarei buscar o tempo
>> necesario para os cambios e correccións que sexan necesarias.
>> 
>> Por último, moitas grazas a Dani, Fran e Xosé polo seu traballo
>> empaquetando, avisando de erros, propoñendo melloras, e incluso 
>> facendo
>> cambios. O traballo no corrector adoita ser bastante solitario e pouco
>> agradecido (botar moito tempo para cousas con pouco impacto), e as 
>> súas
>> achegas resultan, canto menos, motivadoras.
>> 
>> Un saúdo!
>> 
>> On 2021-02-23 15:19, Fran Dieguez wrote:
>> 
>>> Ola a todos/as,
>>> 
>>> Hai un mes paseille unha revisión ortográfica ás traducións de GNOME
>>> empregando o dicionario de hunspell-gl que mantemos.
>>> 
>>> No proceso atopei unha serie de erros:
>>> 
>>> * En GNOME había unha morea deles que xa fun corrixindo e irán na
>>> seguinte version GNOME 40
>>> * Tamén atopei unha cantidade importante de falsos positivos que
>>> reportaba o corrector e que reportei para 

Re: Sobre o corrector ortográfico hunspell para o galego

2021-02-23 Conversa Antón Méixome
É un traballo complexo e moi solitario, desde logo.
O que non se pode dicir é que non teña impacto. Teno e moito.
Fáltanos ter unha rutina, un proceso claro para informar de novas e
publicar cada certo tempo unha chamada de atención.

Desde logo o que non se empaquete dalgunha maneira vai quedar moi agochado
e é unha pena.
Agora temos unha gran oportunidade para melloralo polo procesamento de
grandes corpus de textos.
Se agora estás con moita carga de traballo podemos deixar pasar unha semana
para esa reflexión da comunidade e imos anotando cousas.

En canto se poña a andar as gravacións de Common Voice, a ver se podo
volver axudar.

Entendo que queda fóra do foco do corrector tanto o guionizador como o
dicionario de sinónimos, non?

Antón


O mar., 23 de feb. de 2021 ás 16:33, Adrian Chaves ()
escribiu:

> Notas pola miña parte:
>
> - Para quen non estea familiarizado co corrector, desde hai un tempo o
> seu contido (listas de palabras, suxestións, e regras de formación de
> palabras) está separado en “módulos” (cartafoles, ficheiros) divididos
> por autoridade (RAG, comunidade, trasno, etc.) e dentro das autoridades
> por outros criterios. Ao construírse o corrector, pódese escoller
> calquera combinación de módulos, que determina as palabras e as
> suxestións do corrector. Aquí estamos falando dos módulos que queremos
> que vaian na versión predeterminada do corrector. Logo cada quen pode
> construírse versións a medida.
>
> - Creo que é moi importante que se tome esta decisión, e que se tome en
> comunidade. A construción predeterminada actual segue o meu criterio
> persoal, e é unha decisión da que me arrepinto.
>
> - Creo que deberíamos seleccionar uns contidos predeterminados para o
> corrector que sexan axeitados para a persoa media. Evitaría escoller un
> contido pensando en nós quen traducimos, que o temos máis doado para
> compilar unha versión a medida do corrector. Dito isto, creo que o
> módulo de «trasno» é útil para a persoa media. Pero no pasado tivemos
> cousas, como por exemplo os códigos ISO de idiomas e países, que creo
> que non son útiles para a persoa media.
>
> - Os módulos de Wikipedia e Wiktionary creeinos no seu momento, durante
> a separación do contido do corrector en módulos, para dar cabida a
> vocabulario que estaba presente no corrector pero non viña do VOLGa ou
> do DRAG, como nomes e apelidos, nomes de lugar, e nomes de produtos ou
> empresas popularmente coñecidos. Pero creo que podería non ser boa idea
> incluír eses contidos, ou polo menos non todos, porque pode darse o caso
> de palabras que se marquen como correctas aínda que non o sexan porque
> forman parte de deses módulos. Creo que deberiamos ter un criterio claro
> para decidir cales destas palabras van no corrector predeterminado e
> cales non. Pero non teño nin idea de como escoller ese criterio.
>
> - A raíz de vocabulario que faltaba no corrector que atoparon Fran e
> Xosé, creei un novo módulo para Tergal. Paréceme un recurso fiable e en
> liña co DRAG, e creo que tería sentido incluír o seu vocabulario no
> corrector predeterminado.
>
> - Para quen queira consultar o vocabulario que temos, é relativamente
> fácil de ler directamente das fontes en
> https://gitlab.com/proxecto-trasno/hunspell-gl/-/tree/master/src
> navegando polos cartafoles. Non é tan doado de editar ao principio (o
> máis cómodo é buscar termos parecidos e copiar e pegar), pero procurarei
> ir mellorando a documentación a medida que aparezan dúbidas comúns.
>
> - Non teño moito tempo estes días, pero procurarei buscar o tempo
> necesario para os cambios e correccións que sexan necesarias.
>
> Por último, moitas grazas a Dani, Fran e Xosé polo seu traballo
> empaquetando, avisando de erros, propoñendo melloras, e incluso facendo
> cambios. O traballo no corrector adoita ser bastante solitario e pouco
> agradecido (botar moito tempo para cousas con pouco impacto), e as súas
> achegas resultan, canto menos, motivadoras.
>
> Un saúdo!
>
> On 2021-02-23 15:19, Fran Dieguez wrote:
>
> > Ola a todos/as,
> >
> > Hai un mes paseille unha revisión ortográfica ás traducións de GNOME
> > empregando o dicionario de hunspell-gl que mantemos.
> >
> > No proceso atopei unha serie de erros:
> >
> > * En GNOME había unha morea deles que xa fun corrixindo e irán na
> > seguinte version GNOME 40
> > * Tamén atopei unha cantidade importante de falsos positivos que
> > reportaba o corrector e que reportei para que se solucionen
> > https://gitlab.com/proxecto-trasno/hunspell-gl/-/issues/1
> >
> > Moitos dos erros xa están arranxados por Adrián, pero noutros casos
> > comentábame que estas entradas xa estan contempladas noutros
> > dicionarios que non se inclúen por defecto e que hai que dicirlle ao
> > construtor do dicionario que os inclúe explicitamente.
> >
> > Para que o teñades en conta, na construción do corrector que realizo
> > para o paquete de Archlinux que manteño, eu executo
> >
> > scons
> >
> > sen mais, mentres que o dicionario construído para 

Re: Sobre o corrector ortográfico hunspell para o galego

2021-02-23 Conversa Adrian Chaves
Notas pola miña parte:

- Para quen non estea familiarizado co corrector, desde hai un tempo o 
seu contido (listas de palabras, suxestións, e regras de formación de 
palabras) está separado en “módulos” (cartafoles, ficheiros) divididos 
por autoridade (RAG, comunidade, trasno, etc.) e dentro das autoridades 
por outros criterios. Ao construírse o corrector, pódese escoller 
calquera combinación de módulos, que determina as palabras e as 
suxestións do corrector. Aquí estamos falando dos módulos que queremos 
que vaian na versión predeterminada do corrector. Logo cada quen pode 
construírse versións a medida.

- Creo que é moi importante que se tome esta decisión, e que se tome en 
comunidade. A construción predeterminada actual segue o meu criterio 
persoal, e é unha decisión da que me arrepinto.

- Creo que deberíamos seleccionar uns contidos predeterminados para o 
corrector que sexan axeitados para a persoa media. Evitaría escoller un 
contido pensando en nós quen traducimos, que o temos máis doado para 
compilar unha versión a medida do corrector. Dito isto, creo que o 
módulo de «trasno» é útil para a persoa media. Pero no pasado tivemos 
cousas, como por exemplo os códigos ISO de idiomas e países, que creo 
que non son útiles para a persoa media.

- Os módulos de Wikipedia e Wiktionary creeinos no seu momento, durante 
a separación do contido do corrector en módulos, para dar cabida a 
vocabulario que estaba presente no corrector pero non viña do VOLGa ou 
do DRAG, como nomes e apelidos, nomes de lugar, e nomes de produtos ou 
empresas popularmente coñecidos. Pero creo que podería non ser boa idea 
incluír eses contidos, ou polo menos non todos, porque pode darse o caso 
de palabras que se marquen como correctas aínda que non o sexan porque 
forman parte de deses módulos. Creo que deberiamos ter un criterio claro 
para decidir cales destas palabras van no corrector predeterminado e 
cales non. Pero non teño nin idea de como escoller ese criterio.

- A raíz de vocabulario que faltaba no corrector que atoparon Fran e 
Xosé, creei un novo módulo para Tergal. Paréceme un recurso fiable e en 
liña co DRAG, e creo que tería sentido incluír o seu vocabulario no 
corrector predeterminado.

- Para quen queira consultar o vocabulario que temos, é relativamente 
fácil de ler directamente das fontes en 
https://gitlab.com/proxecto-trasno/hunspell-gl/-/tree/master/src 
navegando polos cartafoles. Non é tan doado de editar ao principio (o 
máis cómodo é buscar termos parecidos e copiar e pegar), pero procurarei 
ir mellorando a documentación a medida que aparezan dúbidas comúns.

- Non teño moito tempo estes días, pero procurarei buscar o tempo 
necesario para os cambios e correccións que sexan necesarias.

Por último, moitas grazas a Dani, Fran e Xosé polo seu traballo 
empaquetando, avisando de erros, propoñendo melloras, e incluso facendo 
cambios. O traballo no corrector adoita ser bastante solitario e pouco 
agradecido (botar moito tempo para cousas con pouco impacto), e as súas 
achegas resultan, canto menos, motivadoras.

Un saúdo!

On 2021-02-23 15:19, Fran Dieguez wrote:

> Ola a todos/as,
> 
> Hai un mes paseille unha revisión ortográfica ás traducións de GNOME 
> empregando o dicionario de hunspell-gl que mantemos.
> 
> No proceso atopei unha serie de erros:
> 
> * En GNOME había unha morea deles que xa fun corrixindo e irán na 
> seguinte version GNOME 40
> * Tamén atopei unha cantidade importante de falsos positivos que 
> reportaba o corrector e que reportei para que se solucionen 
> https://gitlab.com/proxecto-trasno/hunspell-gl/-/issues/1
> 
> Moitos dos erros xa están arranxados por Adrián, pero noutros casos 
> comentábame que estas entradas xa estan contempladas noutros 
> dicionarios que non se inclúen por defecto e que hai que dicirlle ao 
> construtor do dicionario que os inclúe explicitamente.
> 
> Para que o teñades en conta, na construción do corrector que realizo 
> para o paquete de Archlinux que manteño, eu executo
> 
> scons
> 
> sen mais, mentres que o dicionario construído para o Firefox faino con
> 
> scons aff=norma,trasno,unidades 
> dic=comunidade,rag,norma,trasno,unidades,uvigo,wikipedia,wiktionary 
> rep=comunidade,rag,wikipedia
> 
> segundo comentan aquí 
> https://gitlab.com/proxecto-trasno/hunspell-gl/-/issues/1#note_513986740 
> como vedes na compilación de Firefox inclúense moitos máis dicionarios.
> 
> O que pretendo con esta mensaxe é abrir un debate para cambiar os 
> parametros por defecto para que a compilación sen parámetros inclúa os 
> dicionarios que pensemos que calquera debería ter. Sen perxuizo de que 
> alguén poida construirse a súa versión que inclúa máis ou menos 
> ficheiros dicionarios-afixos-etc.
> 
> Polo tanto, delegar no mantedor do dicionario a seleción  dos 
> dicionarios que se inclúen por defecto e que os que empaquetamos o 
> dicionario para a súa distribución, Archlinux, Debian, Firefox, 
> Libreoffice, non nos preocupemos por dita selección.

Sobre o corrector ortográfico hunspell para o galego

2021-02-23 Conversa Fran Dieguez
Ola a todos/as,

Hai un mes paseille unha revisión ortográfica ás traducións de GNOME
empregando o dicionario de hunspell-gl que mantemos.

No proceso atopei unha serie de erros:

   - En GNOME había unha morea deles que xa fun corrixindo e irán na
   seguinte version GNOME 40
   - Tamén atopei unha cantidade importante de falsos positivos que
   reportaba o corrector e que reportei para que se solucionen
   https://gitlab.com/proxecto-trasno/hunspell-gl/-/issues/1

Moitos dos erros xa están arranxados por Adrián, pero noutros casos
comentábame que estas entradas xa estan contempladas noutros dicionarios
que non se inclúen por defecto e que hai que dicirlle ao construtor do
dicionario que os inclúe explicitamente.

Para que o teñades en conta, na construción do corrector que realizo para o
paquete de Archlinux que manteño, eu executo

scons

sen mais, mentres que o dicionario construído para o Firefox faino con

scons aff=norma,trasno,unidades
dic=comunidade,rag,norma,trasno,unidades,uvigo,wikipedia,wiktionary
rep=comunidade,rag,wikipedia

segundo comentan aquí
https://gitlab.com/proxecto-trasno/hunspell-gl/-/issues/1#note_513986740 como
vedes na compilación de Firefox inclúense moitos máis dicionarios.

O que pretendo con esta mensaxe é abrir un debate para cambiar os
parametros por defecto para que a compilación sen parámetros inclúa os
dicionarios que pensemos que calquera debería ter. Sen perxuizo de que
alguén poida construirse a súa versión que inclúa máis ou menos ficheiros
dicionarios-afixos-etc.

Polo tanto, delegar no mantedor do dicionario a seleción  dos dicionarios
que se inclúen por defecto e que os que empaquetamos o dicionario para a
súa distribución, Archlinux, Debian, Firefox, Libreoffice, non nos
preocupemos por dita selección.

Por favor, preciso feedback e agardo que poidamos incluír esta decisión na
seguinte versión. Pola miña parte seguirei revisando GNOME para ver se hai
máis falsos positivos, reportalos e polo tanto ter un corrector máis
completo.

Saúdos

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed=7381=1bd34286a6060296763bdea580f388e0da4eb9d6=2093620018