A diferenza é relevante por exactamente o que di o vídeo de Esther.
Temos pares de palabras que se distinguen precisamente polas vogais; que se
transcriben diferente e que son moi frecuentes: Ves? Vés?, Este e
aquel/Este é aquel

As frases non están todas en galego normativo. Estano ortograficamente e en
vocabulario pero temos variacións morfolóxicas e gramaticais. Por exemplo
con cheismo, aínda que sexan minoritarias.
Salvo as gheadas (que hai varias), o seseo (que hai varios) e os pares de
palabras con vocalismo distintivo, o resto das variacións de pronuncia non
teñen transcendencia na interpretación escrita. Por exemplo, parte de
Galicia pronuncia: A nova bola (pechado) e outra parte "A n0va b0la"
(abertas) ; outros pronuncian con «rotacismo»: Caíu varia-r veces; pero
outros utilizan demostrativos e pronomes non normativos: Fálalle tu, Iste
gústame máis. Outros utilizan cuatro e non catro... son distintos casos, e
se nunha primeira fase non é capaz de casar ti/tu ou catro/cuatro non é
realmente ningún problema.

Este tipo de variacións ímolas atopar en todos os idiomas e non se recollen
neste momento para o modelo de lingua, que aínda así sería fiable nun 90%.
Quero imaxinar que en canto se poña a funcionar a intelixencia artificial
sobre un idioma específico, se lle poderá seguir proporcionando materia
prima, como enchufalo a un programa de televisión, a unha gravación de
falantes, e que vaia aprendendo a interpretar falas diversas contando con
corrección por parte humana. Imaxínate as variacións fonéticas que pode ter
o francés, o inglés,... aínda que lle recollas gravacións con etiquetas, ao
final vai todo para o mesmo dataset.

Naturalmente isto leva á primacía do modelo estándar de lingua tanto para
interactuar co robot como para producir galego sintético. Non hai outra.

O máximo que podemos facer é deseñar unha folla de instrucións para
doadores de voz e difundila: dicirlles que lean exactamente o que pon a
pantalla e que utilicen a súa maneira de pronunciar.
Unha solución parcial sería organizar maratóns de doazóns en zonas/grupos
concretos e homoxéneos, monitorizados por alguén que mobilice falantes e os
instrúa sobre estes detalles. Polo menos será divertido e interesante para
os participantes.

Tamén o perfeccionamento da etiquetaxe podería facerse no proceso de
validación de fragmentos de son pero non podemos controlar/adestrar a todos
os que validen. É dicir se alguén que di que fala galego normativo pero
logo ten cinco vogais, podelo cambiar de etiqueta as súas gravacións.
Podería propoñerse a Mozilla.
Aí é onde está a miña dúbida, porque a etiqueta neofalante non é realmente
específica: hai galegofalantes habituais que xa non teñen vocalismo
completo e hai neofalantes que si. Só a propoño para que alguén que non se
sinta moi seguro da calidade do seu galego a poida escoller.  Ao mellor
deberíamos neutralizar esa etiqueta e que a IA só teña que diferenciar os
pares de palabras onde é distintivo para o significado.

Probablemente a solución virá de alimentar a intelixencia artificial con
corpus diferentes e complementarios, a base de adestramento masivo.











O mér., 3 de mar. de 2021 ás 07:20, Adrian Chaves (<[email protected]>)
escribiu:

> Cal sería a diferenza entre falar normativo e non falar normativo, a
> efectos prácticos? Porque imaxino que as frases para ler estarán todas
> escritas en galego normativo.
>
> O mellor que se me ocorre sería ofrecer á xente unha serie de preguntas
> para recomendarlles unha etiqueta ou outra. Preguntas como «como pronuncias
> a palabra X». Imaxino que haberá moita xente que non sexa consciente de que
> en galego temos máis vogais fonéticas que en castelán, quizais algunhas
> persoas que queiran participar primeiro deban ver
> https://www.youtube.com/watch?v=hErJRG-u0jY e intentar determinar se usan
> ou non as vogais ao falar.
>
> Mellor aínda sería que o sistema identificase automaticamente o tipo de
> falante mediante unha frase que soe distinto segundo cada un dos tipos,
> pero iso xa non creo que estea ao noso alcance.
>
> On 2021-03-03 00:28, Antón Méixome wrote:
>
>
> A túa dúbida é perfectamente lexítima. Ningunha etiqueta por si soa define
> un falante. Serían necesarias moitas.
>
> Ata certo punto temos que decidir con intuición aquí. A lingüística
> traballa xusto ao revés do que aquí se presenta: o normal é recoller "o que
> se fala" e despois tentar atopar a estrutura, os trazos que subxacen.
>
> Non podemos propoñer ao lector en galego que escolla bloque+área
> lingüística porque non abundan falantes puros, porque non teñen por que
> saber a que área lingüística pertence a súa fala. Nin aínda que lles
> poñamos por concellos sería correcto (o de nacencia, o de formación, o de
> onde fan a vida?).
>
> De feito, o corpus de frases e de gravacións resultante vai ser moi
> singular, pretende ser un mix de todo, con variantes de todo tipo. Xusto ao
> revés do que fan os corpus científicos.
>
> O relevante para o noso caso é que etiquetemos aquelas variantes que
> supoñan un impacto no recoñecemento de voz (a fonoloxía), porque o require
> o procesamento computacional dos rexistros:
>
> - falantes con seseos/ceceo: casa/caza, luz, cen/sen
> - falantes con gheada/gueada: aghachar/agachar, domingo/domingho
> - falantes con vocalismo completo sen outros trazos
> - falantes con vocalismo castelanizado ou estraño ao galego (e sen outros
> trazos)
>
> Salvo a última, que teño dúbidas, creo que son etiquetas que calquera
> galego sabe identificar na súa fala (non se presentaría o que vai entre
> paréntese).
>
> Acento de costa atlántica (teño seseo + gheada+ vocalismo completo)
> Acento de galego central (teño gheada+ vocalismo completo)
> Acento de galego oriental (non gheada, non seseo, pero non falo normativo)
> Acento normativo (galego, sete vogais,  pero falo como aprendín na escola
> - xa pode ser en todos os menores de 55 anos, ollo)
> Acento neofalante (vocalismo castelán, cinco vogais, sen outros trazos
> dialectais - aínda que poida ser un latinoamericano con seseo, do castelán)
>
> Quizais se poidan propoñer etiquetas máis directas:
>
> - Falo con seseo e gheada
> - Falo con gheada
> - Falo galego común da Galicia oriental
> - Falo galego normativo
> - Falo como neofalante
>
>
> Moitas variantes do galego como as morfolóxicas, que son moi importantes
> para a gramática e a ortografía (dos verbos en cantín en vez de cantei, dos
> pronomes te/che, dos plurais en camiós ou irmás en vez de camións ou
> irmáns) non son importantes salvo para o proceso contrario, para producir
> voz sintetizada. Que galego vai empregar un asistente de voz?
>
> E aínda máis importante: como se van procesar os castelanismos constantes
> que unha intelixencia artificial vai atopar na interacción cos falantes?
> Suponse que a comprensión mellorará, irá aprendendo...
>
> Por idade, e demografía eu espero unhas porcentaxes de participación deste
> estilo:
>
> seseo+gheada = 20%
> gheada= 30 %
> oriental = 5%
> normativo = 40%
> neofalante= 5%
>
> por idades participantes:
> < 19 = 5 %
> 19-39 = 30 %
> 40-50 = 30%
> 50-60 = 10%
> 60-70 = 10%
> +70 = 15 %
>
> En fin, xa é moito conxeturar.
>
> Ah, e queda definir o xénero: que etiquetas? Porque hai xente que non
> quererá indicalo, ou non se atopa definido
>
> home/muller/outro?
>
> Opinade máis, por favor. Isto hai que poñelo antes de que nos abran as
> gravacións ao público
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> O mar., 2 de mar. de 2021 ás 21:31, Adrian Chaves (<[email protected]>)
> escribiu:
>
> Eu non tería claro se identificarme como oriental (por non usar seseo nin
> gheada a pesar de ser de Vigo), normativo (porque o galego aprendino
> principalmente na escola) ou neofalante (por vivir anos fóra de Galicia, a
> nivel fonético igual teño máis parecido con ese perfil).
>
> Cales serían as diferencias entre esas 3 variantes, en que se
> diferenciarían os falantes dunha delas das outras dúas, en termos que poida
> entender unha persoa sen coñecementos significativos de lingüística?
>
> On 2021-03-01 13:40, Antón Méixome wrote:
>
> Hai que decidir que acentos se recoñecen nas gravacións. Quen o
> determina a etiqueta é o propio falante e a súa autoidentificación é
> estable porque vai asociada á conta de colaborador. As frases que vai
> ler tampouco poden ser escollidas por zonas nin sequera por tipos de
> rexistro lingüístico.
>
> Proposta: 5 etiquetas que o doador de voz pode escoller para as súas
> gravacións
>
> seseo+gheada >>                          Costa atlántica
> gheada >>                                      Central
> non seseo + non gheada >>           Oriental
> sen fonoloxía dialectal, estándar >>Normativo
> ...                                                 >>Neofalante
>
> Se queredes explícoa lingüisticamente pero trátase dun compromiso
> entre variación lingüística clásica do galego, necesidades de
> desambiguación para o modelo de lingua e que sexan comprensibles para
> a xente. Para nós a clave é o seseo, a gueada e o vocalismo.
>
> Nota: nos idiomas como o español, só distinguen por falas de cada país
> + Andalucía; en catalán, por Cataluña, Valencia e Baleares e logo polo
> catalán especial noroccidental e setentrional (en territorio de
> Francia, entendo)
>
> Antón
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Administrador - [email protected] - de - Proxecto Trasno
> - Cancelar a subscrición no URL :
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7435&h=357107e9d802c565e8e97060839b6481b6c26d48&sa=141262012
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7444&h=fd6b22472bb80d04d7f5cbab14f3fcc9f59282f5&sa=570794983
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7445&h=b1df74cc0dbce2dae27bbe4c9732afe513031b97&sa=360772072
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7459&h=0f314331c0ffea4355b3504192c5e57f24a5e7e5&sa=1972497790
>

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7460&h=309913ced4a61bbca9804d94be544e7d596986ac&sa=1632946510

Responderlle a