A diferenza é relevante por exactamente o que di o vídeo de Esther. Temos pares de palabras que se distinguen precisamente polas vogais; que se transcriben diferente e que son moi frecuentes: Ves? Vés?, Este e aquel/Este é aquel
As frases non están todas en galego normativo. Estano ortograficamente e en vocabulario pero temos variacións morfolóxicas e gramaticais. Por exemplo con cheismo, aínda que sexan minoritarias. Salvo as gheadas (que hai varias), o seseo (que hai varios) e os pares de palabras con vocalismo distintivo, o resto das variacións de pronuncia non teñen transcendencia na interpretación escrita. Por exemplo, parte de Galicia pronuncia: A nova bola (pechado) e outra parte "A n0va b0la" (abertas) ; outros pronuncian con «rotacismo»: Caíu varia-r veces; pero outros utilizan demostrativos e pronomes non normativos: Fálalle tu, Iste gústame máis. Outros utilizan cuatro e non catro... son distintos casos, e se nunha primeira fase non é capaz de casar ti/tu ou catro/cuatro non é realmente ningún problema. Este tipo de variacións ímolas atopar en todos os idiomas e non se recollen neste momento para o modelo de lingua, que aínda así sería fiable nun 90%. Quero imaxinar que en canto se poña a funcionar a intelixencia artificial sobre un idioma específico, se lle poderá seguir proporcionando materia prima, como enchufalo a un programa de televisión, a unha gravación de falantes, e que vaia aprendendo a interpretar falas diversas contando con corrección por parte humana. Imaxínate as variacións fonéticas que pode ter o francés, o inglés,... aínda que lle recollas gravacións con etiquetas, ao final vai todo para o mesmo dataset. Naturalmente isto leva á primacía do modelo estándar de lingua tanto para interactuar co robot como para producir galego sintético. Non hai outra. O máximo que podemos facer é deseñar unha folla de instrucións para doadores de voz e difundila: dicirlles que lean exactamente o que pon a pantalla e que utilicen a súa maneira de pronunciar. Unha solución parcial sería organizar maratóns de doazóns en zonas/grupos concretos e homoxéneos, monitorizados por alguén que mobilice falantes e os instrúa sobre estes detalles. Polo menos será divertido e interesante para os participantes. Tamén o perfeccionamento da etiquetaxe podería facerse no proceso de validación de fragmentos de son pero non podemos controlar/adestrar a todos os que validen. É dicir se alguén que di que fala galego normativo pero logo ten cinco vogais, podelo cambiar de etiqueta as súas gravacións. Podería propoñerse a Mozilla. Aí é onde está a miña dúbida, porque a etiqueta neofalante non é realmente específica: hai galegofalantes habituais que xa non teñen vocalismo completo e hai neofalantes que si. Só a propoño para que alguén que non se sinta moi seguro da calidade do seu galego a poida escoller. Ao mellor deberíamos neutralizar esa etiqueta e que a IA só teña que diferenciar os pares de palabras onde é distintivo para o significado. Probablemente a solución virá de alimentar a intelixencia artificial con corpus diferentes e complementarios, a base de adestramento masivo. O mér., 3 de mar. de 2021 ás 07:20, Adrian Chaves (<[email protected]>) escribiu: > Cal sería a diferenza entre falar normativo e non falar normativo, a > efectos prácticos? Porque imaxino que as frases para ler estarán todas > escritas en galego normativo. > > O mellor que se me ocorre sería ofrecer á xente unha serie de preguntas > para recomendarlles unha etiqueta ou outra. Preguntas como «como pronuncias > a palabra X». Imaxino que haberá moita xente que non sexa consciente de que > en galego temos máis vogais fonéticas que en castelán, quizais algunhas > persoas que queiran participar primeiro deban ver > https://www.youtube.com/watch?v=hErJRG-u0jY e intentar determinar se usan > ou non as vogais ao falar. > > Mellor aínda sería que o sistema identificase automaticamente o tipo de > falante mediante unha frase que soe distinto segundo cada un dos tipos, > pero iso xa non creo que estea ao noso alcance. > > On 2021-03-03 00:28, Antón Méixome wrote: > > > A túa dúbida é perfectamente lexítima. Ningunha etiqueta por si soa define > un falante. Serían necesarias moitas. > > Ata certo punto temos que decidir con intuición aquí. A lingüística > traballa xusto ao revés do que aquí se presenta: o normal é recoller "o que > se fala" e despois tentar atopar a estrutura, os trazos que subxacen. > > Non podemos propoñer ao lector en galego que escolla bloque+área > lingüística porque non abundan falantes puros, porque non teñen por que > saber a que área lingüística pertence a súa fala. Nin aínda que lles > poñamos por concellos sería correcto (o de nacencia, o de formación, o de > onde fan a vida?). > > De feito, o corpus de frases e de gravacións resultante vai ser moi > singular, pretende ser un mix de todo, con variantes de todo tipo. Xusto ao > revés do que fan os corpus científicos. > > O relevante para o noso caso é que etiquetemos aquelas variantes que > supoñan un impacto no recoñecemento de voz (a fonoloxía), porque o require > o procesamento computacional dos rexistros: > > - falantes con seseos/ceceo: casa/caza, luz, cen/sen > - falantes con gheada/gueada: aghachar/agachar, domingo/domingho > - falantes con vocalismo completo sen outros trazos > - falantes con vocalismo castelanizado ou estraño ao galego (e sen outros > trazos) > > Salvo a última, que teño dúbidas, creo que son etiquetas que calquera > galego sabe identificar na súa fala (non se presentaría o que vai entre > paréntese). > > Acento de costa atlántica (teño seseo + gheada+ vocalismo completo) > Acento de galego central (teño gheada+ vocalismo completo) > Acento de galego oriental (non gheada, non seseo, pero non falo normativo) > Acento normativo (galego, sete vogais, pero falo como aprendín na escola > - xa pode ser en todos os menores de 55 anos, ollo) > Acento neofalante (vocalismo castelán, cinco vogais, sen outros trazos > dialectais - aínda que poida ser un latinoamericano con seseo, do castelán) > > Quizais se poidan propoñer etiquetas máis directas: > > - Falo con seseo e gheada > - Falo con gheada > - Falo galego común da Galicia oriental > - Falo galego normativo > - Falo como neofalante > > > Moitas variantes do galego como as morfolóxicas, que son moi importantes > para a gramática e a ortografía (dos verbos en cantín en vez de cantei, dos > pronomes te/che, dos plurais en camiós ou irmás en vez de camións ou > irmáns) non son importantes salvo para o proceso contrario, para producir > voz sintetizada. Que galego vai empregar un asistente de voz? > > E aínda máis importante: como se van procesar os castelanismos constantes > que unha intelixencia artificial vai atopar na interacción cos falantes? > Suponse que a comprensión mellorará, irá aprendendo... > > Por idade, e demografía eu espero unhas porcentaxes de participación deste > estilo: > > seseo+gheada = 20% > gheada= 30 % > oriental = 5% > normativo = 40% > neofalante= 5% > > por idades participantes: > < 19 = 5 % > 19-39 = 30 % > 40-50 = 30% > 50-60 = 10% > 60-70 = 10% > +70 = 15 % > > En fin, xa é moito conxeturar. > > Ah, e queda definir o xénero: que etiquetas? Porque hai xente que non > quererá indicalo, ou non se atopa definido > > home/muller/outro? > > Opinade máis, por favor. Isto hai que poñelo antes de que nos abran as > gravacións ao público > > > > > > > > > > > > > > > > > > > O mar., 2 de mar. de 2021 ás 21:31, Adrian Chaves (<[email protected]>) > escribiu: > > Eu non tería claro se identificarme como oriental (por non usar seseo nin > gheada a pesar de ser de Vigo), normativo (porque o galego aprendino > principalmente na escola) ou neofalante (por vivir anos fóra de Galicia, a > nivel fonético igual teño máis parecido con ese perfil). > > Cales serían as diferencias entre esas 3 variantes, en que se > diferenciarían os falantes dunha delas das outras dúas, en termos que poida > entender unha persoa sen coñecementos significativos de lingüística? > > On 2021-03-01 13:40, Antón Méixome wrote: > > Hai que decidir que acentos se recoñecen nas gravacións. Quen o > determina a etiqueta é o propio falante e a súa autoidentificación é > estable porque vai asociada á conta de colaborador. As frases que vai > ler tampouco poden ser escollidas por zonas nin sequera por tipos de > rexistro lingüístico. > > Proposta: 5 etiquetas que o doador de voz pode escoller para as súas > gravacións > > seseo+gheada >> Costa atlántica > gheada >> Central > non seseo + non gheada >> Oriental > sen fonoloxía dialectal, estándar >>Normativo > ... >>Neofalante > > Se queredes explícoa lingüisticamente pero trátase dun compromiso > entre variación lingüística clásica do galego, necesidades de > desambiguación para o modelo de lingua e que sexan comprensibles para > a xente. Para nós a clave é o seseo, a gueada e o vocalismo. > > Nota: nos idiomas como o español, só distinguen por falas de cada país > + Andalucía; en catalán, por Cataluña, Valencia e Baleares e logo polo > catalán especial noroccidental e setentrional (en territorio de > Francia, entendo) > > Antón > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Administrador - [email protected] - de - Proxecto Trasno > - Cancelar a subscrición no URL : > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7435&h=357107e9d802c565e8e97060839b6481b6c26d48&sa=141262012 > > > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7444&h=fd6b22472bb80d04d7f5cbab14f3fcc9f59282f5&sa=570794983 > > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7445&h=b1df74cc0dbce2dae27bbe4c9732afe513031b97&sa=360772072 > > > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7459&h=0f314331c0ffea4355b3504192c5e57f24a5e7e5&sa=1972497790 > - Lista de correo de Proxecto Trasno - Enviar correo a - [email protected] - Administrador - [email protected] - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7460&h=309913ced4a61bbca9804d94be544e7d596986ac&sa=1632946510
