A ver se me explico ben Non hai nada que traducir. Cada idioma propón as frases que máis lle conveñan (sons, entoación de pregunta, nomes propios, etc.)... Sanxenxo xa está metido :-D Hai que recoller un gran feixe de frases escritas. » Subilas ao repertorio » Validar que valen » Ao chegar a 5000 válidas abren o sistema de gravalas a viva voz » pedir á xente que as lea e grave no sistema de Mozilla » Validar as gravacións
Hai que conseguir unhas 2000 horas de gravacións orais por requisitos técnicos. Cada frase debe ser lida por varias persoas e así se suman horas e se adestra o sistema con tipos de voces. E logo hai traballos secundarios como gravar determinadas palabras especialmente útiles para interactuar co motor de recoñecemento da fala: Ei, Mozilla! Busca tal cousa...! En todos estes pasos hai criterios e teñen que participar moitas persoas pero hai que comezar polo principio. Se che interesa recoller e subir frases, aquí: https://commonvoice.mozilla.org/sentence-collector/#/ Ese web non se traduce, sería absurdo porque é interno do proxecto. Xa está traducido e en produción o sistema para a xente: https://commonvoice.mozilla.org/gl Aí tamén hai que darse de alta para ler as frases (que aínda non temos e, por tanto, non vale para nada aínda) Só estamos ao principio do asunto (en español e catalán xa levan máis de 1 ano) Horas gravadas ● 131h Horas validadas ● 90h Éuscaro Horas gravadas ● 808h Horas validadas ● 674h Catalán Horas gravadas ● 596h Horas validadas ● 332h Castelán O mér., 3 de feb. de 2021 ás 19:26, Serxio Cachaldora (< [email protected]>) escribiu: > Pero como se accede ás frases pra poder traducilas? > > O 16:54, Mér., 3 de feb. de 2021, Antón Méixome <[email protected]> > escribiu: > >> Volvemos á carga, logo! >> >> Lembrades que vos falei do proxecto Common Voice? Pois xa está en marcha! >> https://commonvoice.mozilla.org/gl >> >> Se recordades faleivos de que nesta fase cumpría recoller 5000 frases, de >> todo tipo e rexistro, en galego: >> >> 1. A frase debe estar escrita correctamente >> 2. A frase debe ser gramaticalmente correcta >> 3. A frase debe ser pronunciable e tan natural como sexa posible >> 4. Cada frase non debe superar as 14 palabras >> >> - todas as frases incorporaranse con licenza de dominio público (por >> tanto, teñen que ser ou espontáneas ou compatibles) >> - non deben conter números (en guarismos), nin abreviacións, nin acrónimos >> - puntuación só a imprescindible (nada de @, #...) >> - que non conteñan letras de alfabeto que non sexa o galego (“ж” do ruso >> por exemplo) >> >> Ollo! non se poden coller frases da Wikipedia (só 3 por artigo) >> >> Agradecería que me mandásedes as que poidades, se son 1000 mellor que 50, >> que tamén serán moi benvidas :-D >> >> O segundo paso será validalas, unha a unha por xente competente >> (profesores, lingüistas, mesmo estudantes...). Cada frase candidata deberá >> ser validada polo menos por 3 persoas diferentes. Cando academos as 5000, >> abrirán o sistema para gravar as voces (tan variadas en acentos e falas >> como sexa posible) e por tanto será unha fase xa moi pública e que >> necesitará toda unha campaña de difusión. Non podo dicir agora cantas >> gravacións de cada frase serán necesarias para acadar a calidade necesaria >> do sistema pero serán necesarias moitas persoas a doar a voz. >> Lembrades que vos falei do proxecto Common Voice? Pois xa está en marcha! >> https://commonvoice.mozilla.org/gl >> >> Se recordades faleivos de que nesta fase cumpría recoller 5000 frases, de >> todo tipo e rexistro, en galego: >> >> 1. A frase debe estar escrita correctamente >> 2. A frase debe ser gramaticalmente correcta >> 3. A frase debe ser pronunciable e tan natural como sexa posible >> 4. Cada frase non debe superar as 14 palabras >> >> - todas as frases incorporaranse con licenza de dominio público (por >> tanto, teñen que ser ou espontáneas ou compatibles) >> - non deben conter números (en guarismos), nin abreviacións, nin acrónimos >> - puntuación só a imprescindible (nada de @, #...) >> - que non conteñan letras de alfabeto que non sexa o galego (“ж” do ruso >> por exemplo) >> >> Ollo! non se poden coller frases da Wikipedia (só 3 por artigo) >> >> Agradecería que me mandásedes as que poidades, se son 1000 mellor que 50, >> que tamén serán moi benvidas :-D >> >> O segundo paso será validalas, unha a unha por xente competente >> (profesores, lingüistas, mesmo estudantes...). Cada frase candidata deberá >> ser validada polo menos por 3 persoas diferentes. Cando academos as 5000, >> abrirán o sistema para gravar as voces (tan variadas en acentos e falas >> como sexa posible) e por tanto será unha fase xa moi pública e que >> necesitará toda unha campaña de difusión. Non podo dicir agora cantas >> gravacións de cada frase serán necesarias para acadar a calidade necesaria >> do sistema pero serán necesarias moitas persoas a doar a voz. >> >> [image: image.png] >> >> >> ---------- Forwarded message --------- >> De: Antón Méixome <[email protected]> >> Date: xov., 21 de mar. de 2019 ás 11:06 >> Subject: Common Voice >> To: Lista de correo de Proxecto Trasno <[email protected]> >> >> >> Como algún sabedes, estamos a promover un proxecto de colaboración con >> Mozilla a medio prazo que deberá implicar a moita xente para crear a >> primeira base de datos libre de rexistro de voces en lingua galega, >> fundamental para o desenvolvemento e aplicación en galego das tecnoloxías >> que permiten a existencia dos conversores de texto a voz, os asistentes >> dixitais, a voz sintética, a interacción e conversa mediante a voz con >> dispositivos, IoT e demais. >> >> Para Trasno trátase dun proxecto novidoso e creo que somos a mellor >> opción dentro do mundo dos Guls para sacalo adiante porque somos os que >> tratamos coa lingua máis a fondo. >> >> Para poder lanzar o proxecto Common Voice de Mozilla, necesítase recoller >> como mínimo unhas 5000 frases en texto. A interface web do sistema xa está >> traducida pero necesítase andar varias fases máis antes de sacalo ao >> público. >> >> Ese repertorio de frases escritas é o que deben ler en voz alta os >> participantes para rexistrar a súa voz. >> >> Con esas voces adéstrase o sistema de intelixencia artificial que debe >> interpretar a fala da persoa. >> >> Son moitas >> Creo que será conveniente recollelas nunha folla de cálculo, antes de >> entregalas ao proxecto porque aínda non teño claro o procedemento nin a >> interface que utilizar e sempre será conveniente que fagamos unha >> autorevisión para que cumpran as normas, sobre todo ortográficas e de >> puntuación. >> >> Pídovos que vaiades facendo a vosa lista; de cada un trasnego unhas 100, >> polo menos. >> >> É moi importante que a fonte da frase sexa absolutamente libre (non valen >> da Wikipedia) e que se cedan ao dominio público. >> É importante que sexan en estilo coloquial ou neutral (non académico, nin >> artístico) >> É recomendable que teñan sentido para que ao lelas en voz alta, os >> voluntarios poidan darlle a entoación adecuada. >> >> Como se busca a variedade de acentos é conveniente que traten sobre temas >> da vida corrente, onde resulta máis doado ser natural. >> >> De aquí a uns días, podo concretar máis. Mentres tanto, se tedes algo que >> achegar ou ideas ou ofertas concretas de colaboración, etc. pois este é o >> mellor momento. >> >> Antón Méixome >> >> >> >> >> >> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> [email protected] >> - Correo do administrador - [email protected] - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7168&h=837a6f4e541a16238f29ea3f604347e641deb887&sa=10657340 >> > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7171&h=1d3cb6de830033ce4d208023a3fab37b75089090&sa=2029273724 > - Lista de correo de Proxecto Trasno - Enviar correo a - [email protected] - Administrador - [email protected] - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7172&h=c3413b30835049017d19909e6653182f5c3f427c&sa=714767839
