El Martes, 20 de Junio de 2006 2:17 AM, Aritz Beraza Garayalde [Rei] escribió: > El Martes, 20 de Junio de 2006 10:45, [EMAIL PROTECTED] escribió: > > ----Mensaje original---- > > De: [EMAIL PROTECTED] > > Recibido: 20/06/2006 10:25 > > Para: <[email protected]> > > Asunto: Re: traductor de voz a escritura! > > > > >El resto es por ejemplo una base de datos con archivos de audio con > > > > cientos > > > > >o miles de palabras pronunciadas por un centenar de personas > > > > diferentes. > > > > >El problema es que esto es muy caro, y es un proceso bastante manual > > >(normalmente, se hace leer una frase o un numero de palabras > > > > sueltas, > > > > >luego alguien separa la frase en archivos de audio con sus palabras, > > > > y > > > > >luego por cada archivo de audio hay que especificar en que instantes > > >empieza y termina la palabra y otra informacion que facilite las > > > > cosas al > > > > >programa de entrenamiento. Lo normal es que tras esto, se genere un > > >diccionario que es lo que usa el sistema para reconocer palabras. > > > > Perdón por como salga este mensaje, este webmail es una ... > > > > Se me ocurre: En vez de palabras ¿no es más fácil reunir letras > > sueltas, > > Para entrenar se suelen usar frases, lecturas de textos y cosas similares, > como se dividan luego es otra cosa. Como he dicho en otro mail, si el > vocabulario a reconocer es pequenyo, lo mas rapido y sencillo es reconocer > palabras entreas (es decir, generar un modelo para cada palabra y luego el > programa compara lo que recibe con los modelso de la palabras). Para > vocabularios largos se usan alofonos (algo asi como fonemas). Esto > requiere mas trabajo. > > > fonemas y sílabas? > > Luego es cuestión de ajustar los "tiempos" entre sonido y sonido, para > > separar las palabras. > > Separar en fonemas/alofonos no es trivial, no puedes cortar un fragmento de > audio de una palabra y decir "entre aqui y aqui esta diciendo la > letra 'b'" por que lo que esta diciendo realmente es la letra b > condicionada por su entorno, y el hablante y sus condiciones, sin tener > encuenta que hay periodos de transicion al pasar de pronunciar un sonido > al siguiente. > > Es bastante complejo el tema del reconocimiento del habla. Desde el que > tomar como informacion de entrada (contra lo que pueda pensar la gente, no > se usa el sonido sino la informacion frecuencial), Hasta el como se modela > luego la informacion, los mecanismos de decision, son muy complejos. Una > idea de la complejidad la da que incluso en los potentes ordenadores de > hoy en dia, los motores de reconocmiento avanzados no funcionan en tiempo > real. > > Hay un paper, de Rabiner et Al muy bueno, que es una introduccion a la > speech recognition (creo que el titulo es introduction to speech > recognition, si alguien le interesalo mirare). Se hace una introduccion > delos modelos matematicos usados (cadenas de markov ocultas) y luego se > explica todo lo que tiene y hace un sistema de reconocimiento del habla. > Muy interesante (mas que nada por que este cuatrimestre lo tuve que leer > para crear mi proyecto, un sistema que reconocia los numeros del 0 al 9, > ya os adelanto que el porcentaje de acierto rondaba el 70% :( ). > > En fin, todo un mundo. > Saludos > Aritz Beraza [Rei]
Muchas gracias por responder, y reitero mi interes en esta materia. Haber si he entendido, grabar la voz, es el inicio, Esto se podria grabar como, me refiero al formato?. Luego tendriamos, fonemas, sonidos graves o agudos, otros sonidos. Ahora bien, aqui podria usarse algun alfabeto fonetico, algo que escriba como se escucha y que no compare con nada? Seria esto posible?

